本文将对字节跳动自研的分布式图数据库和图计算专用引擎做深度解析和分享,展示新技术是如何解决业务问题,影响几亿互联网用户的产品体验。来源:字节跳动技术团队图状结构数据广泛存在 ... 这些数据同时也会应用到推荐、风控等复杂分析和图计算场景,如何把 TP 和轻量 AP 查询融合在一起,具备部分 **HTAP** 能力,也是一个空间广阔的蓝海领域。 图计算系统介绍与实践 ...
时序等新兴的数据库也都属于 NoSQL 范畴。如今 NoSQL 在字节跳动有非常广泛的应用:数万 NoSQL 应用实例,10W+ 台物理服务器资源,字节跳动超过 90% 的在线服务都是 NoSQL 系统提供的。### NoSQL 产品矩阵![image.png](https://p1-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/18579de54d0e4a829c2451f2c9990550~tplv-k3u1fbpfcp-5.jpeg?)上图是字节跳动 NoSQL 的产品矩阵。我们对内对外提供了生态类产品,包括 Redis、HBase、...
主要介绍了 NoSQL 的前世今生和发展脉搏,以及字节跳动 NoSQL 的实践。 作者:王佳毅|火山引擎存储&数据库解决方案负责人 NoSQL 应用的现状 什么是 NoSQL?我们知... 这三种数据关联到一起就会形成 **图状结构** 。**自研分布式图数据库**为了满足内部 social graph 在线增删改查的场景,字节跳动自研了 **分布式图存储数据库 ByteGraph** 。针对刚才提到的图状数据结构,...
VikingDB 在字节内部的应用向量数据库近来的火热来源于大语言模型的兴起,但在大模型兴起之前,VikingDB 已经在字节内部广泛应用,最初应用在推荐、广告、搜索的召回环节,后来逐步扩展到了消重、风控、对话、文档搜索等需要向量检索的其他场景。在内部推广应用的过程中,VikingDB 经历了非常多样的挑战:超大规模的数据、极致的延迟/性能要求、海量业务场景的接入支持等。为了克服这些困难,我们做了很多架构和性能的优化,以及产...
近两年随着大模型技术的快速发展,图片、视频、自然语言等多模态、非结构化数据的查找需求变大,非结构化数据的量级也远大于结构化数据,传统数据库已经无法满足如此多样化数据的处理需求。向量数据库以其海量的数据存储规模、高效的计算查询能力,正在成为大模型时代重要的基础设施。**3 月23 日**,火山引擎开发者社区 Meetup 第十三期邀请到了火山引擎的三位技术专家,将从火山引擎的实践应用出发, **为大家详解向量检索功能...
近两年随着大模型技术的快速发展,图片、视频、自然语言等多模态、非结构化数据的查找需求变大,非结构化数据的量级也远大于结构化数据,传统数据库已经无法满足如此多样化数据的处理需求。向量数据库以其海量的数据存储规模、高效的计算查询能力,正在成为大模型时代重要的基础设施。**3 月23 日**,火山引擎开发者社区 Meetup 第十三期邀请到了火山引擎云搜索服务的技术专家,将从火山引擎的实践应用出发,**为大家详解「在火山引...
这种搜索方式被广泛应用于电商、广告、设计以及搜索引擎等热门领域。本文**基于** **火山引擎** **云搜索** **服务** **ESCloud** 和图文特征提取模型 CLIP,快速搭建一套以图搜图,以文搜图的端到端解决方案。# 原理介绍图片搜索技术,以文本描述和图片作为检索对象,分别对 image 和 text 进行特征提取,并在模型中对文本和图片建立相关联系,然后在海量图片数据库进行特征向量检索,返回与检索对象最相关的记录集合。其中特征提...
近两年随着大模型技术的快速发展,图片、视频、自然语言等多模态、非结构化数据的查找需求变大,非结构化数据的量级也远大于结构化数据,传统数据库已经无法满足如此多样化数据的处理需求。向量数据库以其海量的数据存储规模、高效的计算查询能力,正在成为大模型时代重要的基础设施。 3 月23 日,火山引擎开发者社区 Meetup 第十三期邀请到了火山引擎的三位技术专家,将从火山引擎的实践应用出发,为大家详解向量检索功能的设计...
快速搭建一套以图搜图和以文搜图的图文检索应用。 背景信息图文检索在电商、广告、设计、搜索引擎等热门领域被广泛应用。常见的图文检索包括以图搜图和以文搜图,用户通过输入文字描述或上传图片就可以在海量的图片库中快速找到同款或者相似图片。输入的文本描述和图片作为检索对象,分别对 image 和 text 进行特征提取,并在模型中对文本和图片建立相关联系,然后在海量图片数据库进行特征向量检索,返回与检索对象最相关的记录集合。...
就是原有的架构不能很好地满足我们内部应用的需求,所以我们才会去寻找第二条路。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/7b544e10955345818eae934a51c23e36~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716654072&x-signature=w%2FIilFf5xOGHeDV%2FAv2UELFHw24%3D)上图是现有的或者主流的大型数据库系统的架构,它分为三层:* 最上一层是应用,今日头条,抖音,西瓜...
用户也非常多,排名也很靠前,我们为什么还需要去开发分布式数据库?这个问题的答案其实也比较显而易见,就是原有的架构不能很好地满足我们内部应用的需求,所以我们才会去寻找第二条路。![image.png](https://p1-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/ec01329caf684af9a6d5171ef65230dc~tplv-k3u1fbpfcp-5.jpeg?)上图是现有的或者主流的大型数据库系统的架构,它分为三层:- 最上一层是应用,今日头条,抖音,西瓜视频等都是应...
AI时代,如何用好大模型是当前各行各业瞩目的焦点。向量数据库作为大模型“记忆体”,不仅能够为其提供数据存储,而且能通过数据检索、分析让大模型进行知识增强,成为生成式AI应用开发新范式的重要组成部分。用图片搜索图片或者文本搜索文本时,在数据库中存储和对比的并不是图片和视频片段,而是通过深度学习等算法将其提取出来的“特征”,“特征”提取的过程称为 Embedding,提取出的“特征”用数学中的向量来表示。向量化的目的是...
如何用好大模型是当前各行各业瞩目的焦点。向量数据库作为大模型“记忆体”,不仅能够为其提供数据存储,而且能通过数据检索、分析让大模型进行知识增强,成为生成式 AI 应用开发新范式的重要组成部分。用图片搜索图片或者文本搜索文本时,在数据库中存储和对比的并不是图片和视频片段,而是通过深度学习等算法将其提取出来的“特征”,“特征”提取的过程称为 Embedding,提取出的“特征”用数学中的向量来表示。向量化的目的是为了...