[picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/5357a124a5134af89ad57441c53d42a2~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714666853&x-signature=JvghXqCs9drkusoNAliDaPumYOA%3D) 本文将对字节跳动自研的分布式图数据库和图计算专用引擎做深度解析和分享,展示新技术是如何解决业务问题,影响几亿互联网用户的产品体验。来源:字节跳动技术团队...
被广泛用于各个数据库产品中。与精确的基数统计算法相比,HLL 具备**可合并性 (mergeability)** ,因而可以方便地对海量数据进行并行计算,被广泛地用于大数据多维分析场景中。例如分别统计一款 APP 每个小时的 UV 以及全天的 UV,这类问题就非常适合使用 HLL 算法。本文将会由浅入深,从基本概念讲起,引导读者从直观上理解 HLL 算法背后蕴含的基本思想。# 基数统计基数 (Cardinality) 是指一个字段所包含的不同取值的个数,有...
一致性哈希算法能尽可能减少了服务器数量变化所导致的缓存迁移。### 哈希算法首先,一致性哈希算法依赖于普通的哈希算法。大多数同学对哈希算法的理解可能都停留在 JDK 的 `hashCode` 函数上。其实哈希算法有很... 它们及其 key 值为 1 的缓存数据在一致性哈希环上的位置如下图所示,根据顺时针取最近一个服务器节点的规则,该缓存数据应该存储在服务器 B 上。![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp...
目前字节跳动在图数据库方面的多篇论文已被 VLDB 等数据库顶会收录,ByteGraph 预计在今年年底也将通过火山引擎提供给更多用户。**图计算系统**从图数据库又引申出来一个非常大的概念——图计算。举个例子,在 Google 上搜索时,需要基于网页的链接关系计算每个页面的 page rank,从而对页面进行排序。页面的链接关系其实就是一张图,基于网页链接关系的 page rank 计算,就是在这张图上运行一个图算法,即图计算。小规模的图...
基于向量相似度的 KNN 计算广泛使用于图像搜索、多模态搜索、推荐、大模型推理等场景。ByteHouse 企业版已提供向量数据的管理与近似度查询功能,同时通过支持多种常见近近似最近邻搜索算法(Approximate Nearest Nei... 【什么权限,可以查询吗】包含字段如下: 列名 描述 database 数据库名称 table 表名称 name 索引名称 type 索引类型(HNSW、Faiss、DiskANN) vector_column 构建索引的列名 params 索引构建参数 total...
一致性哈希算法能尽可能减少了服务器数量变化所导致的缓存迁移。### 哈希算法首先,一致性哈希算法依赖于普通的哈希算法。大多数同学对哈希算法的理解可能都停留在 JDK 的 `hashCode` 函数上。其实哈希算法有很... 它们及其 key 值为 1 的缓存数据在一致性哈希环上的位置如下图所示,根据顺时针取最近一个服务器节点的规则,该缓存数据应该存储在服务器 B 上。![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp...
目前字节跳动在图数据库方面的多篇论文已被 VLDB 等数据库顶会收录,ByteGraph 预计在今年年底也将通过火山引擎提供给更多用户。**图计算系统**从图数据库又引申出来一个非常大的概念——图计算。举个例子,在 Google 上搜索时,需要基于网页的链接关系计算每个页面的 page rank,从而对页面进行排序。页面的链接关系其实就是一张图,基于网页链接关系的 page rank 计算,就是在这张图上运行一个图算法,即图计算。小规模的图...
目前字节跳动在图数据库方面的多篇论文已被 VLDB 等数据库顶会收录,ByteGraph 预计在今年年底也将通过火山引擎提供给更多用户。### 图计算系统从图数据库又引申出来一个非常大的概念——图计算。举个例子,在 Google 上搜索时,需要基于网页的链接关系计算每个页面的 page rank,从而对页面进行排序。页面的链接关系其实就是一张图,基于网页链接关系的 page rank 计算,就是在这张图上运行一个图算法,即图计算。小规模的图可以通...
本文介绍在大模型时代下的原生向量搜索和数据库的背景和应用场景。 背景信息随着音视频、推荐等新兴领域应用的发展和对大模型场景的需求,引入多模态搜索来满足更加复杂的搜索势在必行。ES 在全文检索的基础上增加向量搜索能力来实现对非结构化数据的分析和检索。在向量搜索的场景下,使用机器学习模型生成向量来表示数据对象(文本、图像、音视频等),向量距离代表对象间的相似性。常用的向量库使用 ANN 算法,在极短时间内完成海量向...
提供强有力的样本及特征数据支撑。平台从 Hive 、Hbase 、关系型数据库等大数据 ODS ( Operational Data store ) 层进行快速的数据 ETL ,将数据抽取到特征平台进行管理,并统一了数据出口,供数据科学家、数据工程师、机器学习工程师做算法模型的数据测试、训练、推理及其他数据应用。本篇文章主要分享特征平台 flink on K8s 的部署实践,文章主要分以下几个方面进行介绍。首先本文对 K8s 基本概念及 Flink 任务执行图进行简要介绍...
AI时代,如何用好大模型是当前各行各业瞩目的焦点。向量数据库作为大模型“记忆体”,不仅能够为其提供数据存储,而且能通过数据检索、分析让大模型进行知识增强,成为生成式AI应用开发新范式的重要组成部分。用图片搜索图片或者文本搜索文本时,在数据库中存储和对比的并不是图片和视频片段,而是通过深度学习等算法将其提取出来的“特征”,“特征”提取的过程称为 Embedding,提取出的“特征”用数学中的向量来表示。向量化的目的是...
向量数据库作为大模型“记忆体”,不仅能够为其提供数据存储,而且能通过数据检索、分析让大模型进行知识增强,成为生成式 AI 应用开发新范式的重要组成部分。用图片搜索图片或者文本搜索文本时,在数据库中存储和对比的并不是图片和视频片段,而是通过深度学习等算法将其提取出来的“特征”,“特征”提取的过程称为 Embedding,提取出的“特征”用数学中的向量来表示。向量化的目的是为了通过向量相似来进行非结构化数据的检索,向量...
目前字节跳动在图数据库方面的多篇论文已被 VLDB 等数据库顶会收录,ByteGraph 预计在今年年底也将通过火山引擎提供给更多用户。### 图计算系统从图数据库又引申出来一个非常大的概念——图计算。举个例子,在 Google 上搜索时,需要基于网页的链接关系计算每个页面的 page rank,从而对页面进行排序。页面的链接关系其实就是一张图,基于网页链接关系的 page rank 计算,就是在这张图上运行一个图算法,即图计算。小规模的图可以...