You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

图数据库三角计数算法

社区干货

字节跳动自研万亿级图数据库 & 图计算实践

本文将对字节跳动自研的分布式图数据库和图计算专用引擎做深度解析和分享,展示新技术是如何解决业务问题,影响几亿互联网用户的产品体验。来源:字节跳动技术团队图状结构数据广泛存在 ... **网页链接关系其实就是一张图,而基于网页链接关系的 PageRank 计算,其实就是在这张图上运行图算法,也就是图计算** 。对于小规模的图,我们可以用单机来进行计算。但随着数据量的增大,一般需要引入 **分布式的...

一文理解 HyperLogLog(HLL) 算法 | 社区征文

HyperLogLog(HLL) 算法是一种估算海量数据基数的方法,被广泛用于各个数据库产品中。与精确的基数统计算法相比,HLL 具备**可合并性 (mergeability)** ,因而可以方便地对海量数据进行并行计算,被广泛地用于大数据多... 就是这样一种算法,可以在计算结果的精确程度和资源占用之间取得一种平衡。下面让我们从一些浅显的问题着手,逐步揭开 HLL 算法的神秘面纱。# 从概率视角看计数方法常规的计数方法会维护一个列表,每到来一条数...

2022技术盘点之平台云原生架构演进之道|社区征文

下图为SmartOps架构全景:![](https://kaliarch-bucket-1251990360.cos.ap-beijing.myqcloud.com/blog_img/20221214175252.png)- 接入层:通过WAF/SLB,配合NAT网关治理出方向流量,部署有堡垒机进行运维等其他辅助业务进行支撑;- 应用层:采用腾讯TKE进行业务容器部署,配合K8s原生服务注册发现/配置中心/分布式调度中心/日志/监控/告警/链路追踪/DevOps等构筑完整应用体系;- 数据层:存储使用有云硬盘/对象存储/CFS,数据库有Mon...

干货 | 基于ClickHouse的复杂查询实现与优化

ClickHouse已凭借其性能优势引领了业内新一轮分析型数据库的热潮。但随着企业业务数据量的不断扩大,在复杂query场景下,ClickHouse容易存在查询异常问题,影响业务正常推进。> > > > > 字节跳动作为国内最大规模... 可以通过异步化手段控制线程数目。AllAtOnce策略的缺点是容错性没有依赖调度好,每一个Stage的Worker在调度前就已经确定了,调度过程中有一个Worker出现连接异常,则整个Query都会失败。另一类情况,Stage在上游数据还...

特惠活动

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

图数据库三角计数算法-优选内容

字节跳动自研万亿级图数据库 & 图计算实践
本文将对字节跳动自研的分布式图数据库和图计算专用引擎做深度解析和分享,展示新技术是如何解决业务问题,影响几亿互联网用户的产品体验。来源:字节跳动技术团队图状结构数据广泛存在 ... **网页链接关系其实就是一张图,而基于网页链接关系的 PageRank 计算,其实就是在这张图上运行图算法,也就是图计算** 。对于小规模的图,我们可以用单机来进行计算。但随着数据量的增大,一般需要引入 **分布式的...
一文理解 HyperLogLog(HLL) 算法 | 社区征文
HyperLogLog(HLL) 算法是一种估算海量数据基数的方法,被广泛用于各个数据库产品中。与精确的基数统计算法相比,HLL 具备**可合并性 (mergeability)** ,因而可以方便地对海量数据进行并行计算,被广泛地用于大数据多... 就是这样一种算法,可以在计算结果的精确程度和资源占用之间取得一种平衡。下面让我们从一些浅显的问题着手,逐步揭开 HLL 算法的神秘面纱。# 从概率视角看计数方法常规的计数方法会维护一个列表,每到来一条数...
2022技术盘点之平台云原生架构演进之道|社区征文
下图为SmartOps架构全景:![](https://kaliarch-bucket-1251990360.cos.ap-beijing.myqcloud.com/blog_img/20221214175252.png)- 接入层:通过WAF/SLB,配合NAT网关治理出方向流量,部署有堡垒机进行运维等其他辅助业务进行支撑;- 应用层:采用腾讯TKE进行业务容器部署,配合K8s原生服务注册发现/配置中心/分布式调度中心/日志/监控/告警/链路追踪/DevOps等构筑完整应用体系;- 数据层:存储使用有云硬盘/对象存储/CFS,数据库有Mon...
干货 | 基于ClickHouse的复杂查询实现与优化
ClickHouse已凭借其性能优势引领了业内新一轮分析型数据库的热潮。但随着企业业务数据量的不断扩大,在复杂query场景下,ClickHouse容易存在查询异常问题,影响业务正常推进。> > > > > 字节跳动作为国内最大规模... 可以通过异步化手段控制线程数目。AllAtOnce策略的缺点是容错性没有依赖调度好,每一个Stage的Worker在调度前就已经确定了,调度过程中有一个Worker出现连接异常,则整个Query都会失败。另一类情况,Stage在上游数据还...

图数据库三角计数算法-相关内容

万字长文带你漫游数据结构世界|社区征文

计算的时候可以较为高效的利用适配的算法,那么程序的运行效率肯定也会有所提高。常用的4种数据结构有:- 集合:只有同属于一个集合的关系,没有其他关系- 线性结构:结构中的数据元素之间存在一个对一个的关系- 树形结构:结构中的数据元素之间存在一个对多个的关系- 图状结构或者网状结构:图状结构或者网状结构![](https://markdownpicture.oss-cn-qingdao.aliyuncs.com/blog/20220104211919.png)**何为逻辑结构和存...

[数据库系统] 业界列式存储浅析

# 简介众所周知,在数据库存储引擎侧通常有两类存储模型,行式存储NSM(N-ary Storage Model)和列式存储DSM(Decomposition Storage Model),两种存储模型各有其特定的擅长场景。在以前,主流存储设备是机械磁盘的情况... 使用不同的coding算法重度压缩列;1. 构建基于列存的优化器和执行器;1. 使用有重叠的projections 来提升性能和获取高可用;1. 使用snapshot isolation,避免2PC 和 query时加锁;### 数据模型C-Store 支持...

AI安全技术总结与展望| 社区征文

使用关联图谱发觉欺诈的新型模式。在异常流量检测场景中,可分析原始数据包,提取数据包长度,时序等特征,使用机器学习算法识别异常流量,并提供加密流量的检测能力,最终可应用于交换机等产品当中。此外,还可以利用无监督的方法区分网络或者用户的状态,识别正常和攻击行为,并加以阻止。  在数据识别与保护场景中,可通过机器学习自动识别可疑的行为,如删除、访问数据库、移动等,从而及时采取防御或者处置措施,以防泄露重要的数据。...

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

基于ClickHouse的复杂查询实现与优化|社区征文

类似于其他的分布式数据库引擎,例如Presto等,会将一个复杂的Query按数据交换情况切分成多个 Stage,各Stage之间则通过Exchange完成数据交换。**Stage之间的数据交换主要有以下三种形式。**- 按照单个或者多个... 可以通过异步化手段控制线程数目。AllAtOnce策略的缺点是容错性没有依赖调度好,每一个Stage的Worker在调度前就已经确定了,调度过程中有一个Worker出现连接异常,则整个Query都会失败。另一类情况,Stage在上游数据还...

基于迁移学习的基础设施成本优化框架,火山引擎数智平台与北京大学联合论文被KDD收录

北京大学计算机学院和蒙特利尔学习算法研究所等单位合作的论文 《Rover: An online Spark SQL tuning service via generalized transfer learning 》(以下简称Rover)成功被大会收录。Rover由北京大学的沈彧和火山引... 数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算及大数据挖掘等众多领域的研究者,为来自学术界、企业界和政府部门的相关人员提供了一个学术交流和成果展示的理想场所。...

数据库顶会 VLDB 2023 论文解读 - Krypton: 字节跳动实时服务分析 SQL 引擎设

读的时候多个版本的数据会按照不同的 Merge 算法合并为一份。Tablet 的 Commit Version 为该 Tablet 下 Rowset 的最大版本号,比如上图中 Tablet 2 的 Commit Version 为 Rowset 5 的版本号 21。每个 Query 都会带上... Optimizer 会根据 Data Server 的数目,来决定 Fragment 级别和 Pipe 级别的并发度,这么做可以避免动态修改 Plan 带来的额外开销,并且可以尽可能的去掉 Local Exchanger 避免数据的 Shuffle。1. 在执行阶段,每个 ...

工业大数据分析与应用——知识总结 | 社区征文

能存入数据库的不仅包含各种具有规律性的**数据符号**,还囊括了各种如图片、视频、声音等**非规则的数据**。 * 价值(value):**低价值密度**,大量的不相关信息,需要深度分析 * 价值密度低,商业价值高 * 多样... 关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。* 数据处理与分析:利用分布式并行编程模型和计算框架,结合**机器学习和数据挖掘**算法,实现对海量数据的处理和分析...

数据库顶会 VLDB 2023 论文解读:Krypton: 字节跳动实时服务分析 SQL 引擎设计

读的时候多个版本的数据会按照不同的 Merge 算法合并为一份。Tablet 的 Commit Version 为该 Tablet 下 Rowset 的最大版本号,比如上图中 Tablet 2 的 Commit Version 为 Rowset 5 的版本号 21。每个 Query 都会带... Optimizer 会根据 Data Server 的数目,来决定 Fragment 级别和 Pipe 级别的并发度,这么做可以避免动态修改 Plan 带来的额外开销,并且可以尽可能的去掉 Local Exchanger 避免数据的 Shuffle。2. 在执行阶段,每个 P...

VikingDB:大规模云原生向量数据库的前沿实践与应用

火山引擎向量数据库高级工程师 VikingDB 简介 ![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/8830cd001d2c4694b5e623cc645246af~tplv-tld... 上面几张图从索引算法、量化方式、索引参数以及硬件等维度表示了精度和延迟之间的取舍。最左侧第一张图相对比较了 FLAT、IVF、HNSW 这三种索引算法的计算精度和延迟。向量检索的计算和访存 IO 都非常重,为了提高...

特惠活动

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

热门爆款云服务器

100%性能独享,更高内存性能更佳,学习测试、web前端、企业应用首选,每日花费低至0.55元
60.00/1212.00/年
立即购买

DCDN国内流量包100G

同时抵扣CDN与DCDN两种流量消耗,加速分发更实惠
2.00/20.00/年
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

从ClickHouse到ByteHouse
关于金融、工业互联网,都有对应的场景特性、解决策略、实践效果具体呈现,相信一定能解决你的诸多疑惑
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询