ClickHouse 开源于 2016 年,在一众大数据计算引擎里算是一个后起之秀。但凭借性能方面的突出优势,这几年 ClickHouse 在分析型数据库领域可谓风生水起。作为 ClickHouse 深度用户,字节跳动拥有国内规模最大的 ClickHouse 集群。根据官方提供的最新数据,截至 2022 年 2 月底,字节跳动内部的ClickHouse 节点总数已经超过 18000 个,管理总数据量超过 700PB,最大的集群规模在 2400 余个节点。在这之上,承载着字节跳动广泛的业务增长...
## 背景介绍ByConity适合多种业务场景,在实时数据接入、大宽表聚合查询、海量数据下复杂分析计算、多表关联查询场景下有非常好的性能。我们用一个实际的业务场景来介绍下,这套行为分析系统是基于用户多维度行为分析平台,提供事件分析、留存分析、转化分析、用户分群、用户留存等多种分析方式和场景。本文将介绍下该用户多维度行为分析平台在使用原ClickHouse集群遇到的问题和挑战,以及通过迁移ByConity后如何解决这些问题并给业...
来自字节跳动数据平台分析型数据库团队相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了ClickHouse依然存在了一定的限制。例如:* 缺少完整的upsert和delete操作* 多表关联查询能力弱* 集群规模较大时可用性下降(对字节尤其如此)* 没有资源隔离能力因此,我们决定将ClickHouse能力进行全方位加强,打造一款更强大的数据分析平台。后面我们将从...
[picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/9ff2b01283c7491aa84a3f3ddfa96fb3~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716222056&x-signature=d6mc6EmtTbWPMCI51pbGj7XczS4%3D) 使用原生ClickHouse集群进行节点数据查询和写入时,通常会配合使用chproxy来对查询进行负载均衡。但由于chproxy缺少TCP协议支持,导致性能、查询能力等受限。这也成为困扰众多Cl...
来自字节跳动数据平台分析型数据库团队相信大家都对大名鼎鼎的ClickHouse有一定的了解了,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了ClickHouse依然存在了一定的限制。例如:* 缺少完整的upsert和delete操作* 多表关联查询能力弱* 集群规模较大时可用性下降(对字节尤其如此)* 没有资源隔离能力因此,我们决定将ClickHouse能力进行全方位加强,打造一款更强大的数据分析平台。后面我们将从...
[picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/9ff2b01283c7491aa84a3f3ddfa96fb3~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716222056&x-signature=d6mc6EmtTbWPMCI51pbGj7XczS4%3D) 使用原生ClickHouse集群进行节点数据查询和写入时,通常会配合使用chproxy来对查询进行负载均衡。但由于chproxy缺少TCP协议支持,导致性能、查询能力等受限。这也成为困扰众多Cl...
# 前言对于分析型数据库产品,通过增加服务节点实现集群水平扩容,并提升集群性能和容量,是运维的必要手段。但是对于熟悉 ClickHouse 的工程师而言,听到“扩容”二字一定会头疼不已。开源 ClickHouse 的 MPP 架构导致扩容成本高,已是 ClickHouse 运维的核心痛点。主要体现在:- 流程全手动,无数据可靠性保证。- 扩容期间性能开销大,通常需要暂停服务。基于字节跳动内广泛的使用场景,ByteHouse 企业版基于开源社区 C...
相信大家都对大名鼎鼎的 ClickHouse 有一定的了解了,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了 ClickHouse 依然存在了一定的限制。例如:- 缺少完整的 upsert 和 delete 操作- 多表关联查询能力弱- 集群规模较大时可用性下降(对字节尤其如此)- 没有资源隔离能力因此,我们决定将 ClickHouse 能力进行全方位加强,打造一款更强大的数据分析平台。本篇将详细介绍我们是如何加强 ClickHouse 多...
> 更多技术交流、求职机会,欢迎关注**字节跳动数据平台微信公众号,回复【1】进入官方交流群** 相信大家都对大名鼎鼎的 ClickHouse 有一定的了解了,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了 ClickHouse 依然存在了一定的限制。例如:- 缺少完整的 upsert 和 delete 操作- 多表关联查询能力弱- 集群规模较大时可用性下降(对字节尤其如此)- 没有资源隔离能力本篇将详细介绍我们是如何...
上图为ByteHouse企业版管理平台功能架构图。从该功能架构图可以看出,ByteHouse核心能力都是依赖ClickHouse集群,对于集群节点多、数据计算量大的业务场景,容易出现节点状态不一致的问题,因此保证ClickHouse集群间的状态一致性是我们的核心诉求。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/c2a16ab87f2e49bcab32c86968ca565d~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=171...
作者 | 蔡芳芳\采访嘉宾 | 陈星、邵祎旸、海书山ClickHouse 开源于 2016 年,在一众大数据计算引擎里算是一个后起之秀。但凭借性能方面的突出优势,这几年 ClickHouse 在分析型数据库领域可谓风生水起。作为 ClickHouse 深度用户,字节跳动拥有国内规模最大的 ClickHouse 集群。根据官方提供的最新数据,截至 2022 年 2 月底,字节跳动内部的 ClickHouse 节点总数已经超过 18000 个,管理总数据量超过 700PB,最大的集群规模在 240...
来自字节跳动数据平台分析型数据库团队相信大家都对大名鼎鼎的ClickHouse有一定的了解,它强大的数据分析性能让人印象深刻。但在字节大量生产使用中,发现了ClickHouse依然存在了一定的限制。例如:* 缺少完整的upsert和delete操作* 多表关联查询能力弱* 集群规模较大时可用性下降(对字节尤其如此)* 没有资源隔离能力因此,我们决定将ClickHouse能力进行全方位加强,打造一款更强大的数据分析平台。**后面我们将...
数据按照Join key进行Split来并行地构建多个Hash Table,但额外的代价是左右表都需要增加一次Split操作。**第三类,则是关于复杂查询(如多表 Join、嵌套多个子查询、window function 等),ClickHouse对这类需求场景的支持并不是特别友好,**由于ClickHouse并不能通过Shuffle来分散数据增加执行并行度,并且其生成的Pipeline在一些case下并不能充分并行。因此在某些场景下,难以发挥集群的全部资源。随着企业业务复杂度的不断提升...