> 本文整理自字节跳动基础架构的大数据开发工程师魏中佳在 ApacheCon Aisa 2022 「大数据」议题下的演讲,主要介绍 Cloud Shuffle Service(CSS) 在字节跳动 Spark 场景下的设计与实现。作者|字节跳动基础架构的大数据开发工程师-魏中佳# 背景介绍在大数据场景下,数据 Shuffle 表示了不同分区数据交换的过程,Shuffle 的性能往往会成为作业甚至整个集群的性能瓶颈。特别是在字节跳动每日上百 PB Shuffle 数据的场景下,Shuffle...
Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。 字节跳动开源经历「使用开源、参与开源、主动开源」的不同阶段,对于开源的态度一直是开放的、鼓励的。在此次 CommunityOverCode Asia 峰会中,字节的 15 位同学将围绕 6 个专题下的 10 个议题,分享 Apache 开源项目在字节跳动业...
## 一、前言近年来,随着微服务、云原生和 Serverless 概念的普及以及容器化技术的发展,事件驱动也再次成为热点,引起 IT 界广泛的关注。事件驱动架构是一种用于设计应用的软件架构和模型。对于事件驱动系统而言,事件的捕获、通信、处理和持久保留是解决方案的核心结构。事件驱动架构可以最大程度减少耦合度,很好地扩展与适配不同类型的服务组件,因此是现代化分布式应用架构的理想之选。本文会从以下几个方面来剖析 Apache Even...
**导读:** 字节跳动数据湖架构是在 Apache Hudi 开源版本基础上的再次迭代,在 Hudi 落地的过程中,字节跳动也遇到了各种类型的问题,尤其是在索引使用的效率上。针对自身实际的业务场景和数据规模,字节也提出了新的索引实现方式并且贡献到了社区。本次分享主要介绍字节跳动数据湖索引演进。**全文包括以下四部分:**- Hudi 索引介绍- 问题与挑战- 字节数据湖索引演进- 未来规划分享嘉宾|耿筱喻 字节跳动 火山引擎...
[picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/226c4a487a114c45b58d43183b4da90c~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715790059&x-signature=XV6h%2FUtzxCAh9LMhO7TfvPndrmg%3D) Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、...
Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。字节跳动云原生计算团队在此次 CommunityOverCode Asia 峰会中深度参与并进行相关主题演讲,由 8 位同学围绕 4 个专题下的 6 个议题,分享 Apache 开源项目在字节跳动业务中的实践经验。此外,Apache Calcite PMC Member、Apache Flink ...
## 一、Pulsar 介绍Apache Pulsar 是 Apache 软件基金会的顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。Pulsar 的关键特性如下: - 是下一代云原生分布式消息流平台。 - Pulsar 的单个实例原生支持多个集群,可跨机房在集群间无缝地完成消息复制。...
文丨火山引擎LAS团队李铮本文对目前主流数仓架构及数据湖方案的不足之处进行分析,介绍了字节内部基于实时/离线数据存储问题提出的的湖仓一体方案的设计思路,并分享该方案在实际业务场景中的应用情况。最后还会为大家分享 LAS 团队对湖仓一体架构的未来规划。**文末更有专属彩蛋,新人优惠购福利,等着你来解锁!**![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/23718721a33e4470820fd...
> 字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/5282fab093d34715bc3ffd4e8ef135ac~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715790098&x-signature=ZHk%2BVqB88DUBGbV0gXXOTS5uemE%3D)> **文 |** **字节跳动数据平台数据湖团队** 字节跳动数...
[picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/e6e61480462741628c0a006a373ea731~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715790055&x-signature=14AaTu%2Fi7oo0VvWr3t7b%2FUKx39w%3D) 来源|火山引擎 LAS 团队 文章介绍了基于 Apache Calcite 的多引擎指标管理的技术原理与最佳实践,包括 **指标管理的常见方式、指标管理的最佳实践、指标管理的实现原...
[picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/7418021f8fdc4bef90db5910e76ed9c5~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715790052&x-signature=SLek6bnP5Dm8MFWqKqrPNYVL%2BVk%3D) 本文主要介绍 Apache Doris 设计和开发数据湖联邦分析特性的思考和实践。 全文分为三部分,首先介绍数据湖相关技术的演进,其次介绍 Apache Doris 数据湖联邦分析的整体设...
> > > 字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。> > > > ![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/57d781048a76429e8dd9c6306229eb94~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715790052&x-signature=Bjf%2FoQdIO8BrQoDFwowAkc6WjlA%3D)**文 |****字节跳动数据平台数据湖团...
>火山引擎 EMR 作为一款云原生开源大数据平台产品,集成了包括 Hadoop、Spark、Flink 等引擎,并做到100%开源兼容。Doris 作为 OLAP 领域中一款极具代表性的开源组件,也被集成到了火山引擎 EMR 产品生态中。 > 本文主要介绍 Apache Doris 设计和开发数据湖联邦分析特性的思考和实践。全文分为三部分,首先介绍数据湖相关技术的演进,其次介绍 Apache Doris 数据湖联邦分析的整体设计和相关特性,最后介绍 Apache Doris 在数据湖联邦...