近年来,基于云原生架构的新一代消息队列和流处理引擎 Apache Pulsar 在大数据领域发挥着愈发重要的作用,其应用场景和客户案例也在不断地丰富与扩充。火山引擎是字节跳动的企业服务品牌,主要面向 To B 业务场景。... Public History Server、作业管理、配置中心等产品和技术方案,进一步把集群内部的状态信息外置。另外,通过弹性伸缩,支持用户在云上合理地调配资源,实现资源利用的最大化和成本的节约。Stateless 的架构也使得弹性伸...
> 更多技术交流、求职机会,欢迎关注**字节跳动数据平台微信公众号,回复【1】进入官方交流群** 近年来,基于云原生架构的新一代消息队列和流处理引擎 Apache Pulsar 在大数据领域发挥着愈发重要的作用,其应用场... Public History Server、作业管理、配置中心等产品和技术方案,进一步把集群内部的状态信息外置。另外,通过弹性伸缩,支持用户在云上合理地调配资源,实现资源利用的最大化和成本的节约。Stateless 的架构也使得弹性伸...
由轻量级的 serverless 计算框架 Pulsar Functions 实现流原生的数据处理。 - 基于 Pulsar Functions 的 serverless connector 框架 Pulsar IO 使得数据更易移入、移出 Apache Pulsar。 - 分层式存储可在数据... 这可以对 topic 压缩之类的事情起作用。 || Properties | 可选的,用户定义属性的 key/value map。 || Producer name | 生产消息的 producer 的名称(producer 被自动赋予默认名称,但你也可以自己指定。) || Sequ...
文 | **洪剑**、**大滨** 来自字节跳动数据平台开发套件团队# 背景## 动机字节数据中台DataLeap的Data Catalog系统基于Apache Atlas搭建,其中Atlas通过Kafka获取外部系统的元数据变更消息。在开源版本中,每台服务器支持的Kafka Consumer数量有限,在每日百万级消息体量下,经常有长延时等问题,影响用户体验。在2020年底,我们针对Atlas的消息消费部分做了重构,将消息的消费和处理从后端服务中剥离出来,并编写了Flink任务承担...
1 Pulsar 简介Apache Pulsar(以下简称 Pulsar)是一个基于发布/订阅模式,且支持多租户、分布式、云原生的开源高性能消息与流平台,提供消息队列和计算服务,解决服务器间的消息传输与队列问题。 Pulsar 集合了传统消息... Serverless 函数 通过易于使用的 API 编写 Serverless 函数,在 Pulsar 接收到数据的时候,就可以原生地处理数据,使实时数据链路更简单,不需要额外的流式数据处理引擎。 水平可扩展 可以支持大规模集群节点的无感知...
文 | **洪剑**、**大滨** 来自字节跳动数据平台开发套件团队# 背景## 动机字节数据中台DataLeap的Data Catalog系统基于Apache Atlas搭建,其中Atlas通过Kafka获取外部系统的元数据变更消息。在开源版本中,每台服务器支持的Kafka Consumer数量有限,在每日百万级消息体量下,经常有长延时等问题,影响用户体验。在2020年底,我们针对Atlas的消息消费部分做了重构,将消息的消费和处理从后端服务中剥离出来,并编写了Flink任务承担...
.txt"pip install "apache-airflow==${AIRFLOW_VERSION}" --constraint "${CONSTRAINT_URL}"Note: 注意:如果您使用 pip 安装失败,请尝试根据您的 Python 版本使用 pip3 install命令进行安装。 安装完成后,运行命令airflow info以获取有关 Airflow 的更多信息。 Airflow 初始化通过执行以下命令来初始化 Airflow 的 Web 服务器: shell initialise the databaseairflow db initairflow users create \ --username admin \ ...
Apache Kyuubi 是一个分布式、多租户、高性能的网关,可以为数据湖的众多计算引擎提供 SQL 查询服务。 功能特性以下为您介绍 Kyuubi 拥有的一些功能特性: 特性 说明 统一接口 Kyuubi 实现了标准的 Hive Service RPC module。通过 Kyuubi,您可以像使用 Hive Server2 与 STS 一样地使用 Kyuubi 访问数据。 多租户 Kyuubi 通过统一的身份认证与授权系统,为企业级应用提供安全保障,也得以构建出端到端的数据访问多租户支持。这种多租户...
Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。字节跳动云原生计... 主要负责 Serverless Flink 等方向研发;闵中元,于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink ,Flink OLAP 等方向研发。 **专题:人工智能/机器学习** ...
Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。字节跳动云原生计... 主要负责 Serverless Flink 等方向研发;闵中元,于 2021 年加入字节跳动,就职于基础架构开放平台团队,主要负责 Serverless Flink ,Flink OLAP 等方向研发。 ### 专题:人工智能 / 机器学习#### 字节跳动深...
## 一、前言近年来,随着微服务、云原生和 Serverless 概念的普及以及容器化技术的发展,事件驱动也再次成为热点,引起 IT 界广泛的关注。事件驱动架构是一种用于设计应用的软件架构和模型。对于事件驱动系统而言,事件的捕获、通信、处理和持久保留是解决方案的核心结构。事件驱动架构可以最大程度减少耦合度,很好地扩展与适配不同类型的服务组件,因此是现代化分布式应用架构的理想之选。本文会从以下几个方面来剖析 Apache Even...
Apache Hudi在实时场景中广泛使用。但在应用过程中也存在同步执行、异步执行等问题。本文将从表服务管理角度,详细解读字节跳动基于Apache Hudi的优化方案和最佳实践。***关注字节跳动数据平台公众号,回复【0222】获... 最主要的用处是用于合并小文件。并且在合并过程中,可以提供多种排序能力,使得读取时可以有更好的 data skipping 的能力。- Clean:用于清理版本过期的文件,会将多余的版本自动清理掉,防止历史文件过多的存留。...
Apache HUDI 作为数据湖框架的一种开源实现,提供了事务、高效的更新和删除、高级索引、 流式集成、小文件合并、log文件合并优化和并发支持等多种能力,支持实时消费增量数据、离线批量更新数据,并且可通过 Spark、F... 最主要的用处是用于合并小文件。并且在合并过程中,可以提供多种排序能力,使得读取时可以有更好的 data skipping 的能力。* Clean:用于清理版本过期的文件,会将多余的版本自动清理掉,防止历史文件过多的存留。* ...