文 | **洪剑**、**大滨** 来自字节跳动数据平台开发套件团队# 背景## 动机字节数据中台DataLeap的Data Catalog系统基于Apache Atlas搭建,其中Atlas通过Kafka获取外部系统的元数据变更消息。在开源版本中,每台服务器支持的Kafka Consumer数量有限,在每日百万级消息体量下,经常有长延时等问题,影响用户体验。在2020年底,我们针对Atlas的消息消费部分做了重构,将消息的消费和处理从后端服务中剥离出来,并编写了Flink任务承担...
> Apache Airflow 与 ByteHouse 相结合,为管理和执行数据流程提供了强大而高效的解决方案。本文突出了使用 Apache Airflow 与 ByteHouse 的主要优势和特点,展示如何简化数据工作流程并推动业务成功。### 主要优势... 通过执行以下命令来初始化 Airflow 的 Web 服务器 ```# 初始化数据库airflow db initairflow users create \--username admin \--firstname admin \--lastname admin \--role Admin \--email admin...
文章介绍了基于 Apache Calcite 的多引擎指标管理的技术原理与最佳实践,包括 **指标管理的常见方式、指标管理的最佳实践、指标管理的实现原理以及指标管理在字节跳动未来的一些规划** ,重点阐述了指标管理在业内常... 接下来要介绍的虚拟列语法可以让你不再纠结。第三个问题,你是如何复用相同的 case when 语句的,是手动复制吗?接下来要介绍的 SQL Define function 语法可以让你避免手动复制,很方便地复用。本文将介绍的内容...
## 一、Pulsar 介绍Apache Pulsar 是 Apache 软件基金会的顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。Pulsar 的关键特性如下: - 是下一代云原生分布式消息流平台。 - Pulsar 的单个实例原生支持多个集群,可跨机房在集群间无缝地完成消息复制。...
> 本文出自字节跳动基础架构流式计算方向的工程师李本超同学专访。李本超从2022年3月开始参与 Apache Calcite 社区贡献,主要贡献了包括子查询优化、Join 优化、JSON 函数优化、JDBC Adapter、通用的表达式优化等。... 开源社区就是由一个一个的独立贡献者组成的虚拟组织。尤其是对于像 Calcite 这种背后没有商业公司支撑的开源项目来讲,所有贡献者都是用自己的时间对社区进行贡献,也正是这些贡献力量在不断维持社区的正常运转,并且...
> 更多技术交流、求职机会,欢迎关注**字节跳动数据平台微信公众号,回复【1】进入官方交流群** 近年来,基于云原生架构的新一代消息队列和流处理引擎 Apache Pulsar 在大数据领域发挥着愈发重要的作用,其应用场... 由火山引擎提供云服务器、公网 IP、云存储、VPC 等基础设施。在基础设施底座上,建构出数据存储引擎(如 HDFS、CloudFS、表格式等)、数据调度引擎(如 YARN 等)、各种面向不同场景的大数据计算、存储组件以及贯穿整个...
李本超从2022年3月开始参与 Apache Calcite 社区贡献,主要贡献了包括子查询优化、Join 优化、JSON 函数优化、JDBC Adapter、通用的表达式优化等。于2023年1月正式受邀成为 Apache Calcite PMC。... 开源社区就是由一个一个的独立贡献者组成的虚拟组织。尤其是对于像 Calcite 这种背后没有商业公司支撑的开源项目来讲,所有贡献者都是用自己的时间对社区进行贡献,也正是这些贡献力量在不断维持社区的正常运转,并且...
近年来,基于云原生架构的新一代消息队列和流处理引擎 Apache Pulsar 在大数据领域发挥着愈发重要的作用,其应用场景和客户案例也在不断地丰富与扩充。火山引擎是字节跳动的企业服务品牌,主要面向 To B 业务场景。... 由火山引擎提供云服务器、公网 IP、云存储、VPC 等基础设施。在基础设施底座上,建构出数据存储引擎(如 HDFS、CloudFS、表格式等)、数据调度引擎(如 YARN 等)、各种面向不同场景的大数据计算、存储组件以及贯穿整个...
字节数据中台DataLeap的Data Catalog系统基于Apache Atlas搭建,其中Atlas通过Kafka获取外部系统的元数据变更消息。在开源版本中,每台服务器支持的Kafka Consumer数量有限,在每日百万级消息体量下,经常有长延时等问题,影响用户体验。在2020年底,我们针对Atlas的消息消费部分做了重构,将消息的消费和处理从后端服务中剥离出来,并编写了Flink任务承担这部分工作,比较好的解决了扩展性和性能问题。然而,到2021年年中,团队开始重点...
消息队列 RocketMQ版是火山引擎基于 Apache RocketMQ 构建的低延迟、高并发、高可用、高可靠的分布式消息中间件。本文介绍使用消息队列 RocketMQ版进行消息收发之前,需要完成的准备工作。 1 准备账号开通服务之前,... VPC 为实例提供网络隔离的虚拟网络环境,只有在 VPC 中才能访问 RocketMQ 实例。在创建 RocketMQ 实例前,请确保目标地域下有可用的 VPC 和子网,如果没有,请参考创建私有网络和创建子网创建一个。 说明 创建 VPC 时,...
本文主要介绍如何在Windows操作系统的ECS实例中快速部署Web环境。 软件版本操作系统:本文以Windows Server 2022 中文版为例。 Web服务器:本文以Apache HTTP Server 2.4.58为例。 数据库:本文以MySQL 8.0.36为例。 开发语言:本文以PHP 8.3.1为例。 前提条件您已购买Windows实例。具体操作请参见购买云服务器。 您已为Windows实例绑定公网IP,使其具备访问公网的能力。如未绑定,请参见绑定公网IP。 操作步骤步骤一:安装并配置Apache...
LAMP 环境是指在Linux系统中,搭建由Linux、Apache、MySQL/MariaDB、PHP组成的Web应用平台。本文介绍如何在Ubuntu 18.04实例上部署LAMP环境。 软件版本操作系统:本文以Ubuntu 18.04为例。 Apache:性能稳定的Web网页服务器,本文以Apache 2.4.29为例。 MySQL/MariaDB:数据库管理系统,本文以MariaDB 15.1为例。 PHP:在服务器端执行的嵌入HTML文档的脚本语言,本文以PHP 7.2.24为例。 前提条件您已购买Linux实例。具体操作请参见购买云...
Apache Airflow 是一个开源平台,用于开发、调度和监控批处理工作流。 先决条件在您的虚拟/本地环境中安装pip 在您的虚拟/本地环境中安装ByteHouse CLI,并使用您自己的ByteHouse账户登录。对于Mac OS,您可以直接通过... Airflow 初始化通过执行以下命令来初始化 Airflow 的 Web 服务器: shell initialise the databaseairflow db initairflow users create \ --username admin \ --firstname admin \ --lastname admin \...