文 | **洪剑**、**大滨** 来自字节跳动数据平台开发套件团队# 背景## 动机字节数据中台DataLeap的Data Catalog系统基于Apache Atlas搭建,其中Atlas通过Kafka获取外部系统的元数据变更消息。在开源版本中,每台服务器支持的Kafka Consumer数量有限,在每日百万级消息体量下,经常有长延时等问题,影响用户体验。在2020年底,我们针对Atlas的消息消费部分做了重构,将消息的消费和处理从后端服务中剥离出来,并编写了Flink任务承担...
字节跳动数据质量平台团队于2020年下半年,以Kafka数据写入延迟监控为切入点,陆续调研、开发、上线了一系列基于Flink StreamSQL的流式数据质量监控。本文为系列文章的上篇,重点介绍字节跳动数据质量平台技术调研及选型的思考。## 产品调研在2020年下半年,我们决定支持流式数据的质量监控,随即开展了业内的技术调研。主要基于公开的分享或文档资料,调研了Apache Griffin,以及其他四家厂商对应的产品。在2020年下半年,我们决...
还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮技术洗礼,我们也随之需要根据新的技术潮流不断地进行调整甚至做技术转型。以 Hadoop 三大组件来说,计算引擎 MapReduce 基本... 实时推荐峰值每秒达到百万次。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/e041f75c53934f5cb8dc512e65aefed7~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=...
还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮技术洗礼,我们也随之需要根据新的技术潮流不断地进行调整甚至做技术转型。以 Hadoop 三大组件来说,计算引擎 MapReduce 基本被... Flink的流行其实也让业界重新思考了流批计算架构,从2020年开始,不少企业开始了基于 Flink 的“流批一体”实践,字节跳动也做过相关探索。理论上,流批一体有一些价值,拿字节的实时推荐举例来说,推荐中需要先用历史...
字节跳动数据质量平台团队于2020年下半年,以Kafka数据写入延迟监控为切入点,陆续调研、开发、上线了一系列基于Flink StreamSQL的流式数据质量监控。本文为系列文章的上篇,重点介绍字节跳动数据质量平台技术调研及选型的思考。## 产品调研在2020年下半年,我们决定支持流式数据的质量监控,随即开展了业内的技术调研。主要基于公开的分享或文档资料,调研了Apache Griffin,以及其他四家厂商对应的产品。在2020年下半年,我们决...
还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮技术洗礼,我们也随之需要根据新的技术潮流不断地进行调整甚至做技术转型。以 Hadoop 三大组件来说,计算引擎 MapReduce 基本... 实时推荐峰值每秒达到百万次。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/e041f75c53934f5cb8dc512e65aefed7~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=...
还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮技术洗礼,我们也随之需要根据新的技术潮流不断地进行调整甚至做技术转型。以 Hadoop 三大组件来说,计算引擎 MapReduce 基本被... Flink的流行其实也让业界重新思考了流批计算架构,从2020年开始,不少企业开始了基于 Flink 的“流批一体”实践,字节跳动也做过相关探索。理论上,流批一体有一些价值,拿字节的实时推荐举例来说,推荐中需要先用历史...
增强HaKafka引擎实现方案、增强Materialzed MySQL实现方案、案例实践和未来展望四个部分展开分享。 ![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/47bf8bc6de0b478885e67c7a9c14db13~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716222056&x-signature=5NL0H60L9NoZqdFqsJukF%2FTDwMs%3D) 作为企业数字化建设的必备要素,易用的数据引擎能帮助企业提升数...
下游推荐、实时数仓等业务对稳定性和时效性有比较高的要求。* **最后一点**,在流量大、业务多、SLA要求高的情况下,针对流量、成本、SLA保障等多维度的**综合治理**也面临挑战。下面从两个数据流业务场景中... 和Kafka的性能瓶颈、以及JSON数据格式带来的性能和数据质量问题都一一显现出来,与此同时下游业务对延迟、数据质量的敏感程度却是与日俱增。于是,我们一方面对一些痛点进行了针对性的优化。另一方面,花费1年多...
下游推荐、实时数仓等业务对稳定性和时效性有比较高的要求。- **最后一点**,在流量大、业务多、SLA要求高的情况下,针对流量、成本、SLA保障等多维度的**综合治理**也面临挑战。下面从两个数据流业务场景中介绍... **第二个阶段是2018至2020年**随着流量的进一步上涨,PyFlink和Kafka的性能瓶颈、以及JSON数据格式带来的性能和数据质量问题都一一显现出来,与此同时下游业务对延迟、数据质量的敏感程度却是与日俱增。于是...
FILE 不推荐 复杂 很高 低,写文件之后还需要使用logagent来进行上报。 无 KAFKA 同一个网络,建议使用该模式。 简单 很高 高 SDK版本>=1.5.6,私有化4.1版本(含)开始支持。 同一个网络推荐使用KAFKA模... 可以通过调用HeaderV3.Builder().build()构建一个header * @param eventName 事件名 * @param eventParams 事件参数 * @return: void * @date: 2020/9/28 22:00 */void sendEvent(Header header, String eventNa...
FILE 不推荐 复杂 很高 低,写文件之后还需要使用logagent来进行上报。 无 KAFKA 同一个网络,建议使用该模式。 简单 很高 高 SDK版本>=1.5.6,私有化4.1版本(含)开始支持。 同一个网络推荐使用KAFKA模... 可以通过调用HeaderV3.Builder().build()构建一个header * @param eventName 事件名 * @param eventParams 事件参数 * @return: void * @date: 2020/9/28 22:00 */void sendEvent(Header header, String eventNa...
FILE 不推荐 复杂 很高 低,写文件之后还需要使用logagent来进行上报。 无 KAFKA 同一个网络,建议使用该模式。 简单 很高 高 SDK版本>=1.5.6,私有化4.1版本(含)开始支持。 同一个网络推荐使用KAFKA模... 例如设置自定义的公共属性 * @param eventName 事件名称 * @param eventParams 事件参数 * @param userUniqueId 用户uuid * @return: void * @date: 2020/8/26 12:24 */void sendEvent(String userUniqueId, i...