## 背景新项目涉及大数据方面。之前接触微服务较多,趁公司没反应过来,赶紧查漏补缺。Kafka 是其中之一。Apache Kafka 是一个开源的分布式事件流平台,可跨多台计算机读取、写入、存储和处理事件,并有发布和订阅事... 延迟高等问题。而 pull 出现这些问题的概率更小,即使 message 很多,也能根据自身服务器的速率消化数据,一直能进行消费。pull 更支持批处理,吞吐量高且有效利用了缓冲区。但 pull 也存在缺陷:如果 broker 中没有...
其中Atlas通过Kafka获取外部系统的元数据变更消息。在开源版本中,每台服务器支持的Kafka Consumer数量有限,在每日百万级消息体量下,经常有长延时等问题,影响用户体验。在2020年底,我们针对Atlas的消息消费部分做... 依赖框架做Offset的提交,业务侧只需要编写消息的处理逻辑;另外,将系统状态以Metric方式暴露 || 轻量 | 支持与后端服务混合部署,不引入额外的维护成本## 相关工作在启动自研之前,我们评估了两个比较相关...
> > > 字节跳动开发套件数据集成团队(DTS ,Data Transmission Service)在字节跳动内基于 Flink 实现了流批一体的数据集成服务。其中一个典型场景是 Kafka/ByteMQ/RocketMQ -> HDFS/Hive 。Kafka/ByteMQ/RocketMQ... 本文主要介绍 DTS MQ dump 在极端场景中遇到的数据丢失问题的排查与优化,最后介绍了上线效果。 本文分两次连载,[第一篇主要介绍Flink Checkpoint 以及 MQ dump 写入流程。](http://mp.weixin.qq.com/s?__biz=MzkwM...
Kafka/ByteMQ/RocketMQ -> HDFS/Hive(下面均称之为 MQ dump,具体介绍可见 字节跳动基于 Flink 的 MQ-Hive 实时数据集成 ) 在数仓建设第一层,对数据的准确性和实时性要求比较高。目前字节跳动中国区 MQ dump 例行任务数巨大,日均处理流量在 PB 量级。巨大的任务量和数据量对 MQ dump 的稳定性以及准确性带来了极大的挑战。本文主要介绍 DTS MQ dump 在极端场景中遇到的数据丢失问题的排查与优化,最后介绍了上线效果。# 线上...
请求速率过快Kafka 在客户端的设计实现中就已经考虑到请求速率过快的问题。 对于消息发送,Kafka客户端的设计本身并不是同步消息发送的,业务在调用发送接口后,消息并不会直接发送到服务端,而是缓存在客户端内存中,... 消费位点提交频繁 消费进度通常都通过消费位点提交请求持久化到 kafka 服务端,因而消费位点提交过于频繁也会导致服务端 CPU 使用率增加。此处建议消费位点的提交按照一定的时间间隔设计,不建议使用消费消息数的...
本文档以 Confluent 官方的 Java 版本 SDK 为例介绍 Kafka 生产者和消费者的使用建议。推荐在使用消息队列 Kafka版进行消息生产与消费之前,阅读以下使用建议,提高接入效率和业务稳定性。 消息顺序性火山引擎 Kafka... 因网络或者主节点切换等问题,可能存在偶现的发送失败问题。您可以通过 retries 参数配置写入失败的重试次数,重试次数默认为长整型的最大值;通过 retry.backoff.ms 配置重试的间隔,间隔默认为 100ms。推荐配置重试次...
日志服务支持通过 Kafka 协议上传日志数据到服务端,即可以使用 Kafka Producer SDK 来采集日志数据,并通过 Kafka 协议上传到日志服务。本文介绍通过 Kafka 协议将日志上传到日志服务的操作步骤。 背景信息Kafka 作... Logstash:日志服务自动生成 Logstash 的 Kafka 插件配置,测试插件连通性。详细说明请参考通过 Logstash 上传日志。 结果预览示例如下: Kafka 开源 SDK Logstash 设置索引,并单击提交。设置索引后,采集到服务端的...
您可以在每个地域中创建 5 个 Kafka 实例,每个账号在每个地域中的所有实例存储容量总和最大为 10TiB,否则创建实例时报错 “The instance_num/storage_sum has exceeded quota”。如需提高配额,请在配额中心提交申请,例如申请提高每个地域下的最大实例数量(InstanceNum),最高可调整至 10 个。 请求参数参数 参数类型 是否必选 示例值 说明 ZoneId String 必选 cn-beijing-a 实例所在的可用区。消息队列 Kafka版支持多可...
消息队列 Kafka版提供以下 Topic 和 Group 管理相关的常见问题供您参考。 FAQ 列表为什么 Group 列表中多了一些 Group? 为什么 Group 会被自动删除? 为什么无法删除 Group? 为什么看不到 Group 的消息堆积量,或堆积... 消息队列 Kafka版会自动为指定实例创建一个 Consumer Group,用于消费指定 Topic 中的数据。该 Group 名称以 connect-task 为前缀,并显示在该实例的 Group 列表中。 您之前如使用过 Assign 方式提交消费位点,那么也...
Upsert Kafka 连接器支持以 upsert 方式从 Kafka topic 中读取数据并将数据写入 Kafka topic,支持做数据源表和结果表。 作为源表时,Upsert Kafka 连接器可以将 Kafka 中存储的数据转换为 changelog 流,其中每条数据记录代表一个更新或删除事件。数据记录中有 key,表示 UPDATE;数据记录中没有 key,表示 INSERT;数据记录中 key 的 value 为空,表示 DELETE。 作为结果表时,Upsert Kafka 连接器可以消费上游计算逻辑产生的 changelog...
消息队列 Kafka版提供以下实例管理相关的常见问题供您参考。 FAQ 列表为什么无法删除实例? 购买按量付费实例后,为什么不使用实例也会收费? 创建实例报错 “The InstanceNum has exceeded quota %!s(MISSING)” 修改... 您可以在每个地域中创建 8 个 Kafka 实例,每个账号在每个地域中的所有实例存储容量总和最大为 90TiB,否则创建实例时报错The instance_num/storage_sum has exceeded quota。如需提高配额,请在配额中心提交申请,例如...
更多原理请参考 HaKafka 引擎文档。 注意 建议 Kafka 版本满足以下条件,否则可能会出现消费数据丢失的问题,详见 Kafka 社区 Issue = 2.5.1 = 2.4.2 操作步骤 创建数据源在右上角选择数据管理与查询 > 数据导... 单击页面右下角的提交按钮。提交后,就可以在数据导入对应的数据源下看到新的导入任务。任务创建完成后,会直接开始 Kafka 消费任务。 单击导入任务名称,可以看到当前导入任务的执行情况,信息包括:任务执行 ID、开始...
日志服务支持投递日志到 Kafka 中,本文档介绍创建投递配置的操作流程。 前提条件已开通日志服务,并成功采集到日志数据。详细说明请参考快速入门。 已开通火山引擎消息队列 Kafka 版,并在指定日志主题的同一地域创建... Kafka 实例中。 未填写结束时间,表示持续投递最新写入的日志数据。 支持投递历史日志数据,即保存时长以内的日志数据都可以投递到 Kafka 实例中。 创建后不支持修改投递的时间范围。 单击提交,完成投递配置的配置...