## 背景新项目涉及大数据方面。之前接触微服务较多,趁公司没反应过来,赶紧查漏补缺。Kafka 是其中之一。Apache Kafka 是一个开源的分布式事件流平台,可跨多台计算机读取、写入、存储和处理事件,并有发布和订阅事... records = consumer.poll(Duration.ofMillis(100));```push 和 pull 比较:两者区别是,push 是发送方定义发送速率,而不管接收方接收速率,而 pull 是接收方在能承受的范围内自己定义接收速率。push 容易造成...
BMQ 与 Kafka 架构最大的不同在于 BMQ 是 **存算分离的架构** ,相较于 Kafka 将数据存储在本地磁盘,BMQ 将数据存储在了分布式的存储系统。在 BMQ 内部,主要有四个模块:Proxy,Broker,Coordinator 和 Controller。我... 并且单集群可以承载 50 亿文件。同时在数据写入方面对写入延时也做了很多优化,包括慢节点的检测和规避、利用 NVMe 加速的多介质存储功能等。### 消费![picture.image](https://p6-volc-community-sign.byt...
如何降低运维成本等。目前经过技术优化和迭代改进,字节跳动的消息队列平台支持弹性扩缩容、高吞吐、低延迟等特性,已经可以稳定承载每秒数十 T bytes 的流量。受限于篇幅,本系列文章将分为上下篇。 **本文将主要从字节消息队列的演进过程及在过程中遇到的痛点问题,和如何通过自研云原生化消息队列引擎解决相关问题方面进行介绍。****Kafka 时代**在初期阶段,字节跳动使用 Apache Kafka 进行数据的实时处...
BMQ 与 Kafka 架构最大的不同在于 BMQ 是 **存算分离的架构**,相较于 Kafka 将数据存储在本地磁盘,BMQ 将数据存储在了分布式的存储系统。在 BMQ 内部,主要有四个模块:Proxy,Broker,Coordinator 和 Controller。我... 并且单集群可以承载 50 亿文件。同时在数据写入方面对写入延时也做了很多优化,包括慢节点的检测和规避、利用 NVMe 加速的多介质存储功能等。**消费**![picture.image](https://p6-volc-community-sign.byt...
Topic(消息主题)是同一种类型消息的集合,是消息队列 Kafka版中数据写入操作的基本单元。本文档介绍创建单个 Topic 的操作步骤。 背景信息在实际业务场景中,一个 Topic 常被用作承载同一种业务流量,由开发者根据自身系统设计、数据架构设计来决定如何设计不同的 Topic。每个 Topic 可以有多个生产者向它发送消息,也可以有多个消费者去消费其中的消息。分区(Patition)是 Topic 在物理上的分组,每个 Topic 可以划分为多个分区,每个分...
本文介绍消息队列 Kafka版 API 请求的组成结构。 请求URL您可以通过发送 HTTPS POST 请求来调用 Kafka 的 API 服务。HTTPS 请求 URL 的格式如下: POST {URI-scheme}://{Endpoint}/?Action={Action}&Version={Version} HTTP/1.1其中: URI-scheme:表示用于传输请求的协议,当前所有 API 均采用 HTTPS 协议。 Endpoint:指定承载服务端点的服务器域名或 IP,即服务地址。消息队列 Kafka版的 endpoint 为 kafka.volcengineapi.com,详细说...
本文介绍消息队列 Kafka版 API 请求的组成结构。 请求URL您可以通过发送 HTTPS POST 请求来调用 Kafka 的 API 服务。HTTPS 请求 URL 的格式如下: Bash POST {URI-scheme}://{Endpoint}/?Action={Action}&Version={Version} HTTP/1.1其中: URI-scheme:表示用于传输请求的协议,当前所有 API 均采用 HTTPS 协议。 Endpoint:指定承载服务端点的服务器域名或 IP,即服务地址。消息队列 Kafka版的服务地址为 kafka.volcengineapi.com,详...
创建 Topic 之后,您可以根据业务流量随时调整分区数量等 Topic 配置信息,及时扩展 Topic 承载业务流量的能力。 前提条件已创建消息队列 Kafka版实例和 Topic。详细步骤请参考创建实例和创建 Topic。 注意事项分区数... 且不可超过 Kafka 实例的剩余可用分区数。 副本数 分区的副本个数,表示在对应数量的副本上备份数据,用于保障分区的高可用。当其中一个 Broker 故障时仍可保障数据可用性,副本数越大可靠性越高。副本数支持设置为...
如何降低运维成本等。目前经过技术优化和迭代改进,字节跳动的消息队列平台支持弹性扩缩容、高吞吐、低延迟等特性,已经可以稳定承载每秒数十 T bytes 的流量。受限于篇幅,本系列文章将分为上下篇。 **本文将主要从字节消息队列的演进过程及在过程中遇到的痛点问题,和如何通过自研云原生化消息队列引擎解决相关问题方面进行介绍。****Kafka 时代**在初期阶段,字节跳动使用 Apache Kafka 进行数据的实时处...
BMQ 与 Kafka 架构最大的不同在于 BMQ 是 **存算分离的架构**,相较于 Kafka 将数据存储在本地磁盘,BMQ 将数据存储在了分布式的存储系统。在 BMQ 内部,主要有四个模块:Proxy,Broker,Coordinator 和 Controller。我... 并且单集群可以承载 50 亿文件。同时在数据写入方面对写入延时也做了很多优化,包括慢节点的检测和规避、利用 NVMe 加速的多介质存储功能等。**消费**![picture.image](https://p6-volc-community-sign.byt...
大数据生态组件也开始层出不穷。各种不同体型的企业都喜欢选择开源大数据软件来搭建自己的系统,无论是先前十分繁荣的 Hadoop,还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多... Kafka、YARN,还是 Spark、Flink,都承载着巨大的用户体量。这套协议有时候可能没有那么好,没那么规范,但是我们也必须得把它继承下来。在这套协议存在的前提下,字节在内部其实做了非常多的定制化,以及各种各样的重写...
大数据生态组件也开始层出不穷。各种不同体型的企业都喜欢选择开源大数据软件来搭建自己的系统,无论是先前十分繁荣的 Hadoop,还是后来涌现出来的 Kafka、Flink 等,都被广泛地使用着。十多年来,这些系统经历了多轮... Kafka、YARN,还是 Spark、Flink,都承载着巨大的用户体量。这套协议有时候可能没有那么好,没那么规范,但是我们也必须得把它继承下来。在这套协议存在的前提下,字节在内部其实做了非常多的定制化,以及各种各样的重写...
从集群规模和数据量来说,HDFS 平台在公司内部已经成长为总数十万台级别服务器的大平台,支持了 10 EB 级别的数据量。**当前在字节跳动,** **HDFS** **承载的主要业务如下:**- Hive,HBase,日志服务,Kafka 数据... NNProxy 一方面将这些信息发到 Kafka 做一些离线分析,一方面实时聚合并打点,以便追溯线上流量。### **流量限制**虽然 NNProxy 非常轻量,可以承受很高的 QPS,但是后端的 Name Node 承载能力是有限的。因此突发的...