You need to enable JavaScript to run this app.
导航

Celeborn概述

最近更新时间2024.01.29 16:33:20

首次发布时间2024.01.29 16:33:20

Apache Celeborn 是一个面向大数据计算引擎的统一中间数据服务,支持将引擎产生的 Shuffle、Spilled 等中间数据从引擎本身剥离到外置介质存储,并提供对于这些数据的读写和管理服务,从而真正消除计算节点对大容量磁盘的依赖。

1 组件说明


Celeborn 架构如上图所示,整体分为 Master、Worker 和 Client 三类组件:

  • Master:集群管理节点,提供对于集群的状态管理和资源分配能力,并支持基于 Raft 协议实现 HA 部署。

  • Worker:集群工作节点,核心在于提供对于 Shuffle 数据的存储、读写,以及管理能力,同时也提供对于集群的流控、健康检查,以及优雅降级等特性。

  • Client:集群接入客户端,大数据引擎通过 Client 实现与 Celeborn 集群的交互,实现 Shuffle 数据的读写,同时 Client 也提供了对于应用 Shuffle 数据的生命周期管理能力。

EMR 在部署拓扑上将 Celeborn Master 节点部署在 master 节点组上,将 Worker 节点部署在 core 节点组上,并为大数据引擎按照版本提供相应 Celeborn Client 开箱支持。此外,对于启用了 HA 的 EMR 集群而言,Celeborn 默认以 HA 的形式部署,即在 master 节点组所有节点上部署 Celeborn Master 节点。

2 更多信息

接下来,您可以访问:

  • 基础使用:了解 Spark 服务与 Celeborn 的集成,以及常用的 Celeborn 调参配置。

  • 高阶使用:介绍Celeborn On HDFS的使用与集成。

如果您希望了解关于 Celeborn 更多详细信息,可以参考 Celeborn 官方文档