环境 | 语言 | 版本 |
---|---|---|
OS | velinux1u3 SMP Debian 5.4.250-2 | |
OS | Java | 1.8.0_351 |
Spark | Java | 1.8.0_351 |
Spark | Scala | 2.12.18 |
Ray | Java | 1.8.0_351 |
Celeborn | Java | 1.8.0_351 |
Celeborn | Scala | 2.12.15 |
软件 | 版本 |
---|---|
Spark | 3.5.1 |
Ray | 2.44.0 |
Kuberay | 1.1.1 |
Celeborn | 0.5.0 |
Hive | 3.1.3 |
Zookeeper | 3.7.1 |
Kyuubi | 1.8.1 |
Lance | 0.24.1 |
Proton | 2.2.8 |
Volcano | 1.10.0 |
支持用户以 UI 可视化的方式支持运行中的 EMR 虚拟集群添加服务,以满足用户后续服务部署需求,无需创建新的虚拟集群。典型场景用户此前仅使用 Spark 做文本数据处理,随着公司业务在多模态场景的发展,数据处理扩展到图片、视频等非结构化数据,此时用户可以通过添加服务部署 Ray 服务。此前仅支持通过 OpenAPI 的方式添加服务。
创建 EMR 虚拟集群时允许用户选择 VKE 资源类型,包括新建 VKE 资源和使用已有 VKE 资源。之前使用已有 VKE 资源部署 EMR 虚拟集群为白名单功能,本次发布为正式商业化发布。用户可直接在 EMR 控制台使用已有 VKE 资源部署 EMR 虚拟集群,无需先开通白名单。
创建 EMR 虚拟集群时允许用户选择需要部署的服务,包括 Spark、Ray、Proton、Hive、Volcano 等。此前 Ray 为白名单功能,现在用户无需开通白名单即可在 EMR 容器版上使用 Ray 服务,包括部署 KubeRay,创建 RayCluster,提交 Ray Job等。更多说明请参考 Ray 操作指南和最佳实践。
EMR 控制台总览页面将支持对 EMR on VKE 虚拟集群的信息展示,包括虚拟集群的状态,计费信息提醒等。
组件 | 描述 |
---|---|
Celeborn Master | 维护 Celeborn 集群整体状态、活跃 Shuffle 和高可用 |
Celeborn Worker | 接收、存储和服务 Shuffle 数据 |
Spark Operator | 用于在 Kubernetes 集群上部署和管理 Spark 应用程序 |
Spark History Server | Spark 的 Web UI 组件,用于展示已完成的 Spark 作业的详细视图,包括作业的执行时间线、任务详情和资源使用情况 |
Ray Operator | 用于在 Kubernetes 集群上部署和管理 Ray 应用程序 |
Ray HistoryServer | 支持查看已结束的 Ray 作业运行详情,是对 Dashboard 的补充 |
HiveMetastore | Hive 元数据存储服务 |
Kyuubi | 分布式、多租户的大数据网关,用于在 Lakehouse 上提供无服务器 SQL 服务 |
Volcano | 提供丰富的调度策略和优化机制,支持机器学习、大数据、科学计算等多种工作负载 |
Zookeeper | 用于维护配置信息、命名、提供分布式同步的集中式服务 |
Proton DataServer | Proton 缓存服务 |
Proton MetaServer | Proton 元数据服务 |
Lance | 一种高性能的列式存储格式,专为机器学习和数据分析场景设计,适合多模态数据存储和访问 |