本文将为您介绍在 火山引擎 E-MapReduce(EMR)控制台上基于 Kubernetes 创建集群的详细步骤。
前提条件
- 已完成入门的相关准备工作,创建集群需完成企业认证。
- 集群创建购买前,请保证您的账户余额(即现金余额)大于等于0元,且余额加代金券的总金额不得小于100.00元人民币。
创建虚拟集群
创建虚拟集群入口
- 登录 EMR 控制台。
- 在顶部菜单栏中,根据实际场景,下拉选择地域和项目空间:
- 地域:创建的集群及相应资源将会部署在对应的地域内,一旦创建不能修改。
- 项目:默认Å显示默认项目。详见项目配置。
- 在 on VKE 集群列表界面 ,单击创建虚拟集群入口,开始虚拟集群创建。
虚拟集群配置
集群配置
配置项 | 配置说明 |
|---|
产品版本 | 默认最新的软件版本。 |
资源类型 | 选择新建 VKE 资源,或者已有 VKE 资源(仅白名单用户支持)。 说明 - 建议已有VKE集群安装 ingress 组件, 否则会影响 EMR on VKE 集群访问链接功能。
- 新建 VKE 资源目前不支持 ZooKeeper、Kyuubi 服务。
- 新建 VKE 资源参数配置可参考:容器服务。
- 选择已有 VKE 资源:您需选择一个已创建好的 VKE 集群,并在选择服务后,设置 Namespace 参数,详情参见下文的参数介绍。
- 选择:新建 VKE 资源:选择服务和付费参数后,您还需配置网络相关参数,详情请参见下文的参数介绍。
|
服务 | - 目前支持 Spark、Celeborn、Hive MetaStore、Ray、Volcano、ZooKeeper、Kyuubi、Proton 服务,可以单选或多选。
- Celeborn 提供 Remote Shuffle 服务,解决 Kubernetes 场景下本地盘的依赖问题。
- Ray 提供分布式计算框架,覆盖机器学习、模型训练等场景。
- Proton 是火山引擎 E-MapReduce(EMR)团队推出的数据湖加速引擎,其深度优化的 TOS 访问能力和缓存能力,可极大地提升计算任务的执行效率。
说明 - Ray、Volcano 服务需要开白使用,如有需求请通过 提工单 的方式,联系火山引擎技术支持人员。
- 如果后续需要部署 Celeborn、Proton 服务,依赖部署服务的 VKE 集群节点池有
emr-local-disk=true 的标签,如果没有此标签,则 Celeborn、Proton 服务部署时会一直 Pending,无法正常完成服务部署。
- 在 EMR on VKE 侧新建的 VKE 节点池均会自动添加上
emr-local-disk=true 的标签,而在 VKE 侧直接创建的节点池需要您手动添加对应标签。 - 例如,在创建 EMR on VKE 集群时,如果您使用的是已有的 VKE 集群,而非新建 VKE 集群,则创建集群时不会新建节点池,此场景下,如果您需要部署 Celeborn、Proton 服务,则您需要前往 VKE 控制台手动添加对应节点池的标签,避免后续 Celeborn、Proton 服务无法正常部署。
- 手动在 VKE 控制台添加标签的操作请参见:VKE 节点池管理-编辑节点池文档。将对选择的节点打上 EMR 标签,被配置的节点允许运行 EMR 服务。
|
Namespace
(已有 VKE 资源需配置) | 配置服务部署的 VKE 命名空间。默认随机生成,也可以自定义。 说明 若您选择安装的服务依赖外置 RDS,为了避免网络访问问题,仅支持配置与已有 VKE 资源相同 VPC 下的数据连接实例。 |
集群名称 | 集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、中划线(-)和下划线(_)。 |
付费类型 | 目前仅支持 按量付费。 |
网络配置
(新建 VKE 资源需配置) | - 如您没有可以使用的网络,请选择全新创建:系统将自动为您创建 VPC、子网和安全组。
- 如您有可使用的网络,请选择使用已有:
- 选择需使用的 VPC、子网和安全组。
说明 若您选择安装的服务依赖外置 RDS,为了避免网络访问问题,配置集群 VPC 时需要与该 RDS 所处的 VPC 相同。 - 您还需配置开启 API Server 公网开关:打开后,VKE 集群开启公网访问,会创建 NAT 网关并收取服务费和流量费。
|
可用区
(新建 VKE 资源需配置) | 选择集群所在的可用区。 |
资源配置:新建 VKE 资源
配置项 | 配置说明 |
|---|
节点池名称 | 自定义当前集群的节点池的名称 |
节点池规格、操作系统、系统盘、数据盘、节点数量 | 选择当前集群节点池的实例规格等参数,参数配置可参考:容器服务。 |
Pod 规格 | 设置当前集群的 Pod 规格,支持选择默认规格、自定义规格。 说明 容器组(Pod)是 Kubernetes 创建或部署的最小单位。一个 Pod 封装一个或多个容器(Container)、存储资源(Volume),包含一个独立的网络 IP 和管理控制容器运行方式的策略选项。 - 默认规格:由系统为您设置 Pod 规格,您可将鼠标悬浮至 默认规格 选择项上,即可查看当前默认规则的详细规格数。
- 自定义规格:您也可以根据需求调节容器组参数,自行配置 配置 Pod 部署 相关参数,为每个服务的 Pod 分配 CPU、内存、Pod 数。
|
启用弹性容器(VCI)运行作业 | 设置是否打开弹性容器运行作业开关,打开后,后续可基于业务负载自动、灵活且高效地伸缩资源,降低成本并保障服务性能,详情可参见:弹性容器实例 VCI 介绍文档。 |
资源配置:已有 VKE 资源
配置项 | 配置说明 |
|---|
专属节点 | 单击配置专属节点,可以配置 EMR 专属节点池或者配置专属节点。选择节点池或节点后: - 如果后续需要部署 Celeborn、Proton 服务,您需要前往 VKE 控制台手动为对应节点池添加
emr-local-disk=true 的标签,打上此标签后,被配置的节点才允许运行 EMR 服务,没有此标签,则 Celeborn、Proton 服务无法正常部署。手动在 VKE 控制台添加标签的操作请参见:VKE 节点池管理-编辑节点池文档。 - 配置专属节点池时,基于该节点池的扩容节点也会自动配置成 EMR 专属节点。
说明 - 您可前往容器服务控制台 添加节点或改变节点配置。
- ShuffleService 集群专至少需要 3 台专属节点,且必须为本地盘机型,比如i2g、i3s 等。
- 部署 CelebornWorker 至少需要配置 3 个本地盘机型专属节点。
- 部署 Proton 至少需要配置2个本地SSD机型专属节点,建议和CelebornWorker分开部署。您可以通过Pod部署配置中的节点调度策略设置。
|
Pod 规格 | 自行配置 配置 Pod 部署 相关参数,为每个服务的 Pod 分配 CPU、内存、Pod 数。 |
污点容忍 | 当您需要为组件容器设置污点和容忍度时,您可以配置污点容忍项。目前污点容忍支持根据“effect”进行选择。 |
启用弹性容器(VCI)运行作业 | 设置是否打开弹性容器运行作业开关,打开后,后续可基于业务负载自动、灵活且高效地伸缩资源,降低成本并保障服务性能,详情可参见:弹性容器实例 VCI 介绍文档。 |
其他配置
配置项 | 配置说明 |
|---|
访问凭证
(新建 VKE 资源需配置) | 设置当前集群的访问凭证,支持设置为密钥对或密码,并基于选择的访问凭证类型选择对应的密钥对或设置密码。 |
TOS 桶 | 选择已有的 Bucket,或者在对象存储 TOS 控制台新建 Bucket。 |
AccessKey | AK/SK 用于读写 TOS 数据。建议使用独立的 IAM 账号创建 TOS 独立的 AK/SK。 |
SecretKey | AK/SK 用于读写 TOS 数据。建议使用独立的 IAM 账号创建 TOS 独立的 AK/SK。 |
虚拟集群所属项目 | 火山引擎为您提供的一套云资源管理方式,用于对云资源进行集中的编排管理。详见项目配置。 |
标签 | 可以对集群以及对应的 VKE 集群进行打标 |
服务绑定 | - 关联 Shuffle Service 集群:支持 Spark 创建时和创建后关联 ShuffleService 集群。关联 ShuffleService 集群后,Spark Shuffle 部分会运行在关联的 ShuffleService 集群上。
|
预览确认并下单
完成上述配置后,您可在预览页面再次确认集群创建参数配置结果,无误后,根据界面提示完成下单支付,完成集群创建操作。