本文将为您介绍在火山引擎 E-MapReduce(EMR)控制台上创建集群的详细步骤。
在创建集群界面,右上角单击快速创建按钮,完成以下软件配置、付费设置、可用地区、网络配置、实例设置、基础信息等配置:
集群参数配置:
配置项 | 示例 | 说明 |
|---|---|---|
软件配置 | ||
分析场景 | 数据湖 | 数据分析的场景,EMR 已支持数据湖、数据科学等多种分析场景。 |
集群类型 | Hadoop | 默认为 Hadoop 集群类型,针对不同分析场景,您可选择更多类型,详细参考集群类型。 |
产品版本 | EMR-3.18.0 | EMR软件栈的版本,建议选择EMR最新的软件版本,不同版本说明详见产品版本说明。 |
服务高可用 | 不开启 | 选择集群是否开启高可用服务。开启高可用,Hadoop 集群会有三个 Master 节点来支持 ResourceManager 和 NameNode 的高可用,生产环境推荐使用高可用部署形态。 说明 交互式分析场景下,Presto、Trino 集群类型目前也已支持高可用形式,您可通过提工单,后台联系 EMR 技术支持人员进行白名单开通。 |
必选服务 | HDFS\YARN\Hue\OpenLDAP 等 | 默认的服务组件,后期您可以在集群服务列表中启停服务。 |
可选服务 | Spark(3.5.1) | 根据您的实际需求选择Spark服务版本,被选中的服务会默认启动相关的服务进程。 |
Hive 根路径 | TOS | Hadoop 集群类型,您可选择 Hive 根路径类型,支持选择本地 HDFS、对象存储 TOS 两种存储路径类型。 |
基础信息 | ||
集群名称 | EMR-Hadoop | 输入集群名称,只能包含中文、字母、数字、下划线和中划线。 |
访问凭证 | 密码 | 用于远程登陆集群master节点ECS机器 |
秘钥对/密码 | xxxxxxx | 自定义集群登录密码。 |
付费设置 | ||
付费类型 | 按量付费 |
详见计费说明。 |
可用地区 | ||
可用区 | 可用区B | 可用区是指在同一地域内,电力和网络互相独立的物理区域。在同一地域内可用区与可用区之间内网互通,可用区之间能做到故障隔离。 |
网络配置 | ||
VPC | vpc-rr4e42vtxxxxx | 选择 EMR 集群所在地域的私有网络,建议 EMR 上下游系统在同一个私有网络。 注意 项目选择某个具体项目时,需确保 VPC 也在对应资源项目下。 |
子网 | subnet-rr4e4qk77dvxxxxx | 子网用于为实例分配主网卡的私网IP地址,通过网卡可实现实例的网络管理,下拉选择对应 VPC 下可用区的子网,若没有可用的子网,单击创建子网前往创建。 注意 子网选择区分可用区,请选择上方对应可用区下的子网段。 |
安全组 | Default | 选择配置的安全组规则,控制组内云服务器的出入流量,详见安全组概述。 |
实例设置 | ||
Master 节点 | 节点数量 1 | 主要负责 ResourceManager 和 NameNode 等控制进程的部署,根据场景需求,选择合适节点数量及机型规格,选型配置详见创建集群。 |
Core 节点 | 节点数量 2 | 主要负责集群所有数据的存储,创建集群完成后也支持按需进行扩缩容,根据场景需求,选择合适节点数量及机型规格,最高可添加 20 个 Core 节点组,选型配置详见创建集群。 |
Task 节点(可选) | 不添加 | 不保存数据,调整集群的计算力时使用。默认不开启,需要时可自行添加,最高可添加 20 个 Task 节点组。 |
集群配置-自定义创建方式,详见创建集群。
配置参数填写完成后,勾选我同意EMR服务条款, 单击立即创建按钮,完成集群创建。
进入集群控制台 > 资源管理 > on ECS查看创建的集群,待集群状态更新为运行中,即代表创建成功。
当前已完成 EMR 集群的创建工作,后续您便可以开始创建并运行 EMR 相关作业。详见创建并运行作业。