最近更新时间:2023.01.18 11:11:26
首次发布时间:2021.09.01 17:27:34
火山引擎 E-MapReduce(EMR)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,为您提供 Hadoop、Spark、Hive、Flink、Hudi、Iceberg 等生态组件集成和管理。本文将为您介绍在 EMR 控制台创建集群的操作步骤和相关配置。
已完成IAM跨服务授权:
首次登录 EMR 详情页会提示完成针对(ECS、VPC、EIP等)跨服务授权。
通过右上角用户 > 访问控制 > 角色管理右上角搜索栏搜索 "EMR"关键字,确认 “ ServiceRoleForEMR ” 角色生效。
登录EMR 控制台。
在顶部菜单栏中,根据实际场景,下拉选择地域和项目空间:
地域:创建的集群及相应资源均会部署在对应地域内,不可修改。
项目空间:系统已自动创建 default 的默认项目,您可通过下方路径,新建属于您的项目空间:
通过界面右上角用户 > 访问控制 > 资源管理 > 项目,进入项目界面。
单击新建项目按钮,输入项目名、显示名称、备注等信息,完成新建项目。
详见项目配置。
在总览界面,单击创建集群按钮。
进入创建集群界面后,完成以下配置集群信息,您需要进行软件设置、硬件设置、其他设置、预览确认等配置步骤:
配置项 | 说明 |
---|---|
软件配置 | |
分析场景 | 数据分析的场景,EMR 已支持数据湖、实时计算、交互式分析、交互式查询、NoSQL数据库、搜索、数据科学等多种分析场景。 |
集群类型 | 针对不同分析场景,EMR支持的集群类型如下:
更多类型详细参考集群类型 。 |
产品版本 | EMR软件栈的版本,建议选择EMR最新的软件版本,目前已支持 EMR 1.2.1、1.3.1、2.0.1、2.1.0、3.0.1、3.1.0 版本,不同的集群类型支持产品版本会有出入,不同版本说明详见版本概述。 |
服务高可用 | 选择集群是否开启高可用服务。开启高可用,Hadoop 集群会有三个 Master 节点来支持 ResourceManager 和 NameNode 的高可用,生产环境推荐使用高可用部署形态。 说明 交互式分析场景下,Presto、Trino 集群类型目前也已支持高可用形式,您可通过提工单,后台联系 EMR 技术支持人员进行白名单开通。 |
必选服务 | 默认的服务组件,不同集群类型,默认的必选服务不同,后期您可以在集群服务列表中启停服务。 |
可选服务 | 根据实际需求选择其他组件服务,被选中的组件会默认启动相关的服务。 |
元数据选择 | 集群中包含 Hive、Ranger、Airflow 等组件时,需设置元数据存储。
|
高级配置 | |
自定义配置 | 集群创建前,可以通过json文件定义集群组件的参数配置,将组件的配置导入集群中,仅限 HDFS、YARN、Hive、Spark 组件。
|
软件配置完成后,单击下一步,进行集群硬件设置。
配置项 | 说明 |
---|---|
付费设置 | |
付费类型 |
详见计费说明。 |
可用地区 | |
可用区 | 指在同一地域内,电力和网络互相独立的物理区域。在同一地域内,可用区与可用区之间内网互通,可用区之间能做到故障隔离。
|
网络配置 | |
选择项目 | 默认选择全部项目,您可选择对应项目下已部署的资源。 |
私有网络(VPC) | 选择 EMR 集群所在地域的私有网络,建议 EMR 上下游系统在同一个私有网络。 注意 项目选择某个具体项目时,需确保 VPC 也在对应资源项目下。 |
子网 | 子网用于为实例分配主网卡的私网IP地址,通过网卡可实现实例的网络管理,下拉选择对应 VPC 下可用区的子网,若没有可用的子网,单击创建子网前往创建。 注意 子网选择区分可用区,请选择上方对应可用区下的子网段。 |
安全组 | 选择配置的安全组规则,控制组内云服务器的出入流量,详见安全组概述。 |
访问控制授权 | 默认开通访问控制规则授权,您可以通过 EMR 管理控制台进行大数据组件部署和后续集群的使用、运维和管理等操作。 |
实例设置 | |
节点选型配置 |
|
硬件配置完成后,单击 下一步,进行集群其他基础设置。
配置项 | 说明 |
---|---|
基础信息 | |
集群名称 | 集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。 |
访问凭证 | 该凭证用于远程登陆集群 master 节点的 ECS 机器,您可选择密钥对或密码方式登录。 |
密钥对/密码 | |
高级设置 | |
引导操作 | 在集群启动时执行引导操作脚本,可以引导操作自定义集群环境,如您需要在 EMR 集群中部署安装第三方组件,可以在集群中的 EMR 组件服务部署前或部署后运行引导操作,自定义集群环境。 |
添加用户 | 集群创建时,添加 IAM 用户到集群中,作为集群账号,该用户可用于访问开源大数据软件 WebUI 或在访问开启 LDAP 认证的组件时进行认证,集群创建完成后可在控制台用户管理模块查看和编辑该用户。 |
集群角色 | IAM 角色为 EMR 集群上的 ECS 提供调用访问 TOS 的资源权限。详见角色授权管理。 |
持久化History Server | 持久化 History Server 支持监控集群活动。活动数据存储于集群外,集群和组件服务状态的变化不影响使用。当前支持30天内的活动信息查询。 |
标签 | 标签由区分大小写的键值对组成,设置的标签将应用在本次创建的全部实例和云盘。 |
集群所属项目 |
集群其他设置完成后,单击 下一步,进行集群整体预览确认。
确认项 | 描述 |
---|---|
集群信息 | 提供并确认创建集群设置的集群名称、元数据选择、部署地区、公网IP等信息。 |
付费类型 | 选择的集群付费类型确认。 |
软件设置 | 提供产品版本、集群类型、部署选项、必选服务、可选服务等软件信息确认。 |
网络配置 | 可用区、VPC、子网及安全组等信息确认。 |
实例配置 | Master、Core 及 Task 节点的数量、规格及磁盘类型及数量确认。 |
高级配置 | 开启自定义配置、引导操作、IAM 用户 等集群高级配置的信息确认。 |
预览确认后,右下角勾选“我同意 EMR 服务条款”选项,单击立即创建,完成订单支付步骤,即可进入集群控制台 > 集群列表查看创建的集群,待集群状态更新为运行中,即代表创建成功。
集群创建也支持快速创建模式,在创建集群界面,右上角选择快速创建:
完成相应软件配置、付费设置、可用地区、网络配置、实例设置、基础信息等参数配置。
勾选服务条款,单击立即创建按钮,即可快速创建集群。