You need to enable JavaScript to run this app.
导航

创建集群

最近更新时间2024.01.22 16:12:39

首次发布时间2021.09.01 17:27:34

火山引擎 E-MapReduce(EMR)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,为您提供 Hadoop、Spark、Hive、Flink、Hudi、Iceberg 等生态组件集成和管理。详见服务开发指南
本文将为您介绍在 EMR 控制台创建集群的操作步骤和相关配置。

1 前提条件

已完成IAM跨服务授权:

  • 首次登录 EMR 详情页会提示完成针对(ECS、VPC、EIP等)跨服务授权。

  • 通过右上角用户 > 访问控制 > 角色管理右上角搜索栏搜索 "EMR"关键字,确认 “ ServiceRoleForEMR ” 角色生效。

2 操作步骤

  1. 登录EMR 控制台

  2. 在顶部菜单栏中,根据实际场景,下拉选择地域和项目空间:

    • 地域:创建的集群及相应资源均会部署在对应地域内,不可修改。

    • 项目空间:系统已自动创建 default 的默认项目,您可通过下方路径,新建属于您的项目空间:

      1. 通过界面右上角用户 > 访问控制 > 资源管理 > 项目,进入项目界面。

      2. 单击新建项目按钮,输入项目名、显示名称、备注等信息,完成新建项目。

      详见项目配置

  3. 在总览界面,单击创建集群按钮。

3 自定义配置集群

进入创建集群界面后,完成以下配置集群信息,您需要进行软件设置、硬件设置、其他设置、预览确认等配置步骤:

3.1 软件设置

配置项说明
软件配置
分析场景数据分析的场景,EMR 已支持数据湖、实时计算、交互式分析、交互式查询、NoSQL数据库、搜索、数据科学等多种分析场景。

集群类型

针对不同分析场景,EMR支持的集群类型如下:

  • 数据湖场景:

    • Hadoop:大数据分布式基础框架,适用于离线/实时分析以及数据湖架构等各类大数据场景。
  • 实时计算场景:

    • Flink:Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算,支持离线或流式数据处理、实时数据分析等。

    • Kafka:高性能高扩展消息队列系统,支持流式数据采集和接入,应用于日志采集,实时监控等场景。

    • Pulsar:提供多租户、高性能的服务器间消息传递解决方案,支持存算分离的架构。

  • 交互式分析场景:

    • Presto:MPP架构的开源分布式查询分析引擎,提供高性能的数据查询服务。

    • Trino:MPP架构的开源分布式查询分析引擎,支持PB级数据查询分析。

  • 交互式查询场景:

    • Doris:现代化的MPP分析型数据库,支持实时数据分析、交互式数据分析和探索式数据分析等多种数据分析。

    • ClickHouse:是一款用于联机分析的列式数据库管理系统,具有极致压缩率和极速查询性能。被广泛的应用于互联网广告、金融、工业互联网等众多领域。

    • StarRocks:是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。

  • NoSQL数据库场景:

    • HBase:高可靠性、高性能、面向列、可伸缩的分布式存储系统。
  • 搜索场景:

    • OpenSearch:分布式搜索和分析引擎,解决用户结构化数据探索的需求。
  • 数据科学场景:

    • TensorFlow:端到端开源机器学习平台,助力研究人员轻松的构建模型进行机器学习生产。

更多类型详细参考集群类型

产品版本EMR软件栈的版本,建议选择EMR最新的软件版本,目前已支持 EMR 2.0.1、2.1.0、2.1.1、3.0.1、3.1.0、3.1.1、3.2.1、3.4.11、3.5.4、3.6.2 等版本,不同的集群类型支持产品版本会有出入,不同版本说明详见版本概述

服务高可用

选择集群是否开启高可用服务。
例如:开启高可用,Hadoop 集群会有三个 Master 节点来支持 ResourceManager 和 NameNode 的高可用,生产环境推荐使用高可用部署形态。

说明

目前实时计算场景中 Kafka、Pulsar 集群类型,不支持开启服务高可用模式。

必选服务默认的服务组件,不同集群类型,默认的必选服务不同,后期您可以在集群服务列表中启停服务。
可选服务根据实际需求选择其他组件服务,被选中的组件会默认启动相关的服务。

元数据选择

集群中包含 Hive、Ranger、Airflow 等组件时,需设置元数据存储。

  • 内置数据库:仅限使用在测试场景下,本地 MySQL 数据库部署在 EMR 集群单节点中,不能保证服务高可用,有稳定性风险,生产场景建议选择外置数据库;

  • 外置数据库:用于生产环境的集群,建议使用 独立 RDS MySQL,可以选择使用火山引擎高可用版本的 RDS MySQL 5.7,下拉选择需链接的外置数据源。操作详见元数据链接

高级配置

自定义配置

集群创建前,可以通过json文件定义集群组件的参数配置,将组件的配置导入集群中。
输入参数的格式如下:[{"serviceName": "xxx", "fileName": "xxx", "key": "xxx", "value": "xxx"}]

  • serviceName:服务名,需要全部大写。

  • fileName:文件名称,实际传参的文件名称,需要去掉后缀。

  • key:配置项的名称。

  • value:该配置项要设置的具体的值。

Hive 根路径类型Hadoop 集群类型,您可选择 Hive 根路径类型,支持选择本地 HDFS、对象存储 TOS 两种存储路径类型。

Hive 根路径

填写 Hive 的根路径信息,即 Hive 默认建表 location,可以在创建集群后修改。可以选择本地HDFS路径或对象存储TOS的路径。
其中 TOS 路径类型,单击右侧按钮,可输入 TOS 桶名称进行搜索。若没有创建对象存储,您可以前往 TOS 控制台进行创建。

软件配置完成后,单击下一步,进行集群硬件设置。

3.2 硬件设置

配置项说明
付费设置

付费类型

  • 按量付费:一种后付费模式,即先使用再付费,节点可以随时释放。根据实际开通时长,以小时数为单位进行收费,每小时计费一次,适合短期的测试任务或是灵活的动态任务。

  • 包年包月:预付费模式,指定时长付费,到期后您可释放或续费操作,您也可以选择开启自动续费功能,减少手动续费的管理成本,避免因忘记续费而导致 EMR 服务中断。

详见计费说明

可用地区

可用区

指在同一地域内,电力和网络互相独立的物理区域。在同一地域内,可用区与可用区之间内网互通,可用区之间能做到故障隔离,不同区域支持选择的可用区不同,支持选择可用区 A、B、C 三个区域。

  • 北京、上海、广州区域支持选择可用区 A、B、C。

  • 柔佛区域仅支持可用区 A。

网络配置
选择项目默认选择全部项目,您可选择对应项目下已部署的资源。

私有网络(VPC)

选择 EMR 集群所在地域的私有网络,建议 EMR 上下游系统在同一个私有网络。
若没有可用的 VPC,单击创建VPC前往新建。

注意

项目选择某个具体项目时,需确保 VPC 也在对应资源项目下。

子网

子网用于为实例分配主网卡的私网IP地址,通过网卡可实现实例的网络管理,下拉选择对应 VPC 下可用区的子网,若没有可用的子网,单击创建子网前往创建。

注意

子网选择区分可用区,请选择上方对应可用区下的子网段。

安全组

选择配置的安全组规则,控制组内云服务器的出入流量,详见安全组概述
您可下拉选择已有的安全组,如需创建新的安全组,单击创建安全组前往控制台创建。

访问控制授权默认开通访问控制规则授权,您可以通过 EMR 管理控制台进行大数据组件部署和后续集群的使用、运维和管理等操作。
实例设置

节点选型配置

  • Master 实例 :主要负责 ResourceManager 和 NameNode 等控制进程的部署。

    • Master 节点数量:普通集群默认 1 台;Hadoop高可用集群默认 3 台,Flink、Presto等高可用集群默认开启 2 台。

    • 机型选择:支持选择计算型、通用型、内存型三种机型,根据需要选取适用的实例规格。不同机型区分详见云服务器实例规格介绍

    • 系统盘:用来存储云服务器运行的操作系统,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:60~2048 GB。

    • 数据盘:用于存储应用数据,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:容量范围:60~32768 GB。

    云盘性能详见云盘规格

  • Core实例 :主要负责集群所有数据的存储,创建集群完成后也支持按需进行扩容。

    • Core数量:默认2台,根据需要调整。

    • 机型选择:支持选择计算型、本地 SSD 型、通用型、内存型、大数据型、GPU计算型 几五种机型,根据需要选取适用的实例规格。不同机型区分详见云服务器实例规格介绍

    • 系统盘:用来存储云服务器运行的操作系统,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:60~2048 GB。

    • 数据盘:用于存储应用数据,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:容量范围:60~32768 GB。

    云盘性能详见云盘规格

  • Task实例 :不保存数据,调整集群的计算力使用。默认不开启,需要时可自行添加,最高可添加 5个 Task 节点组。

  • 挂载公网:支持给 Master、Core、Task 节点组开启挂载公网 IP,集群初始化时自动开通并生成公网 IP,配置在集群节点组上。如果选择不开启挂载公网,则无法通过公网 IP 访问集群。

硬件配置完成后,单击 下一步,进行集群其他基础设置。

3.3 其他设置

配置项说明
基础信息
集群名称集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。
访问凭证该凭证用于远程登陆集群 master 节点的 ECS 机器,您可选择密钥对或密码方式登录。

密钥对/密码

  • 密钥对:下拉选择已创建成功的密钥对,或单击 创建密钥对 前往控制台创建,使用详见 密钥对概述

  • 密码:输入集群 Master 节点登录密码

    • 长度限制在8~30之间。

    • 密码只能由大写字母、小写字母、数字和特殊字符组成,且必须包含至少三项。

    • 特殊字符可以使用:`~!@#$%^&*()_-+=

    • 不能以“/”和“$6$”开头。

    • 请勿设置过于简单,否则可能被其他用户恶意攻击。建议使用密钥对

高级设置

引导操作

在集群启动时执行引导操作脚本,可以引导操作自定义集群环境,如您需要在 EMR 集群中部署安装第三方组件,可以在集群中的 EMR 组件服务部署前或部署后运行引导操作,自定义集群环境。
详见 引导操作

添加用户

集群创建时,添加 IAM 用户到集群中,作为集群账号,该用户可用于访问开源大数据软件 WebUI 或在访问开启 LDAP 认证的组件时进行认证,集群创建完成后可在控制台用户管理模块查看和编辑该用户。
详见 用户管理

集群角色IAM 角色为 EMR 集群上的 ECS 提供调用访问 TOS 的资源权限。详见角色授权管理
持久化History Server持久化 History Server 支持监控集群活动。活动数据存储于集群外,集群和组件服务状态的变化不影响使用。当前支持30天内的活动信息查询。

标签

标签由区分大小写的键值对组成,设置的标签将应用在本次创建的全部实例和云盘。
您可以选择已有标签;或直接输入创建新的标签,按回车确认。

集群所属项目

如果您需要将新建的集群分配至新的项目中,可下拉进行选择,或前往火山访问控制中心 新建项目
详见火山项目资源管理

集群其他设置完成后,单击 下一步,进行集群整体预览确认。

3.4 预览确认

确认项描述
集群信息提供并确认创建集群设置的集群名称、元数据选择、部署地区、公网IP等信息。
付费类型选择的集群付费类型确认。
软件设置提供产品版本、集群类型、部署选项、必选服务、可选服务等软件信息确认。
网络配置可用区、VPC、子网安全组等信息确认。
实例配置Master、Core 及 Task 节点的数量、规格及磁盘类型及数量确认。
高级配置开启自定义配置、引导操作、IAM 用户 等集群高级配置的信息确认。

预览确认后,右下角勾选 我同意 EMR 服务条款 选项,单击立即创建,完成订单支付步骤,即可进入集群控制台 > 集群列表查看创建的集群,待集群状态更新为运行中,即代表创建成功。

4 快速创建集群

集群创建也支持快速创建模式,在创建集群界面,右上角选择快速创建:

  1. 完成相应软件配置、付费设置、可用地区、网络配置、实例设置、基础信息等参数配置。

  2. 勾选服务条款,单击立即创建按钮,即可快速创建集群。

5 使用模板快速创建

集群模版是 EMR 配置中心的一个模块。您可以将之前创建 EMR 集群时提供的集群配置信息保存为集群模版,作为可被复用的集群配置信息。
在创建集群模版后,您可以基于集群模版中的集群配置信息创建新的集群。您还可以在配置中心中对集群模版进行管理。详见集群模板

  1. 创建集群界面右上角,单击使用模板快速创建按钮,在弹窗中选择对应的集群模板名称,单击确定按钮,完成集群模板导入。

  2. 选择集群模板后,模板中包含的配置信息将在表单中自动填充,您可直接单击下一步,直至进入其他设置,对新集群中的访问凭证进行设置即可。

  3. 访问凭证设置完成后,您便可依次单击下一步 > 勾选“我同意 EMR 服务条款” > 立即创建,即可完成新集群的创建。