You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

创建集群

最近更新时间2023.01.18 11:11:26

首次发布时间2021.09.01 17:27:34

火山引擎 E-MapReduce(EMR)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,为您提供 Hadoop、Spark、Hive、Flink、Hudi、Iceberg 等生态组件集成和管理。本文将为您介绍在 EMR 控制台创建集群的操作步骤和相关配置。

1 前提条件

已完成IAM跨服务授权:

  • 首次登录 EMR 详情页会提示完成针对(ECS、VPC、EIP等)跨服务授权。

  • 通过右上角用户 > 访问控制 > 角色管理右上角搜索栏搜索 "EMR"关键字,确认 “ ServiceRoleForEMR ” 角色生效。

2 操作步骤

  1. 登录EMR 控制台

  2. 在顶部菜单栏中,根据实际场景,下拉选择地域和项目空间:

    • 地域:创建的集群及相应资源均会部署在对应地域内,不可修改。

    • 项目空间:系统已自动创建 default 的默认项目,您可通过下方路径,新建属于您的项目空间:

      1. 通过界面右上角用户 > 访问控制 > 资源管理 > 项目,进入项目界面。

      2. 单击新建项目按钮,输入项目名、显示名称、备注等信息,完成新建项目。

      详见项目配置

  3. 在总览界面,单击创建集群按钮。

3 自定义配置集群

进入创建集群界面后,完成以下配置集群信息,您需要进行软件设置、硬件设置、其他设置、预览确认等配置步骤:

3.1 软件设置

配置项说明
软件配置
分析场景数据分析的场景,EMR 已支持数据湖、实时计算、交互式分析、交互式查询、NoSQL数据库、搜索、数据科学等多种分析场景。

集群类型

针对不同分析场景,EMR支持的集群类型如下:

  • 数据湖场景:

    • Hadoop:大数据分布式基础框架,适用于离线/实时分析以及数据湖架构等各类大数据场景。
  • 实时计算场景:

    • Flink:Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算,支持离线或流式数据处理、实时数据分析等。

    • Kafka:高性能高扩展消息队列系统,支持流式数据采集和接入,应用于日志采集,实时监控等场景。

    • Pulsar:提供多租户、高性能的服务器间消息传递解决方案,支持存算分离的架构。

  • 交互式分析场景:

    • Presto:MPP架构的开源分布式查询分析引擎,提供高性能的数据查询服务。

    • Trino:MPP架构的开源分布式查询分析引擎,支持PB级数据查询分析。

  • 交互式查询场景:

    • Doris:现代化的MPP分析型数据库,支持实时数据分析、交互式数据分析和探索式数据分析等多种数据分析。

    • ClickHouse:是一款用于联机分析的列式数据库管理系统,具有极致压缩率和极速查询性能。被广泛的应用于互联网广告、金融、工业互联网等众多领域。

    • StarRocks:是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。

  • NoSQL数据库场景:

    • HBase:高可靠性、高性能、面向列、可伸缩的分布式存储系统。
  • 搜索场景:

    • OpenSearch:分布式搜索和分析引擎,解决用户结构化数据探索的需求。
  • 数据科学场景:

    • TensorFlow:端到端开源机器学习平台,助力研究人员轻松的构建模型进行机器学习生产。

更多类型详细参考集群类型

产品版本EMR软件栈的版本,建议选择EMR最新的软件版本,目前已支持 EMR 1.2.1、1.3.1、2.0.1、2.1.0、3.0.1、3.1.0 版本,不同的集群类型支持产品版本会有出入,不同版本说明详见版本概述

服务高可用

选择集群是否开启高可用服务。开启高可用,Hadoop 集群会有三个 Master 节点来支持 ResourceManager 和 NameNode 的高可用,生产环境推荐使用高可用部署形态。

说明

交互式分析场景下,Presto、Trino 集群类型目前也已支持高可用形式,您可通过提工单,后台联系 EMR 技术支持人员进行白名单开通。

必选服务默认的服务组件,不同集群类型,默认的必选服务不同,后期您可以在集群服务列表中启停服务。
可选服务根据实际需求选择其他组件服务,被选中的组件会默认启动相关的服务。

元数据选择

集群中包含 Hive、Ranger、Airflow 等组件时,需设置元数据存储。

  • 内置数据库:仅限使用在测试场景下,本地 MySQL 数据库部署在 EMR 集群单节点中,不能保证服务高可用,有稳定性风险,生产场景建议选择外置数据库;

  • 外置数据库:用于生产环境的集群,建议使用 独立 RDS MySQL,可以选择使用火山引擎高可用版本的 RDS MySQL 5.7,下拉选择需链接的外置数据源。操作详见元数据链接

高级配置

自定义配置

集群创建前,可以通过json文件定义集群组件的参数配置,将组件的配置导入集群中,仅限 HDFS、YARN、Hive、Spark 组件。
输入参数的格式如下:[{"serviceName": "xxx", "fileName": "xxx", "key": "xxx", "value": "xxx"}]

  • serviceName:服务名,需要全部大写。

  • fileName:文件名称,实际传参的文件名称,需要去掉后缀。

  • key:配置项的名称。

  • value:该配置项要设置的具体的值。

软件配置完成后,单击下一步,进行集群硬件设置。

3.2 硬件设置

配置项说明
付费设置

付费类型

  • 按量付费:一种后付费模式,即先使用再付费,节点可以随时释放。根据实际开通时长,以小时数为单位进行收费,每小时计费一次,适合短期的测试任务或是灵活的动态任务。

  • 包年包月:预付费模式,指定时长付费,到期后您可释放或续费操作,您也可以选择开启自动续费功能,减少手动续费的管理成本,避免因忘记续费而导致 EMR 服务中断。

详见计费说明

可用地区

可用区

指在同一地域内,电力和网络互相独立的物理区域。在同一地域内,可用区与可用区之间内网互通,可用区之间能做到故障隔离。

  • 北京区域支持选择可用区 A、B。

  • 上海、广州区域仅支持可用区 A。

网络配置
选择项目默认选择全部项目,您可选择对应项目下已部署的资源。

私有网络(VPC)

选择 EMR 集群所在地域的私有网络,建议 EMR 上下游系统在同一个私有网络。
若没有可用的 VPC,单击创建VPC前往新建。

注意

项目选择某个具体项目时,需确保 VPC 也在对应资源项目下。

子网

子网用于为实例分配主网卡的私网IP地址,通过网卡可实现实例的网络管理,下拉选择对应 VPC 下可用区的子网,若没有可用的子网,单击创建子网前往创建。

注意

子网选择区分可用区,请选择上方对应可用区下的子网段。

安全组

选择配置的安全组规则,控制组内云服务器的出入流量,详见安全组概述
您可下拉选择已有的安全组,如需创建新的安全组,单击创建安全组前往控制台创建。

访问控制授权默认开通访问控制规则授权,您可以通过 EMR 管理控制台进行大数据组件部署和后续集群的使用、运维和管理等操作。
实例设置

节点选型配置

  • Master 实例 :主要负责 ResourceManager 和 NameNode 等控制进程的部署。

    • Master 节点数量:普通集群默认 1 台;Hadoop高可用集群默认 3 台,Flink、Presto等高可用集群默认开启 2 台。

    • 机型选择:支持选择计算型、通用型、内存型三种机型,根据需要选取适用的实例规格。不同机型区分详见云服务器实例规格介绍

    • 系统盘:用来存储云服务器运行的操作系统,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:60~2048 GB。

    • 数据盘:用于存储应用数据,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:容量范围:60~32768 GB。

    云盘性能详见云盘规格

  • Core实例 :主要负责集群所有数据的存储,创建集群完成后也支持按需进行扩容。

    • Core数量:默认2台,根据需要调整。

    • 机型选择:支持选择计算型、本地 SSD 型、通用型、内存型、大数据型五种机型,根据需要选取适用的实例规格。不同机型区分详见云服务器实例规格介绍

    • 系统盘:用来存储云服务器运行的操作系统,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:60~2048 GB。

    • 数据盘:用于存储应用数据,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:容量范围:60~32768 GB。

    云盘性能详见云盘规格

  • Task实例 :不保存数据,调整集群的计算力使用。默认不开启,需要时可自行添加,最高可添加 5个 Task 节点组。

  • 挂载公网:支持给 Master、Core、Task 节点组开启挂载公网 IP,集群初始化时自动开通并生成公网 IP,配置在集群节点组上。如果选择不开启挂载公网,则无法通过公网 IP 访问集群。

硬件配置完成后,单击 下一步,进行集群其他基础设置。

3.3 其他设置

配置项说明
基础信息
集群名称集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。
访问凭证该凭证用于远程登陆集群 master 节点的 ECS 机器,您可选择密钥对或密码方式登录。

密钥对/密码

  • 密钥对:下拉选择已创建成功的密钥对,或单击创建密钥对前往控制台创建,使用详见密钥对概述

  • 密码:输入集群 Master 节点登录密码,8-30个字符,至少包含大写字母、小写字母、数字中的两种,且至少包含一个特殊字符。

高级设置

引导操作

在集群启动时执行引导操作脚本,可以引导操作自定义集群环境,如您需要在 EMR 集群中部署安装第三方组件,可以在集群中的 EMR 组件服务部署前或部署后运行引导操作,自定义集群环境。
详见引导操作

添加用户

集群创建时,添加 IAM 用户到集群中,作为集群账号,该用户可用于访问开源大数据软件 WebUI 或在访问开启 LDAP 认证的组件时进行认证,集群创建完成后可在控制台用户管理模块查看和编辑该用户。
详见用户管理

集群角色IAM 角色为 EMR 集群上的 ECS 提供调用访问 TOS 的资源权限。详见角色授权管理
持久化History Server持久化 History Server 支持监控集群活动。活动数据存储于集群外,集群和组件服务状态的变化不影响使用。当前支持30天内的活动信息查询。

标签

标签由区分大小写的键值对组成,设置的标签将应用在本次创建的全部实例和云盘。
您可以选择已有标签;或直接输入创建新的标签,按回车确认。

集群所属项目

如果您需要将新建的集群分配至新的项目中,可下拉进行选择,或前往火山访问控制中心新建项目
详见火山项目资源管理

集群其他设置完成后,单击 下一步,进行集群整体预览确认。

3.4 预览确认

确认项描述
集群信息提供并确认创建集群设置的集群名称、元数据选择、部署地区、公网IP等信息。
付费类型选择的集群付费类型确认。
软件设置提供产品版本、集群类型、部署选项、必选服务、可选服务等软件信息确认。
网络配置可用区、VPC、子网安全组等信息确认。
实例配置Master、Core 及 Task 节点的数量、规格及磁盘类型及数量确认。
高级配置开启自定义配置、引导操作、IAM 用户 等集群高级配置的信息确认。

预览确认后,右下角勾选“我同意 EMR 服务条款”选项,单击立即创建,完成订单支付步骤,即可进入集群控制台 > 集群列表查看创建的集群,待集群状态更新为运行中,即代表创建成功。

4 快速创建集群

集群创建也支持快速创建模式,在创建集群界面,右上角选择快速创建:

  1. 完成相应软件配置、付费设置、可用地区、网络配置、实例设置、基础信息等参数配置。

  2. 勾选服务条款,单击立即创建按钮,即可快速创建集群。