You need to enable JavaScript to run this app.
导航
创建并运行作业
最近更新时间:2023.11.27 14:22:05首次发布时间:2021.09.01 17:27:34

本文将为您介绍如何通过火山引擎 E-MapReduce(EMR),在已创建的集群上创建并执行作业。

1 前提条件

  1. 已创建 EMR-Hadoop 的集群类型,详见创建集群

  2. 需要在集群详情 > 访问链接 > 快速配置服务端口中,给源地址和对应端口添加白名单才可继续访问。

2 创建并运行作业

下文将通过三种作业提交方式,来创建并运行作业:

  • 通过 EMR 内置开源组件 HUE 服务,进行作业提交并执行。

  • 使用本地终端工具命令行工具,进行作业提交并执行。

  • 通过开通一站式大数据研发治理套件(DataLeap),通过可视化方式完成作业开发。

2.1 通过 HUE 组件服务创建作业

  1. 登录 EMR 控制台

  2. 在左侧导航栏中,进入集群列表 > 集群名称详情 > 访问链接, 点击 HUE UI 访问链接进入。

    注意

    若访问链接不能点击,请检查 Hue 所在 ECS 实例是否绑定弹性公网IP,详见访问链接

  3. 在窗口输入 Hue 登录的用户名和密码。

说明

  1. Hue 已默认接入了 LDAP 鉴权,所以您可以通过查看 LDAP slapd.conf 配置信息,来获取登录所需的用户名和密码:
    1. 获取路径:集群详情 > 服务列表 > OpenLDAP > 服务参数。
    2. 在搜索框中搜索 hue_admin、hue_password 参数名称,获取对应参数值。
  2. 这里建议用 Hue 账户登陆。首次登陆后,登录成功的账户会自动设置成为 superuser 账户。若后续需要其他账户使用 Hue,您可以在 LDAP 中预先添加相应账户,详见 OpenLDAP 使用说明
  1. 进入 Hue 界面后,您可进行后续的创建作业并运行,具体实践详见 Hue 最佳实践

2.2 登陆命令行创建作业

  1. 获取 master 实例节点的公网 IP 地址:

    1. 登录 EMR 控制台

    2. 在左侧导航栏中,进入集群列表 > 集群名称详情 > 服务列表 > Spark > 展开 Spark Client,获取公网 IP 信息。

  2. 在本地使用终端工具命令行 SSH 方式运行如下命令登录主节点:ssh root@[主节点公网IP地址]。详见登陆集群

  3. 使用命令行方式进行 SPARK 作业提交:

    说明

    Spark Jar 资源,在不同集群版本中,镜像路径会不一致,其余集群版本可根据实际情况进行替换。更多版本操作详见 Spark-快速开始
    以下提交命令,以 3.X 集群版本为例。

    spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 512m --executor-memory 512m --executor-cores 1 /usr/lib/emr/current/spark/examples/jars/spark-examples_2.12-3.2.1.jar
    

    部分重要任务参数说明如下:

    参数样例备注
    driver-memory512mdriver程序使用的内容,最大不可超过该节点的总内存资源
    num-executors3并行executor个数
    executor-memory512m单个executor使用的内存大小,最大不可超过该节点的总内存资源
    executor-cores1单个executor的并行数
    classorg.apache.spark.examples.SparkPi程序入口类
    masteryarn程序执行模式,可选yarn,yarn-client
  4. 完成作业提交后,您可通过 YARN UI 访问链接查看作业运行状态和历史作业记录:

    1. 进入集群列表 > 集群名称详情 > 访问链接 > YARN ResourceManager UI,单击访问链接进入 YARN UI 界面,详见访问YARN UI

2.3 通过 DataLeap 创建作业

一站式大数据研发治理套件(DataLeap),帮助您快速完成数据集成、数据开发、运维、治理、安全等全套数据中台建设,来帮助企业提升数据研发效率,降低运维管理成本。DataLeap 项目可通过绑定 EMR 引擎实例的方式,来创建 EMR 作业并运行。

  1. 使用租户主账号开通 DataLeap 产品,并授予云资源相应角色权限。详见开通服务

  2. 进入 DataLeap 控制台,在左侧导航栏中单击项目管理 > 创建项目,进行项目创建。


      在创建项目界面,完成项目基础信息、项目管控、服务绑定等配置信息。
      其中,在服务绑定-引擎绑定项,您需勾选 E-MapReduce 引擎服务,并在下拉框中,选择已创建的集群名称信息。其余配置信息,详见新建项目

    注意

    EMR 实例首次绑定 DataLeap 项目时,需打开 EMR 实例所在安全组的访问权限,方可继续选择 Yarn 队列。详见如何开放EMR实例所在安全组的访问权限?

  3. 项目创建完成后,您可以在 DataLeap 控制台上进行 EMR 作业的数据开发、任务运维监控、元数据采集等相关操作。完整详见 DataLeap on EMR 快速入门

    相关模块功能描述如下,详见各功能指导文档:

    模块描述指导文档

    数据开发

    您可以根据实际业务场景,选择创建合适的 EMR 节点类型进行作业开发。

    任务运维提供线上任务的管理运维操作,支持离线、流式的任务运维;通过配置监控规则,实现对任务运行状态的监控。数据运维概述

    数据质量

    提供对离线、流式数据产出表的数据质量监控。
    通过配置模板规则、自定义规则方式,来监控表数据量、数据个性化指标的波动及异常报警,数据内容探查及差异对比等能力,保证了数据在生产及使用流程中的可靠性和合理性,从而避免因为数据质量问题而导致数据失信、决策失误。

    数据质量概述

    数据地图元数据

    通过元数据采集方式可视化管理 EMR 元数据,您可以在数据地图中查看 EMR 表数据、血缘图谱等。