You need to enable JavaScript to run this app.
导航
创建并运行作业
最近更新时间:2025.04.01 20:13:38首次发布时间:2024.11.12 16:54:06
我的收藏
有用
有用
无用
无用

本文将为您介绍如何通过火山引擎 LAS 湖仓一体分析平台,在已创建的集群上创建并执行作业。

前提条件

  1. 已创建 LAS 的集群类型,详见创建集群
  2. 确认集群、浏览器网络、提交任务的主机网络连通性。

创建并运行作业

下文将通过三种作业提交方式,来创建并运行作业:

  • 通过 LAS 内置开源组件 HUE 服务,进行作业提交并执行。
  • 使用本地终端工具命令行工具,进行作业提交并执行。

通过 HUE 组件服务创建作业

  1. 登录 LAS 控制台。
  2. 在左侧导航栏中,进入集群列表 > **集群名称详情 > 访问链接,**点击 HUE UI 访问链接进入。若访问链接不能点击,请检查网络是否联通。
  1. 在窗口输入 Hue 登录的用户名(默认 admin 用户)和密码。

说明

Hue 已默认接入了 LDAP 鉴权,所以您可以通过查看 LDAP slapd.conf 配置信息,来获取登录所需的用户名和密码:

  • 获取路径:集群详情 > 服务列表 > OpenLDAP > 服务参数。
  • 在搜索框中搜索 hue_admin_password 参数名称,获取对应参数值。
  1. 进入 Hue 界面后,您可进行后续的创建作业并运行,具体实践详见通过 HUE 进行数据查询

登陆命令行创建作业

  1. 获取 Master 实例节点的公网 IP 地址:
    1. 登录 LAS 控制台。
    2. 在左侧导航栏中,进入集群列表 > 集群名称详情 > 服务列表 > Spark > 展开 Spark Client,获取访问 IP 信息。
  1. 在本地使用终端工具命令行 SSH 方式运行如下命令登录主节点:ssh root@[主节点 IP 地址]。详见登录集群
  2. 使用命令行方式进行 SPARK 作业提交:

说明

Spark Jar 资源,在不同集群版本中,镜像路径会不一致,其余集群版本可根据实际情况进行替换。更多版本操作详见 Spark-快速开始
以下提交命令,以 3.X 集群版本为例。

sudo su emr
source ~/.profile 
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 512m --executor-memory 512m --executor-cores 1 /usr/lib/emr/current/spark/examples/jars/spark-examples_2.12-3.2.1-bd1-SNAPSHOT.jar

部分重要任务参数说明如下:

参数

样例

备注

driver-memory

512m

driver 程序使用的内容,最大不可超过该节点的总内存资源

num-executors

3

并行 executor 个数

executor-memory

512m

单个 executor 使用的内存大小,最大不可超过该节点的总内存资源

executor-cores

1

单个 executor 的并行数

class

org.apache.spark.examples.SparkPi

程序入口类

master

yarn

程序执行模式,可选 yarn,yarn-client

  1. 完成作业提交后,您可通过 YARN UI 访问链接查看作业运行状态和历史作业记录:
    1. 进入集群列表 > 集群名称详情 > 访问链接 > YARN ResourceManager UI,单击访问链接进入 YARN UI 界面,详见访问 YARN UI

Image