创建并运行作业--湖仓一体分析服务 LAS 私有化-火山引擎

文档中心

立即注册

导航

创建并运行作业

最近更新时间：2025.04.01 20:13:38首次发布时间：2024.11.12 16:54:06

本文将为您介绍如何通过火山引擎 LAS 湖仓一体分析平台，在已创建的集群上创建并执行作业。

前提条件

已创建 LAS 的集群类型，详见创建集群。
确认集群、浏览器网络、提交任务的主机网络连通性。

创建并运行作业

下文将通过三种作业提交方式，来创建并运行作业：

通过 LAS 内置开源组件 HUE 服务，进行作业提交并执行。
使用本地终端工具命令行工具，进行作业提交并执行。

通过 HUE 组件服务创建作业

登录 LAS 控制台。
在左侧导航栏中，进入集群列表＞ **集群名称详情＞访问链接，**点击 HUE UI 访问链接进入。若访问链接不能点击，请检查网络是否联通。

在窗口输入 Hue 登录的用户名（默认 admin 用户）和密码。

说明

Hue 已默认接入了 LDAP 鉴权，所以您可以通过查看 LDAP slapd.conf 配置信息，来获取登录所需的用户名和密码：

获取路径：集群详情＞服务列表＞ OpenLDAP ＞服务参数。
在搜索框中搜索 hue_admin_password 参数名称，获取对应参数值。

进入 Hue 界面后，您可进行后续的创建作业并运行，具体实践详见通过 HUE 进行数据查询。

登陆命令行创建作业

获取 Master 实例节点的公网 IP 地址：
1. 登录 LAS 控制台。
2. 在左侧导航栏中，进入集群列表＞集群名称详情＞服务列表＞ Spark ＞展开 Spark Client，获取访问 IP 信息。

在本地使用终端工具命令行 SSH 方式运行如下命令登录主节点：ssh root@[主节点 IP 地址］。详见登录集群。
使用命令行方式进行 SPARK 作业提交：

说明

Spark Jar 资源，在不同集群版本中，镜像路径会不一致，其余集群版本可根据实际情况进行替换。更多版本操作详见 Spark-快速开始。
以下提交命令，以 3.X 集群版本为例。

sudo su emr
source ~/.profile 
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 512m --executor-memory 512m --executor-cores 1 /usr/lib/emr/current/spark/examples/jars/spark-examples_2.12-3.2.1-bd1-SNAPSHOT.jar

部分重要任务参数说明如下：

参数	样例	备注
driver-memory	512m	driver 程序使用的内容，最大不可超过该节点的总内存资源
num-executors	3	并行 executor 个数
executor-memory	512m	单个 executor 使用的内存大小，最大不可超过该节点的总内存资源
executor-cores	1	单个 executor 的并行数
class	org.apache.spark.examples.SparkPi	程序入口类
master	yarn	程序执行模式，可选 yarn，yarn-client

完成作业提交后，您可通过 YARN UI 访问链接查看作业运行状态和历史作业记录：
1. 进入集群列表＞ 集群名称详情＞访问链接＞ YARN ResourceManager UI，单击访问链接进入 YARN UI 界面，详见访问 YARN UI。