You need to enable JavaScript to run this app.
湖仓一体分析服务 LAS 私有化

湖仓一体分析服务 LAS 私有化

复制全文
快速入门
创建并运行作业
复制全文
创建并运行作业

本文将为您介绍如何通过火山引擎 LAS 湖仓一体分析平台,在已创建的集群上创建并执行作业。

前提条件

  1. 已创建 LAS 的集群类型,详见创建集群
  2. 确认集群、浏览器网络、提交任务的主机网络连通性。

创建并运行作业

下文将通过三种作业提交方式,来创建并运行作业:

  • 通过 LAS 内置开源组件 HUE 服务,进行作业提交并执行。
  • 使用本地终端工具命令行工具,进行作业提交并执行。

通过 HUE 组件服务创建作业

  1. 登录 LAS 控制台。
  2. 在左侧导航栏中,进入集群列表 > **集群名称详情 > 访问链接,**点击 HUE UI 访问链接进入。若访问链接不能点击,请检查网络是否联通。
  1. 在窗口输入 Hue 登录的用户名(默认 admin 用户)和密码。

说明

Hue 已默认接入了 LDAP 鉴权,所以您可以通过查看 LDAP slapd.conf 配置信息,来获取登录所需的用户名和密码:

  • 获取路径:集群详情 > 服务列表 > OpenLDAP > 服务参数。
  • 在搜索框中搜索 hue_admin_password 参数名称,获取对应参数值。
  1. 进入 Hue 界面后,您可进行后续的创建作业并运行,具体实践详见通过 HUE 进行数据查询

登陆命令行创建作业

  1. 获取 Master 实例节点的公网 IP 地址:
    1. 登录 LAS 控制台。
    2. 在左侧导航栏中,进入集群列表 > 集群名称详情 > 服务列表 > Spark > 展开 Spark Client,获取访问 IP 信息。
  1. 在本地使用终端工具命令行 SSH 方式运行如下命令登录主节点:ssh root@[主节点 IP 地址]。详见登录集群
  2. 使用命令行方式进行 SPARK 作业提交:

说明

Spark Jar 资源,在不同集群版本中,镜像路径会不一致,其余集群版本可根据实际情况进行替换。更多版本操作详见 Spark-快速开始
以下提交命令,以 3.X 集群版本为例。

sudo su emr
source ~/.profile 
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 512m --executor-memory 512m --executor-cores 1 /usr/lib/emr/current/spark/examples/jars/spark-examples_2.12-3.2.1-bd1-SNAPSHOT.jar

部分重要任务参数说明如下:

参数

样例

备注

driver-memory

512m

driver 程序使用的内容,最大不可超过该节点的总内存资源

num-executors

3

并行 executor 个数

executor-memory

512m

单个 executor 使用的内存大小,最大不可超过该节点的总内存资源

executor-cores

1

单个 executor 的并行数

class

org.apache.spark.examples.SparkPi

程序入口类

master

yarn

程序执行模式,可选 yarn,yarn-client

  1. 完成作业提交后,您可通过 YARN UI 访问链接查看作业运行状态和历史作业记录:
    1. 进入集群列表 > 集群名称详情 > 访问链接 > YARN ResourceManager UI,单击访问链接进入 YARN UI 界面,详见访问 YARN UI

Image

最近更新时间:2025.04.01 20:13:38
这个页面对您有帮助吗?
有用
有用
无用
无用