最近更新时间:2023.03.15 13:42:45
首次发布时间:2022.12.21 11:34:52
火山引擎 E-MapReduce(EMR)集群中提供 Hue 对接 Ooize 的使用,可以在 Hue 中设计 Oozie 的工作流。
适合 EMR 2.x 版本,且要求是 2.1.0 以后的版本(包括 EMR 2.1.0)。详见版本概述。
已创建 EMR 集群,且安装有 Oozie 组件。有两种方式可以安装Oozie组件:
集群的访问链接需要 emr-master-1 节点的 ECS ID 实例绑定弹性公网IP。详见绑定公网IP。
需要在集群详情 > 访问链接 > 快速配置服务端口中,给源地址和对应端口添加白名单才可继续访问。
目前 Oozie 组件以白名单形式向您开放,您可通过提工单的方式,请 EMR 支持人员进行开通。
说明
在开启 Ranger 权限管理的集群上,设计 Oozie 工作流时,需要为 Hue UI 的登录用户授予相应的权限。举例:配置 Spark 任务时,需要为 Spark 任务配置 Yarn 组件中 application 的提交权限。可参考 Yarn 集成。
准备 Spark 任务。将 spark-examples jar 上传到 HDFS 上:
su hdfs -c ' hdfs dfs -put /usr/lib/emr/current/spark/examples/jars/spark-examples_*.jar /user/hue hdfs dfs -chown hue /user/hue/spark-examples*jar '
在 Hue 页面上创建 workflow:
拖动 Spark 任务:
输入 Main class:org.apache.spark.examples.SparkPi, 并点击保存按钮
点击运行按钮。
在 Job 菜单中查看任务运行情况:
准备 Hive 的 sql 脚本,并上传到 HDFS 上。将下面的 sql 语句放在 master-1 节点上的/tmp/hivetest.sql
文件中:
CREATE TABLE IF NOT EXISTS oozie_hive_test_table_1(i INT); INSERT INTO oozie_hive_test_table_1 VALUES(0); SELECT * FROM oozie_hive_test_table_1;
然后执行下面命令,将 /tmp/hivetest.sql 文件上传到 HDFS 上:
su - hue -c 'hdfs dfs -put /tmp/hivetest.sql /user/hue'
在 HUE UI 上配置 Hive 作业:
HiveServer2 URL
格式如下:jdbc:hive2://emr-master-1:10000
,需要按照实际情况修改。Password
是指 hue 用户的密码,对应 EMR 集群 OpenLdap 组件服务参数 hue_password 的值,您可前往集群详情 > 服务列表 > OpenLdap 组件服务 > 服务参数 中查看。进行保存
执行 Hive 任务: