通过SQL语句,从源Hive、 TBDS、EMR 或 MRS 引擎下的表中获取待加工数据,完成后写入目标表,支持多种执行引擎。
说明
DataLeap数据开发已接入Apache Hadoop、Apache Hadoop-TBDS、Apache Hadoop-EMR、Apache Hadoop-MRS、MiniBase Hadoop 引擎数据开发能力,支持您在数据开发任务中,通过创建 SQL 任务类型,来实现对数据库表任务的周期性调度操作或手动执行运维等能力,提高作业的执行效率。
项目控制台中绑定不同的 Apache Hadoop 版本说明如下:
下文将为您介绍如何创建HSQL任务类型节点进行数据开发。
使用 Apache Hadoop LAS 3.2 集群类型,并选择 Spark 作为执行引擎时,DataLeap 平台可适配 LAS Ranger 能力,您需要先在管理控制台 > 集群管理 > 集群配置中添加 Ranger 配置项。操作详见集群管理。
HSQL任务新建完成后,进入HSQL语句编辑页面,进行以下操作:
编辑任务相关SQL逻辑,示例代码如下:
说明
若您使用 Apache Hadoop LAS 3.2 集群类型,并选择 Spark 作为执行引擎时,DataLeap 平台可适配 LAS Ranger 能力,子用户执行 SQL 的权限控制会与 LAS 引擎侧保持一致。建议您留意子用户已拥有的权限是否符合预期。
//方式1静态分区,场景:根据数据到来的频率,新数据的到来时间确定,分区的值是确定的。 insert overwrite table 目标db.目标表名 partition (date = "${date}") select name, age from 源库名.源表名 where date = "${date-1}" //方式2动态分区,谨慎使用,根据已有数据进行动态分区,分区的值是非确定的。 insert overwrite table 目标db.目标表名 partition (p_date,app) select user_id, date as p_date, app_name as app//分区字段 from 源库名.源表名 where date = "${date-1}"
在编辑区上方的功能区中,您可进行SQL格式化、解析、任务模板、表管理等操作:
序号 | 功能 | 说明 |
|---|---|---|
1 | 运行 | 代码编辑完成并解析成功后,您可单击运行按钮,即可执行查询。 |
2 | 格式化 | 对当前节点中输入的SQL代码进行格式化排列,常用于单行代码过长的情况。 |
3 | 解析 | 解析检查书写的HSQL代码的语法和语义正确性,运行前检查语法错误信息,防止运行出错。 |
4 | 表管理 | 若数据需要存入Hive表,且Hive表尚未创建,则编写完SQL语句后,可单击表管理 > 快速建表按钮,进入数据地图新建Hive数据表页面,可基于解析代码快速填充建表页面。 |
5 | 执行引擎 | 不同集群类型下支持的执行引擎不同:
|
6 | 参数说明 | 代码中可使用时间变量说明,如 ${DATE}、${hour}等;若右侧调度设置中,已添加调度日历时,也可使用${calendar_day}调度日历专属参数。详见“调度参数说明”。 |
7 | 结果页 | 代码执行成功后,在下方展现调试记录、查询结果、查询日志等信息。 |
8 | 结果页操作 | 运行成功后,查询结果会以Excel形式展现,无需跑多段代码,您便可在此对查询数据结果进行操作和分析。更多结果页功能说明,详见“运行任务” |
代码编辑完成后,您可单击右侧侧边栏的调度设置,配置调度设置参数。调度设置说明详见“调度设置”。
代码逻辑和参数配置完成后,您可以在界面进行调试操作。
在编辑器上方,依次单击保存、调试按钮,等待调试完成。在下方调试记录左侧,您可通过选择调试状态,筛选出不同调试状态下的历史运行记录。
注意
说明
目前仅 Apache Hadoop 集群下的 Spark、HSQL 任务类型支持查看执行日志。
调试结果无误后,单击提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:提交上线。
注意
后续任务运维操作详见:离线任务运维。
HSQL任务编辑器支持智能联想及补全能力。编写SQL时自动触发智能联想库名/表名/字段名称,提升SQL编辑效率。