HSQL任务--大数据研发治理套件（私有化）-火山引擎

文档中心

大数据研发治理套件（私有化）

Apache Hadoop/MiniBase Hadoop

HSQL任务

通过SQL语句，从源Hive、 TBDS、EMR 或 MRS 引擎下的表中获取待加工数据，完成后写入目标表，支持多种执行引擎。

说明

DataLeap数据开发已接入Apache Hadoop、Apache Hadoop-TBDS、Apache Hadoop-EMR、Apache Hadoop-MRS、MiniBase Hadoop 引擎数据开发能力，支持您在数据开发任务中，通过创建 SQL 任务类型，来实现对数据库表任务的周期性调度操作或手动执行运维等能力，提高作业的执行效率。
项目控制台中绑定不同的 Apache Hadoop 版本说明如下：

Apache Hadoop 集群版本为 3.3.1-mrs 时，即适配您华为云中的 mrs 集群信息。此集群版本下仅支持创建执行 HSQL、Spark Jar 任务类型。
Apache Hadoop 集群版本为 3.2.2 时，您可配置 TBDS、EMR、LAS 3.2 集群信息。该集群信息版本下仅支持创建执行 HSQL、Spark Jar、Native Flink Streaming SQL、Native Java Flink 任务类型。

下文将为您介绍如何创建HSQL任务类型节点进行数据开发。

使用前提

使用 Apache Hadoop LAS 3.2 集群类型，并选择 Spark 作为执行引擎时，DataLeap 平台可适配 LAS Ranger 能力，您需要先在管理控制台 > 集群管理 > 集群配置中添加 Ranger 配置项。操作详见集群管理。

新建任务

登录 DataLeap 控制台。
在任务开发界面，单击新建任务 > 数据开发 > Apache Hadoop/MiniBase Hadoop 引擎类型按钮。
关联实例默认展现项目控制台已绑定的 Apache Hadoop/MiniBase Hadoop 引擎实例。
选择离线数HSQL任务。
填写任务基本信息：
1. 任务名称：输入任务的名称，只允许字符.、字母、数字、下划线、连字符、[]、【】、（）、()以及中文字符，且需要在127个字符以内。
2. 保存至：选择任务存放的目标文件夹目录。
单击确定按钮，完成任务创建。

任务配置

HSQL任务新建完成后，进入HSQL语句编辑页面，进行以下操作：

编辑任务相关SQL逻辑，示例代码如下：

说明

若您使用 Apache Hadoop LAS 3.2 集群类型，并选择 Spark 作为执行引擎时，DataLeap 平台可适配 LAS Ranger 能力，子用户执行 SQL 的权限控制会与 LAS 引擎侧保持一致。建议您留意子用户已拥有的权限是否符合预期。

//方式1静态分区,场景：根据数据到来的频率，新数据的到来时间确定，分区的值是确定的。
insert overwrite table 目标db.目标表名 partition (date = "${date}")
select
    name,
    age
from
    源库名.源表名
where
    date = "${date-1}"
 
//方式2动态分区，谨慎使用，根据已有数据进行动态分区，分区的值是非确定的。
insert overwrite table 目标db.目标表名 partition (p_date,app)
select
    user_id,
    date as p_date,
    app_name as app//分区字段
from
    源库名.源表名
where
    date = "${date-1}"

在编辑区上方的功能区中，您可进行SQL格式化、解析、任务模板、表管理等操作：

序号	功能	说明
1	运行	代码编辑完成并解析成功后，您可单击运行按钮，即可执行查询。
2	格式化	对当前节点中输入的SQL代码进行格式化排列，常用于单行代码过长的情况。
3	解析	解析检查书写的HSQL代码的语法和语义正确性，运行前检查语法错误信息，防止运行出错。
4	表管理	若数据需要存入Hive表，且Hive表尚未创建，则编写完SQL语句后，可单击表管理 > 快速建表按钮，进入数据地图新建Hive数据表页面，可基于解析代码快速填充建表页面。
5	执行引擎	不同集群类型下支持的执行引擎不同：普通 MiniBase Hadoop 引擎下仅支持 Spark 执行引擎。 Apache Hadoop 引擎，可根据不同的集群连接方式，支持选择 Spark、Tez、Presto 或 Kyuubi 执行引擎。集群连接配置详见集群管理。
6	参数说明	代码中可使用时间变量说明，如 ${DATE}、${hour}等；若右侧调度设置中，已添加调度日历时，也可使用${calendar_day}调度日历专属参数。详见“‎调度参数说明”。
7	结果页	代码执行成功后，在下方展现调试记录、查询结果、查询日志等信息。
8	结果页操作	运行成功后，查询结果会以Excel形式展现，无需跑多段代码，您便可在此对查询数据结果进行操作和分析。更多结果页功能说明，详见“运行任务”

代码编辑完成后，您可单击右侧侧边栏的调度设置，配置调度设置参数。调度设置说明详见“调度设置”。

任务调试

代码逻辑和参数配置完成后，您可以在界面进行调试操作。
在编辑器上方，依次单击保存、调试按钮，等待调试完成。在下方调试记录左侧，您可通过选择调试状态，筛选出不同调试状态下的历史运行记录。

注意

调试操作，直接使用线上数据进行调试，需谨慎操作。
如果项目中添加了相关的建表规范管理，则HSQL语句中，包含建表逻辑，且创建的表在建表规范生效范围内时，您在对任务的解析、运行或提交时，会触发相应的建表规范检查。建表规范操作说明请参见“数仓建表规范管理”。
如果项目管理员在项目控制台>流水线管理中启用了流水线流程校验，则您需要确保提交的任务符合流水线扩展程序的校验规则，才能成功提交。详见配置流水线。

在调试记录左侧，您可通过选择调试状态，筛选出不同调试状态下的历史运行记录。
- 鼠标移动至调试记录上，可查看包括状态、业务日期、提交人等信息。
- 双击调试记录，您还可编辑调试名称信息，并回车保存。
单击调试记录，在调试记录右侧，可以查看运行记录的执行日志、结果等详细信息：
- 概览：查看运行结果的概览情况，包括调试业务日期、执行时长和运行代码等信息。
- 执行日志：查看任务执行日志详情，可在此处查看 Spark 引擎对应的 JobManager 和 Driver 日志详情信息。并可在日志详情中，按需进行日志的类型选择、日志时间范围选择、日志关键字搜索及日志下载等操作。
  说明
  目前仅 Apache Hadoop 集群下的 Spark、HSQL 任务类型支持查看执行日志。
- 结果：查看运行代码后，查询的结果信息。

提交任务

调试结果无误后，单击提交上线按钮，在提交上线对话框中，选择回溯数据、监控设置、提交设置等参数，最后单击确认按钮，完成作业提交。提交上线说明详见：提交上线。

注意

调试操作，直接使用线上数据进行调试，需谨慎操作。
如果租户项目管理员在项目控制台>流水线管理中启用了流水线流程校验，则您需要确保提交的任务符合流水线扩展程序的校验规则，才能成功提交。详见4 流水线管理。

后续任务运维操作详见：离线任务运维。

智能代码编辑器介绍

HSQL任务编辑器支持智能联想及补全能力。编写SQL时自动触发智能联想库名/表名/字段名称，提升SQL编辑效率。

编写SQL自动触发库名/表名/字段名称联想。
联想内容输入Tab触发库名/表名/字段名自动补全。
鼠标Hover表名/字段名显示详情说明，如字段名称、类型、说明等，同时提供快速入口跳转至数据地图，查看表详情。
支持快捷操作“键盘cmd+鼠标click表名”的方式，自动跳转至数据地图表详情页。

最近更新时间：2025.10.10 20:47:59

这个页面对您有帮助吗？

有用

无用

大数据研发治理套件（私有化）

使用前提 #

新建任务 #

任务配置 #

任务调试 #