You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
Apache Hadoop/MiniBase Hadoop
HSQL任务
复制全文
HSQL任务

通过SQL语句,从源Hive、 TBDS、EMR 或 MRS 引擎下的表中获取待加工数据,完成后写入目标表,支持多种执行引擎。

说明

DataLeap数据开发已接入Apache Hadoop、Apache Hadoop-TBDS、Apache Hadoop-EMR、Apache Hadoop-MRS、MiniBase Hadoop 引擎数据开发能力,支持您在数据开发任务中,通过创建 SQL 任务类型,来实现对数据库表任务的周期性调度操作或手动执行运维等能力,提高作业的执行效率。
项目控制台中绑定不同的 Apache Hadoop 版本说明如下:

  • Apache Hadoop 集群版本为 3.3.1-mrs 时,即适配您华为云中的 mrs 集群信息。此集群版本下仅支持创建执行 HSQL、Spark Jar 任务类型。
  • Apache Hadoop 集群版本为 3.2.2 时,您可配置 TBDS、EMR、LAS 3.2 集群信息。该集群信息版本下仅支持创建执行 HSQL、Spark Jar、Native Flink Streaming SQL、Native Java Flink 任务类型。

下文将为您介绍如何创建HSQL任务类型节点进行数据开发。

使用前提

使用 Apache Hadoop LAS 3.2 集群类型,并选择 Spark 作为执行引擎时,DataLeap 平台可适配 LAS Ranger 能力,您需要先在管理控制台 > 集群管理 > 集群配置中添加 Ranger 配置项。操作详见集群管理

新建任务

  1. 登录 DataLeap 控制台。
  2. 在任务开发界面,单击新建任务 > 数据开发 > Apache Hadoop/MiniBase Hadoop 引擎类型按钮。
  3. 关联实例默认展现项目控制台已绑定的 Apache Hadoop/MiniBase Hadoop 引擎实例。
  4. 选择离线数HSQL任务。
  5. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。
    2. 保存至: 选择任务存放的目标文件夹目录。
      Image
  6. 单击确定按钮,完成任务创建。

任务配置

HSQL任务新建完成后,进入HSQL语句编辑页面,进行以下操作:

  1. 编辑任务相关SQL逻辑,示例代码如下:

    说明

    若您使用 Apache Hadoop LAS 3.2 集群类型,并选择 Spark 作为执行引擎时,DataLeap 平台可适配 LAS Ranger 能力,子用户执行 SQL 的权限控制会与 LAS 引擎侧保持一致。建议您留意子用户已拥有的权限是否符合预期。

    //方式1静态分区,场景:根据数据到来的频率,新数据的到来时间确定,分区的值是确定的。
    insert overwrite table 目标db.目标表名 partition (date = "${date}")
    select
        name,
        age
    from
        源库名.源表名
    where
        date = "${date-1}"
     
    //方式2动态分区,谨慎使用,根据已有数据进行动态分区,分区的值是非确定的。
    insert overwrite table 目标db.目标表名 partition (p_date,app)
    select
        user_id,
        date as p_date,
        app_name as app//分区字段
    from
        源库名.源表名
    where
        date = "${date-1}"
    
  2. 在编辑区上方的功能区中,您可进行SQL格式化、解析、任务模板、表管理等操作:
    Image

    序号

    功能

    说明

    1

    运行

    代码编辑完成并解析成功后,您可单击运行按钮,即可执行查询。

    2

    格式化

    对当前节点中输入的SQL代码进行格式化排列,常用于单行代码过长的情况。

    3

    解析

    解析检查书写的HSQL代码的语法和语义正确性,运行前检查语法错误信息,防止运行出错。

    4

    表管理

    若数据需要存入Hive表,且Hive表尚未创建,则编写完SQL语句后,可单击表管理 > 快速建表按钮,进入数据地图新建Hive数据表页面,可基于解析代码快速填充建表页面。

    5

    执行引擎

    不同集群类型下支持的执行引擎不同:

    • 普通 MiniBase Hadoop 引擎下仅支持 Spark 执行引擎。
    • Apache Hadoop 引擎,可根据不同的集群连接方式,支持选择 Spark、Tez、Presto 或 Kyuubi 执行引擎。集群连接配置详见集群管理

    6

    参数说明

    代码中可使用时间变量说明,如 ${DATE}、${hour}等;若右侧调度设置中,已添加调度日历时,也可使用${calendar_day}调度日历专属参数。详见“调度参数说明”。

    7

    结果页

    代码执行成功后,在下方展现调试记录、查询结果、查询日志等信息。

    8

    结果页操作

    运行成功后,查询结果会以Excel形式展现,无需跑多段代码,您便可在此对查询数据结果进行操作和分析。更多结果页功能说明,详见“运行任务

  3. 代码编辑完成后,您可单击右侧侧边栏的调度设置,配置调度设置参数。调度设置说明详见“调度设置”。

任务调试

代码逻辑和参数配置完成后,您可以在界面进行调试操作。
在编辑器上方,依次单击保存、调试按钮,等待调试完成。在下方调试记录左侧,您可通过选择调试状态,筛选出不同调试状态下的历史运行记录。

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 如果项目中添加了相关的建表规范管理,则HSQL语句中,包含建表逻辑,且创建的表在建表规范生效范围内时,您在对任务的解析运行提交时,会触发相应的建表规范检查。建表规范操作说明请参见“数仓建表规范管理
  • 如果项目管理员在项目控制台>流水线管理中启用了流水线流程校验,则您需要确保提交的任务符合流水线扩展程序的校验规则,才能成功提交。详见配置流水线
  • 在调试记录左侧,您可通过选择调试状态,筛选出不同调试状态下的历史运行记录。
    • 鼠标移动至调试记录上,可查看包括状态、业务日期、提交人等信息。
    • 双击调试记录,您还可编辑调试名称信息,并回车保存。
      Image
  • 单击调试记录,在调试记录右侧,可以查看运行记录的执行日志、结果等详细信息:
    • 概览:查看运行结果的概览情况,包括调试业务日期、执行时长和运行代码等信息。
    • 执行日志:查看任务执行日志详情,可在此处查看 Spark 引擎对应的 JobManager 和 Driver 日志详情信息。并可在日志详情中,按需进行日志的类型选择、日志时间范围选择、日志关键字搜索及日志下载等操作。

      说明

      目前仅 Apache Hadoop 集群下的 Spark、HSQL 任务类型支持查看执行日志。

      Image
    • 结果:查看运行代码后,查询的结果信息。

提交任务

调试结果无误后,单击提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:提交上线

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 如果租户项目管理员在项目控制台>流水线管理中启用了流水线流程校验,则您需要确保提交的任务符合流水线扩展程序的校验规则,才能成功提交。详见4 流水线管理

后续任务运维操作详见:离线任务运维

智能代码编辑器介绍

HSQL任务编辑器支持智能联想及补全能力。编写SQL时自动触发智能联想库名/表名/字段名称,提升SQL编辑效率。
Image

  1. 编写SQL自动触发库名/表名/字段名称联想。
  2. 联想内容输入Tab触发库名/表名/字段名自动补全。
  3. 鼠标Hover表名/字段名显示详情说明,如字段名称、类型、说明等,同时提供快速入口跳转至数据地图,查看表详情。
  4. 支持快捷操作“键盘cmd+鼠标click表名”的方式,自动跳转至数据地图表详情页。
最近更新时间:2025.10.10 20:47:59
这个页面对您有帮助吗?
有用
有用
无用
无用