You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
StarRocks分析型数据库引擎
StarRocks SQL 任务
复制全文
StarRocks SQL 任务

StarRocks 是一款高性能分析型数据仓库,广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。您无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析, 让您的数据分析变得更加简单和敏捷。
使用StarRocks,您可以灵活构建包括大宽表、星型模型、雪花模型在内的各类模型,兼容 MySQL 协议,支持标准 SQL 语法,便于您对接使用。
下文将为您介绍通过 DataLeap 创建StarRocks 节点,使用 SQL 语句,周期性的在 StarRocks 集群中进行数据加工、查询、分析等操作。

使用前提

新建DataLeap项目时,已在引擎服务绑定设置中,勾选StarRocks高性能分析型数据仓库引擎。操作详见“新建项目”。

新建任务

  1. 登录DataLeap控制台。
  2. 选择数据开发 > 任务开发,进入任务开发页面。
  3. 单击新建任务 > 数据开发 > StarRocks引擎类型按钮。
  4. 选择离线数据StarRocks SQL任务。
  5. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。
    2. 保存至: 选择任务存放的目标文件夹目录。
      Image
  6. 单击确定按钮,完成任务创建。

任务配置

任务创建完成后,您便可进入StarRocks SQL任务编辑界面,在配置界面中您可按需编写StarRocks支持的SQL语法。

  1. 编辑任务
    在代码编辑器界面,输入对应 StarRocks SQL语句,示例如下:

    说明

    在一个 StarRocks SQL节点中,当节点中存在多个Query时,仅执行最后一个Query并返回相应结果。

    --创建 StarRocks 数据库;
    CREATE DATABASE IF NOT EXISTS emr_sr_x; 
     
    --创建数据表
    DROP TABLE IF EXISTS emr_sr_x.sr_test_table;
    CREATE TABLE IF NOT EXISTS emr_sr_x.sr_test_table
    (
        event_day DATE,
        siteid INT DEFAULT '10',
        city VARCHAR(32) DEFAULT '',
        username VARCHAR(32) DEFAULT '',
        pv BIGINT SUM DEFAULT '0'
    )
    AGGREGATE KEY(event_day, siteid, city, username)
    PARTITION BY RANGE(event_day)
    (
        PARTITION p201706 VALUES LESS THAN ('2020-07-01'),
        PARTITION p201707 VALUES LESS THAN ('2020-08-01'),
        PARTITION p201708 VALUES LESS THAN ('2020-09-01')
    )
    DISTRIBUTED BY HASH(siteid) BUCKETS 10
    PROPERTIES("replication_num" = "1");
     
    --清空表中历史数据
    TRUNCATE TABLE emr_sr_x.sr_test_table;
     
    --插入新数据
    insert into emr_sr_x.sr_test_table VALUES ('2020-07-11',27,'天津市丽县', '张三',1669);
     
    --查询 StarRocks 表中数据
    SELECT * FROM emr_sr_x.sr_test_table;
    
  2. 格式化StarRocks SQL语句
    代码编辑区编写完对应 SQL 语句后,您可单击上方导航栏功能区中的格式化按钮,依据在“个性化设置”中的 SQL 格式化风格的设置,格式化编辑完成的代码,使其语法结构看起来简洁明了。

  3. 调度设置
    任务配置完成后,在右侧导航栏中,单击调度配置按钮,配置调度设置相关参数,便可进行StarRocks SQL任务周期性调度。调度设置说明详见“调度设置”。

  4. 依赖关系
    设置任务上游依赖,可通过依赖推荐手动添加的方式进行设置。依赖推荐方式说明如下:
    例如 SQL 代码示例为:

    INSERT INTO new_employees (id, name, department, salary)
    SELECT  id,
            name,
            department,
            salary
    FROM    employees
    WHERE   department = 'IT';
    

    Image
    调度设置界面,单击依赖推荐后,便可自动返回 employees 表所在的任务,作为上游依赖项。

  5. 任务输入输出参数
    通过配置依赖任务,支持将上游任务的输出参数当作下游任务的输入参数。

    1. 设置 StarRocks SQL 任务的输出参数
      在任务输出参数中,通过勾选使用“将执行结果当做输出”,便会自动生成 outputs 输出参数名称。
      Image
      此时,当前任务中的 SQL 执行完成后,便会收集最后一行 select 的输出。
    2. 下游 Shell 任务中,设置任务的依赖关系,将 StarRocks SQL 任务设置为上游依赖。
      Image
    3. 将依赖上游任务的输出参数当作当前任务的输入。
      Image
      同时也支持添加更多系统支持的全局变量作为输入参数,全局变量参数说明详见输出参数
    4. 输入参数在任务中的使用方式
      通过{{参数名}}在任务中引用输入参数,具体使用效果如下:
      Image
      执行结果参考如下:
      Image

查询控制台

  1. 调试任务
    任务代码逻辑和参数配置完成后,您可在编辑器上方,单击操作栏中的保存调试按钮,进行任务调试。

    说明

    调试操作,直接使用线上数据进行调试,需谨慎操作。

  2. 调试记录
    调试任务开始运行后,可在下方查看调试记录,您也可以查看任务的历史运行记录,包括状态、业务日期、开始时间、结束时间、耗时、提交人等。
    单击调试记录,可以查看以下详情内容:
    • 结果:展示代码执行后的查询结果。

      说明

      因结果页预览数据以及项目安全设置均存在限制,查询结果显示数据可能小于实际数据量。建议按如下处理方式:

      • 前往项目控制台,调整项目数据安全设置上限。
      • 项目管理控制台 > 项目配置 > 项目管控 > Select查询结果设置处,勾选允许下载,您便可在查询结果区域单击下载按钮,下载完整数据至本地查看。

      详见“新建项目”。

    • 概览:查看运行结果的代码。
    • 日志:查看运行详情,可下载日志。

提交任务

调试结果无误后,单击提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:提交上线

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 如果租户项目管理员在项目控制台>流水线管理中启用了流水线流程校验,则您需要确保提交的任务符合流水线扩展程序的校验规则,才能成功提交。详见4 流水线管理

后续任务运维操作详见:离线任务运维

最近更新时间:2025.07.02 17:59:03
这个页面对您有帮助吗?
有用
有用
无用
无用