You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
离线数据集成
StarRocks任务配置
复制全文
StarRocks任务配置

StarRocks数据源为您提供读取和写入StarRocks的双向通道数据集成能力,实现不同数据源与StarRocks之间进行数据传输。
下文为您介绍StarRocks数据同步的能力支持情况。

StarRocks数据源注册

您可在数据开发 > 数据源管理中进行配置注册,相关操作可参见“注册数据源”。

任务配置

任务新建完成后,进入任务配置页面,您可根据实际场景,配置StarRocks离线读StarRocks离线写等通道任务。

  1. 选择数据源

    • StarRocks离线读
      数据来源选择StarRocks,并完成以下相关参数配置:
      其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

      参数

      说明

      *数据源类型

      数据来源类型选择为StarRocks,您可下拉选择或输入关键词StarRocks进行搜索。

      *数据源名称

      已在数据源管理中注册成功的StarRocks数据源,下拉可选。
      若还未建立相应数据源,可单击数据源管理按钮,前往创建StarRocks数据源。

      *数据库

      下拉选择需要读取数据的数据库名称信息,仅展现当前 StarRocks 数据源连接信息下的数据库名称。

      *数据表

      选择需要采集的数据表信息。

      数据过滤

      支持您将需要同步的数据进行筛选条件设置,只同步符合过滤条件的数据,可直接填写关键词 where 后的过滤 SQL 语句,例如:create_time > '${date}',不需要填写 where 关键字。
      语句填写完成后,您可单击右侧的校验按钮,进行过滤语句校验。

      说明

      • 该过滤语句通常用作增量同步,暂时不支持 limit 关键字过滤,其 SQL 语法需要和选择的数据源类型对应。
      • 过滤语句中支持时间参数 ${data}、项目变量参数 {{var}} 等参数配置。更多时间参数说明详见调度参数说明、项目变量参数配置详见参数管理

      切分建

      根据源端数据中某一列作为切分键,进行数据分片,建议使用主键或有索引的列作为切分键:

      • 如果表没有主键或者索引列,可以不配置该字段,同步任务不会进行分片,并以单并发的方式同步所有的数据;
      • 建议使用主键或有索引的列作为切分键,切分键配置没有索引的列同步任务会比较慢。

      说明

      目前仅支持类型为整型或字符串的字段作为切分建。

    • StarRocks离线写
      数据目标端选择StarRocks,并完成以下相关参数配置:
      其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

      参数

      说明

      *数据源类型

      数据去向目标类型,您可下拉选择或输入关键词StarRocks进行搜索。

      *数据源名称

      已在数据源管理界面注册的StarRocks数据源,下拉可选。
      若还未建立相应数据源,可单击数据源管理按钮,前往创建StarRocks数据源。

      *数据库

      下拉选择需要写入数据的数据库名称信息,仅展现当前 StarRocks 数据源连接信息下的数据库名称。

      *数据表

      数据源下所属需数据写入的表名,下拉可选。

      • 一键建表:当源端为 MySQL、Oracle、SQLServer、PostgreSQL、GaussDB、StarRocks 时,若目标 StarRocks 表还未创建,且源端已选定需要采集的表和字段时,可通过单击“一键建表”按钮,依据对源端采集的字段信息,快速进行目标表的创建。

        说明

        您可根据实际情况,在一键建表窗口中进行建表语句修改,如修改表名、字段名/类型、是否为分区表等。

      • 修改数据表:若源端采集的字段存在更新情况时,您可单击修改数据表按钮,及时对目标表字段进行快速修改。

      *分区类型

      根据目标表分区情况,您可选择将数据写入静态分区或动态分区类型:

      • 静态分区:根据所选目标库表,自动获取表分区字段信息,包含无分区表。您可根据业务时间,自定义设置分区内容值,可设置具体的时间分区粒度,支持表达式形式,如 ${date}、${hour} 等参数变量表示。更多时间变量参数设置详见“调度参数说明”。
      • 动态分区:即根据源端字段值内容,进行动态写入,动态分区值必须存在于源端 Columns 中,选择动态分区类型后,便可自动将表分区字段,加入到下方字段映射中。

      写入前准备语句

      在执行该数据集成任务前,需要率先执行的SQL语句,通常是为了使任务重跑时支持幂等。
      例如您可以通过填写语句,清空表中的某些旧数据,清空完成后,再执行集成任务写入新的数据。如删除 date='${date}' 的数据:delete from table_name where date='${date}'

      说明

      只允许执行一条写入前准备语句。

      写入后准备语句

      执行数据同步任务之后执行的 SQL 语句。例如写入完成后插入某条特殊的数据,标志导入任务执行结束。

      说明

      只允许执行一条写入后准备语句。

      *数据写入方式

      下拉选择数据写入StarRocks的方式,目前仅支持Stream Load写入方式。

  2. 设置字段映射信息
    字段为一一映射关系,即将源表字段信息,同步到同一行的目标字段信息中。数据源在选择好来源和目标数据源信息后,您可通过转换模式和基础模式方式来配置字段映射关系。操作详见“字段映射配置”。

  3. 高级参数
    您可选择是否开启高级参数设置,参数说明详见“高级参数设置”。

  4. 调度设置
    单击右侧侧边栏的调度设置,配置相关调度设置参数。调度设置说明详见“调度设置”。

  5. 任务调试
    参数配置完成后,可单击调试按钮 ,在弹出的窗口中,选择业务日期进行调试,调试结果/日志可在页面查看。

  6. 单击保存图标,完成草稿保存。

最近更新时间:2026.02.04 10:41:49
这个页面对您有帮助吗?
有用
有用
无用
无用