最近更新时间:2023.07.03 19:37:43
首次发布时间:2021.09.14 11:21:01
数据集成使用的数据源,需要先在项目控制台下注册,数据集成同步支持的数据源类型,详见支持的数据源。
数据源需要在网络连通的前提下进行数据同步,相关说明详见配置网络连通 。
创建流式数据集成任务的步骤如下:
登录 DataLeap 租户控制台。
在左侧导航栏,单击项目管理,进入项目列表界面。
单击相应的项目名称,进入到数据开发界面。
在数据开发界面,单击目录树上新建任务按钮,进入新建任务界面。
选择任务类型:
分类:数据集成。
选择任务:流式集成。
填写任务基本信息:
任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。
保存至: 选择任务存放的目标文件夹目录。
单击确定按钮,完成任务创建。
新建流式集成任务完成后,需要配置相关任务信息,流式集成任务已支持可视化和脚本模式配置,操作步骤如下:
可视化配置
选择数据源。
选择数据来源信息。
选择需写入的目标数据源信息。
说明
部分数据源写入时,需要选择数据写入方式。针对不同的数据源,有不同的写入方式。
配置来源端和目标端字段的映射关系。
单击自动添加,可以根据数据源schema自动添加字段。部分数据源类型支持获取schema自动添加字段。
单击手动添加,可以添加一条空白的字段信息,手工输入字段名、类型等。
单击同名映射,可根据目标端/源端的字段添加情况,进行同名映射添加源端/目标端的字段信息。
说明
同名映射,仅部分数据源支持,如云原生消息引擎 BMQ 数据源。
单击删除全部,可以删除全部字段信息。
通过拖拽字段左侧的按钮,可以调整字段顺序。
注意
请注意列与列之间映射的字段类型是否数据兼容。
设置以下任务运行参数。
是否开启归档:选择开启归档后,可指定归档字段。
默认消费起始:当前任务启动时,对 Kafka 的默认消费位置。
高级参数:选择开启时,需要设置高级参数的 Key 和 value 值,可通过单行编辑模式和脚本编辑模式添加,例如以单行编辑模式添加流式集成任务的全局并发参数,您可参考以下配置:
说明
流式集成作业的默认全局并发为 MQ Partition 数量/4,若 MQ 流量较小时,可直接在任务高级参数中新增参数:job.common.global_parallelism_num = ${并发数}
,通过这种方式来指定任务全局并发,该参数最终决定会拉起多少 TaskManager 数量;若 Partition 数量很多,但整体流量不高的话,您也可以通过指定该参数,来节约任务实际执行资源。
脚本模式配置:
进入流式集成任务配置界面,单击上方工具栏中的切换至脚本模式按钮,进入脚本配置界面。
说明
可视化模式切换至脚本模式,将清空可视化模式中现有的配置,且一旦切换无法撤销。
单击工具栏中的导入脚本模板按钮,选择脚本模板来源类型、目标类型、模板库等信息:
选择流式任务模板后,您便可根据实际数据源信息,进行脚本修改。
数据源相关任务配置完成后,可单击右侧的参数设置 ,进入该流式任务的参数设置页面,可以设置流式任务的基础信息。
参数分类 | 参数名称 | 描述 |
---|---|---|
基本信息 | 任务名称 | 显示创建任务时输入的任务名称,参数设置中不支持修改,可以在左侧任务目录结构中的任务名称右侧更多单击重命名进行修改。 |
任务类型 | 流式集成 | |
任务描述 | 非必填,可对任务进行详细描述,方便后续查看和管理。 | |
责任人 | 仅限一个成员,默认为任务创建人(任务执行失败、复查通过或者失败时的默认接收者),可根据实际需要,修改为其他项目成员。
| |
标签 | 您可以自定义标签,用于标识某一类任务,以便快速搜索过滤,操作即时生效,无需重新上线任务。
| |
资源设置 | TaskManager个数 | 任务并发数量设置,前往任务运行参数-高级参数中,参考 注意 流式集成任务此处 TaskManager 个数设置暂时无效。 |
单TaskManagerCPU数 | 设置单个 TaskManager 所占用的 CPU 数量。 | |
单TaskManager内存大小(MB) | 设置单个 TaskManager 所占用的内存大小。 | |
单TaskManager slot数 | 设置单个 TaskManager 中 slot 的数量。 | |
JobManager CPU数 | 设置单个 JobManager 所占用的 CPU 数量。 | |
JobManager内存 | 设置单个 JobManager 所占用的内存大小。 | |
Flink运行参数 | Flink 相关的动态参数和执行参数,具体设置详见 Flink 官方文档。
|
参数配置完成后,可单击右侧的数据集成资源组配置按钮,进入数据集成资源组页面。
下拉选择在项目控制台中,已完成资源组连通性测试的数据集成资源组,保障任务网络能够连通。更多说明请参见:数据集成资源组。
任务所需参数配置完成后,将任务提交发布到运维中心实时任务运维中执行。 单击操作栏中的保存和提交上线按钮,在弹窗中,需先通过提交事前检查和提交上线等上线流程,最后单击确认按钮,完成作业提交。详见概述---流式任务提交发布。
注意
上线流程中的“提交事前检查”,需租户主账号或项目管理员先在项目控制台 > 流水线****管理中,创建相应的流水线检查事宜后方可显示。详见流水线管理。
后续任务运维操作详见:实时任务运维。