You need to enable JavaScript to run this app.
导航

创建项目任务

最近更新时间2022.12.15 11:56:38

首次发布时间2021.08.13 15:07:14

本文为您介绍如何创建项目,并通过创建同步任务,将 MySQL 中的数据导出至湖仓一体分析服务 LAS 中。

1 前提条件

  1. 已完成准备工作中一系列的账号及权限准备工作。

  2. 开通 DataLeap 服务时您已经在服务中开通独享数据集成资源组,并且数据源与资源组在同一个VPC网络中;或也可另行开通,详见资源组管理

2 背景信息

在 DataLeap 中,通常通过数据集成功能,定期将系统中产生的业务数据导入至大数据存储。SQL 任务进行计算后,再定期将计算结果导出至您指定的数据源中,以便进一步展示或运行使用。

3 项目创建

  1. 登录 DataLeap 租户控制台

  2. 单击左侧导航栏的项目管理,进入项目管理页面。

  3. 单击创建项目按钮,进入创建项目页面,完成项目基础信息、项目管控、服务绑定等项目配置工作。配置详见新建项目

4 任务配置

项目创建完成后,您可进行以下任务配置操作。

4.1 新增数据源

新增数据源的操作步骤如下:

  1. 登录 DataLeap 租户控制台

  2. 在左侧导航栏,单击项目管理 ,进入项目管理页面。

  3. 勾选我加入的选项后,在项目列表中,单击右侧操作列的配置信息按钮, 进入项目控制台

  4. 单击数据源管理,数据源管理页面,单击右上角的新建数据源按钮。

  5. 新增数据源对话框中,选择数据源类型MySQL接入方式火山引擎 MySQL,如下图所示。

    参数说明
    基本配置
    数据源类型MySQL
    接入方式选择火山引擎 MySQL。
    RDS实例ID火山引擎云数据库 MySQL 的实例 ID,下拉选择。
    是否订阅数据-否
    数据库名数据库的名称,下拉选择。
    用户名数据库的账号。
    密码数据库的密码。
    是否订阅数据-是
    数据库名数据库的名称,下拉选择。
    用户名数据库的账号。
    密码数据库的密码。
    订阅任务选择数据库传输服务数据订阅任务名称

    消费组名称

    选择数据订阅下的消费组,您可前往数据订阅获取消费组、用户名、密码等信息,用于消费者订阅数据。
    详见:数据库传输服务

    用户名消费组的账号
    密码消费组的密码

其他更多数据源配置信息详见MySQL数据源

  1. 配置信息完成后,单击测试按钮,测试资源组的连通性。

  2. 确保至少有1个数据集成资源组连通后,点击确认按钮完成新建。

4.2 新建数据集成任务

本小节将新建一个数据集成任务并进行配置,目的是把 MySQL 表中的数据写入至 LAS 中,具体操作如下:

  1. 左上角全部产品中,进入数据开发界面。

  2. 在数据开发页面,点击新建任务按钮,进入新建任务页面。

  3. 任务类型选择数据集成 > 离线集成

  4. 输入任务名称,并选择目标文件夹。

注意

任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127个字符以内。

  1. 点击确定按钮,完成任务新建,进入任务配置页面。

4.3 配置数据集成任务

  1. 选择数据源。

    1. 配置数据来源的 MySQL 信息。

    2. 配置右侧的目标端,选择 LAS。

  2. 字段映射

配置来源端和目标端字段的映射关系。

  • 点击自动添加,可以根据数据源 schema 自动添加字段。

  • 点击手动添加,可以添加一条空白的字段信息,手工输入字段名、类型等。

  • 点击删除全部,可以删除全部字段信息。

  • 调整字段映射。 通过拖拽字段左侧的按钮,可以调整字段顺序。

注意

请注意列与列之间映射的字段类型是否数据兼容。

  1. 任务运行参数。

    • 期望最大并发数:数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。

    • 脏数据设置:错误记录数,表示脏数据的最大容忍条数/比例。

    • 自定义参数设置:

      • 单行编辑模式,需要设置参数 Key和value 值;
      • 脚本编辑模式,需要输入json串参数。

4.4 配置调度属性及资源组。

  1. 单击右侧的调度设置 ,进入该任务的调度设置页面:

    参数描述
    基本信息
    责任人仅限一个成员,默认为任务创建人,可根据实际需要,修改为其他项目成员。
    调度资源组DataLeap 平台提供的资源组,用于生成定时调度实例,默认提供公共调度资源组。

    标签

    您可以自定义标签,用于标识某一类任务,以便快速搜索过滤,操作即时生效,无需重新上线任务。

    1. 单击标签管理按钮,进入添加界面。

    2. 下拉选择已创建的标签组和具体标签内容,若项目还没有标签,您可前往 项目控制台--->标签管理 来新建标签组或添加标签组。

      标签管理详见文档:https://www.volcengine.com/docs/6260/119813

    3. 单击确定按钮,完成标签添加。

    调度属性

    调度状态

    分为开启和关闭,默认开启。
    开启代表任务可以被调度,关闭代表任务不可以被调度。
    您可前往 运维中心>任务运维界面操作关闭或开启任务调度。

    调度类型

    • 周期调度:上游任务成功后,根据设定的频率和执行时间,任务自动开始执行。

    • 手动调度:系统不会自动调度,需手动执行。手动执行的操作入口为 运维中心 > 离线任务运维 > 任务运维, 在任务列表操作列下,单击数据回溯,发起任务执行 。

    调度生效日期当调度类型选择周期调度时,可对调度的生效时间范围进行设置。

    执行频率&执行时间

    • 小时级:执行时间需要设置执行小时和执行时刻,执行小时支持多选。

    • 天级:执行时间需要设置具体的时间。

    • 周级:执行日期需要设置每周几来执行,支持多选,还需选择具体执行时间。

    • 月级:执行日期需要设置每月几号来执行,支持多选,还需选择具体执行时间。

    分时调度

    当调度类型选择周期调度,执行频率选择分钟级或者小时级时,出现分时调度属性。
    启用分时调度,设定运行时间不在分时调度时段内的实例,将在下一个时段开始时才提交调度,以缓解非指定时段的执行压力。

    最早回溯时间可重跑的历史数据的最早时间。设定后,最早回溯时间之前的实例将无法生成。

    空跑设置

    当某任务逻辑暂时无需运行,但又不想改动整个数据链路关系时,可将其设置为空跑,此时该任务会直接置为成功。
    在DAG整体工作流程中,通过将子节点设置为空跑,可达到临时移除子节点的效果。

    重试触发条件

    系统提供失败和单次运行超时两种重试触发条件:

    • 失败:任务运行失败,若有剩余重试次数,则自动进行重试。

    • 单次运行超时:任务运行耗时超过设定阈值,若有剩余重试次数,则自动进行重试。

    失败重跑次数任务失败后重试的次数。若重试运行时间超过48小时,系统将自动结束该实例。
    重跑时间间隔任务失败后重试的时间间隔。
    最大并发控制是指单任务最大并发,即任务可同时运行的最大实例个数。实际可执行的实例个数,除受该任务最大并发限制之外,还受系统总并发实例数影响。
    数据回溯建议标记该任务是否可进行数据回溯,包括允许回溯和谨慎回溯。若选择谨慎回溯 ,进行回溯/重跑操作时,系统将出现二次确认提示。
    依赖关系

    任务上游依赖设置

    通过建立任务依赖,完成数据依赖,构建数据血缘。一般情况下,当任务执行成功时,数据表分区数据即已就绪。
    您可通过手动添加的方式,根据任务名称、任务 ID 等信息,对已上线的任务进行搜索添加。

    任务自依赖设置跨周期自依赖设置,当前周期的任务,需要依赖自身上一周期的产出,您可根据实际场景开启。

更多配置参数介绍详见调度配置文档

  1. 配置数据集成资源组。

    单击右侧的数据集成资源组按钮,选择数据源测试连通性成功的集成资源组。更多说明详见数据集成资源组

4.5 预览保存。

可上下滚动鼠标查看任务配置,确认无误后,点击工具栏中的保存图标,完成作业保存

4.6 提交任务发布

  1. 单击上方工具栏中的提交上线图标,

  2. 提交上线窗口中,配置回溯数据、监控设置、提交设置等内容,配置详见提交发布

  3. 单击确认按钮,将同步任务至调度系统中,调度系统会根据调度设置中的属性,从第二天开始自动定时执行。

5 后续步骤

任务发布成功后,您可以继续下一个教程。在该教程中,您将学习如何查看实例运维及任务日志等,详见排查运行报错