You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
离线任务通用设置
调度设置
复制全文
调度设置

调度设置分为基本信息、调度属性、依赖关系和输入输出参数四部分。下文对各部分进行介绍,不同任务类型,配置项存在不同,以实际页面为准。

基本信息

Image

参数

说明

任务名称

不支持修改,可以在左侧目录树中选中任务,通过“操作热区-重命名”进行修改。

任务描述

非必填,可对任务进行详细描述,方便后续查看和管理。

责任人

默认为任务创建人,可根据实际需要,修改为其他项目成员。

  • 责任人必须从项目成员中选取。
  • 项目中具有编辑权限的角色,可对项目下的所有任务进行编辑,因此无须通过为任务设置多个责任人,来达到协同合作的效果。

yarn队列

非 LAS、Apache Hadoop、MiniBase Hadoop 引擎任务配置,如 Flink 引擎任务,可从项目已配置的队列中进行选择。

队列

LAS、Apache Hadoop、MiniBase Hadoop 引擎任务配置项,从项目已配置的队列中进行选择。

优先级

您可通过设置任务优先级,指定当前任务分配的调度资源优先级:

  • 等级数字越小,代表优先级等级越高;
  • 其中 D3~D5 等级,您可直接在调度设置页面中设置。D1~D2需要在数据治理平台完成 SLA 签署后,才能同步优先级,详见SLA签署

说明

  • 流式任务优先级,目前仅支持设置 D3~D5 等级,更高优先级敬请期待。
  • SLA 保障开启后,此处优先级无法手动进行更改,若需降级,需要先暂停 SLA 保障或下线,再进行更改。
    Image
    不再保障的离线任务,项目控制台 > 项目配置中可自定义选择默认降级策略。详见新建项目
    Image
  • 在数据集成离线任务及部分 Apache/MiniBase Hadoop 引擎开发任务中,设定优先级后,其在 Yarn 平台中的优先级对应如下:
    • D5 对应 Yarn application priority = 2;
    • D4 对应 Yarn application priority = 4;
    • D3 对应 Yarn application priority = 6;
    • D2 对应 Yarn application priority = 8;
    • D1 对应 Yarn application priority = 10;

标签管理

您可以自定义标签,用于标识某一类任务,以便快速搜索过滤,操作及时生效,无需重新上线任务。
您可以前往项目管理 > 标签管理来新建标签组或添加标签组。 具体操作说明可参见“标签管理”。

调度属性

Image

参数

说明

调度状态

分为开启和关闭,任务首次上线后,调度状态为开启。

  • 开启:调度开启的任务会被调度执行。
  • 关闭:调度关闭的任务不会被调度执行

调度类型

分为周期调度和手动调度。

  • 周期调度:根据设定的频率和执行时间,系统自动生成实例,并定时运行;
  • 手动调度:系统不会自动调度,需手动触发执行,才会生成实例并运行。操作入口为“运维中心 > 离线任务运维 > 任务运维 > 数据回溯”;

调度生效日期

当调度类型选择“周期调度”时,可对调度的生效时间范围进行设置,默认值为1970-01-01 00:00:00~9999-12-31 23:59:59,可根据实际需要进行调整。

执行频率

任务执行的频率,包括分钟级、小时级、天级、周级和月级五种选项。

说明

手动调度时,仅支持小时级、天级执行频率。

执行时间

执行时间的配置受执行频率影响。

  • 分钟级:执行时间需要设置时间间隔和执行时刻:
    • 时间间隔:目前支持5分钟、10分钟、15分钟、20分钟、30分钟,您可根据实际业务场景进行选择;
    • 执行时刻:指分钟任务首个实例启动执行的具体时刻,如时间间隔设置为 30 分钟,执行时刻设置为 15,则生成的实例定时时间为 00:15、00:45、01:15、01:45...依次生成相应时刻的实例。

      说明

      设定的执行时刻必须小于设定的时间间隔。例如,时间间隔为 5 分钟,则执行时刻的可设置范围为 0 - 4;时间间隔为 15 分钟,执行时刻可设置范围为 0 - 14。

  • 小时级:执行时间需要设置执行小时和执行时刻:
    • 执行小时:支持多选。例如:一天每个小时都要执行,则执行小时单击全选按钮,选择0至23小时。
    • 执行时刻:指小时任务首个实例启动执行的具体时刻,如执行时刻设置为 10,执行小时为 5~10 点,则生成的实例定时时间为 05:10、06:10、07:10、08:10、09:10、10:10。
  • 天级:执行时间需要设置具体的时间。
  • 周级:执行日期需要设置每周几来执行,支持多选。
  • 月级:执行日期需要设置每月几号执行,支持多选。

小时区间

当执行频率为分钟级时,您可按需选择是否开启小时区间设置。
开启小时区间设置后,您需设定分钟任务执行的小时区间范围,后续该任务仅在指定的小时区间内生成对应的实例。

分时调度

当执行频率选择分钟级或者小时级时,出现分时调度属性,需另外设定分时调度时段信息。
启用分时调度,设定运行时间不在分时调度时段内的实例,将在下一个时段开始时才提交调度,以缓解非指定时段的执行压力。如:

  • 分时调度区间为6:00~22:00,若有一个设定运行时间为23:00的实例,将延迟到第二天6:00才提交调度;
  • 分时调度区间为22:00~06:00(当日晚上10点~次日早上6点),若有一个设定运行时间为7:00的实例,将延迟到当天22:00提交调度;

最早回溯时间

可重跑的历史数据的最早时间,设定后,最早回溯时间之前的实例将无法生成。

说明

当任务依赖关系中设置自依赖关系时,此处最早回溯时间,默认会自动填充最早回溯日期,为任务“业务日期-1”。

空跑设置

启用空跑设置后,实例不真正执行,直接置为成功。

重试触发条件

系统提供失败重试和单次执行超时重试两种选项,默认选中失败重试(不可更改),用户可根据实际需要,选择是否启用超时重试。

  • 失败重试:任务运行失败,若有剩余重试次数,则自动进行重试。
  • 单次执行超时重试:任务运行耗时超过设定阀值,若有剩余重试次数,则自动进行重试。

说明

单次执行时间最大不能超过6天,否则系统将自动结束实例执行。

失败重跑次数

任务失败后,重试的次数。另外,当实例重试运行时间超过48小时,系统将自动结束该实例。

重跑时间间隔

任务失败后,重试的时间间隔,最大重跑时间间隔为1小时。

最大并发控制

当前任务可同时运行的实例个数。

数据回溯建议

包括允许回溯和谨慎回溯两个选项。

  • 允许回溯:默认选项,表示该任务允许回溯,无需审批。
  • 谨慎回溯:当任务回溯有风险时,可启用谨慎回溯。此时用户可根据需要,回溯时选择引入二次弹窗提醒或需要由任务责任人进行审批确认。

调度日历

您可下拉选择已添加至本项目中的调度日历信息。通过日历的方式,满足证券场景中交易日、节假日调度需求,可更加灵活地进行调度日的配置。
调度日历配置操作详见配置调度日历

注意

添加调度日历时,需注意:

  • 调度日历不影响正常转实例的逻辑,在调度日历文件里,date列设置的时间为实际执行定时日期,schedule_date列设置时间为对应的业务日期。当日历文件中schedule列被设置为True的业务日期,该业务日期对应的实例将会真实执行;若被设置为False的业务日期,其业务日期对应的实例将会空跑。
  • 不在调度日历中的业务日期,会按照上方设置的执行频率正常生成实例,并真实运行;
  • 在调度日历中的业务日期,需满足执行频率且在调度日历中Schedule为True的时间才会真实运行。
    如执行频率设置每周一执行的任务,需要满足当前时间是周一,业务日期是周日,且在调度日历文件中其Schedule列设置为True时,才会真实运行。

高级参数设置

在 Shell、Python、SQL等任务类型中,您可按需打开高级参数设置按钮,配置任务执行时的 CPU、MEN 参数:

  • CPU:
    • 设置实例提交的容器 CPU 核数,默认单位为个;
    • 用户设置核数时,只需填写数值,无需填写单位;
    • 设置最大上限值为 8,设置时不能超过该上限值。
  • MEN:
    • 设置实例提交的容器内存配置,默认单位为 GB;
    • 用户设置内存值时,只需填写数值,无需填写单位;
    • 其他任务最大上限值为 32,运行时内存超过最大值,会被系统 kill。

依赖关系

任务依赖设置,即数据依赖。当上游任务执行成功,即代表数据表(分区)数据已就绪。
通过“上游依赖设置”,建立任务之间的依赖关系。在设置依赖关系时,可使用依赖推荐或手动添加的方式。如果该任务依赖本身上一周期的产出,可使用任务自依赖设置。
Image

依赖推荐

LAS、CDH、Hadoop、StarRock、Gbase 8a 引擎 SQL 任务类型,支持解析 SQL 代码,获取任务的使用表信息,系统将产出使用表的任务,作为推荐项返回给用户,用户可根据实际需要进行勾选。
如 SQL 代码示例为:

INSERT INTO new_employees (id, name, department, salary)
SELECT  id,
        name,
        department,
        salary
FROM    employees
WHERE   department = 'IT';

Image
调度设置界面,单击依赖推荐后,便可自动返回 employees 表所在的任务,作为上游依赖项。LAS SQL、Apache Hadoop 引擎下的 SQL 任务类型,若依赖的表还没有对应的产出任务,则依赖推荐时,会推荐相应的 Sensor 任务,您可按需进行依赖。Sensor任务详见LAS Hive sensor任务说明。

说明

依赖推荐返回上游任务,需满足以下条件:

  1. 若表数据是由 Shell、Python、Spark 或 Perl 等上游任务类型产出,则您需手动进行任务产出数据的登记操作,详见任务产出数据登记;若表数据是由离线集成通道任务、离线整库解决方案等数据集成任务产出,集成任务类型将自动把任务目的端库表信息登记为该任务的产出信息,此时可跳过手动登记产出数据操作。
  2. 所需依赖的上游任务已提交发布至运维中心;

满足条件后,下游 SQL 开发任务便能够直接在 SQL 代码中使用相应产出的库表名称信息,依赖推荐能力将自动返回产出库表对应的任务,将其作为上游依赖项。

手动添加

通过手动方式添加上游任务,用户可根据任务名称/ID、数据表信息,在指定项目或全局项目中搜索对应任务,并将其添加为上游。

说明

  • 搜索在当前项目下的任务时,可支持搜索草稿状态和已发布上线的任务;搜索跨项目下的任务时,仅支持搜索已发布上线的任务。
  • 当无法找到需要的任务时,建议进行以下操作:
    1. 继续补充任务名称做模糊搜索;
    2. 选择任务所在的具体项目来准确搜索;
    3. 增加第一页显示的条数;
      搜索不全的原因:根据任务名称做全局搜索(模糊搜索)时,可能给平台带来较大查询压力,因此仅返回第1页的内容。

导出依赖

当任务添加了上游依赖后,您可单击导出依赖按钮,将依赖关系导出为 CSV 文件,便于本地进行依赖任务对比与管理。
Image

依赖设置-指定偏移量

指定偏移量在依赖不同调度频率的任务或调度日期出现偏移时,需要手动设置偏移量。

说明

指定偏移量配置方式时,系统默认会填充偏移量参数,但默认设置的偏移量仅适用于典型情况,若默认值不适用于当前任务场景,您可手动进行偏移参数调整。

  1. 依赖配置方式下拉选择指定偏移量;

  2. 选择集合区间偏移形式,来设置依赖偏移参数。上下游任务频率不同,依赖实现机制也不相同,具体分为以下三大类:

    上下游频率类型

    依赖实现机制

    实际案例

    偏移设置示例(区间/集合 偏移量 偏移单位)

    同频依赖

    当前任务实例的业务时间+偏移量*偏移单位=上游任务实例的业务时间。

    • 天任务依赖天任务,依赖上游任务同一天执行的实例
    • 天任务依赖天任务,依赖上游任务前一天执行的实例
    • 集合 0 天
    • 集合 -1 天

    大频率依赖小频率

    当前任务实例的业务时间+偏移量*偏移单位+业务时间补偿值=上游任务实例的业务时间;
    PS:业务时间补偿值 =(同一执行时间,小频率任务实例对应业务时间)-(同一执行时间,大频率任务实例对应业务时间);
    示例:当天依赖小时,业务时间补偿值=23小时。

    天任务依赖小时任务,依赖上游任务昨天执行的24个小时实例

    区间 -23,0 小时

    小频率依赖大频率

    依赖“(当前任务实例的业务时间-(偏移量+1)偏移单位)~(当前任务实例的业务时间-偏移量偏移单位)”时间范围内,上游任务对应业务时间的实例;
    PS:上述时间范围左闭右开

    小时任务依赖天任务,依赖上游最近2天执行的实例

    集合 -1,0 天

    说明

    不同频率的上游任务,对应偏移单位说明:

    • 月任务:偏移单位=月,代表1月;偏移单位=天,代表1天;
    • 周任务:偏移单位=周,代表1周;偏移单位=天,代表1天;
    • 天任务:偏移单位=天,代表1天;
    • 小时任务:偏移单位=小时,代表1小时;
    • 分钟任务:偏移单位=分钟,代表5分钟;(目前分钟级别任务,最小频率为:每5分钟执行一次)。
  3. 偏移参数设置完成后,您可单击依赖预览按钮,可以查看按照当前的依赖设置,并根据实际情况选择指定的业务时间,来预览上下游任务指定业务日期下的实例依赖关系,方便及时验证偏移设置是否符合预期。

配置示例请参见“任务上游依赖偏移设置”。

更多设置操作

依赖关系设置中,更多操作说明如下:

操作

说明

依赖预览

依赖设置完成后,可通过“依赖预览”,查看按照当前的依赖设置,上下游任务最新业务日期的实例依赖关系,方便及时验证偏移设置是否符合预期。

删除

删除已设置的上游依赖。

任务自依赖设置-跨周期自依赖

若任务需要依赖自己上一周期的数据产出,则跨周期自依赖设置为“”即可。例如当天任务的执行,依赖昨天的运行结果,跨周期自依赖可选择“是”。

说明

当任务依赖关系中设置自依赖关系时,此处最早回溯时间,默认会自动填充最早回溯日期,为任务“业务日期-1”。

输入输出参数

通过任务的输入输出参数,可支持任务使用自定义参数,该参数可来源于上游任务,任务所在项目或是自定义内容值。输入输出参数的使用,详见“任务输入输出参数”。
Image

  1. 任务输入参数:任务设置输入参数后,可在任务内部使用,具体使用方式为{{参数名}}
    1. 手动添加:单击后添加输入参数,输入参数来源可分为三类:
      • 任务:通过上游任务,将上游任务的任务、实例信息,作为输入参数。
      • 项目:引用项目参数作为任务的输入参数,参数值在项目参数中设置。
      • 自定义:仅在当前任务中使用的参数,直接定义参数内容。
        Image
    2. 编辑:编辑输入参数的内容。
    3. 删除:删除输入参数。
  2. 任务输出参数:设置任务的输出参数,任务上线后,即可在下游节点中使用,作为下游节点的输入参数的取值,输出参数的取值分为常量和变量两种类型。
    1. 手动添加:单击后添加输出参数。
      Image
    2. 将运行结果当作输出:对于Shell/Python/LAS SQL/HSQL(包含 Hadoop HSQL、CDH-TBDS HSQL、CDH-MRS HSQL、CDH-EMR HSQL、CDH HSQL)/StarRocks几种类型的任务,允许将实例运行结果并作为结果变量,通过“outputs”进行传递。
      • shell/python任务:收集最后一行stdout/err的结果作为输出参数。
      • LAS SQL/HSQL(包含 Hadoop HSQL、CDH-TBDS HSQL、CDH-MRS HSQL、CDH-EMR HSQL、CDH HSQL)/StarRocks任务:收集最后一行select的输出。
    3. 编辑:编辑输出参数的内容。
    4. 删除:删除输出参数。
最近更新时间:2026.02.04 10:41:49
这个页面对您有帮助吗?
有用
有用
无用
无用