You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

LAS HDFS-Sensor

最近更新时间2022.09.07 11:50:10

首次发布时间2022.08.08 16:01:00

1 概述

任务执行前,如需要依赖上游 HDFS 数据就绪才执行当前任务时,可将 HDFS 数据依赖转化成 HDFS-sensor 任务依赖。

2 注意事项

  • 当项目绑定引擎为 LAS 类型时,可见 LAS HDFS-sensor 任务。

  • Sensor 任务进行数据检查时,建议不使用偏移设置,若下游依赖该 Sensor 任务所需数据分区存在偏移时,在对应任务的调度设置中,填写偏移量即可。

  • Sensor 任务默认失败重试 600 次,每隔 5min 重试一次,超过 600 次后,不再重试。后续如果数据就绪,请重跑 Sensor 对应的实例。

3 任务配置说明

3.1 新建任务

  1. 登录 DataLeap租户控制台

  2. 概览 界面,显示加入的项目中,点击 数据开发 进入对应项目。

  3. 任务开发 界面,左侧导航栏中,点击 新建任务 按钮,进入 新建任务 页面。

  4. 选择任务类型:

    1. 分类:数据开发

    2. 绑定引擎:LAS

    3. 关联实例:默认关联实例为default。

    4. 选择任务:LAS HDFS-sensor类型,可以实现对HDFS文件路径下数据的监控。

  5. 任务基本信息:

    1. 任务名称:输入任务名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要控制在127个字符以内。

    2. 保存至:选择任务保存目录位置。

    3. 任务描述:输入当前任务的描述。

3.2 HDFS-Sensor任务配置

  • 任务名称:新建任务时输入的任务名称。

  • 描述:添加描述方便后续查看和管理,非必填。

  • 责任人:任务所属责任人。

  • 数据来源:

    • 实时任务产出:由于LAS引擎暂未支持“Kafka->Hive“/“Kafka->HDFS“等流式Dump任务,因此该入口暂不开放。

    • 自定义数据来源方式。

  • 数据所属引擎:LAS 及对应default实例。

  • SUCCESS 标签地址:HDFS 数据对应的 Success 地址,Success标签地址中输入${date}或${hour}时,系统会根据标签自动识别分区,如lasfs:/public/tmp/task_1/${date}/${hour}/_success_file_name 通常对应小时级别任务:

    • ${date} 业务时间日期,格式为:yyyymmdd,如:20150526。

    • ${hour} 业务时间整点,用于小时级别任务,格式为: hh,如:02。

  • 调度资源组:系统默认公共资源组。

  • 调度周期:选择希望 Sensor 任务执行的周期,如天级别,或小时级别。

  • 执行时间:选择调度周期后,展示调度时间选择选项:

    • 小时级:设置每次在某一小时的 XX 分执行,可以多选小时;

    • 天级别:可设置每天 XX 时,XX 分执行。

  • 检查次数:默认失败重试 600 次。

  • 检查间隔:默认每隔 5 min 重试一次。

3.3 调试运行

任务配置完成后

  1. 点击上方工具栏中的 调试 按钮。

  2. 选择业务日期进行调试,检测对应文件路径下HDFS数据文件是否存在。

4 提交上线

任务参数设置完成后,点击上方工具栏中的 提交上线 按钮,在 提交上线 对话框中,选择 回溯数据、监控设置、提交设置 等参数。
提交上线参数设置,详见:数据开发流程引导---离线任务提交发布