You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

LAS Hive-sensor

最近更新时间2023.07.03 19:37:44

首次发布时间2022.06.17 16:08:56

1 概述

任务执行前,如需要依赖上游 Hive 表某个或某几个分区数据就绪才可执行时,可将数据依赖转化成 Hive-Sensor 任务依赖。

2 注意事项

  • 当项目绑定引擎为 LAS 类型时,可见 LAS Hive-Sensor 任务。

  • Sensor 任务进行数据检查时,建议不使用偏移设置,若下游依赖该 Sensor 任务所需数据分区存在偏移时,在对应任务的调度设置中,填写偏移量即可。

  • Sensor 任务默认失败重试 600 次,每隔 5min 重试一次,超过 600 次后,不再重试。后续如果数据就绪,请重跑 Sensor 对应的实例。

3 任务配置说明

3.1 新建任务

  1. 进入 DataLeap数据开发 > 任务开发界面

  2. 单击左侧目录树上新建任务按钮,进入新建任务界面

  3. 选择任务类型:

    • 分类:数据开发

    • 绑定引擎:LAS

    • 关联实例:默认关联实例为default

    • 选择任务:LAS Hive-sensor类型,可以实现对Hive表分区数据的监控

  4. 任务基本信息:

    • 任务名称:输入任务名称,只允许字符.、字母、数字、下划线、[]、【】、()、()以及中文字符

    • 保存至:选择任务保存目录位置

    • 任务描述:输入当前任务的描述

3.2 Hive-Sensor任务配置

  • 任务名称:新建任务时输入的任务名称

  • 描述:添加描述方便后续查看和管理,非必填

  • 责任人:任务所属责任人

  • 数据来源:

    • 实时任务产出,由于LAS引擎暂未支持“Kafka->Hive“等流式Dump任务,因此该入口暂不开放。

    • 自定义数据来源方式

  • 数据所属引擎:LAS 及实例

  • 数据库:选择需要依赖的 Hive 分区表所在的数据库

  • 数据表:选择需要依赖的 Hive 分区表

  • 获取分区:

    • 输入表名后,单击获取分区,若希望依赖分区为 App 的某一应用的分区,如:newarticels,则输入对应的分区名称即可;

    • 日期分区可直接使用获取的 ${date} 的信息

    • 同一个分区字段依赖多个分区值时,可使用英文逗号分隔,如 aa,bb,cc

  • 调度资源组:系统默认公共资源组

  • 调度周期:希望 Sensor 任务执行的周期,如每天,或每小时

  • 执行时间:选择调度周期后,展示调度时间选择选项:

    • 小时级,设置每次在某一小时的 XX 分执行,可以多选小时;

    • 天级别,可设置每天 XX 时,XX 分执行。

  • 检查次数:默认失败重试 600 次

  • 检查间隔:默认每隔 5 min 重试一次

3.3 调试运行

任务配置完成后

  1. 单击上方工具栏中的调试按钮

  2. 选择业务日期进行调试,检测 Hive表分区数据是否就绪

4 提交上线

任务所需参数配置和调试任务成功后,将任务提交发布到运维中心离线任务运维中执行。
单击操作栏中的保存提交上线按钮,在弹窗中,需先通过提交事前检查提交上线等上线流程,最后单击确认按钮,完成作业提交。详见概述---离线任务提交发布

注意

上线流程中的“提交事前检查”,需租户主账号或项目管理员先在项目控制台 > 流水线管理中,创建相应的流水线检查事宜后方可显示。详见流水线管理

后续任务运维操作详见:离线任务运维