在下游任务开展 LAS Catalog Hive 表数据开发前,若需依赖上游 Hive 表分区数据准备就绪才能进行二次开发时,可将数据依赖转换为 EMR Serverless Spark LAS Catalog Sensor 任务依赖。
该 Sensor 任务的数据来源可以选择为实时集成任务产出,也支持自定义,它能够检测 Hive 表中分区数据是否就绪,实现对 LAS Catalog Hive 表分区数据的监控,以确保下游任务开发流程在数据已准备完成的基础上顺利推进。
本文将为您介绍 EMR Serverless Spark LAS Catalog Sensor 任务的操作指南。
1 使用前提
- EMR Serverless Spark LAS Catalog Sensor 任务类型目前处于白名单使用阶段,您可通过提工单的方式,请 DataLeap 支持同学进行白名单开通使用。
- 已开通 EMR Serverless Spark 队列资源实例。详见队列管理。
- 需开通 DataLeap 服务版本中大数据分析、DataOps敏捷研发或分布式数据自治的服务,项目方可继续绑定 EMR Serverless Spark 实例。详见版本服务说明。
- 已在 DataLeap 项目控制台中,绑定相应的 EMR Serverless Spark 服务实例。详见创建项目。
- 子用户访问 EMR Serverless Spark 队列资源时,需确保拥有 EMRServerlessReadOnlyAccess 权限策略,子用户可请主账号在访问控制界面进行权限策略添加;子用户访问 LAS Catalog 表资源时,需确保子用户拥有对应数据目录、数据库、数据表的权限。LAS Catalog 权限说明详见权限管理。
2 注意事项
- Sensor 任务不需要设置依赖偏移量,若下游依赖该 Sensor 任务需要设置偏移时,在对应任务的调度设置中,填写偏移量即可。
- Sensor 任务默认失败重试 600 次,每隔 5min 重试一次,超过 600 次后,不再重试。后续如果数据就绪,请重跑 Sensor 对应的实例。
- 不支持 LAS Catalog Hive 非分区表的数据检测。
3 任务配置说明
3.1 新建任务
- 登录 DataLeap租户控制台,并进入项目的 IDE 开发界面,进行新建任务操作。
- 单击新建任务按钮:
- 依次选择数据开发 > EMR Serverless Spark > EMR Serverless Spark LAS Catalog Sensor 任务类型。
- 关联实例:默认选项项目已绑定的 EMR Serverless Spark 实例。绑定详见创建项目。
- 填写任务基本信息,输入任务名称信息,如:emr_serverless_las_catalog_task,并选择任务存放的目标文件夹目录。单击确定按钮,完成任务创建。
注意
- 在项目控制台管理界面中,如果新增或修改了引擎,那么在数据开发任务新建窗口中,需刷新整个 DataLeap 数据开发界面,才能看到新增或修改后的引擎任务类型。
- 任务名称信息仅允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。

3.2 LAS Catalog Sensor 任务配置
任务新建完成后,进入 LAS Catalog Sensor 任务配置界面,依次完成以下配置操作:
配置项 | 说明 |
---|
任务名称 | 新建任务时输入的任务名称,您可在目录树的任务名称右侧“更多”操作中,单击“重命名”按钮,进行修改名称操作。 |
任务描述 | 添加描述方便后续查看和管理,非必填。 |
责任人 | 下拉选择任务所属责任人。 |
数据来源 | 按需选择 LAS Catalog Hive 表中数据来源,支持选择实时任务产出、自定义两种方式。 |
实时任务 | 支持按照实时集成任务 ID、名称进行搜索。 说明 在实时任务的下拉列表中,仅展现目标数据源接入方式为 EMR Serverless Hive 的流式集成任务,即数据写入目标表为 LAS Catalog 表的流式集成任务。 |
数据所属引擎 | 默认显示为创建任务时选择的 EMR Serverless Spark 引擎和关联实例信息。 |
数据目录 | - 数据来源为实时任务产出时,根据选定流式集成任务的产出目标库预填,不支持编辑。
- 数据来源为自定义方式时,可下拉选择需要检测的 LAS Catalog Hive 分区表所在的数据目录。子用户选择时,需确保子用户有对应目录的读写权限。LAS Catalog 权限详见权限管理。
|
数据库 | - 数据来源为实时任务产出时,根据选定流式集成任务的产出目标库预填,不支持编辑。
- 数据来源为自定义方式时,可下拉选择需要检测的 LAS Catalog Hive 分区表所在的数据库。子用户选择时,需确保子用户有对应数据目录和库的读写权限。LAS Catalog 权限详见权限管理。
|
数据表 | - 数据来源为实时任务产出时,根据选定流式集成任务的产出目标表预填,不支持编辑。
- 数据来源为自定义方式时,可下拉选择需要检测的 LAS Catalog Hive 分区表信息。子用户选择时,需确保子用户有对应数据目录、库和表的读写权限。LAS Catalog 权限详见权限管理。
注意 不支持非分区表的数据检测,任务在调试/上线时会提示分区不能为空。 |
获取分区 | 在选定 LAS Catalog Hive 分区表后,会自动获取表分区字段信息,您需在分区内容中填写需检测的分区内容: - 小时级分区,若日期格式为:hh 如:02,则填写:${hour};
- 小时分区,若日期格式为:H,如:2,则填写:${HOUR};
- 天级分区,若日期格式为:yyyyMMdd 如:20181017,则填写:${date};
- 天级分区,若日期格式为:yyyy-MM-dd 如:2018-11-17,则填写:${DATE};
- 月级分区,若日期格式为:MM,如:09,则填写:${month};
- 包含年的月份,如201809,填写格式:${year}${month};
- 包含年的月份,如2018-09,填写格式:${year}-${month};
- 其它分区如 App,请输入所需要的分区内容枚举值,用英文逗号隔开,如 aa,bb,cc。
|
调度资源组 | 您可选择任务执行时,所使用的调度资源组,可选公共调度资源组或独享调度资源组。独享资源组操作详见独享调度资源组管理。 |
调度周期 | 希望 Sensor 任务执行的周期,如每天,或每小时。 |
任务执行时间 | 选择调度周期后,展示调度时间选择选项。小时级时,设置每次在某一小时的 XX 分执行,可以多选小时;天级别可设置每天 XX 时,XX 分执行。 |
检查次数 | 默认失败重试 600 次。 |
检查间隔 | 默认每隔 5 min 重试检查一次,您可按实际情况进行设置检测时间间隔。 |
3.3 调试运行
任务配置完成后,单击界面上方工具栏中的调试按钮,并选择业务日期进行调试。
注意
- 调试操作,直接使用线上数据进行调试,需谨慎操作。
- 本任务类型暂不支持调试执行成功或失败后发送消息通知。
调试结束后,您可在下方调试记录中,查看相应的调试日志,并可从日志中获悉检测的 LAS Catalog Hive 表分区数据是否存在。

4 提交上线
任务所需参数配置和调试任务成功后,将任务提交发布到运维中心离线任务运维中执行。 单击操作栏中的保存和提交上线按钮,在弹窗中,需先通过提交上线流程,最后单击确认按钮,完成作业提交。详见5.1 离线任务提交。
后续任务运维操作详见:离线任务运维。