You need to enable JavaScript to run this app.
导航
EMR Serverless Spark LAS Catalog Sensor
最近更新时间:2025.07.04 16:58:50首次发布时间:2025.02.17 17:37:34
我的收藏
有用
有用
无用
无用

在下游任务开展 LAS Catalog Hive 表数据开发前,若需依赖上游 Hive 表分区数据准备就绪才能进行二次开发时,可将数据依赖转换为 EMR Serverless Spark LAS Catalog Sensor 任务依赖。
该 Sensor 任务的数据来源可以选择为实时集成任务产出,也支持自定义,它能够检测 Hive 表中分区数据是否就绪,实现对 LAS Catalog Hive 表分区数据的监控,以确保下游任务开发流程在数据已准备完成的基础上顺利推进。
本文将为您介绍 EMR Serverless Spark LAS Catalog Sensor 任务的操作指南。

1 使用前提

  1. EMR Serverless Spark LAS Catalog Sensor 任务类型目前处于白名单使用阶段,您可通过提工单的方式,请 DataLeap 支持同学进行白名单开通使用。
  2. 已开通 EMR Serverless Spark 队列资源实例。详见队列管理
  3. 需开通 DataLeap 服务版本中大数据分析、DataOps敏捷研发分布式数据自治的服务,项目方可继续绑定 EMR Serverless Spark 实例。详见版本服务说明
  4. 已在 DataLeap 项目控制台中,绑定相应的 EMR Serverless Spark 服务实例。详见创建项目
  5. 子用户访问 EMR Serverless Spark 队列资源时,需确保拥有 EMRServerlessReadOnlyAccess 权限策略,子用户可请主账号在访问控制界面进行权限策略添加;子用户访问 LAS Catalog 表资源时,需确保子用户拥有对应数据目录、数据库、数据表的权限。LAS Catalog 权限说明详见权限管理

2 注意事项

  • Sensor 任务不需要设置依赖偏移量,若下游依赖该 Sensor 任务需要设置偏移时,在对应任务的调度设置中,填写偏移量即可。
  • Sensor 任务默认失败重试 600 次,每隔 5min 重试一次,超过 600 次后,不再重试。后续如果数据就绪,请重跑 Sensor 对应的实例。
  • 不支持 LAS Catalog Hive 非分区表的数据检测。

3 任务配置说明

3.1 新建任务

  1. 登录 DataLeap租户控制台,并进入项目的 IDE 开发界面,进行新建任务操作。
  2. 单击新建任务按钮:
    1. 依次选择数据开发 > EMR Serverless Spark > EMR Serverless Spark LAS Catalog Sensor 任务类型。
    2. 关联实例:默认选项项目已绑定的 EMR Serverless Spark 实例。绑定详见创建项目
  3. 填写任务基本信息,输入任务名称信息,如:emr_serverless_las_catalog_task,并选择任务存放的目标文件夹目录。单击确定按钮,完成任务创建。

注意

  1. 在项目控制台管理界面中,如果新增或修改了引擎,那么在数据开发任务新建窗口中,需刷新整个 DataLeap 数据开发界面,才能看到新增或修改后的引擎任务类型。
  2. 任务名称信息仅允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。

Image

3.2 LAS Catalog Sensor 任务配置

任务新建完成后,进入 LAS Catalog Sensor 任务配置界面,依次完成以下配置操作:

配置项

说明

任务名称

新建任务时输入的任务名称,您可在目录树的任务名称右侧“更多”操作中,单击“重命名”按钮,进行修改名称操作。

任务描述

添加描述方便后续查看和管理,非必填。

责任人

下拉选择任务所属责任人。

数据来源

按需选择 LAS Catalog Hive 表中数据来源,支持选择实时任务产出、自定义两种方式。

实时任务

支持按照实时集成任务 ID、名称进行搜索。

说明

在实时任务的下拉列表中,仅展现目标数据源接入方式为 EMR Serverless Hive 的流式集成任务,即数据写入目标表为 LAS Catalog 表的流式集成任务。

数据所属引擎

默认显示为创建任务时选择的 EMR Serverless Spark 引擎和关联实例信息。

数据目录

  • 数据来源为实时任务产出时,根据选定流式集成任务的产出目标库预填,不支持编辑。
  • 数据来源为自定义方式时,可下拉选择需要检测的 LAS Catalog Hive 分区表所在的数据目录。子用户选择时,需确保子用户有对应目录的读写权限。LAS Catalog 权限详见权限管理

数据库

  • 数据来源为实时任务产出时,根据选定流式集成任务的产出目标库预填,不支持编辑。
  • 数据来源为自定义方式时,可下拉选择需要检测的 LAS Catalog Hive 分区表所在的数据库。子用户选择时,需确保子用户有对应数据目录和库的读写权限。LAS Catalog 权限详见权限管理

数据表

  • 数据来源为实时任务产出时,根据选定流式集成任务的产出目标表预填,不支持编辑。
  • 数据来源为自定义方式时,可下拉选择需要检测的 LAS Catalog Hive 分区表信息。子用户选择时,需确保子用户有对应数据目录、库和表的读写权限。LAS Catalog 权限详见权限管理

注意

不支持非分区表的数据检测,任务在调试/上线时会提示分区不能为空。

获取分区

在选定 LAS Catalog Hive 分区表后,会自动获取表分区字段信息,您需在分区内容中填写需检测的分区内容:

  • 小时级分区,若日期格式为:hh 如:02,则填写:${hour};
  • 小时分区,若日期格式为:H,如:2,则填写:${HOUR};
  • 天级分区,若日期格式为:yyyyMMdd 如:20181017,则填写:${date};
  • 天级分区,若日期格式为:yyyy-MM-dd 如:2018-11-17,则填写:${DATE};
  • 月级分区,若日期格式为:MM,如:09,则填写:${month};
  • 包含年的月份,如201809,填写格式:${year}${month};
  • 包含年的月份,如2018-09,填写格式:${year}-${month};
  • 其它分区如 App,请输入所需要的分区内容枚举值,用英文逗号隔开,如 aa,bb,cc。

调度资源组

您可选择任务执行时,所使用的调度资源组,可选公共调度资源组或独享调度资源组。独享资源组操作详见独享调度资源组管理

调度周期

希望 Sensor 任务执行的周期,如每天,或每小时。

任务执行时间

选择调度周期后,展示调度时间选择选项。小时级时,设置每次在某一小时的 XX 分执行,可以多选小时;天级别可设置每天 XX 时,XX 分执行。

检查次数

默认失败重试 600 次。

检查间隔

默认每隔 5 min 重试检查一次,您可按实际情况进行设置检测时间间隔。

3.3 调试运行

任务配置完成后,单击界面上方工具栏中的调试按钮,并选择业务日期进行调试。

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 本任务类型暂不支持调试执行成功或失败后发送消息通知。

调试结束后,您可在下方调试记录中,查看相应的调试日志,并可从日志中获悉检测的 LAS Catalog Hive 表分区数据是否存在。
Image

4 提交上线

任务所需参数配置和调试任务成功后,将任务提交发布到运维中心离线任务运维中执行。 单击操作栏中的保存提交上线按钮,在弹窗中,需先通过提交上线流程,最后单击确认按钮,完成作业提交。详见5.1 离线任务提交
后续任务运维操作详见:离线任务运维