You need to enable JavaScript to run this app.
导航
EMR Serverless Spark TOS Sensor
最近更新时间:2025.09.23 17:18:41首次发布时间:2025.02.17 20:22:27
复制全文
我的收藏
有用
有用
无用
无用

实际业务场景中,对火山引擎对象存储(TOS)路径下的数据进行开发之前,如果需要依赖 TOS 路径下数据准备就绪后才能进行二次开发时,可将数据依赖转换为 EMR Serverless Spark TOS Sensor 任务依赖。
该 Sensor 任务的数据来源可以选择为实时集成任务产出,也支持自定义,它能够检测 TOS 路径中的数据是否就绪,实现对 TOS 路径下的数据监控,从而确保下游任务开发流程在数据已准备完成的基础上顺利进行。
本文将为您介绍 EMR Serverless Spark TOS Sensor 任务的操作指南。

1 使用前提

  1. EMR Serverless Spark TOS Sensor 任务类型目前处于白名单使用阶段,您可通过提工单的方式,请 DataLeap 支持同学进行白名单开通使用。
  2. 已开通 EMR Serverless Spark 队列资源实例。详见队列管理
  3. 需开通 DataLeap 服务版本中大数据分析、DataOps敏捷研发分布式数据自治的服务,项目方可继续绑定 EMR Serverless Spark 实例。详见版本服务说明
  4. 已在 DataLeap 项目控制台中,绑定相应的 EMR Serverless Spark 服务实例。详见创建项目
  5. 子用户访问 EMR Serverless Spark 队列资源时,需确保拥有 EMRServerlessFullAccess 或 EMRServerlessReadOnlyAccess 权限策略,子用户可请主账号在访问控制界面进行权限策略添加。

2 注意事项

  • Sensor 任务不需要设置依赖偏移量,若下游依赖该 Sensor 任务需要设置偏移时,在对应任务的调度设置中,填写偏移量即可。
  • Sensor 任务默认失败重试 600 次,每隔 5min 重试一次,超过 600 次后,不再重试。后续如果数据就绪,请重跑 Sensor 对应的实例。
  • 数据来源为实时任务产出时,任务列表中仅展现目标数据源接入方式为“火山引擎TOS”的流式集成任务。

3 任务配置说明

3.1 新建任务

  1. 登录 DataLeap租户控制台
  2. 概览界面,显示加入的项目中,单击数据开发进入对应项目。
  3. 任务开发界面,左侧导航栏中,单击新建任务按钮,进入新建任务页面。
  4. 选择任务类型:
    1. 分类:数据开发
    2. 绑定引擎:EMR Serverless Spark

      注意

      在项目控制台管理界面中,如果新增或修改了引擎,那么在数据开发任务新建窗口中,需刷新整个 DataLeap 数据开发界面,才能看到新增或修改后的引擎任务类型。

    3. 关联实例:显示项目绑定时的集群实例信息。
    4. 选择任务:离线数据 EMR Serverless Spark TOS Sensor
  5. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。
    2. 保存至:选择任务存放的目标文件夹目录。
  6. 单击确定按钮,成功创建任务。

Image

3.2 TOS Sensor 任务配置

任务新建完成后,进入 TOS Sensor 任务配置界面,依次完成以下配置操作:

配置项

说明

任务名称

新建任务时输入的任务名称,您可在目录树的任务名称右侧“更多”操作中,单击“重命名”按钮,进行修改名称操作。

任务描述

添加描述方便后续查看和管理,非必填。

责任人

下拉选择任务所属责任人。

数据来源

按需选择 TOS 路径下的数据来源,支持选择实时任务产出、自定义两种方式。

实时任务

当数据来源选择实时任务产出时,支持按照实时集成任务 ID、名称进行搜索。

说明

在实时任务的下拉列表中,仅展现目标数据源接入方式为“火山引擎TOS”的流式集成任务。

数据保存路径

当数据来源选择实时任务产出时,默认填写为目标数据源中写入的 TOS 保存地址信息,不支持编辑。

数据所属引擎

默认显示为创建任务时选择的 EMR Serverless Spark 引擎和关联实例信息。

SUCCESS 标签地址

当数据来源选择实时任务产出时,需填写 TOS 数据存储对应的 TOS 地址信息。
前半部分固定+用户输入的形式,前半部分来自 TOS 数据源中的 bucket(tos://bucket_name/),后半部分支持用户手动填写 TOS 路径,比如 emr_test/default.db/hive_test_table。
在 SUCCESS 标签地址中可输入 ${date} 或 ${hour} 表达式,系统会根据标签自动识别分区。如 /data/dorado/task_1/${date}/_${hour}_SUCCESS 通常对应小时级别任务:

  • ${date} 业务时间日期,格式为:yyyymmdd,如:20150526
  • ${hour} 业务时间整点,用于小时级别任务,格式为: hh,如:02

TOS 数据源

当数据来源选择自定义方式时,下拉选择已创建的 TOS 数据源信息。
数据源创建方式详见3.1 数据源注册

注意

TOS 数据源仅支持选择数据源接入方式为“火山引擎TOS”的数据源配置。

监测文件地址

当数据来源选择自定义方式时,需输入目标检测文件的 TOS 路径信息。地址中输入${date}或${hour}时,系统会根据标签自动识别分区,如 tos://bucket_name/emr_test/default.db/hive_table_test/${date}/_${hour}/_SUCCESS。

注意

  • 填写 TOS 路径信息中,末尾必须指定到具体文件名称,不支持指定文件夹目录路径。
  • 文件名称中,支持通过分区变量如 ${date} 和 ${hour} 进行命名,暂不支持通配符或正则表达式方式配置。

调度资源组

您可选择任务执行时,所使用的调度资源组,可选公共调度资源组或独享调度资源组。独享资源组操作详见独享调度资源组管理

调度周期

希望 Sensor 任务执行的周期,如每天,或每小时。

任务执行时间

选择调度周期后,展示调度时间选择选项。

  • 小时级时,设置每次在某一小时的 XX 分执行,可以多选小时;
  • 天级别时,可设置每天 XX 时,XX 分执行。

检查次数

默认失败重试 600 次。

检查间隔

默认每隔 5 min 重试检查一次,您可按实际情况进行设置检测时间间隔。

3.3 调试运行

任务配置完成后,单击界面上方工具栏中的调试按钮,并选择业务日期进行调试。

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 本任务类型暂不支持调试执行成功或失败后发送消息通知。
  • 数据开发界面调试日志数据,保留 15 天,您可在 15 天内查看相应的调试日志详情。

调试结束后,您可在下方调试记录中,查看相应的调试日志,并可从日志中获悉实际检测的 TOS 路径信息。
Image

4 提交上线

任务所需参数配置和调试任务成功后,将任务提交发布到运维中心离线任务运维中执行。 单击操作栏中的保存提交上线按钮,在弹窗中,需先通过提交上线流程,最后单击确认按钮,完成作业提交。详见5.1 离线任务提交
后续任务运维操作详见:离线任务运维