实际业务场景中,对火山引擎对象存储(TOS)路径下的数据进行开发之前,如果需要依赖 TOS 路径下数据准备就绪后才能进行二次开发时,可将数据依赖转换为 EMR Serverless Spark TOS Sensor 任务依赖。
该 Sensor 任务的数据来源可以选择为实时集成任务产出,也支持自定义,它能够检测 TOS 路径中的数据是否就绪,实现对 TOS 路径下的数据监控,从而确保下游任务开发流程在数据已准备完成的基础上顺利进行。
本文将为您介绍 EMR Serverless Spark TOS Sensor 任务的操作指南。
1 使用前提
EMR Serverless Spark TOS Sensor 任务类型目前处于白名单使用阶段,您可通过提工单的方式,请 DataLeap 支持同学进行白名单开通使用。
当数据来源选择实时任务产出时,需填写 TOS 数据存储对应的 TOS 地址信息。
前半部分固定+用户输入的形式,前半部分来自 TOS 数据源中的 bucket(tos://bucket_name/),后半部分支持用户手动填写 TOS 路径,比如 emr_test/default.db/hive_test_table。
在 SUCCESS 标签地址中可输入 ${date} 或 ${hour} 表达式,系统会根据标签自动识别分区。如 /data/dorado/task_1/${date}/_${hour}_SUCCESS 通常对应小时级别任务:
${date} 业务时间日期,格式为:yyyymmdd,如:20150526
${hour} 业务时间整点,用于小时级别任务,格式为: hh,如:02
TOS 数据源
当数据来源选择自定义方式时,下拉选择已创建的 TOS 数据源信息。
数据源创建方式详见3.1 数据源注册。
注意
TOS 数据源仅支持选择数据源接入方式为“火山引擎TOS”的数据源配置。
监测文件地址
当数据来源选择自定义方式时,需输入目标检测文件的 TOS 路径信息。地址中输入${date}或${hour}时,系统会根据标签自动识别分区,如 tos://bucket_name/emr_test/default.db/hive_table_test/${date}/_${hour}/_SUCCESS。