You need to enable JavaScript to run this app.
AI 数据湖服务

AI 数据湖服务

复制全文
数据处理
任务管理
复制全文
任务管理

LAS 任务管理为开发者提提供灵活、稳定、高性能的数据处理任务管理能力,支持多种算法框架,能够分布式处理大规模的数据处理任务,降低客户成本提升开发效率。

前提条件
  • 您已经通过开发机或其他方式具备完整的可执行镜像。

    说明

    如果您的镜像在火山镜像仓库中,请注意您的仓库必须是标准版实例

  • 您已创建好任务运行所需的队列资源,创建队列的操作请参见队列管理

    说明

    • 如果您需要 GPU 资源,请注意队列创建需要选择 GPU。
    • 当使用自定义镜像时,任务暂不支持运行在独占队列(即 EMR Serverless 队列)资源上。
  • 如果您需要创建并运行Python类的任务,您需要先将作业文件上传至与 LAS 同区域的 TOS 桶中,便于后续创建任务的时候直接选用。

创建任务

配置基本信息

  1. 登录 LAS 控制台,选择目标地域和项目,在左侧导航栏中选择 数据处理 > 任务管理,进入任务管理页面。
  2. 单击+创建任务,跳转至创建任务页面,并配置相关参数。
    1. 配置基本信息。
      Image

      配置项

      说明

      名称

      • 长度 1-100 个字符
      • 仅支持中文、大小写字母、数字开头
      • 仅支持横线“-”及下划线“_”符号,不包含特殊字符

      描述

      描述信息,长度 0-200 个字符

      任务类型

      支持 Daft、Spark、Python 任务类型。

      • Daft:分布式任务,适用于高效处理 AI 多模态数据等场景
      • Python:支持直接运行 Python 脚本及相关依赖,适用轻量级数据处理场景。
      • Spark:适用于海量数据的批流处理、SQL分析等传统大数据场景。

配置环境信息

Daft/Python 任务

Image

配置项

说明

镜像类型 & 镜像

支持内置镜像、自定义镜像、火山引擎镜像仓库、可访问的镜像URL中的镜像。

  • 内置镜像:由 LAS 提供的 Daft、Ray、Spark 等官方内置镜像
  • 自定义镜像:支持 LAS 平台上构建的自定义镜像部署启动开发机
  • 火山引擎镜像:支持选择已上传至火山镜像仓库中的镜像
  • 镜像URL:支持通过可公网访问的自建镜像仓库URL来设置镜像。通过此种方式配置时,您可在设置好镜像URL后进行联通性测试,保障后续部署开发机时可正常获取对应镜像。

入口命令

配置作业启动命令。

Python 作业参数
(Python 任务需配置)

配置Python作业的作业参数,当前Python作业参数的数据类型支持:String、Float、Boolean、JSON、List、Flag。您可根据界面提示的配置示例,配置对应的作业参数,保障作业参数的数据格式正确。
Image

环境变量

环境变量以 Key:Value 形式填写。支持通过KV模式一行一行添加,或通过文本形式集中添加。在开发机中设置环境变量后,后续即可直接在任务中引用对应变量。
例如,在环境变量中设置变量名与取值为APP_ENV:PRODUCTION,则,后续可以在作业中使用如下方式获取:import os; var = os.getenv("APP_ENV")。其中 var 会被赋值 “PRODUCTION”。

数据集挂载

  • 数据集名称:如果您已经将后续任务所需处理的数据创建为LAS的数据集,您也可在此处将数据集挂载至开发机,后续开发任务时,可直接基于挂载的数据集来读取数据。
  • 挂载路径:表示数据集挂载到DSW的路径,例如/mnt/data,在代码中您可以检索该路径获取数据集。

说明

多个数据集挂载的路径不能重复。

存储路径挂载

支持挂载 TOS、 vePFS、NAS 文件系统,用于存储需要访问的数据,或者持久化存储开发过程中的文件。存储挂载的详细介绍请参见存储挂载说明

Spark 任务

Image

配置项

说明

镜像类型 & 镜像

支持内置镜像、自定义镜像、火山引擎镜像仓库、可访问的镜像URL中的镜像。

  • 内置镜像:由 LAS 提供的 Daft、Ray、Spark 等官方内置镜像
  • 自定义镜像:支持 LAS 平台上构建的自定义镜像部署启动开发机
  • 火山引擎镜像:支持选择已上传至火山镜像仓库中的镜像
  • 镜像URL:支持通过可公网访问的自建镜像仓库URL来设置镜像。通过此种方式配置时,您可在设置好镜像URL后进行联通性测试,保障后续部署开发机时可正常获取对应镜像。

Python/Jar 文件

上传至同区域的 TOS 桶中的作业文件。

Main Class

SparkJar 作业运行的主类

主任务文件

SparkJar 作业的主要 Jar 资源,您可以将资源上传至 TOS,然后在此指定 TOS 路径

依赖 Jar

除了任务主文件,SparkJar 作业还支持添加一些依赖的 Jar 文件,在任务运行时会被同时添加至任务 classpath 中。同样,您可以将资源上传至 TOS 并在此指定路径

依赖 Python 资源

上传至当前 Serverless 队列同区域的 TOS 桶中的作业文件。

依赖File 资源

SparkJar 作业的依赖文件,用户可以在任务代码中,通过 API 访问

Spark Conf

Spark 作业参数,可以指定 Spark 作业所用的资源等

Main 参数(Main Conf)

SparkJar 作业主类运行时,需要传入的参数

数据集挂载

  • 数据集名称:如果您已经将后续任务所需处理的数据创建为LAS的数据集,您也可在此处将数据集挂载至开发机,后续开发任务时,可直接基于挂载的数据集来读取数据。
  • 挂载路径:表示数据集挂载到DSW的路径,例如/mnt/data,在代码中您可以检索该路径获取数据集。

说明

多个数据集挂载的路径不能重复。

存储路径挂载

支持挂载 TOS、 vePFS、NAS 文件系统,用于存储需要访问的数据,或者持久化存储开发过程中的文件。存储挂载的详细介绍请参见存储挂载说明

高级设置

配置项

说明

任务超时

设置是否设置任务超时时间的开关。

  • 关闭:表示不设置。
  • 开启:您需设置任务超时时间,后续任务实际运行时长超过设定时长时,将自动取消对应任务。

周期调度

设置后续是否需要周期调度任务,开启后,可按调度策略自动执行任务。

  • 生效时间:设置周期任务调度策略的启用时点。
  • 调度策略 & 时间间隔:可设置周期调度的时间粒度与时间间隔,时间粒度支持分钟级、小时级、天级、周级、月级。
  • 允许并发:默认允许;如果不允许并发,当周期调度时前一次任务未执行完毕,则跳过本次调度。
  • 资源 & 运行参数:设置后续周期调度任务时,任务运行在哪个队列资源上,并基于配置的运行参数来占用对应队列的资源。

网络连接

  • 开启后,可以打通所选择的资源队列到目标 VPC 的网络。如果任务需要访问某个 VPC 环境中的服务,您需要打开开关并配置 VPC 相关信息(选择 VPC、子网、安全组)。
    例如,存储路径挂载 vePFS 文件系统,则需打开开关,选择文件系统所在的 VPC 网络。
  • PrivateZone开关:开启 PrivateZone 功能后,可以使用 VPC 内的 DNS 解析规则,此设置仅在任务提交到独占队列时生效。

执行任务

方式1:手动触发执行

任务创建完成后,您可按需手动触发任务运行。

  1. 在任务列表页面,单击对应任务后的“执行:按钮。
    Image
  2. 根据界面提示,配置本次任务执行的资源和运行参数等信息。
    Image
  3. 配置完成后,单击页面右下角的”执行“按钮,开始执行当前任务。

方式2:周期任务自动执行

对于周期任务您可可等待任务根据配置的调度策略自动执行。

方式3:编排工作流

您也可以基于工作流进行多任务的编排,将多个任务通过工作流的形式进行组织后,以工作流运行来触发工作流中多任务的提交执行,详见工作流

查看任务实例(执行结果与日志)

任务每一次被触发执行,均会在”任务实例“页面产生一条任务实例,您可以在任务实例中查看执行结果、日志以及Daft UI 提供的监控信息。
Image

  • 您可在任务实例页面查看所有任务实例,并支持通过实例ID、实例所属任务、运行人等维度进行过滤筛选。
  • 运行失败的任务实例,您可将鼠标悬浮至实例状态上查看失败原因的简单提示,也可单击”日志“查看详细的运行日志信息,进行失败原因定位排查。
  • 对于手动触发的任务实例,您也可以单击”重试“再次触发实例运行,重试后,您需再次设置任务的资源等参数并触发执行,生成一个新的任务实例。
  • Daft 任务可单击”Daft UI“进入Daft的web界面,查看更多Daft详情。

编辑/复制/删除任务

任务创建成功后,您可以在任务列表页面查看所有已创建好的任务,支持对已创建的任务进行编辑、复制、删除等操作。
Image

最近更新时间:2026.02.11 17:35:34
这个页面对您有帮助吗?
有用
有用
无用
无用