LAS 任务管理为开发者提提供灵活、稳定、高性能的数据处理任务管理能力,支持多种算法框架,能够分布式处理大规模的数据处理任务,降低客户成本提升开发效率。
前提条件
- 您已经通过开发机或其他方式具备完整的可执行镜像。
说明
如果您的镜像在火山镜像仓库中,请注意您的仓库必须是标准版实例。
- 您已创建好任务运行所需的队列资源,创建队列的操作请参见队列管理。
说明
- 如果您需要 GPU 资源,请注意队列创建需要选择 GPU。
- 当使用自定义镜像时,任务暂不支持运行在独占队列(即 EMR Serverless 队列)资源上。
- 如果您需要创建并运行Python类的任务,您需要先将作业文件上传至与 LAS 同区域的 TOS 桶中,便于后续创建任务的时候直接选用。
创建任务
配置基本信息
- 登录 LAS 控制台,选择目标地域和项目,在左侧导航栏中选择 数据处理 > 任务管理,进入任务管理页面。
- 单击+创建任务,跳转至创建任务页面,并配置相关参数。
配置基本信息。

配置项 | 说明 |
|---|
名称 | - 长度 1-100 个字符
- 仅支持中文、大小写字母、数字开头
- 仅支持横线“-”及下划线“_”符号,不包含特殊字符
|
描述 | 描述信息,长度 0-200 个字符 |
任务类型 | 支持 Daft、Spark、Python 任务类型。 - Daft:分布式任务,适用于高效处理 AI 多模态数据等场景
- Python:支持直接运行 Python 脚本及相关依赖,适用轻量级数据处理场景。
- Spark:适用于海量数据的批流处理、SQL分析等传统大数据场景。
|
配置环境信息
Daft/Python 任务

配置项 | 说明 |
|---|
镜像类型 & 镜像 | 支持内置镜像、自定义镜像、火山引擎镜像仓库、可访问的镜像URL中的镜像。 - 内置镜像:由 LAS 提供的 Daft、Ray、Spark 等官方内置镜像
- 自定义镜像:支持 LAS 平台上构建的自定义镜像部署启动开发机
- 火山引擎镜像:支持选择已上传至火山镜像仓库中的镜像
- 镜像URL:支持通过可公网访问的自建镜像仓库URL来设置镜像。通过此种方式配置时,您可在设置好镜像URL后进行联通性测试,保障后续部署开发机时可正常获取对应镜像。
|
入口命令 | 配置作业启动命令。 |
Python 作业参数
(Python 任务需配置) | 配置Python作业的作业参数,当前Python作业参数的数据类型支持:String、Float、Boolean、JSON、List、Flag。您可根据界面提示的配置示例,配置对应的作业参数,保障作业参数的数据格式正确。
 |
环境变量 | 环境变量以 Key:Value 形式填写。支持通过KV模式一行一行添加,或通过文本形式集中添加。在开发机中设置环境变量后,后续即可直接在任务中引用对应变量。
例如,在环境变量中设置变量名与取值为APP_ENV:PRODUCTION,则,后续可以在作业中使用如下方式获取:import os; var = os.getenv("APP_ENV")。其中 var 会被赋值 “PRODUCTION”。 |
数据集挂载 | - 数据集名称:如果您已经将后续任务所需处理的数据创建为LAS的数据集,您也可在此处将数据集挂载至开发机,后续开发任务时,可直接基于挂载的数据集来读取数据。
- 挂载路径:表示数据集挂载到DSW的路径,例如
/mnt/data,在代码中您可以检索该路径获取数据集。
|
存储路径挂载 | 支持挂载 TOS、 vePFS、NAS 文件系统,用于存储需要访问的数据,或者持久化存储开发过程中的文件。存储挂载的详细介绍请参见存储挂载说明。 |
Spark 任务

配置项 | 说明 |
|---|
镜像类型 & 镜像 | 支持内置镜像、自定义镜像、火山引擎镜像仓库、可访问的镜像URL中的镜像。 - 内置镜像:由 LAS 提供的 Daft、Ray、Spark 等官方内置镜像
- 自定义镜像:支持 LAS 平台上构建的自定义镜像部署启动开发机
- 火山引擎镜像:支持选择已上传至火山镜像仓库中的镜像
- 镜像URL:支持通过可公网访问的自建镜像仓库URL来设置镜像。通过此种方式配置时,您可在设置好镜像URL后进行联通性测试,保障后续部署开发机时可正常获取对应镜像。
|
Python/Jar 文件 | 上传至同区域的 TOS 桶中的作业文件。 |
Main Class | SparkJar 作业运行的主类 |
主任务文件 | SparkJar 作业的主要 Jar 资源,您可以将资源上传至 TOS,然后在此指定 TOS 路径 |
依赖 Jar | 除了任务主文件,SparkJar 作业还支持添加一些依赖的 Jar 文件,在任务运行时会被同时添加至任务 classpath 中。同样,您可以将资源上传至 TOS 并在此指定路径 |
依赖 Python 资源 | 上传至当前 Serverless 队列同区域的 TOS 桶中的作业文件。 |
依赖File 资源 | SparkJar 作业的依赖文件,用户可以在任务代码中,通过 API 访问 |
Spark Conf | Spark 作业参数,可以指定 Spark 作业所用的资源等 |
Main 参数(Main Conf) | SparkJar 作业主类运行时,需要传入的参数 |
数据集挂载 | - 数据集名称:如果您已经将后续任务所需处理的数据创建为LAS的数据集,您也可在此处将数据集挂载至开发机,后续开发任务时,可直接基于挂载的数据集来读取数据。
- 挂载路径:表示数据集挂载到DSW的路径,例如
/mnt/data,在代码中您可以检索该路径获取数据集。
|
存储路径挂载 | 支持挂载 TOS、 vePFS、NAS 文件系统,用于存储需要访问的数据,或者持久化存储开发过程中的文件。存储挂载的详细介绍请参见存储挂载说明。 |
高级设置
配置项 | 说明 |
|---|
任务超时 | 设置是否设置任务超时时间的开关。 - 关闭:表示不设置。
- 开启:您需设置任务超时时间,后续任务实际运行时长超过设定时长时,将自动取消对应任务。
|
周期调度 | 设置后续是否需要周期调度任务,开启后,可按调度策略自动执行任务。 - 生效时间:设置周期任务调度策略的启用时点。
- 调度策略 & 时间间隔:可设置周期调度的时间粒度与时间间隔,时间粒度支持分钟级、小时级、天级、周级、月级。
- 允许并发:默认允许;如果不允许并发,当周期调度时前一次任务未执行完毕,则跳过本次调度。
- 资源 & 运行参数:设置后续周期调度任务时,任务运行在哪个队列资源上,并基于配置的运行参数来占用对应队列的资源。
|
网络连接 | - 开启后,可以打通所选择的资源队列到目标 VPC 的网络。如果任务需要访问某个 VPC 环境中的服务,您需要打开开关并配置 VPC 相关信息(选择 VPC、子网、安全组)。
例如,存储路径挂载 vePFS 文件系统,则需打开开关,选择文件系统所在的 VPC 网络。 - PrivateZone开关:开启 PrivateZone 功能后,可以使用 VPC 内的 DNS 解析规则,此设置仅在任务提交到独占队列时生效。
|
执行任务
方式1:手动触发执行
任务创建完成后,您可按需手动触发任务运行。
- 在任务列表页面,单击对应任务后的“执行:按钮。

- 根据界面提示,配置本次任务执行的资源和运行参数等信息。

- 配置完成后,单击页面右下角的”执行“按钮,开始执行当前任务。
方式2:周期任务自动执行
对于周期任务您可可等待任务根据配置的调度策略自动执行。
方式3:编排工作流
您也可以基于工作流进行多任务的编排,将多个任务通过工作流的形式进行组织后,以工作流运行来触发工作流中多任务的提交执行,详见工作流。
查看任务实例(执行结果与日志)
任务每一次被触发执行,均会在”任务实例“页面产生一条任务实例,您可以在任务实例中查看执行结果、日志以及Daft UI 提供的监控信息。

- 您可在任务实例页面查看所有任务实例,并支持通过实例ID、实例所属任务、运行人等维度进行过滤筛选。
- 运行失败的任务实例,您可将鼠标悬浮至实例状态上查看失败原因的简单提示,也可单击”日志“查看详细的运行日志信息,进行失败原因定位排查。
- 对于手动触发的任务实例,您也可以单击”重试“再次触发实例运行,重试后,您需再次设置任务的资源等参数并触发执行,生成一个新的任务实例。
- Daft 任务可单击”Daft UI“进入Daft的web界面,查看更多Daft详情。
编辑/复制/删除任务
任务创建成功后,您可以在任务列表页面查看所有已创建好的任务,支持对已创建的任务进行编辑、复制、删除等操作。
