Python任务--大数据研发治理套件（私有化）-火山引擎

文档中心

大数据研发治理套件（私有化）

通用引擎

Python任务

DataLeap 提供纯 Python 任务类型，支持您通过 Python 语法，处理较复杂的数据开发、数据分析逻辑来满足您的业务场景。本文将为您介绍 Python 任务的操作说明。

使用场景

Python任务主要适用于以下场景：

数据分析：数据分析师使用Python进行数据分析，图表制作。
在大量数据的基础上，对数据进行清洗、去重、规格化和针对性的分析。
机器学习：ML/DL 工程师使用python任务进行模型训练或者推理。
Python在人工智能大范畴领域内的机器学习、神经网络、深度学习等方面都是主流的编程语言，得到广泛的支持和应用。
在数据分析处理领域，python任务目前适用于处理的数据量较少且数据处理逻辑复杂的场景，不属于此类的请优先使用 SQL任务和 spark 任务。

新建任务操作步骤如下：

登录DataLeap控制台。
选择数据开发 > 任务开发，进入任务开发页面。
单击新建任务 > 数据开发 > 通用 > Python 按钮。
填写任务基本信息：
1. 任务名称：输入任务的名称，只允许字符.、字母、数字、下划线、连字符、[]、【】、（）、()以及中文字符，且在127个字符以内。
2. 保存至：选择任务存放的目标文件夹目录。
点击确认按钮，成功创建任务。

任务创建完成后，便可开始配置任务代码信息。

编辑框中可输入相关 python 数据处理逻辑语句。
- 支持语言：Python，如下所示：
```
print ("Hello, Python!")
```
- 参数：支持时间参数 ${date}、${hour} 等，更多参数可参考：调度参数说明
```
print ('${date}')
```
- 查看当前环境中已添加的第三方依赖包：
```
import os
os.system("pip3 freeze")
```
脚本配置完成后，可单击右侧侧边栏中的执行设置按钮，您可按实际情况进行资源和任务产出数据登记设置：
- 资源选择：支持资源类型有：zip、jar、file。
- 环境变量：支持自定义环境变量,多个环境变量用英文分号分隔。
- 任务产出数据登记：详细说明可参见“任务产出数据登记”。
后续，您可单击右侧侧边栏的调度设置，配置调度执行频率、任务执行高级参数（包括执行 CPU、MEN 资源设置）、任务失败重跑次数、调度上下游依赖等参数。

详见调度设置。

任务配置完成后，您可单击操作栏中的保存和调试按钮，进行任务调试。
调试结果无误后，单击提交上线按钮，在提交上线对话框中，选择回溯数据、监控设置、提交设置等参数，最后单击确认按钮，完成作业提交。提交上线说明详见：提交上线。

注意

调试操作，直接使用线上数据进行调试，需谨慎操作。
如果租户项目管理员在项目控制台>流水线管理中启用了流水线流程校验，则您需要确保提交的任务符合流水线扩展程序的校验规则，才能成功提交。详见4 流水线管理。

后续任务运维操作详见：离线任务运维。

最近更新时间：2025.12.04 17:55:52

这个页面对您有帮助吗？

有用

无用