DataLeap 提供纯 Python 任务类型,支持您通过 Python 语法,处理较复杂的数据开发、数据分析逻辑来满足您的业务场景。本文将为您介绍 Python 任务的操作说明。
使用场景
Python任务主要适用于以下场景:
- 数据分析:数据分析师使用Python进行数据分析,图表制作。
在大量数据的基础上,对数据进行清洗、去重、规格化和针对性的分析。 - 机器学习:ML/DL 工程师使用python任务进行模型训练或者推理。
Python在人工智能大范畴领域内的机器学习、神经网络、深度学习等方面都是主流的编程语言,得到广泛的支持和应用。 - 在数据分析处理领域,python任务目前适用于处理的数据量较少且数据处理逻辑复杂的场景,不属于此类的请优先使用 SQL任务和 spark 任务。
使用限制
- 使用 python2.7 时,依赖包务必指定版本,python3.7 建议指定版本,以保障每次运行环境的一致性。
- 请尽量不要配置代码中没有依赖的包。
- 设置系统环境变量时,避免直接覆盖系统环境变量,请按照追加方式指定,例如PATH=$PATH:/home/xxx/apps/bin/。
注意事项
- 默认 python 版本为3.7,其他版本需手动选择。
- 使用 python2.7 时,请在代码顶行加上 # -- coding: utf-8 --以表示文件编码。
- 当需要依赖非 python 自带的包时,请在下方配置依赖包,python 自带无须设置(若需预置python lib,请联系系统运维管理员进行操作)。
新建任务
新建任务操作步骤如下:
- 登录DataLeap控制台。
- 选择数据开发 > 任务开发,进入任务开发页面。
- 单击新建任务 > 数据开发 > 通用 > Python 按钮。

- 填写任务基本信息:
- 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且在127个字符以内。
- 保存至:选择任务存放的目标文件夹目录。
- 点击确认按钮,成功创建任务。
任务配置
任务创建完成后,便可开始配置任务代码信息。
编辑框中可输入相关 python 数据处理逻辑语句。
脚本配置完成后,可单击右侧侧边栏中的执行设置按钮,您可按实际情况进行资源和任务产出数据登记设置:
- 资源选择:支持资源类型有:zip、jar、file。
- 环境变量:支持自定义环境变量,多个环境变量用英文分号分隔。
- 任务产出数据登记:详细说明可参见“任务产出数据登记”。
后续,您可单击右侧侧边栏的调度设置,配置调度执行频率、任务执行高级参数(包括执行 CPU、MEN 资源设置)、任务失败重跑次数、调度上下游依赖等参数。

详见调度设置。
调试运行并提交
任务配置完成后,您可单击操作栏中的保存和调试按钮,进行任务调试。
调试结果无误后,单击提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:提交上线。
注意
- 调试操作,直接使用线上数据进行调试,需谨慎操作。
- 如果租户项目管理员在项目控制台>流水线管理中启用了流水线流程校验,则您需要确保提交的任务符合流水线扩展程序的校验规则,才能成功提交。详见4 流水线管理。
后续任务运维操作详见:离线任务运维。