Python 任务适用于处理的数据量较少且处理逻辑不复杂的场景,能够满足 Python 开发业务场景,支持 Python 3.7、Python 3.12 版本。
注意
任务名称信息仅允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。

任务创建成功后,进入代码开发编辑界面。
支持输入 Python 3.7、Python 3.12 版本语法,示例如下:
print ("Hello, Python!")
参数:支持时间参数 ${date}、${hour} 等,更多参数可参考:时间变量与常量说明
print ('${date}')
使用命令方式安装第三方依赖包示例:
import os os.system('pip install numpy(替换所需的第三方包名称) -i https://pypi.tuna.tsinghua.edu.cn/simple')
更多安装方式详见Python 任务使用第三方依赖包。
注意
当任务在脚本中访问公网、私有网络(VPC)资源,或者访问有存在网络访问限制的镜像仓库地址时,您需要进行网络配置,选择能够与您资源互通的私有网络、子网、安全组信息。
有以下两种方式:
说明
子用户登录创建任务时,若手动选择网络环境,则需具备私有网络相关服务的使用权限。此时,需要主账号应在访问控制中,为子用户添加 VPCReadOnlyAccess 或 VPCFullAccess 权限。详见访问控制。
产出数据登记用于记录任务的数据血缘,不会对代码逻辑造成影响。如果 Shell 任务中含有对应引擎库表数据的产出时,强烈建议填写,以便后续维护任务数据血缘关系。
单击进入右侧侧边栏执行设置窗口。
选择计算资源组:支持选择公共计算资源组、独享计算资源组。
镜像地址:
支持您自定义镜像,建议使用火山引擎镜像仓库,dataleap-{region}.cr.volces.com/studio/spark:online, 其中 {region} 值,需根据实际情况替换为具体地域信息,如 cn-beijing、cn-shanghai、ch-guangzhou、ap-southeast-1。
完整示例如,北京地域:dataleap-cn-beijing.cr.volces.com/studio/spark:online
说明
创建 Python 任务;
执行以下脚本信息:
import os os.system("pip freeze")
执行后可在日志中查看包含依赖包结果。
DataLeap 额外提供了以下镜像地址,您可根据实际场景进行使用:
镜像地址 | 说明 |
|---|---|
**dataleap-{region}.cr.volces.com/studio/notebook_runtime:online ** | 该镜像地址可供 Python 3.7 版本环境使用,预装了常用第三方库。 {region} 值,需根据实际情况替换为具体地域信息,如 cn-beijing、cn-shanghai、ch-guangzhou、ap-southeast-1。 |
dataleap-{region}.cr.volces.com/studio/notebook_runtime:python-3-12 | 该镜像地址可供 Python 3.12 版本环境使用,预装了常用第三方库。 {region} 值,需根据实际情况替换为具体地域信息,如 cn-beijing、cn-shanghai、ch-guangzhou、ap-southeast-1。 |
资源配置:资源可根据实际需求进行配置,以 CU 为单位,默认配置 1CU(1CU = 1Core 4GB),下拉可选择更多规格的资源配置。
说明
资源选择:
Python 任务支持在任务编辑中使用通用资源,通过访问 Jar、File、Zip 等资源类型,来提升数据开发效率。
在资源选择下拉框中,选取任务中所需使用到的资源,若还未创建资源,您也可单击新建资源按钮,前往资源库进行新建。新建资源操作详见资源库。
进入右侧边栏调度设置,配置节点调度相关属性。设置操作详见:调度设置。
注意
Python 任务上游依赖设置,不支持依赖推荐功能,只能通过手动添加的方式,添加上游依赖关系。
配置完成后,单击上方操作栏中保存与调试图标按钮,将执行编辑的 Python 命令。执行成功后,可在界面下方查看运行日志和结果。
注意

任务所需参数配置和调试任务成功后,将任务提交发布到运维中心离线任务运维中执行。
单击上方操作栏中的保存和提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---离线任务提交。
后续任务运维操作详见:离线任务运维。