You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
通用引擎
Python任务
复制全文
Python任务

DataLeap 提供纯 Python 任务类型,支持您通过 Python 语法,处理较复杂的数据开发、数据分析逻辑来满足您的业务场景。本文将为您介绍 Python 任务的操作说明。

使用场景

Python任务主要适用于以下场景:

  • 数据分析:数据分析师使用Python进行数据分析,图表制作。
    在大量数据的基础上,对数据进行清洗、去重、规格化和针对性的分析。
  • 机器学习:ML/DL 工程师使用python任务进行模型训练或者推理。
    Python在人工智能大范畴领域内的机器学习、神经网络、深度学习等方面都是主流的编程语言,得到广泛的支持和应用。
  • 在数据分析处理领域,python任务目前适用于处理的数据量较少且数据处理逻辑复杂的场景,不属于此类的请优先使用 SQL任务和 spark 任务。

使用限制

  • 使用 python2.7 时,依赖包务必指定版本,python3.7 建议指定版本,以保障每次运行环境的一致性。
  • 请尽量不要配置代码中没有依赖的包。
  • 设置系统环境变量时,避免直接覆盖系统环境变量,请按照追加方式指定,例如PATH=$PATH:/home/xxx/apps/bin/。

注意事项

  • 默认 python 版本为3.7,其他版本需手动选择。
  • 使用 python2.7 时,请在代码顶行加上 # -- coding: utf-8 --以表示文件编码。
  • 当需要依赖非 python 自带的包时,请在下方配置依赖包,python 自带无须设置(若需预置python lib,请联系系统运维管理员进行操作)。

新建任务

新建任务操作步骤如下:

  1. 登录DataLeap控制台。
  2. 选择数据开发 > 任务开发,进入任务开发页面。
  3. 单击新建任务 > 数据开发 > 通用 > Python 按钮。
    Image
  4. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且在127个字符以内。
    2. 保存至:选择任务存放的目标文件夹目录。
  5. 点击确认按钮,成功创建任务。

任务配置

任务创建完成后,便可开始配置任务代码信息。

  1. 编辑框中可输入相关 python 数据处理逻辑语句。

    • 支持语言:Python,如下所示:

      print ("Hello, Python!")
      
    • 参数:支持时间参数 ${date}、${hour} 等,更多参数可参考:调度参数说明

      print ('${date}')
      
    • 查看当前环境中已添加的第三方依赖包:

      import os
      os.system("pip3 freeze")
      
  2. 脚本配置完成后,可单击右侧侧边栏中的执行设置按钮,您可按实际情况进行资源和任务产出数据登记设置:

    • 资源选择:支持资源类型有:zip、jar、file。
    • 环境变量:支持自定义环境变量,多个环境变量用英文分号分隔。
    • 任务产出数据登记:详细说明可参见“任务产出数据登记”。
  3. 后续,您可单击右侧侧边栏的调度设置,配置调度执行频率、任务执行高级参数(包括执行 CPU、MEN 资源设置)、任务失败重跑次数、调度上下游依赖等参数。
    Image
    详见调度设置

调试运行并提交

任务配置完成后,您可单击操作栏中的保存调试按钮,进行任务调试。
调试结果无误后,单击提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:提交上线

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 如果租户项目管理员在项目控制台>流水线管理中启用了流水线流程校验,则您需要确保提交的任务符合流水线扩展程序的校验规则,才能成功提交。详见4 流水线管理

后续任务运维操作详见:离线任务运维

最近更新时间:2025.12.04 17:55:52
这个页面对您有帮助吗?
有用
有用
无用
无用