You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
下载 pdf
通用引擎
Python任务
复制全文
下载 pdf
Python任务

DataLeap 提供纯 Python 任务类型,支持您通过 Python 语法,处理较复杂的数据开发、数据分析逻辑来满足您的业务场景。本文将为您介绍 Python 任务的操作说明。

使用场景

Python任务主要适用于以下场景:

  • 数据分析:数据分析师使用Python进行数据分析,图表制作。
    在大量数据的基础上,对数据进行清洗、去重、规格化和针对性的分析。
  • 机器学习:ML/DL 工程师使用python任务进行模型训练或者推理。
    Python在人工智能大范畴领域内的机器学习、神经网络、深度学习等方面都是主流的编程语言,得到广泛的支持和应用。
  • 在数据分析处理领域,python任务目前适用于处理的数据量较少且数据处理逻辑复杂的场景,不属于此类的请优先使用 SQL任务和 spark 任务。

使用限制

  • 使用 python2.7 时,依赖包务必指定版本,python3.7 建议指定版本,以保障每次运行环境的一致性。
  • 请尽量不要配置代码中没有依赖的包。
  • 设置系统环境变量时,避免直接覆盖系统环境变量,请按照追加方式指定,例如PATH=$PATH:/home/xxx/apps/bin/。

注意事项

  • 默认 python 版本为3.7,其他版本需手动选择。
  • 使用 python2.7 时,请在代码顶行加上 # -- coding: utf-8 --以表示文件编码。
  • 当需要依赖非 python 自带的包时,请在下方配置依赖包,python 自带无须设置(若需预置python lib,请联系系统运维管理员进行操作)。

新建任务

新建任务操作步骤如下:

  1. 登录DataLeap控制台。
  2. 选择数据开发 > 任务开发,进入任务开发页面。
  3. 单击新建任务 > 数据开发 > 通用 > Python 按钮。
    Image
  4. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且在127个字符以内。
    2. 保存至:选择任务存放的目标文件夹目录。
  5. 点击确认按钮,成功创建任务。

任务配置

任务创建完成后,便可开始配置任务代码信息。

  1. 编辑框中可输入相关 python 数据处理逻辑语句。

    • 支持语言:Python,如下所示:

      print ("Hello, Python!")
      
    • 参数:支持时间参数 ${date}、${hour} 等,更多参数可参考:调度参数说明

      print ('${date}')
      
    • 查看当前环境中已添加的第三方依赖包:

      import os
      os.system("pip3 freeze")
      
  2. 脚本配置完成后,可单击右侧侧边栏中的执行设置按钮,您可按实际情况进行资源和任务产出数据登记设置:

    • 资源选择:支持资源类型有:zip、jar、file。
    • 环境变量:支持自定义环境变量,多个环境变量用英文分号分隔。
    • 任务产出数据登记:详细说明可参见“任务产出数据登记”。
  3. 后续,您可单击右侧侧边栏的调度设置,配置调度执行频率、任务执行高级参数(包括执行 CPU、MEN 资源设置)、任务失败重跑次数、调度上下游依赖等参数。
    Image
    详见调度设置

调试运行并提交

任务配置完成后,您可单击操作栏中的保存调试按钮,进行任务调试。
调试结果无误后,单击提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:提交上线

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 如果租户项目管理员在项目控制台>流水线管理中启用了流水线流程校验,则您需要确保提交的任务符合流水线扩展程序的校验规则,才能成功提交。详见4 流水线管理

后续任务运维操作详见:离线任务运维

最近更新时间:2025.12.04 17:55:52
这个页面对您有帮助吗?
有用
有用
无用
无用