You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
最佳实践
Pyspark 引用资源实践
复制全文
Pyspark 引用资源实践

本文将为您介绍如何通过 DataLeap 平台的 Spark 任务,引用资源包,来实现较复杂的业务场景。

1 上传资源

1.1 自定义镜像包

  1. 登陆一台 Linux 机器,并安装 miniconda:

    conda create -n python37 python=3.7
    conda activate python37
    conda install numpy //安装第三方库
    
    
    cd ${conda_home}/envs/python37 && zip -r python37.zip *
    
  2. 将镜像包压缩,并导出到本地环境中。

1.2 LAS上传资源【可选】

由于 DataLeap 平台界面上传资源时,限制资源包大小 300MB 以上的提交,所以当资源包大于 300MB 时,您需要从 LAS 控制台页面进行上传资源操作。

  1. 登录LAS控制台界面。
  2. 进入到湖仓管理页签,在湖仓管理界面左侧导航栏中,进入函数管理 > 资源管理界面。
  3. 在资源管理界面,单击上传资源按钮,进行资源包创建。
    Image
  4. 填写相应的资源名称, 并上传本地资源包后,单击确认按钮,等待资源包上传完成。

1.3 DataLeap平台上传资源包

说明

当需上传的资源包大小,在 300M 以内时,可直接通过 DataLeap 平台直接上传资源。

  1. 登录DataLeap控制台。

  2. 选择数据开发 > 任务开发 > 资源库,进入资源库页面。

  3. 进入资源库后,您可以任意通过以下几种方式来新建资源:
    Image

  4. 在资源创建界面,依次完成以下资源配置信息:

    参数

    说明

    关联信息:

    绑定引擎

    LAS

    关联实例

    LAS引擎:默认关联 default 实例。

    关联Schema

    选择对应实例下创建好的LAS Schema库。

    保存至

    资源上传后保存的文件路径。

    基本信息:

    资源名称

    输入资源名称,只允许数字、字母、下划线组成。

    资源描述

    输入资源描述信息,方便后续管理。

    资源类型

    资源类型支持选择Jar、File、Zip几种类型。

    资源来源/文件

    支持两种资源来源方式:本地上传、引用LAS已上传资源的方式。

    • 本地上传:单个文件大小在300M以内时,可直接通过本地方式上传;

      说明

      文件名只能由数字、字母、下划线、-和.组成。

    • 引用LAS已上传资源:单个文件大小超过300M时,需通过LAS控制台进行上传。操作详见1.2 LAS上传资源【可选】
  5. 信息填写完成后,单击确定按钮,便可完成资源上传。

2 DataLeap 任务创建流程

2.1 创建 LAS Spark 任务

  1. 登录DataLeap控制台。
  2. 选择数据开发 > 任务开发,进入任务开发页面。
  3. 单击新建任务 > 数据开发 > LAS引擎 > LAS Spark任务按钮,新建LAS Spark任务。
  4. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。
    2. 保存至:选择任务存放的目标文件夹目录。
      Image
  5. 单击确定按钮,完成任务创建。

2.2 选择 Python 类型 & 关联 schema

在 LAS Spark 任务配置界面,进行以下内容配置:

  1. 语言设置:选择 Python 类型;
  2. 资源类型:当语音类型为 Python 时,默认资源类型为 Python;
  3. 关联LAS Schema:下拉选择 ZIP 包中关联的 Schema 信息。
  4. 在 Python 编辑窗口,输入相应的 Python 语句。

2.3 选择对应的环境文件 & 填充必要参数

  1. Spark 参数 > Py-files 处,下拉选择已在 DataLeap 资源库界面创建的资源名称;

  2. 并在 Conf 参数处,添加以下参数信息:

    Conf Key

    Conf Value

    spark.unpackUseCommand.enabled

    true

    使用command方式解压zip包,防止数据权限丢失

    spark.pyspark.driver.python

    python379/bin/python3

    driver使用Python,前缀路径为资源名

    spark.pyspark.python

    python379.zip/bin/python3

    executor使用Python,前缀路径为资源名+.zip

2.4 任务产出数据登记

当前任务如果不产出对应的 LAS 表进行血缘关联时,此处可选【其他】。更多产出数据登记操作详见任务产出数据登记
Image

2.5 调度设置

任务配置信息填完成后,单击右侧调度设置按钮,进入配置调度相关属性。

  1. LAS 队列:下拉选择已在管理控制台创建的队列信息。队列操作详见资源管理
    Image
  2. 调度属性:按需配置任务调度的执行频率、执行时间、重跑次数等信息。配置详见调度设置

2.6 调试执行 & 查看结果

调度设置配置完成后,您可单击工具栏中的调试按钮,进行任务调试,并等待任务执行完成,在下方查看任务执行状态日志信息。

最近更新时间:2024.12.19 16:44:05
这个页面对您有帮助吗?
有用
有用
无用
无用