Pyspark 引用资源实践--大数据研发治理套件（私有化）-火山引擎

文档中心

大数据研发治理套件（私有化）

最佳实践

Pyspark 引用资源实践

本文将为您介绍如何通过 DataLeap 平台的 Spark 任务，引用资源包，来实现较复杂的业务场景。

1 上传资源

1.1 自定义镜像包

登陆一台 Linux 机器，并安装 miniconda：

conda create -n python37 python=3.7
conda activate python37
conda install numpy //安装第三方库


cd ${conda_home}/envs/python37 && zip -r python37.zip *

将镜像包压缩，并导出到本地环境中。

1.2 LAS上传资源【可选】

由于 DataLeap 平台界面上传资源时，限制资源包大小 300MB 以上的提交，所以当资源包大于 300MB 时，您需要从 LAS 控制台页面进行上传资源操作。

登录LAS控制台界面。
进入到湖仓管理页签，在湖仓管理界面左侧导航栏中，进入函数管理 > 资源管理界面。
在资源管理界面，单击上传资源按钮，进行资源包创建。
填写相应的资源名称，并上传本地资源包后，单击确认按钮，等待资源包上传完成。

1.3 DataLeap平台上传资源包

说明

当需上传的资源包大小，在 300M 以内时，可直接通过 DataLeap 平台直接上传资源。

登录DataLeap控制台。
选择数据开发 > 任务开发 > 资源库，进入资源库页面。
进入资源库后，您可以任意通过以下几种方式来新建资源：

在资源创建界面，依次完成以下资源配置信息：

参数	说明
关联信息：
绑定引擎	LAS
关联实例	LAS引擎：默认关联 default 实例。
关联Schema	选择对应实例下创建好的LAS Schema库。
保存至	资源上传后保存的文件路径。
基本信息：
资源名称	输入资源名称，只允许数字、字母、下划线组成。
资源描述	输入资源描述信息，方便后续管理。
资源类型	资源类型支持选择Jar、File、Zip几种类型。
资源来源/文件	支持两种资源来源方式：本地上传、引用LAS已上传资源的方式。本地上传：单个文件大小在300M以内时，可直接通过本地方式上传; 说明文件名只能由数字、字母、下划线、-和.组成。引用LAS已上传资源：单个文件大小超过300M时，需通过LAS控制台进行上传。操作详见1.2 LAS上传资源【可选】。

信息填写完成后，单击确定按钮，便可完成资源上传。

2 DataLeap 任务创建流程

2.1 创建 LAS Spark 任务

登录DataLeap控制台。
选择数据开发 > 任务开发，进入任务开发页面。
单击新建任务 > 数据开发 > LAS引擎 > LAS Spark任务按钮，新建LAS Spark任务。
填写任务基本信息：
1. 任务名称：输入任务的名称，只允许字符.、字母、数字、下划线、连字符、[]、【】、（）、()以及中文字符，且需要在127个字符以内。
2. 保存至：选择任务存放的目标文件夹目录。
单击确定按钮，完成任务创建。

2.2 选择 Python 类型 & 关联 schema

在 LAS Spark 任务配置界面，进行以下内容配置：

语言设置：选择 Python 类型；
资源类型：当语音类型为 Python 时，默认资源类型为 Python；
关联LAS Schema：下拉选择 ZIP 包中关联的 Schema 信息。
在 Python 编辑窗口，输入相应的 Python 语句。

2.3 选择对应的环境文件 & 填充必要参数

在 Spark 参数 > Py-files 处，下拉选择已在 DataLeap 资源库界面创建的资源名称；

并在 Conf 参数处，添加以下参数信息：

Conf Key	Conf Value	注
spark.unpackUseCommand.enabled	true	使用command方式解压zip包，防止数据权限丢失
spark.pyspark.driver.python	python379/bin/python3	driver使用Python，前缀路径为资源名
spark.pyspark.python	python379.zip/bin/python3	executor使用Python，前缀路径为资源名+.zip

2.4 任务产出数据登记

当前任务如果不产出对应的 LAS 表进行血缘关联时，此处可选【其他】。更多产出数据登记操作详见任务产出数据登记。

2.5 调度设置

任务配置信息填完成后，单击右侧调度设置按钮，进入配置调度相关属性。

LAS 队列：下拉选择已在管理控制台创建的队列信息。队列操作详见资源管理。
调度属性：按需配置任务调度的执行频率、执行时间、重跑次数等信息。配置详见调度设置。

2.6 调试执行 & 查看结果

调度设置配置完成后，您可单击工具栏中的调试按钮，进行任务调试，并等待任务执行完成，在下方查看任务执行状态日志信息。

最近更新时间：2024.12.19 16:44:05

这个页面对您有帮助吗？

有用

无用

大数据研发治理套件（私有化）

1 上传资源 #

1.1 自定义镜像包 #

1.2 LAS上传资源【可选】 #

1.3 DataLeap平台上传资源包 #

2 DataLeap 任务创建流程 #

2.1 创建 LAS Spark 任务 #

2.2 选择 Python 类型 & 关联 schema #

2.3 选择对应的环境文件 & 填充必要参数 #

2.4 任务产出数据登记 #

2.5 调度设置 #

2.6 调试执行 & 查看结果 #