本文将为您介绍如何通过 DataLeap 平台的 Spark 任务,引用资源包,来实现较复杂的业务场景。
登陆一台 Linux 机器,并安装 miniconda:
conda create -n python37 python=3.7 conda activate python37 conda install numpy //安装第三方库 cd ${conda_home}/envs/python37 && zip -r python37.zip *
将镜像包压缩,并导出到本地环境中。
由于 DataLeap 平台界面上传资源时,限制资源包大小 300MB 以上的提交,所以当资源包大于 300MB 时,您需要从 LAS 控制台页面进行上传资源操作。
说明
当需上传的资源包大小,在 300M 以内时,可直接通过 DataLeap 平台直接上传资源。
登录DataLeap控制台。
选择数据开发 > 任务开发 > 资源库,进入资源库页面。
进入资源库后,您可以任意通过以下几种方式来新建资源:
在资源创建界面,依次完成以下资源配置信息:
参数 | 说明 |
|---|---|
关联信息: | |
绑定引擎 | LAS |
关联实例 | LAS引擎:默认关联 default 实例。 |
关联Schema | 选择对应实例下创建好的LAS Schema库。 |
保存至 | 资源上传后保存的文件路径。 |
基本信息: | |
资源名称 | 输入资源名称,只允许数字、字母、下划线组成。 |
资源描述 | 输入资源描述信息,方便后续管理。 |
资源类型 | 资源类型支持选择Jar、File、Zip几种类型。 |
资源来源/文件 | 支持两种资源来源方式:本地上传、引用LAS已上传资源的方式。
|
信息填写完成后,单击确定按钮,便可完成资源上传。
在 LAS Spark 任务配置界面,进行以下内容配置:
在 Spark 参数 > Py-files 处,下拉选择已在 DataLeap 资源库界面创建的资源名称;
并在 Conf 参数处,添加以下参数信息:
Conf Key | Conf Value | 注 |
|---|---|---|
spark.unpackUseCommand.enabled | true | 使用command方式解压zip包,防止数据权限丢失 |
spark.pyspark.driver.python | python379/bin/python3 | driver使用Python,前缀路径为资源名 |
spark.pyspark.python | python379.zip/bin/python3 | executor使用Python,前缀路径为资源名+.zip |
当前任务如果不产出对应的 LAS 表进行血缘关联时,此处可选【其他】。更多产出数据登记操作详见任务产出数据登记。
任务配置信息填完成后,单击右侧调度设置按钮,进入配置调度相关属性。
调度设置配置完成后,您可单击工具栏中的调试按钮,进行任务调试,并等待任务执行完成,在下方查看任务执行状态日志信息。