Notebook--大数据研发治理套件-火山引擎

文档中心

导航

Notebook

最近更新时间：2025.07.04 16:58:48首次发布时间：2022.04.06 21:02:43

为满足用户数据开发、数据探索场景提供的交互式开发环境。 Notebook 基于开源的 Jupyterlab 定制化开发，支持使用 Python、Bash、Markdown 语言、引入第三方库完成数据开发以及算法开发并且发布成定时调度执行任务。本文将为您介绍如何在 DataLeap 平台上创建 Notebook 调度任务。

1 使用限制

Python Spark on EMR 的 Kernel 类型，仅支持火山引擎 E-MapReduce（EMR）Hadoop、TensorFlow 集群类型创建。
Python Spark on EMR 的 Kernel 类型，仅支持通过独享计算资源组执行，且资源组 VPC 网络配置须和 EMR 集群网络配置保持一致。具体实践可参考Kernel 类型之 Python Spark on EMR 实践。
Spark on EMR Serverless 的 Kernel 类型，仅支持通过公共计算资源组执行。具体实践可参考4 配置任务。

2 新建任务

登录 DataLeap租户控制台。
在具体项目中进入数据开发界面，进行交互式分析任务类型的新建操作。

注意

任务名称信息仅允许字符.、字母、数字、下划线、连字符、[]、【】、（）、()以及中文字符，且需要在127个字符以内。

3 任务配置

3.1 配置环境启动信息

新建任务完成后，首次打开Notebook，需先配置环境启动信息：
其中名称前带 * 的参数为必填参数，名称前未带 * 的参数为可选参数。

Python on K8s

Python Spark on EMR

Spark on EMR Serverless

参数	说明
*选择 Kernel	Notebook Kernel 是执行 Notebook 文件包含代码的计算引擎，比如 ipython kernel 执行 python 代码。支持选择 Python on K8s、Python Spark on EMR、Spark on EMR Serverless 的 Kernel 类型。打开 Notebook 任务，配置环境后，默认将自动启动 Kernel，您也可以在下方勾选“Notebook任务打开时，默认不自动启动Kernel。”选项，将暂不启动 Kernel。启动 Kernel，运行代码时，Kernel 执行计算并产出结果。
*计算资源组	支持选择公共计算资源组、独享计算资源组。
*镜像	支持填写任务所需依赖的自定义镜像地址。平台填充的默认镜像地址 dataleap-{region}.cr.volces.com/studio/notebook_runtime:online，预装了常用第三方库，更多 Python 第三方库，您可通过任务，来执行 pip 命令方式安装。如：`pip install emoji`。说明默认镜像地址中 {region} 值，需根据实际情况替换为具体地域信息，如 cn-beijing、cn-shanghai、ch-guangzhou、ap-southeast-1
*资源配置	您可根据实际需求进行配置，以 CU 为单位，默认配置 1CU(1CU = 1Core 4GB)，下拉可选择更多规格的资源配置。说明其中 0.25、0.5 CU 规格，仅独享计算资源组支持选择。

参数	说明
*选择 Kernel	Notebook Kernel 是执行 Notebook 文件包含代码的计算引擎，比如 ipython kernel 执行 python 代码。支持选择 Python on K8s、Python Spark on EMR、Spark on EMR Serverless 的 Kernel 类型。打开 Notebook 任务，配置环境后，默认将自动启动 Kernel，您也可以在下方勾选“Notebook任务打开时，默认不自动启动Kernel。”选项，将暂不启动 Kernel。启动 Kernel，运行代码时，Kernel 执行计算并产出结果。
*关联实例	Python Spark on EMR 的 Kernel 类型，支持下拉选择项目控制台中已绑定的 EMR（Hadoop、TensorFlow）集群实例信息，项目支持绑定多个 EMR 集群，您可根据实际情况选择对应的 EMR 集群。绑定操作详见创建项目。
*计算资源组	支持选择独享计算资源组。说明 Python Spark on EMR 的 Kernel 类型，仅支持通过独享计算资源组执行，且资源组 VPC 网络配置须和 EMR 集群网络配置保持一致。
资源配置	您可根据实际需求进行配置，以 CU 为单位，默认配置 1CU(1CU = 1Core 4GB)，下拉可选择更多规格的资源配置。说明其中 0.25、0.5 CU 规格，仅独享计算资源组支持选择。
Spark 参数	输入任务执行环境中，所需要用到的 Spark 参数，可通过以下方式进行配置：单行编辑模式：在对应输入框中，输入参数的 key-value 值。其中，value 值可通过自定义或者项目参数{{value}}的形式进行配置。若您希望同一套代码能在不同执行环境下，自动区分不同的引擎环境参数、项目参数，或者存在敏感信息需要通过参数传递时，可以通过在 value 中设置项目参数的方式，满足此类场景需求。项目参数可在本项目控制台 > 参数信息界面中进行配置。操作详见参数信息设置。脚本编辑模式：支持 JSON、Yaml 的格式，直接用脚本方式进行配置参数，获取项目参数时，同样可用 {{value}}形式进行配置。

参数	说明
*选择 Kernel	Notebook Kernel 是执行 Notebook 文件包含代码的计算引擎，比如 ipython kernel 执行 python 代码。支持选择 Python on K8s、Python Spark on EMR、Spark on EMR Serverless 的 Kernel 类型。打开 Notebook 任务，配置环境后，默认将自动启动 Kernel，您也可以在下方勾选“Notebook任务打开时，默认不自动启动Kernel。”选项，将暂不启动 Kernel。启动 Kernel，运行代码时，Kernel 执行计算并产出结果。
*关联实例	Python Spark on EMR 的 Kernel 类型，支持下拉选择项目控制台中已绑定的 EMR（Hadoop、TensorFlow）集群实例信息，项目支持绑定多个 EMR 集群，您可根据实际情况选择对应的 EMR 集群。绑定操作详见创建项目。
*计算资源组	支持选择公共计算资源组。说明 Spark on EMR Serverless 的 Kernel 类型，仅支持通过公共计算资源组执行。
*镜像	支持填写任务所需依赖的自定义镜像地址。平台填充的默认镜像地址 dataleap-{region}.cr.volces.com/studio/notebook_runtime:online，预装了常用第三方库，更多 Python 第三方库，您可通过任务，来执行 pip 命令方式安装。如：`pip install emoji`。说明默认镜像地址中 {region} 值，需根据实际情况替换为具体地域信息，如 cn-beijing、cn-shanghai、ch-guangzhou、ap-southeast-1
*队列	下拉选择已在项目中添加的 Spark 计算队列信息。注意 Notebook 查询作业中，Spark 队列信息需选择 Default 计算组资源容量充足的队列来启动 Kernel，Notebook 任务不支持使用 SQL 计算组资源容量。且需在下方的 Spark 参数中，添加该参数 `tqs.query.engine.type = sparkcli`。
Spark 参数	输入任务执行环境中，所需要用到的 Spark 参数，可通过以下方式进行配置：单行编辑模式：在对应输入框中，输入参数的 key-value 值。其中，value 值可通过自定义或者项目参数{{value}}的形式进行配置。若您希望同一套代码能在不同执行环境下，自动区分不同的引擎环境参数、项目参数，或者存在敏感信息需要通过参数传递时，可以通过在 value 中设置项目参数的方式，满足此类场景需求。项目参数可在本项目控制台 > 参数信息界面中进行配置。操作详见参数信息设置。脚本编辑模式：支持 JSON、Yaml 的格式，直接用脚本方式进行配置参数，获取项目参数时，同样可用 {{value}}形式进行配置。注意 Spark on EMR Serverless 查询任务，访问 TOS 资源、Spark 队列资源时，子用户需进行相应的鉴权操作。因此您必须在参数中增加有权限访问 TOS 存储桶、Spark 队列的账号 AK/SK 信息，格式如下： `serverless.spark.access.key: xxxxxxx` `serverless.spark.secret.key: xxxxxxx` AK/SK 信息您可进入访问控制台的密钥管理界面获取，复制 Access key ID、 Secret Access Key 信息。如果是子用户，请联系主账号获取密钥。详见 AK 秘钥管理。 TOS 鉴权说明详见 TOS 权限配置。

启动信息配置完成后，单击确认按钮，启动Kernel连接，待导航栏 Kernel 状态为 Idle 后，即代表启动成功，可进行后续的调试运行代码逻辑。

Kernel状态说明：
- Idle 空闲状态：Kernel 处于空闲状态，随时可运行任务。
- Busy 状态：正在运行代码，Kernel 处于忙碌状态，需等待当前代码执行完成后，再执行后续任务代码。
- disconnected 断开状态（断网）：Kernel 有网络断开的情况，您需要手动刷新下界面，启动 Kernel 后，再执行任务。
- connected 连接状态：Kernel 正处于连接状态。
- dead 状态：连接失败状态，您可以在右侧查看失败原因。
您可单击 Kernel 按钮，进行 Kernel 高级设置替换。

3.2 编辑任务

启动 Kernel 状态正常后，即可进入代码开发。目前已支持 Python、Markdown、Bash、Raw 几种语言。

您可以在当前的 cell 框中，输入对应语言的代码逻辑，以 Python 语言为例：

# 如何查看预装第三方包
# cell类型选择python，执行以下操作
!pip3 list

# 如何安装第三方包
# cell类型选择python，执行以下操作，以安装library_name为例
!pip3 install  library_name

示例代码 - 使用 plotly 画图

!pip3 install plotly

import plotly.express as px
df = px.data.iris()
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species")
fig.show()

参数：
在代码编辑器中，您可输入动态、系统变量参数等，如时间参数 ${date}、${hour} ，时间参数使用可参考：时间变量与常量说明。
您可在界面下方，进行业务日期的选择，便可在界面上方单击运行按钮，在查询时完成时间参数替换操作。

Cell 单元框功能按钮：

序号	参数	说明
1	语言选择	支持 Python、Bash、Markdown、Raw 三种语言选择。
2	Format Cell	将书写代码格式化操作。
3	New Cell	添加一个新的 Cell。
4	Copy Cell and Paste Below Cell	复制并粘贴内容到当前单元框后面。
5	Cut Cell	剪切当前单元框。
6	Paste Below Cell	粘贴内容到当前单元框后面。
7	Delete Cell	删除当前单元框。
8	Cell 框右键操作	单元框的更多快捷操作，可通过在 Cell 框中右键查看更多操作项。其中 Enable Notebook Vim mode 可以将编辑框开启/关闭vim 模式。

3.3 执行设置

单击进入右侧侧边栏执行设置窗口。
选择计算资源组：不同 Kernel 类型，支持选择修改公共计算资源组、独享计算资源组。
镜像地址：Python on K8s、Spark on EMR Serverless 的 Kernel 类型，支持选择默认镜像地址，预装了常用第三方库。
资源配置：资源可根据实际需求进行配置，以 CU 为单位，默认配置 1CU(1CU = 1Core 4GB)，下拉可选择更多规格的资源配置。
说明
其中 0.25、0.5 CU 规格，仅独享计算资源组支持选择。
Spark 参数：Python Spark on EMR、Spark on EMR Serverless 的 Kernel 类型，在任务执行环境中，可添加任务所需的 Spark 参数，您可通过以下方式进行配置：
- 单行编辑模式：在对应输入框中，输入参数的 key-value值，value 值可通过自定义或者项目参数{{value}}的形式进行配置，参考4.1 配置环境启动信息。
- 脚本编辑模式：支持 JSON、Yaml 的格式，直接用脚本方式进行配置参数。
任务产出数据登记：
产出数据登记用于记录任务的数据血缘，不会对代码逻辑造成影响。如果 Notebook 任务中含有对应引擎库表数据的产出时，强烈建议填写，以便后续维护任务数据血缘关系。
- 引擎类型：根据实际情况选择产出的数据引擎类别，如 EMR（EMR Hadoop、EMR Doris、EMR StarRocks 引擎）、ByteHouse、EMR Serverless Spark、EMR Serverless StarRocks、默认（没有产出登记）。
- 关联实例：选择关联对应引擎下的实例信息。
- 数据类型：对应引擎类型下选择产出的数据类型。
- 数据库表：选择对应引擎下产出的数据库和数据表详细名称信息。

3.4 调度设置

进入右侧边栏调度设置，配置节点调度相关属性。设置操作详见：调度设置。

4 提交发布任务

任务配置完成后，您可单击操作栏中的保存和运行/运行所有按钮，进行任务调试。
调试结果无误后，单击上方操作栏中的提交上线按钮，在提交上线对话框中，选择回溯数据、监控设置、提交设置等参数，最后单击确认按钮，完成作业提交。提交上线说明详见：数据开发概述---离线任务提交。

后续任务运维操作详见：离线任务运维。