本文为您介绍如何接入 Databricks 来创建数据集。
功能概述
支持接入 Databricks 数据源去创建数据集。数据连接支持 直连或离线抽取 Databricks 数据源。
准备工作
您需要执行以下操作来获取必要的连接信息:
- 登录到您的 Databricks 工作区并转到 Data Science & Engineering 或 Databricks Machine Learning 的环境。

- 更改角色,请单击 Databricks 徽标下方的图标。

- 单击边栏中的「Compute」 选项卡。

- 选择要连接的集群并点击进入。

- 点击「Advanced Options」。

- 获取 JDBC 连接串。单击 JDBC/ODBC 选项卡,复制 JDBC URL 在后续连接中使用。

- 获取密码。点击 「User Settings」,点击「Generate new token」生成 token。

注意
如果您使用子账号的 token 进行连接,需要确保子账号有对应库表的USAGE,READ_METADATA权限。

从数据连接新建
- 进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,点击数据连接。

- 在页面中选择 Databricks。

- 填写所需的基本信息,并进行测试连接,连接成功后点击保存。

SaaS 版本连接方式配置说明如下:
参数 | 配置说明 |
|---|
数据连接名称 | 新建数据连接的名称,用于在系统中区分不同数据库的连接。例如 Databricks_20250724110727。
可对名称进行修改。请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。 |
连接方式 | - IP/Port:适用于一般情况。点击 IP/Port 即可采取此方式。
 - JDBC 连接字符串:适用于用户需要添加连接参数的场景。默认为此方式。

|
服务器 | Databricks 计算资源的服务器主机名值,即 server-hostname,获取请参考 Databricks 官网文档。 |
JDBC 连接串 | JDBC连接串,获取请参考 准备工作。 |
用户名 | 数据库引擎中创建的用户名,此处请填写“token”。 |
密码 | Databricks 的 token,获取请参考准备工作。 |
httpPath | Databricks 计算资源的 HTTP 路径值。连接器通过将httpPath值附加到连接 URL 中指定的主机和端口来构成要连接的 HTTP 地址。例如,要连接到 HTTP 地址http://localhost:10002/cliservice,您可以使用以下连接 URL:jdbc:databricks://localhost:10002;httpPath=cliservice。 |
数据库 | 选填,在 Databricks 创建的数据库名称。 |
私有化版本连接方式配置说明如下:
参数 | 配置说明 |
|---|
数据连接名称 | 新建数据连接的名称,用于在系统中区分不同数据库的连接。例如 Databricks_20250724110757。
可对名称进行修改。请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。 |
连接方式 | - IP/Port:适用于一般情况。
 - JDBC 连接字符串:适用于用户需要添加连接参数的场景。

|
服务器 | Databricks 计算资源的服务器主机名值,即 server-hostname,获取请参考 Databricks 官网文档。 |
JDBC 连接串 | JDBC连接串,获取请参考 准备工作。 |
用户名 | 数据库引擎中创建的用户名,此处请填写“token”。 |
密码 | Databricks 的 token 值,获取请参考准备工作。 |
httpPath | Databricks 计算资源的 HTTP 路径值。连接器通过将httpPath值附加到连接 URL 中指定的主机和端口来构成要连接的 HTTP 地址。例如,要连接到 HTTP 地址http://localhost:10002/cliservice,您可以使用以下连接 URL:jdbc:databricks://localhost:10002;httpPath=cliservice,具体请参考 Databricks 官网文档。 |
数据库 | 选填,在 Databricks 创建的数据库名称。 |
从数据集新建
- 进入火山引擎,点击数据准备-->数据集,选择左上角「新建」按钮,新建数据集。

- 选择数据连接的时候,点击新建配置。

- 后续步骤与上述从数据连接新建的2、3步一致,在完成配置之后会停在数据集选择数据连接的弹出框中,即可直接进行下一步的数据集创建。
后续步骤:创建数据集
- 使用之前创建好的数据连接创建数据集:点击数据准备-->数据集,选择左上角「新建」按钮进行数据集的新建。

- 搜索或下拉选择之前新建好的数据连接。

常见问题
如果测试连接报 403 错误,请首先查看用户名和密码是否填写正确,若无误,可尝试 Databricks 侧添加白名单解决。“DataWind 访问的公网 IP”可查看数据连接概述。
