You need to enable JavaScript to run this app.
导航
Databricks
最近更新时间:2025.07.24 14:19:47首次发布时间:2023.01.30 22:54:37
复制全文
我的收藏
有用
有用
无用
无用

本文为您介绍如何接入 Databricks 来创建数据集。

功能概述

支持接入 Databricks 数据源去创建数据集。数据连接支持 直连或离线抽取 Databricks 数据源。

准备工作

您需要执行以下操作来获取必要的连接信息:

  1. 登录到您的 Databricks 工作区并转到 Data Science & EngineeringDatabricks Machine Learning 的环境。
    Image
  2. 更改角色,请单击 Databricks 徽标下方的图标。
    Image
  3. 单击边栏中的「Compute」 选项卡。
    Image
  4. 选择要连接的集群并点击进入。
    Image
  5. 点击「Advanced Options」。
    Image
  6. 获取 JDBC 连接串。单击 JDBC/ODBC 选项卡,复制 JDBC URL 在后续连接中使用。
    Image
  7. 获取密码。点击 「User Settings」,点击「Generate new token」生成 token。
    Image

    注意

    如果您使用子账号的 token 进行连接,需要确保子账号有对应库表的USAGE,READ_METADATA权限。
    Image

从数据连接新建
  1. 进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,点击数据连接。
    Image
  2. 在页面中选择 Databricks。
    Image
  3. 填写所需的基本信息,并进行测试连接,连接成功后点击保存。
    Image
    • SaaS 版本连接方式配置说明如下:

      参数

      配置说明

      数据连接名称

      新建数据连接的名称,用于在系统中区分不同数据库的连接。例如 Databricks_20250724110727。
      可对名称进行修改。请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。

      连接方式

      • IP/Port:适用于一般情况。点击 IP/Port 即可采取此方式。
        Image
      • JDBC 连接字符串:适用于用户需要添加连接参数的场景。默认为此方式。

        注意

        建议使用此种方式,参数获取更为简单。

        Image

      服务器

      Databricks 计算资源的服务器主机名值,即 server-hostname,获取请参考 Databricks 官网文档

      JDBC 连接串

      JDBC连接串,获取请参考 准备工作

      用户名

      数据库引擎中创建的用户名,此处请填写“token”。

      密码

      Databricks 的 token,获取请参考准备工作

      httpPath

      Databricks 计算资源的 HTTP 路径值。连接器通过将httpPath值附加到连接 URL 中指定的主机和端口来构成要连接的 HTTP 地址。例如,要连接到 HTTP 地址http://localhost:10002/cliservice,您可以使用以下连接 URL:jdbc:databricks://localhost:10002;httpPath=cliservice

      数据库

      选填,在 Databricks 创建的数据库名称。

    • 私有化版本连接方式配置说明如下:

      参数

      配置说明

      数据连接名称

      新建数据连接的名称,用于在系统中区分不同数据库的连接。例如 Databricks_20250724110757。
      可对名称进行修改。请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。

      连接方式

      • IP/Port:适用于一般情况。
        Image
      • JDBC 连接字符串:适用于用户需要添加连接参数的场景。

        注意

        建议使用此种方式,参数获取更为简单。

        Image

      服务器

      Databricks 计算资源的服务器主机名值,即 server-hostname,获取请参考 Databricks 官网文档

      JDBC 连接串

      JDBC连接串,获取请参考 准备工作

      用户名

      数据库引擎中创建的用户名,此处请填写“token”。

      密码

      Databricks 的 token 值,获取请参考准备工作

      httpPath

      Databricks 计算资源的 HTTP 路径值。连接器通过将httpPath值附加到连接 URL 中指定的主机和端口来构成要连接的 HTTP 地址。例如,要连接到 HTTP 地址http://localhost:10002/cliservice,您可以使用以下连接 URL:jdbc:databricks://localhost:10002;httpPath=cliservice,具体请参考 Databricks 官网文档

      数据库

      选填,在 Databricks 创建的数据库名称。

从数据集新建
  1. 进入火山引擎,点击数据准备-->数据集,选择左上角「新建」按钮,新建数据集。
    Image
  2. 选择数据连接的时候,点击新建配置。
    Image
  3. 后续步骤与上述从数据连接新建的2、3步一致,在完成配置之后会停在数据集选择数据连接的弹出框中,即可直接进行下一步的数据集创建。

后续步骤:创建数据集
  1. 使用之前创建好的数据连接创建数据集:点击数据准备-->数据集,选择左上角「新建」按钮进行数据集的新建。
    Image
  2. 搜索或下拉选择之前新建好的数据连接。
    Image

常见问题

如果测试连接报 403 错误,请首先查看用户名和密码是否填写正确,若无误,可尝试 Databricks 侧添加白名单解决。“DataWind 访问的公网 IP”可查看数据连接概述
Image