You need to enable JavaScript to run this app.
导航
EMR Serverless Spark
最近更新时间:2025.09.17 19:37:23首次发布时间:2025.09.17 19:37:23
复制全文
我的收藏
有用
有用
无用
无用

本文为您介绍如何接入火山引擎的EMR Serverless Spark 来创建数据集。

使用限制
  • 该功能目前支持 SaaS 或私有化部署 V2.75.0及以上版本产品使用,如需购买,请您联系商务人员进行咨询。
  • 当前产品仅支持接入火山引擎的 EMR Serverless Spark。

前提条件
  • 在连接数据之前,请联系数据库管理员,收集以下信息:
    • 数据库所在服务器的 IP 地址和端口号
    • 数据库的用户名和密码
    • 数据库的队列和计算组
  • 目前 DataWind 不支持 default 计算组,EMR 中需要单独创建一个 spark 类型的计算组。

准备工作

从数据连接新建
  1. 进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,新建数据连接。

  2. 在页面中选择 EMR Serverless Spark 。

  3. 填写所需的基本信息,并进行测试连接,连接成功后点击保存。

  • SaaS 版本相关参数配置说明如下:
    Image

    参数

    配置说明

    数据连接名称

    新建数据连接的名称,用于在系统中区分不同数据库的连接。默认为Emr_Serverless_Spark_时间戳。可对名称进行修改,但请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。

    连接方式

    IP/Port 和 JDBC 连接字符串两种。

    服务器

    选择连接方式为 IP/Port 时需填写。
    连接 EMR Serverless Spark 的地址,每个 region 不一样。
    华北:serverless-spark-jdbc.emr.cn-beijing.volces.com
    华东:serverless-spark-jdbc.emr.cn-shanghai.volces.com
    华南:serverless-spark-jdbc.emr.cn-guangzhou.volces.com
    柔佛:serverless-spark-jdbc.emr.ap-southeast-1.volces.com

    端口

    选择连接方式为IP/Port时需填写。
    EMR 的实例端口,公有云一般是 10009。
    详情可参考文档:集群组件端口说明

    用户名

    租户的 AccessKey。
    获取可参考文档:Access Key(密钥)管理

    密码

    租户的 SecretKey。
    获取可参考文档:Access Key(密钥)管理

    队列

    连接使用的队列名称,目前只支持使用独占队列,不支持公共队列。
    EMR中队列获取路径:「控制台」-「资源管理」-「Serverless」-「队列详情」。

    计算组

    计算组名称。

    注意

    目前不支持 default 计算组,需要单独创建一个 Spark 类型的计算组。

    EMR 集群区域

    指定 EMR 集群所在的 region,可选 华北(北京)、华东(上海)、华南(广州)或亚太(柔佛)。

    桶名

    当需要利用 TOS 对抽取进行加速时,可在此填写 TOS 桶名,具体请查看可选:抽取加速

  • 私有化版本相关参数配置说明如下:
    Image

    参数

    配置说明

    数据连接名称

    新建数据连接的名称,用于在系统中区分不同数据库的连接。Emr_Serverless_Spark_时间戳。可对名称进行修改,但请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。

    服务器

    选择连接方式为 IP/Port 时需填写。
    连接 EMR Serverless Spark 的地址,每个 region 不一样。
    华北:serverless-spark-jdbc.emr.cn-beijing.volces.com
    华东:serverless-spark-jdbc.emr.cn-shanghai.volces.com
    华南:serverless-spark-jdbc.emr.cn-guangzhou.volces.com
    柔佛:serverless-spark-jdbc.emr.ap-southeast-1.volces.com

    端口

    选择连接方式为IP/Port时需填写。EMR 的实例端口,公有云一般是 10009。
    详情可参考文档:集群组件端口说明

    用户名

    租户的 AccessKey。获取可参考文档:Access Key(密钥)管理

    密码

    租户的 SecretKey。获取可参考文档:Access Key(密钥)管理

    连接方式

    IP/Port 和 JDBC 连接字符串两种:

    • IP/Port:适用于一般情况。
    • JDBC 字符串连接:适用于用户需要添加连接参数的场景。

    JDBC连接串

    选择连接方式为JDBC连接字符串时需填写。详情可参考文档:JDBC使用

    队列

    连接使用的队列名称,目前只支持使用独占队列,不支持公共队列。
    EMR中队列获取路径:「控制台」-「资源管理」-「Serverless」-「队列详情」。

    计算组

    计算组名称。

    注意

    目前不支持default计算组,需要单独创建一个spark类型的计算组。

    EMR 集群区域

    指定 EMR 集群所在的 region,可选 华北(北京)、华东(上海)、华南(广州)或亚太(柔佛)。

    桶名

    当需要利用 TOS 对抽取进行加速时,可在此填写 TOS 桶名,具体请查看可选:抽取加速

从数据集新建
  1. 进入火山引擎,点击数据准备-->数据集,选择左上角「新建」按钮,新建数据集。
    Image
  2. 选择数据连接的时候,点击其他按钮。
    Image
  3. 后续步骤与上述从数据连接新建的2、3步一致,在完成配置之后会停在数据集选择数据连接的弹出框中,即可直接进行下一步的数据集创建。

后续步骤:创建数据集
  1. 使用之前创建好的数据连接创建数据集:点击数据准备-->数据集,选择左上角「新建」按钮进行数据集的新建。
    Image
  2. 搜索或下拉选择之前新建好的数据连接。
    Image

可选:抽取加速

目前 DataWind 对接 EMR Serverless Spark 时采用查询网关方式,这一方式在大数据量抽取场景下存在不足;若需进行大数据量抽取,可借助 TOS 实现结果集转存。
DataWind 支持通过读取 TOS 中的结果数据实现加速,预计抽取速度可提升数十倍。

注意

目前,DataWind 的 SaaS 版本若与 TOS 处于同一地域,或者部署在火山云 ECS 的私有化版本若与 TOS 处于同一地域,均可通过内网读取 TOS,无额外流量费用;其他所有场景(即 DataWind 与 TOS 不在同一地域的情况)则需通过公网下载,会产生额外流量费用,具体可参考 TOS 的流量费用说明

第一步:创建 TOS 加速桶

完成创建存储桶,具体步骤请参考 创建存储桶

注意

请选择与 EMR 相同区域。目前暂时不支持分层命名空间桶(HNS)。

Image

第二步:配置 TOS 允许跨租户访问

完成创建存储桶授权策略,具体步骤请参考 跨账号授权
Image

第三步:DataWind 端配置

DataWind 接入 EMR Serverless Spark 时,在连接参数中填写创建的 TOS 桶名进行加速。
Image