本文为您介绍如何接入火山引擎的EMR Serverless Spark 来创建数据集。
使用限制
- 该功能目前支持SaaS或私有化部署v2.75.0及以上版本产品使用,如需购买,请您联系商务人员进行咨询。
- 当前产品仅支持接入火山引擎的EMR Serverless Spark。
前提条件
- 在连接数据之前,请联系数据库管理员,收集以下信息:
- 数据库所在服务器的 IP 地址和端口号
- 数据库的用户名和密码
- 数据库的队列和计算组
- 目前DataWind不支持default计算组,EMR中需要单独创建一个spark类型的计算组。
从数据连接新建
进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,新建数据连接。
在页面中选择 EMR Serverless Spark 。
填写所需的基本信息,并进行测试连接,连接成功后点击保存。

相关参数配置说明如下:
名称 | 描述 |
---|
数据连接名称 | 新建数据连接的名称,用于在系统中区分不同数据库的连接。例如 EMR。
可对名称进行修改。请输入规范的名称,不要使用特殊字符,前后不能包含空格。 |
连接方式 | IP/Port 和 JDBC 连接字符串两种。
详情可参考文档:JDBC使用 |
服务器 | 连接EMR Serverless Spark 的地址,每个 region 不一样。
华北:serverless-spark-jdbc.emr.cn-beijing.volces.com
华东:serverless-spark-jdbc.emr.cn-shanghai.volces.com
华南:serverless-spark-jdbc.emr.cn-guangzhou.volces.com
柔佛:serverless-spark-jdbc.emr.ap-southeast-1.volces.com |
端口 | EMR 的实例端口,公有云一般是10009。
详情可参考文档:集群组件端口说明 |
用户名 | 租户的 AccessKey。
获取可参考文档:Access Key(密钥)管理、使用前必读 |
密码 | 租户的 SecretKey。
获取可参考文档:Access Key(密钥)管理 |
队列 | 连接使用的队列名称,目前只支持使用独占队列,不支持公共队列。
EMR中队列获取路径:「控制台」-「资源管理」-「Serverless」-「队列详情」 |
计算组 | 计算组名称。 注意 目前不支持default计算组,需要单独创建一个spark类型的计算组。 |
从数据集新建
- 进入火山引擎,点击数据准备-->数据集,选择左上角「新建」按钮,新建数据集。

- 选择数据连接的时候,点击其他按钮。

- 后续步骤与上述从数据连接新建的2、3步一致,在完成配置之后会停在数据集选择数据连接的弹出框中,即可直接进行下一步的数据集创建。
后续步骤:创建数据集
使用之前创建好的数据连接创建数据集:点击数据准备-->数据集,选择左上角「新建」按钮进行数据集的新建。
输入关键词搜索,选择之前新建好的数据连接。
