本文为您介绍如何接入火山引擎的EMR Serverless Spark 来创建数据集。
进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,新建数据连接。
在页面中选择 EMR Serverless Spark 。
填写所需的基本信息,并进行测试连接,连接成功后点击保存。
SaaS 版本相关参数配置说明如下:
参数 | 配置说明 |
|---|---|
数据连接名称 | 新建数据连接的名称,用于在系统中区分不同数据库的连接。默认为Emr_Serverless_Spark_时间戳。可对名称进行修改,但请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。 |
连接方式 | IP/Port 和 JDBC 连接字符串两种。 |
服务器 | 选择连接方式为 IP/Port 时需填写。 |
端口 | 选择连接方式为IP/Port时需填写。 |
用户名 | 租户的 AccessKey。 |
密码 | 租户的 SecretKey。 |
队列 | 连接使用的队列名称,目前只支持使用独占队列,不支持公共队列。 |
计算组 | 计算组名称。 注意 目前不支持 default 计算组,需要单独创建一个 Spark 类型的计算组。 |
EMR 集群区域 | 指定 EMR 集群所在的 region,可选 华北(北京)、华东(上海)、华南(广州)或亚太(柔佛)。 |
桶名 | 当需要利用 TOS 对抽取进行加速时,可在此填写 TOS 桶名,具体请查看可选:抽取加速。 |
私有化版本相关参数配置说明如下:
参数 | 配置说明 |
|---|---|
数据连接名称 | 新建数据连接的名称,用于在系统中区分不同数据库的连接。Emr_Serverless_Spark_时间戳。可对名称进行修改,但请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。 |
服务器 | 选择连接方式为 IP/Port 时需填写。 |
端口 | 选择连接方式为IP/Port时需填写。EMR 的实例端口,公有云一般是 10009。 |
用户名 | 租户的 AccessKey。获取可参考文档:Access Key(密钥)管理。 |
密码 | 租户的 SecretKey。获取可参考文档:Access Key(密钥)管理。 |
连接方式 | IP/Port 和 JDBC 连接字符串两种:
|
JDBC连接串 | 选择连接方式为JDBC连接字符串时需填写。详情可参考文档:JDBC使用。 |
队列 | 连接使用的队列名称,目前只支持使用独占队列,不支持公共队列。 |
计算组 | 计算组名称。 注意 目前不支持default计算组,需要单独创建一个spark类型的计算组。 |
EMR 集群区域 | 指定 EMR 集群所在的 region,可选 华北(北京)、华东(上海)、华南(广州)或亚太(柔佛)。 |
桶名 | 当需要利用 TOS 对抽取进行加速时,可在此填写 TOS 桶名,具体请查看可选:抽取加速。 |
目前 DataWind 对接 EMR Serverless Spark 时采用查询网关方式,这一方式在大数据量抽取场景下存在不足;若需进行大数据量抽取,可借助 TOS 实现结果集转存。
DataWind 支持通过读取 TOS 中的结果数据实现加速,预计抽取速度可提升数十倍。
注意
目前,DataWind 的 SaaS 版本若与 TOS 处于同一地域,或者部署在火山云 ECS 的私有化版本若与 TOS 处于同一地域,均可通过内网读取 TOS,无额外流量费用;其他所有场景(即 DataWind 与 TOS 不在同一地域的情况)则需通过公网下载,会产生额外流量费用,具体可参考 TOS 的流量费用说明。
完成创建存储桶,具体步骤请参考 创建存储桶。
注意
请选择与 EMR 相同区域。目前暂时不支持分层命名空间桶(HNS)。
完成创建存储桶授权策略,具体步骤请参考 跨账号授权。
DataWind 接入 EMR Serverless Spark 时,在连接参数中填写创建的 TOS 桶名进行加速。