You need to enable JavaScript to run this app.
文档中心
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
下载 pdf
数据仓库
EMR Serverless Spark
复制全文
下载 pdf
EMR Serverless Spark

本文为您介绍如何接入火山引擎的EMR Serverless Spark 来创建数据集。

使用限制
  • 当前产品仅支持接入火山引擎的 EMR Serverless Spark。

前提条件
  • 在连接数据之前,请联系数据库管理员,收集以下信息:
    • 数据库所在服务器的 IP 地址和端口号
    • 数据库的用户名和密码
    • 数据库的队列和计算组
  • 目前 DataAgent 不支持 default 计算组,EMR 中需要单独创建一个 spark 类型的计算组。

准备工作

从数据连接新建
  1. 进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,新建数据连接。
    Image
  2. 在页面中选择 EMR Serverless Spark 。
    Image
  3. 填写所需的基本信息,并进行测试连接,连接成功后点击保存。
    • SaaS 版本相关参数配置说明如下:
      Image

      参数

      配置说明

      数据连接名称

      新建数据连接的名称,用于在系统中区分不同数据库的连接。默认为Emr_Serverless_Spark_时间戳。可对名称进行修改,但请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。

      连接方式

      IP/Port 和 JDBC 连接字符串两种。

      服务器

      选择连接方式为 IP/Port 时需填写。
      连接 EMR Serverless Spark 的地址,每个 region 不一样。
      华北:serverless-spark-jdbc.emr.cn-beijing.volces.com
      华东:serverless-spark-jdbc.emr.cn-shanghai.volces.com
      华南:serverless-spark-jdbc.emr.cn-guangzhou.volces.com
      柔佛:serverless-spark-jdbc.emr.ap-southeast-1.volces.com

      端口

      选择连接方式为IP/Port时需填写。
      EMR 的实例端口,公有云一般是 10009。
      详情可参考文档:集群组件端口说明

      用户名

      租户的 AccessKey。
      获取可参考文档:Access Key(密钥)管理

      密码

      租户的 SecretKey。
      获取可参考文档:Access Key(密钥)管理

      队列

      连接使用的队列名称,目前只支持使用独占队列,不支持公共队列。
      EMR中队列获取路径:「控制台」-「资源管理」-「Serverless」-「队列详情」。

      计算组

      计算组名称。

      注意

      目前不支持 default 计算组,需要单独创建一个 Spark 类型的计算组。

      EMR 集群区域

      指定 EMR 集群所在的 region,可选 华北(北京)、华东(上海)、华南(广州)或亚太(柔佛)。

      桶名

      当需要利用 TOS 对抽取进行加速时,可在此填写 TOS 桶名,具体请查看可选:抽取加速

    • 私有化版本相关参数配置说明如下:
      Image

      参数

      配置说明

      数据连接名称

      新建数据连接的名称,用于在系统中区分不同数据库的连接。Emr_Serverless_Spark_时间戳。可对名称进行修改,但请输入规范的名称,只允许中文、英文、数字和下划线的组合,前后不能包含空格。

      服务器

      选择连接方式为 IP/Port 时需填写。
      连接 EMR Serverless Spark 的地址,每个 region 不一样。
      华北:serverless-spark-jdbc.emr.cn-beijing.volces.com
      华东:serverless-spark-jdbc.emr.cn-shanghai.volces.com
      华南:serverless-spark-jdbc.emr.cn-guangzhou.volces.com
      柔佛:serverless-spark-jdbc.emr.ap-southeast-1.volces.com

      端口

      选择连接方式为IP/Port时需填写。EMR 的实例端口,公有云一般是 10009。
      详情可参考文档:集群组件端口说明

      用户名

      租户的 AccessKey。获取可参考文档:Access Key(密钥)管理

      密码

      租户的 SecretKey。获取可参考文档:Access Key(密钥)管理

      连接方式

      IP/Port 和 JDBC 连接字符串两种:

      • IP/Port:适用于一般情况。
      • JDBC 字符串连接:适用于用户需要添加连接参数的场景。

      JDBC连接串

      选择连接方式为JDBC连接字符串时需填写。详情可参考文档:JDBC使用

      队列

      连接使用的队列名称,目前只支持使用独占队列,不支持公共队列。
      EMR中队列获取路径:「控制台」-「资源管理」-「Serverless」-「队列详情」。

      计算组

      计算组名称。

      注意

      目前不支持default计算组,需要单独创建一个spark类型的计算组。

      EMR 集群区域

      指定 EMR 集群所在的 region,可选 华北(北京)、华东(上海)、华南(广州)或亚太(柔佛)。

      桶名

      当需要利用 TOS 对抽取进行加速时,可在此填写 TOS 桶名,具体请查看可选:抽取加速

从数据集新建
  1. 进入火山引擎,点击数据准备-->数据集,选择左上角「新建」按钮,新建数据集。
    Image
  2. 选择数据连接的时候,点击其他按钮。
    Image
  3. 后续步骤与上述从数据连接新建的2、3步一致,在完成配置之后会停在数据集选择数据连接的弹出框中,即可直接进行下一步的数据集创建。

后续步骤:创建数据集
  1. 使用之前创建好的数据连接创建数据集:点击数据准备-->数据集,选择左上角「新建」按钮进行数据集的新建。
    Image
  2. 搜索或下拉选择之前新建好的数据连接。
    Image

可选:抽取加速

目前 DataAgent 对接 EMR Serverless Spark 时采用查询网关方式,这一方式在大数据量抽取场景下存在不足;若需进行大数据量抽取,可借助 TOS 实现结果集转存。
DataAgent 支持通过读取 TOS 中的结果数据实现加速,预计抽取速度可提升数十倍。

注意

目前,DataAgent 的 SaaS 版本若与 TOS 处于同一地域,或者部署在火山云 ECS 的私有化版本若与 TOS 处于同一地域,均可通过内网读取 TOS,无额外流量费用;其他所有场景(即 DataAgent 与 TOS 不在同一地域的情况)则需通过公网下载,会产生额外流量费用,具体可参考 TOS 的流量费用说明

第一步:创建 TOS 加速桶

完成创建存储桶,具体步骤请参考 创建存储桶

注意

请选择与 EMR 相同区域。目前暂时不支持分层命名空间桶(HNS)。

Image

第二步:配置 TOS 允许跨租户访问

完成创建存储桶授权策略,具体步骤请参考 跨账号授权
Image

第三步:DataAgent 端配置

DataAgent 接入 EMR Serverless Spark 时,在连接参数中填写创建的 TOS 桶名进行加速。
Image

最近更新时间:2025.10.16 17:12:06
这个页面对您有帮助吗?
有用
有用
无用
无用