DataLeap 数据开发套件支持通过配置开发环境与生产环境的火山引擎 EMR Serverless Spark 队列以及元数据库的映射关系,来实现在同一个 DataLeap 项目中运用一套任务配置,对不同环境下的数据集成、开发环境任务和生产环境任务等进行管理。本文将介绍如何在 DataLeap 平台操作 EMR Serverless Spark 引擎的多环境引擎实例的方案。
多环境项目模式,任务开发界面配置时,不同任务类型使用不同环境数据:
说明
开发模式一旦设定后,便不可更改。
多环境模式项目创建完成后,需在环境映射中,操作配置开发环境和生产环境的计算资源映射和元数据关系。
您可在项目创建完成后的弹窗中进入环境映射配置入口,或在项目控制台中进入。
在环境映射配置界面,依次完成计算资源映射和元数据映射配置。
计算资源映射:
配置 EMR Serverless Spark 引擎的资源组映射与引擎映射:
说明
映射关系所涉及的集群与计算组,均需先在创建项目时的“项目配置 > 服务绑定”中进行绑定。
参数 | 说明 | |
---|---|---|
资源组映射 | 当前仅支持展现配置 DataLeap 项目计算资源组、调度资源组类型的映射绑定,默认开发环境与生产环境保持一致。本期暂不支持变更操作。 | |
引擎映射 | 集群 | 配置 EMR Serverless Spark 引擎的映射情况,默认开发环境与生产环境配置保持一致。可依次进行以下操作:
说明 目前 EMR Serverless Spark 中默认仅有一个实集群例,因此仅可添加一个集群映射关系。 |
计算队列 | 配置计算队列映射情况。 |
元数据映射
计算资源映射配置完成后,单击下一步按钮,进入元数据映射配置界面。
元数据映射能够按照引擎分类,展示开发环境与生产环境所选集群下数据库的映射状况。
说明
更多环境映射操作说明详见环境映射。
计算资源映射和元数据映射配置完成后,单击确认保存按钮,即可完成环境映射配置。
全域数据集成是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。您可按需进行离线、实时或整库解决方案同步任务配置。
环境信息配置完成后,您可继续以下操作。
在项目控制台左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。
在数据源管理页面,您可以开始新增生产、开发数据源,此处以配置 MySQL 和 Hive 数据源为例。
配置 MySQL 数据源:
注意
更多MySQL数据源注意事项详见配置 MySQL 数据源。
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | MySQL |
*接入方式 | 火山引擎 MySQL |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。 |
*适用环境 | 多环境模式项目中,集成任务配置必须配置数据源开发和生产环境,平台默认勾选生产环境进行配置,您需手动勾选开发后,根据实际情况,选择开发环境和生产环境的数据源参数是否保持一致:
说明 仅多环境项目模式,支持选择数据源适用环境,且任务开发界面进行任务配置和任务调试时,只能使用开发数据源,任务发布后可自动使用生产数据源。 |
参数配置 | |
RDS 实例 ID | 下拉选择火山引擎云数据库 MySQL 的实例 ID 信息,开发、生产环境可按需选择不同的实例 ID 信息。 |
数据库名 | 下拉选择对应实例下,已创建的 MySQL 数据库名称。 |
用户名 | 输入对应实例下有权限访问数据库的用户名信息。 |
密码 | 输入用户名对应的密码信息。 |
配置 Hive 数据源:
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | Hive |
*接入方式 | EMR Serverless Hive |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。 |
*适用环境 | 多环境模式项目中,集成任务配置必须配置数据源开发和生产环境,平台默认勾选生产环境进行配置,您需手动勾选开发后,根据实际情况,选择开发环境和生产环境的数据源参数是否保持一致:
说明 仅多环境项目模式,支持选择数据源适用环境,且任务开发界面进行任务配置和任务调试时,只能使用开发数据源,任务发布后可自动使用生产数据源。 |
参数配置 | |
*Hive 版本号 | 默认仅支持 Hive 3.1.3。 |
*Accesskey ID | 进入火山引擎,访问控制台的密钥管理界面,复制 Accesskey ID 填写到此处。如果为子用户,请联系主账号获取密钥。 注意 填写的 AK\SK 信息,需拥有以下相应的权限:
|
*Secret Access Key | 与 AccessKey ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。 |
Catalog | 下拉选择已在 LAS Catalog 服务中创建的 Catalog 数据目录名称信息。开发、生产环境可按需选择不同的 Catalog 信息。 |
*数据库名 | 输入上方 AK/SK 信息后,可在此下拉选择 EMR Serverless Spark 环境中,已创建的 Hive 数据库名称。 |
扩展配置 | 您可输入 HDFS 配置的可选扩展,例如 Hadoop HA 的配置信息。 |
数据源更多说明详见配置 MySQL 数据源、配置 Hive 数据源。
数据源参数项填写完整后,勾选已绑定的独享集成资源组,并单击上方的生产测试、开发测试按钮,执行测试连通性。测试连通后,单击确定按钮,完成数据源配置。
数据源测试连通性成功后,您可继续配置单通道形式的数据集成同步任务。
说明
任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。
注意
集成任务配置完成且保存后,便可进行开发环境数据源配置的调试操作。
单击调试按钮,进入调试窗口选择执行业务日期,等待任务执行完成后,您便可前往数据地图查看开发环境中的 Hive 库表数据;或者您也可通过下方数据开发 EMR Serverless Spark SQL 调试能力,查询开发环境中的数据。
DataLeap 数据开发即大数据开发 IDE,集批流开发为一体,为开发者提供高效、智能的开发环境。支持快速创建与 EMR 引擎相关的开发任务、进行代码开发、运行查询等。您可在 DataLeap 平台上,直接操作 EMR Serverless Spark 相关数据。
元数据界面支持您对使用的 EMR Serverless Spark 引擎下 LAS Catalog 表字段、分区信息、关联任务的预览查看操作及一键生成表查询语句等便捷操作,且在多环境项目中,元数据管理界面还支持您区分开发、生产环境的元数据管理操作。
多环境项目中,新建 EMR Serverless Spark SQL 任务仅支持新建环境映射中生产集群实例下的 SQL 开发任务。
注意
数据开发任务说明详见 EMR Serverless Spark SQL。
在代码编辑器界面,输入生产环境对应 EMR Serverless Spark SQL 语句,语句中的库名、表名需要是生产库表信息,示例如下:
说明
目前多环境元数据映射仅支持数据库级别映射,暂不支持表级别的映射,因此在编辑 SQL 语句时,建议将生产表名与开发表名保持一致,使一套代码能够在两个环境中正常执行。
--生产表插入数据 INSERT INTO TABLE doc_demo.doc_csv_demo PARTITION (date = '20240403') VALUES(1, 'testyw', 26), (2, '章三', 26), (3, '李四', 23), (4, '王五', 24), (5, '刘六', 23), (6, '方园', 88); --查询生产表数据 SELECT * FROM doc_demo.doc_csv_demo;
SQL 代码编辑完成后,您需进入右侧调度设置窗口,设置生产环境中任务所使用的计算队列信息,并按需设置任务的调度频率、依赖关系等信息。详见调度设置。
生产环境 SQL 语句编辑完成后,您可进行 EMR Serverless Spark SQL 开发环境相应语句的调试操作。
开发环境调试结果确认无误后,单击上方操作栏中的保存和提交上线按钮,在提交上线对话框中,依次设置回溯数据、监控设置、提交设置等参数,以下为您介绍多环境项目中如何提交任务至不同环境中。
注意
在提交上线或发布过程中,如果触发了流水线管理,您需要确保流水线运行成功后,任务才能真正被提交到发布中心或运维中心。详见配置流水线。
提交任务至开发环境,您需通过发布中心,将任务发布到开发环境中。
注意
发布至开发环境的任务,不受发布复查策略和发布流水线校验控制,可直接发布至开发环境,您需关注开发环境的执行结果。
说明
开发环境调度配置中展现的 SQL 代码,已是根据多环境配置替换后的代码,可直接将其发布到开发环境,您也可以手动对开发环境的 SQL 代码进行修改。
提交任务至生产环境,您可在提交上线窗口中,直接将任务提交并发布至生产环境;也可通过发布中心,再将任务发布到生产环境中。
更多发布中心操作,详见任务发布。
在多环境项目中,任务提交发布成功后,可进入运维中心查看开发环境运维和生产环境运维。
在上方导航栏中,进入离线任务运维,并可在离线任务运维左侧导航栏上方,切换查看开发环境运维或生产环境运维的任务详情。
说明
为区分开发环境任务与生产环境任务,平台在开发环境任务中默认增加了环境标识,环境标识为“__dev”,如自定义的任务名称为:spark_多环境,则开发环境任务名称为:spark_多环境__dev;生产环境中任务名称不变,仍为 spark_多环境。
在对应环境中,按需查看任务运行情况,您也可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
更多任务运维操作,详见离线任务运维。