You need to enable JavaScript to run this app.
导航
功能发布记录(2024年)
最近更新时间:2024.07.17 13:33:11首次发布时间:2021.02.23 10:41:55

本文为您介绍 2024 年大数据研发治理套件 DataLeap 产品功能版本更新和相关文档动态。

2024/07/17

序号

功能

功能描述

使用文档

1

数据开发

  • EMR Serverless Spark SQL/Jar 任务优化:
    • Spark SQL 查询结果白名单形式支持 300 万行数据下载,普通形式最高可支持 20 万行数据下载;
    • Spark SQL 语句支持语法解析能力,助您提前检查发现书写 SQL 代码的语法和语义正确性,运行前检查语法逻辑,防止运行出错。
    • 支持数据开发规范中流水线(人工卡点、执行发布、触发调试、选择器、CodeCT 等扩展程序)管理能力,支持您在不同场景下规范数据开发流程。
  • 临时查询模块支持 EMR Serverless Spark SQL 查询类型,您可通过临时查询能力快速查看 EMR Serverless Spark SQL 中 LAS Formation 的库表数据详情;
  • EMR SQL、EMR StarRocks SQL、EMR Doris SQL、ByteHouse CDW SQL、ByteHouse CE SQL、LAS SQL 等 SQL 查询结果最高可支持 20 万行数据下载;
  • 资源库中删除资源时,系统会提前检查该资源是否被其他任务或函数所依赖,以防止资源删除后导致相关任务执行异常。

2

数据地图

  • LAS Formation 表详情页中,支持数据预览、数据探查等操作,您可在数据地图中直接预览 LAS Formation 表数据。
  • LAS 建表时,支持设置 Stored AS 参数;
  • 创建 LAS Formation 表时,支持数仓建表规范管理,支持您在建表时提前校验数据表规范。

3

数据安全

  • 新增数据保护功能,包括数据加密、解密、静态脱敏,以及脱敏规则管理等。

4

数据质量

  • 模板、自定义、双数据源校验等监控规则支持 emr serverless spark 引擎;
  • 数据探查支持 emr serverless spark 引擎。

5

控制台

  • 数仓建表规范支持 emr serverless spark,支持您创建 LAS Formation 表时,提前检查建表规范;
  • Codect 规则管理类型区分为内置规则和自定义规则;
  • 资源组管理界面优化:资源组名称支持显示相应的实例订单号。

2024/07/08

序号

功能

功能描述

使用文档

1

数据集成

  • 为更好的管控数据源账号密码安全,DataSail 数据源配置时,统一以密文形式展示;
  • 实时同步解决方案、实时分库分表解决方案、实时采集解决方案,数据目标配置步骤中,新增支持 DML 事件类型配置,可同步源端更多 DML 语句事件操作类型;
  • Hive 数据源类型:
    • 目标端写入 EMR Serverless Hive 表时,新增支持一键建表能力,可通过源端字段信息,快速创建目标端 Hive 表。
    • 读取 Hive 数据源,手动添加字段映射时,支持选择 Hive 表分区字段进行字段映射配置。
  • 离线读取 Kafka 数据源时,Kafka Json 结构的数据,字段映射时支持多层级结构数据提取,可解析更复杂逻辑的 Json 数据。
  • PostgreSQL 数据源新增支持 geography 字段类型、切分键支持选择 Timestamp 类型字段、支持您在源端自定义字段数据类型,满足复杂的数据结构和业务场景需求;

2024/06/25

序号

功能

功能描述

使用文档

1

数据开发

  • 流式计算 Flink 版引擎类型,新增 Java Flink Batch 任务类型。
  • 元数据支持 EMR Serverless Spark,可在元数据界面直接查看 LAS Formation 库表信息。
  • EMR Serverless Spark SQL 任务支持自动解析依赖,方便您可直接根据表血缘信息,直接解析上游依赖任务;SQL 查询结果,支持下载到本地进行分析。

2

数据地图

  • 新增 LAS Formation 建库建表。
  • EMR Serverless StarrRocks 支持安全模式,子用户执行时需确保拥有相应库表权限。

3

数据安全

  • 支持添加 EMR StarRocks 3.x 版本的资源。

4

数据质量

  • 数据探查时,ByteHouse 企业版类型支持分区表。

5

控制台

  • EMR Serverless StarrRocks 支持安全模式。
  • EMR StarRocks 支持添加 3.x 版本的资源。

2024/06/04

序号

功能

功能描述

使用文档

1

数据集成

  • 新增流式通道写入 ByteHouse CDW 数据源类型;
  • 流式通道读取 Kafka,支持获取 Kafka Metadata 相关元数据信息,如:timestamp,offset,key,value,partition,headers 等;
  • 新增日志服务 TLS 流式读取能力;
  • 解决方案更新内容如下:
    • 更新解决方案命名限制,提升解决方案自动生成的批/流任务名称可读性,使其名称更有意义;
    • 解决方案写入目标端 ByteHouse CE 库表时,支持自动创建 ByteHouse CE 表;
    • 实时整库同步方案新增 PostgreSQL_to_ByteHouse_CDW 通道能力。
  • 新增 IAM 权限策略:DataLeapSailCreateTaskAccess,支持资源组查看、数据源创建、任务创建等能力,区分 DataLeapFullAccess 权限。

2024/05/23

序号

功能

功能描述

使用文档

1

数据开发

  • EMR Spark 任务支持读取 TOS 路径下的资源文件,提供更多形式的资源引入方式;
  • 支持 EMR Serverless Spark 全托管形态的引擎实例,新增 EMR Serverless Spark Jar、EMR Serverless Spark SQL 任务类型,以满足定制化数据查询分析需求;
  • 流式计算 Flink 版任务类型 Serverless Flink SQL、Serverless Java Flink 任务支持 File 资源文件类型,并支持在任务中引入多个类型的资源,以满足更多复杂的流式数据开发业务场景;
  • ByteHouse CE 建表支持触发建表规范检查,对 ByteHouse CE 建表流程进行约束,从而提升开发效率;
  • 运维中心新增资源运维看板,可查看监控独享计算资源组、独享调度资源组的使用详情,更好的监控资源组占用情况,提升任务运维管理能力。
  • 数据开发作业的调试、提交、发布等动作,流水线扩展程序中新增支持 CodeCT 能力,能够更好的检测任务代码和配置问题,提前发现开发流程中可能会遇到的风险,并落实数据研发规范。

2

数据地图

  • 元数据采集新增 LAS Formation 采集器,能够更好的拉取 EMR Serverless Spark 引擎实例下的数据库表信息。
  • 数据地图中 ByteHouse CE 建表能力支持触发建表规范检查,对 ByteHouse CE 建表流程进行约束,从而提升开发效率。

3

数据安全

  • 数据安全权限申请新增 EMR Serverless Spark 引擎实例下的库表权限申请。

4

控制台

  • 智能市场新增 CodeCT 扩展程序插件,提升任务代码和配置的检测能力,落实数据研发规范。
  • 数仓建表规范新增 ByteHouse CE 库表生效范围,对 ByteHouse CE 建表流程进行约束,从而提升开发效率。

5

指标平台

全新改版,主要包括指标字典、指标管理、指标应用、管理中心几大功能模块。

6

用户权限体系

新增 DataLeap 平台用户权限体系介绍,帮助您快速了解不同用户所具备的不同操作权限。

2024/05/11

序号

功能

功能描述

使用文档

1

数据集成

  • StarRocks 数据源支持离线、流式通道和解决方案写入 StarRocks 分区表;离线通道支持选择静态分区和动态分区类型写入;
  • 离线、流式通道写入 StarRocks 数据源支持根据源端表结构进行快速的一键建表操作,可在一键建表窗口修改 StarRocks DDL 建表语句。
  • 离线通道写入 TOS 数据源,当文件名称冲突时,支持根据业务场景选择冲突时任务的处理方式,可选覆盖、追加、冲突报错处理方式;
  • PostgreSQL 数据源配置时,支持添加数据源高级参数;
  • Kafka 数据源支持 SSL 公网形式连接;新增支持可视化配置 Kafka 离线读;
  • Hive 数据源新增支持 EMR 全托管 Hive 类型接入方式;离线写通道支持选择动态分区类型写入;
  • 离线整库同步方案源端新增 Mongo 数据源类型,目标端新增 ByteHouse 云数仓版、ByteHouse 企业版、Hudi 数据源类型,各数据源支持通道不同,详见支持的数据源
  • 实时整库同步方案新增功能如下:
    • 目标端新增支持 Hudi 数据源类型;
    • 数据缓存方案类型为 Kafka 数据源类型时,支持选择 Debezium Json 数据订阅格式;
    • 解决方案支持写入 StarRocks 分区表,您可自行设置分区字段信息。
  • 流式集成任务 Kafka、BMQ、RocketMQ 数据源类型,在流式运维中重启任务时,支持重置 offset 后重启。
  • 新增 Hana 数据源配置,支持 Hana 读写数据操作。

2024/04/23

序号

功能

功能描述

使用文档

1

数据开发

  • 数据开发调用依赖设置新增支持就近依赖方式,下游任务可快速依赖距离其定时执行时间最近的上游实例。
  • 数据开发支持绑定 ByteHouse 云数仓版引擎,新增 ByteHouse CDW SQL 数据开发任务和临时查询类型;元数据支持 ByteHouse CDW 表元数据类型查看。

3

控制台

  • 新增支持 ByteHouse 云数仓版引擎实例绑定。
  • 项目控制台支持任务依赖的默认配置方式选择。

2024/03/29

序号

功能

功能描述

使用文档

1

数据集成

  • 独享集成资源组创建优化,当 TOS 存储桶已开通服务后,创建独享集成资源组时可自动创建 TOS 存储桶。
  • 数据集成离线任务,支持任务实例读写云监控指标查看。
  • 流式集成任务支持引擎镜像版本管理。
  • 离线任务、流式任务字段映射支持以数据转换模式进行配置。
  • 数据源优化:
    • BMQ 数据源类型新增支持跨账号形式访问;
    • 火山引擎 E-MapReduce (EMR)中的 StarRocks、Doris、Hive、HDFS 数据源类型支持安全模式对接;
    • MaxCompute 数据源类型支持可视化写入;
    • Hive 数据源类型支持 Timestamp 字段类型;
    • StarRocks 3.X 数据源类型版本支持 Binary 字段类型;
    • ByteHouse CDW 数据源优化网络配置,支持通过内网形式访问。
  • 离线整库解决方案在目标配置时,支持源端表与目标表刷新配置,可自定义整库同步时单次拉取表的数量。
  • 实时整库、离线整库、分库分表解决方案中的离线任务配置调度时,新增支持选择独享调度资源组;ByteHouse CE、Elasticsearch、全托管 StarRocks 目标表支持解决方案自动创建目标表结构。
  • 实时采集方案新增支持 EMR Hive 为目标端。
  • 数据集成任务支持分钟级别调度粒度,Kafka 数据源支持 DSL 方式配置流式读、离线读形式。
  • 新增 Hudi 数据源配置,支持离线读取 Hudi 数据库。

独享集成资源组管理
实例运维
全域集成引擎版本升级管理
离线数据同步流式数据同步
配置 BMQ 数据源
离线整库同步
实时整库同步
实时分库分表
实时数据采集方案
配置 Kafka 数据源

2024/03/18

序号

功能

功能描述

使用文档

1

数据开发

  • 新增支持基于全托管 EMR Serverless StarRocks 引擎下的数据开发任务和临时查询;
  • 临时查询执行和数据开发任务调试支持选择是否开启任务成功\失败时的消息通知;
  • 资源库支持EMR和通用(Shell/Python)引擎的资源类型进行跨引擎复制、华北地域资源来源新增制品仓库(SCM)形式;
  • 调度时间变量参数支持分钟及自定义格式类型。

2

数据安全

  • EMR StarRocks/Hive 库表类型,支持用户组形式的申请、授权操作;
  • 数据安全支持 ByteHouse CE 数据库表的权限申请管理操作。

3

数据地图

  • 支持 ByteHouse CE 数据库表的管理、数据预览、字段血缘、元数据采集等资产管理能力;
  • 支持 ByteHouse CDW 数据库表的管理能力、详情页展示表查询次数统计;
  • 支持全托管 EMR Serverless StarRocks 数据表的管理、数据检索、元数据采集等能力;
  • EMR/LAS 引擎新增支持字段自定义标签能力;
  • EMR 数据资产显示集群名,可快速识别多集群下的 EMR 资源归属来源;
  • EMR StarRocks 数据表详情页支持展示逻辑表大小;
  • LAS 表详情页支持展示存储格式和存储路径。

4

控制台

  • 新增支持 EMR Serverless StarRocks 引擎实例绑定,区分 EMR StarRocks 引擎。

2024/02/29

序号

功能

功能描述

使用文档

1

数据集成

  • Mongo 数据源支持离线分库分表方式读取;
  • 新增 OSS 数据源离线方式读取数据配置;
  • RocketMQ、ByteHouse CE/CDW 数据源支持连接串方式进行数据源配置;
  • ByteHouse CE 数据源写入时,支持配置部分列进行数据更新;
  • ByteHouse CE/CDW、ClickHouse 数据源批式读支持 Array 类型;
  • 实时整库同步、实时分库分表解决方案中,支持 MySQL2ByteHouse CDW 通道配置 DDL 策略、新增 Mongo 数据源实时分库分表解决方案通道;
  • 实时数据采集方案新增支持 DataSail(内置 Topic)、Kafka、BMQ 读取,Kafka、BMQ 写入,目标表支持按源表名分流到不同的 Topic 中;
  • 独享集成资源组支持查看资源组中具体运行任务数与排队任务数信息;
  • 优化 DataSail 数据集成任务批式、流式集成日志的查询与下载。

2024/01/29

序号

功能

功能描述

使用文档

1

数据集成

  • Redis 新增支持可视化离线读取;
  • PostgreSQL 支持 geometry 字段类型读取;
  • StarRocks、Doris 写入权限优化,支持非 Admin 账号写入;
  • 实时整库同步、实时分库分表解决方案新增支持 VeDB 数据源、ByteHouse CDW 数据源支持自动建表;
  • 数据集成任务日志查看优化,支持自动打印,筛选检索优化,支持 Job Manager、Task Manager类型查看。

2

数据开发

  • 数据开发任务类型新增工作流任务类型,支持在工作流任务中添加多种引擎下的任务类型;
  • ByteHouse CE SQL 任务支持依赖解析与产出登记能力;
  • 任务运维监控告警规则,支持飞书群、飞书、Webhook(钉钉与飞书群 Webhook 地址)。

3

数据安全

支持 ByteHouse CDW 数据源。

4

数据地图

  • 支持数据类型 BMQ、RocketMQ、ByteHouse CE
  • 增加安全标签设置

2024/01/08

序号

功能

功能描述

使用文档

1

数据集成

  • ByteHouse CE 新增支持可视化流式写入;
  • Doris、StarRocks数据源对接 Doris 2.X、StarRocks 3.X 版本,支持 EMR 全托管 Doris、StarRocks 集群实例。
  • 数据源支持开发成员角色进行查看;
  • 独享数据集成资源组支持缩容;
  • 实时整库同步、实时分库分表解决方案支持读取 Oracle 数据源、写入 ByteHouse CE 数据源;
  • 离线整库同步解决方案 PostgreSQL2Hive 通道支持 DDL 策略配置。