You need to enable JavaScript to run this app.
导航
功能发布记录(2025年)
最近更新时间:2025.06.05 11:38:02首次发布时间:2025.01.17 19:59:58
我的收藏
有用
有用
无用
无用

本文为您介绍 2025 年大数据研发治理套件 DataLeap 产品功能版本更新和相关文档动态。

2025/06/03

序号

功能

功能描述

相关文档

1

数据集成

  • 数据集成数据源配置,白名单形式支持多环境模式,支持开发数据源和生产数据源进行隔离,实现同一套任务可在不同环境中执行,提升任务配置效率。
  • MySQL2ByteHouse_CDW 实时整库、实时分库分表通道,新增支持 Kafka、DataSail(内置 Topic) 数据源缓存配置通道,支持使用中间缓存来采集 MySQL 数据,提升采集稳定性和性能。
  • 各解决方案映射配置流程中,高级参数设置时,新增支持 JSON 编辑方式,支持直接以 JSON 的方式来输入参数,提升配置效率。
  • 离线整库解决方案:
    • 目标端为 Hive(EMR Hive、EMR Serverless Hive)数据源,表建立方式为自动建表时,支持按需选择目标 Hive 表的存储格式为 Parquet、ORC、Text 格式。
    • 新增支持 PostgreSQL2ByteHouse_CDW、Mongo2ByteHouse_CDW 通道,支持将 PostgreSQL、Mongo 数据源同步至 ByteHouse CDW 数据库中。
  • 实时整库解决方案:
    • Doris 目标表自动建表时,分区字段创建方式优化,去除”分区表达式“方式创建分区字段,支持直接选择分区字段。
    • 新增支持 Oracle2ByteHouse_CDW通道,支持将 Oracle 数据源同步至 ByteHouse CDW 数据库中。
  • Paimon 数据源支持单通道可视化方式流式写入,支持将 Kafka、TLS 等流式数据源中的数据同步至 Paimon 数据源中,满足单表数据流式写入场景。
  • Hive 数据源通过连接串方式接入自建集群时,新增支持 HDFS 方式读取 Hive 数据,完善自建集群接入的读取方式。
  • Hive、Iceberg 数据源配置时,支持选择 Catalog 目录信息,方便用户在指定目录下进行表筛选配置,提升配置效率。
  • Mongo 数据源:
    • 可视化任务配置时,优化集合名选择方式,支持手动输入方式进行搜索,提升任务配置效率。
    • 实时整库解决方案配置 Mongo 读取数据时,新增 solution.reader.ddl.external_schema_mode、solution.reader.ddl.external_schemas 高级参数,支持使用高级参数自定义指定在 Schema Fetcher 中获取的字段及其顺序,优化根据指定的 Mongo Schema 信息自动建表的能力。
  • ByteHouse 云数仓版数据源写入:
    • 当写入方式为 JDBC 方式时,支持配置任务的“写入前准备语句”和“写入后准备语句”,可实现集成任务执行前清空目标表数据、或执行后添加执行成功标记等场景。
    • 当写入方式为 CFS 方式时,新增 job.writer.cfs_vw_id 高级参数,当默认计算组可用资源较少时,可通过该高级参数指定 ByteHouse 云数仓版数据导入服务使用其余的计算组信息,提升任务执行稳定性。
  • 数据转换 Transform 语句,新增支持 SPLIT、SPLIT_INDEX 函数,可通过函数实现输出 Array 类型,并写入到下游数据库中。

2

数据开发

  • 柔佛区域支持 ByteHouse CDW 类型。
  • 白名单方式支持 EMR Serverless Spark、ByteHouse 云数仓版引擎,在数据开发、任务发布、任务运维及项目控制台模块中支持配置多环境隔离模式。实现在同一 DataLeap 项目中,能够使用一套任务配置,来满足开发环境与生产环境隔离执行的需求。
  • 流式计算 Flink 版引擎类型中的 Flink Batch SQL 任务新增支持上传自定义 JAR/Flie 资源包,满足复杂场景下 Flink 作业的执行。
  • 流式计算 Flink 版引擎资源包版本管理优化,支持在删除旧资源文件并重新上传同名资源时,Flink 中旧资源文件实际上不会被删除,新旧资源文件名默认会按照序列标识递增,从而避免未手动重启的历史任务失败。
  • 交互式分析 Notebook 任务类型,新增支持 Bash 语言类型,支持用户在 Notebook 中执行 Shell 命令,并且支持填写自定义镜像地址,平台同时也提供了默认镜像地址,您可按需使用。
  • Flink Batch SQL、EMR Serverless Spark SQL 开发任务及 EMR Serverless Presto SQL 临时查询类型,优化执行日志详情展现,支持用户在执行日志中查看对应引擎中的 JobManager、TaskManager、Submit、Driver 等日志,方便用户排查问题。
  • Shell 任务白名单方式支持在执行设置中选择 SSH 数据源信息,通过该方式,用户可在 Shell 任务中选择 SSH 数据源,并通过 Shell 语句访问远端 ECS 主机及执行 ECS 中的脚本,满足复杂场景下对远端 ECS 主机进行访问的需求。

3

任务运维

  • 流式计算 Flink 版引擎下流式开发任务在单任务操作停止时,可根据实际情况,为当前开发作业创建作业快照信息,便于后续重启任务时,可直接使用该快照信息重启。
  • 离线/实时任务告警监控规则配置中,当接收人为飞书群时,新增支持在群聊中@任务责任人,优化告警消息提醒方式。

4

数据地图

  • 柔佛区域支持 ByteHouse CDW 类型。
  • 业务线增加在资产目录中的展示配置,可按需调整展示信息。
  • 资产批量维护增加批量维护策略配置。
  • 支持复制自动化规则。

5

数据标准

白名单方式新增产品模块,支持数据标准域管理、数据标准、统计大盘、智能对标、系统管理等功能。

  • 数据标准

6

数据质量

  • 柔佛区域支持 ByteHouse CDW 类型。

7

数据安全

  • 柔佛区域支持 ByteHouse CDW 类型。

8

控制台

项目支持开发环境与生产环境多环境隔离模式,满足用一套任务配置,在不同的环境下,执行不同任务的需求。

2025/05/14

序号

功能

功能描述

使用文档

1

数据开发

  • 数据开发 Notebook 调度任务类型,新增支持 Spark on EMR Serverless 的 Kernel 类型,以周期性调度的方式,定时进行数据预处理、算法开发等操作。
  • EMR Serverless Spark/Presto 任务类型,在查询日志中新增引擎实例 ID 信息,方便用户依据引擎实例信息,在 EMR 控制台进行问题排查时搜索。
  • 任务调度设置的输入输出参数添加时,具体参数选择框中增加模糊搜索功能,方便用户模糊输入参数进行选择,提升任务配置效率。
  • 函数库新增 EMR Serverless Spark/Presto 引擎相关的自定义函数创建。当公共函数无法满足业务场景需求时,可通过自定义函数构建的方式解决。在数据开发任务中,直接使用对应引擎的自定义函数,从而提升数据开发效率。

2

运维中心

实时任务运维报警监控规则中,支持 Serverless Flink SQL 任务配置业务数据延迟报警项,通过多方位地对实时任务的数据源进行监控配置,提升发现实时任务业务数据延迟的效率。

报警监控

3

数据地图

  • 除当前已支持的LAS和emr hive引擎,其他类型的表详情页均支持SQL查询功能。
  • ByteHouse CE 支持引擎侧和 DataLeap 数据地图实时自动同步元数据,无需采集器采集操作。

4

数据集成

  • DataSail 新增 Paimon 数据源类型,支持普通通道任务可视化配置读写 Paimon 数据源、DSL 模式配置流式写 Paimon 数据源、及离线/实时整库同步解决方案写入 Paimon 数据源。
  • 离线/实时整库同步方案新增支持写入 Paimon 数据源,支持 PostgreSQL2Paimon、MongoDB2Paimon 解决方案通道。且 PostgreSQL2Paimon 通过缓存模式读取 PostgreSQL 时,支持新增列的解决方案 DDL 策略配置。
  • 实时整库/实时分库分表解决方案 PostgreSQL2ByteHouse_CDW 通道,新增支持新增列、修改列类型等解决方案 DDL 策略配置能力,满足更多 DDL 变更场景的数据同步需求。
  • 离线整库同步解决方案新增自定义任务名称配置,支持通过引用参数变量的方式来自定义配置解决方案生成的任务名称,便于您后期可依据自定义的任务名称快速查找任务进行维护。
  • 准实时整库同步解决方案新增 MySQL2Hive(EMR Serverless Hive)、Mongo2LAS 通道,支持将 MySQL、Mongo 等全增量数据通过自动建立的 Merge 任务进行合并,以满足业务准实时数据入湖需求。
  • 独享数据集成资源组数量上限调整至 1500 台及柔佛地域支持“可用区B”区资源,您可按需进行沟通更多资源组数量,以满足您的大数据业务需求。
  • 新增读取 Greenplum 数据源通道功能,可支持读取 Greenplum 数据并同步至其他目标端数据源,实现双向通道能力。
  • Hive 数据源以 HDFS 方式读取 Hive 数据时,单次执行支持同时读取多分区数据,提升分区表数据读取效率。
  • 数据写入 Redis 的 Hash 格式时,可通过字段映射的转换模式,写 Transform 语句,将数据写入多个 Key-Value 中,示例转换语句:SELECT `name` AS `key`, '语文成绩', `语文成绩` FROM Source UNION SELECT `name` AS `key`, '数学成绩', `数学成绩` FROM Source UNION SELECT `name` AS `key`, '物理成绩', `物理成绩` FROM Source
  • Iceberg 数据源新增支持 EMR Serverless Iceberg 接入方式,数据集成任务支持将数据写入全托管 Iceberg 表类型。
  • HDFS 数据源支持从配置的 HDFS 路径中读取解析分区字段数据,通过手动添加字段映射方式进行配置,将分区字段数据写入目标端数据源。
  • Mongo 数据源读端配置时,支持通过手动添加字段映射 `${doc}` 方式进行配置,将 Mongo 集合下的整个文档字段数据作为一个字段同步到目标端中。

2025/04/15

序号

功能

功能描述

使用文档

1

数据开发

  • 数据开发 Notebook 调度任务和临时查询任务,当 Kernel 类型包含 Spark 参数配置时,支持引用项目参数配置。满足同一套代码处于不同执行环境时,可自动区分不同的引擎环境参数、项目参数等;或者当存在敏感信息需要通过参数传递时,也可通过项目参数的方式进行配置。
  • Serverless Flink SQL、Serverless Java Flink 流式任务中包含资源引用时,如果资源文件发生更新,那么在资源库更新资源文件之后,重启流式任务,便可使资源变更生效,提升流式任务资源变更时的任务执行效率。

2

数据地图

  • 表详情展示字段密级,支持安全标签编辑。目前已支持的类型:EMR Hive、LAS、EMR StarRocks、EMR Serverless StarRocks、LAS Catalog、ByteHouse CE。
  • Bytehouse CE 建表时支持Excel模式。
  • 亚太东南(柔佛)环境对接 ByteHouse CE 引擎。

3

数据质量

  • 补充模板监控规则的分区表达式参数,与数据开发的调度参数相同。
  • 亚太东南(柔佛)区域下,其他数据源监控、数据探查等功能支持 ByteHouse CE 类型。

4

控制台

  • 亚太东南(柔佛)环境对接 ByteHouse CE 引擎。

5

数据安全

  • 亚太东南(柔佛)环境对接 ByteHouse CE 引擎, 权限管理、风险审计、审批中心、安全标签等功能支持 ByteHouse CE 类型。

2025/03/31

序号

功能

功能描述

使用文档

1

发布中心

  • 发布包管理中,查看发布包详情时,新增发布任务的跳转链接,在查看任务文件变更有异常后,可直接单击任务名称跳转到数据开发界面进行编辑,提升界面交互体验。

发布包管理

2

数据开发

  • 临时查询 EMR Hive SQL、EMR Spark SQL、EMR Presto、EMR Trino 任务类型创建后,在一个任务中可自由切换 Spark、Hive、Presto、Trino 执行引擎,提升动态切换执行引擎能力和不同引擎的查询调试效率。
  • 在离线/流式任务运维、实例运维的列表里,新增存储目录筛选过滤项。在众多任务当中,能够依据任务存放的目录位置进行过滤,从而提高任务查找的效率。
  • 数据开发 EMR Serverless Spark/Presto 引擎元数据中,新增新建表、导入 CSV 文件的入口。导入 CSV 文件功能支持将本地 CSV 上传到对象存储 TOS Bucket 中,并通过配置 TOS2Hive 集成任务,把 CSV 数据写入到 EMR Serverless 引擎下的 Hive 表中,提升了本地数据的写入效率。
  • 资源库中新增支持 EMR Serverless Spark/Presto 引擎下的 JAR 资源上传操作,以实现在 DataLeap 中对资源进行统一管理。
  • 函数库中新增 EMR Serverless Spark/Presto 引擎相关的公共函数列表展现。在数据开发任务里,您可直接使用对应引擎的公共函数,从而提升数据开发效率。
  • 流式计算 Flink 版引擎,Serverless Java Flink/Serverless Flink SQL 任务类型,在进行 Flink 参数或自定义参数配置时,支持以项目或自定义参数变量形式配置,实现同一套代码处于不同执行环境时,能够自动对不同的引擎环境参数、项目参数、自定义参数等加以区分。

3

数据地图

  • Las Catalog表针对datasource表类型做编辑限制,即当数据表是 datasource 表,不支持在数据地图侧编辑表字段信息。
  • Bytehouse CDW 建表时,可设置为分区的字段不再限制为date类型,可以选择任意字段。

2025/03/17

序号

功能

功能描述

使用文档

1

数据集成

  • 新增 DataSail 准实时整库同步 PostgreSQL2LAS 解决方案,增量数据通过数据采集方案实时写入对应的 Log 表,Log 表再定期与 Base 表进行 Merge 操作,将最终增量数据写入 Base 表中,进行全增量数据合并,提升全量+增量数据迁移效率。
  • DataSail 解决方案列表界面,在方案运维操作中新增了方案解绑能力。该功能支持将列表中的方案置为只读状态,此后集成任务的编辑、维护等操作可移步至数据开发界面进行,从而确保两个界面中的同一任务配置保持一致。
  • 实时整库同步解决方案新增 TiDB 数据源类型,支持 TiDB 数据写入 ByteHouse 企业版(ByteHouse CE)数据库表中;离线单通道模式支持读取和写入 TiDB 数据源类型。
  • 数据写入 LAS 目标数据源时,新增支持在开发界面一键建表的能力 ,提升目标表创建效率。
  • 在 DataLeap 项目开启数据源开发与生产环境隔离的情况下,对开发环境数据源配置信息的填写方式进行优化,使其支持一键复制生产环境数据源配置信息,提升开发环境数据源信息的配置效率。
  • Redis 数据源写入数据时,若写入字段类型为 set、hash、sorted_set 时,支持在写入数据前删除相同的 redis key 数据。
  • LarkSheet 数据源新增离线写入通道,支持将其他源端的数据写入到飞书电子表格和多维表格中。

2

数据开发

  • Shell、Python、Notebook任务类型,完善任务产出数据登记,支持登记 EMR Serverless Spark、EMR Serverless Presto、EMR Serverless StarRocks、ByteHosue 等所有引擎,便于后续下游任务维护数据血缘关。
  • 数据开发资源库优化资源上传能力,不同项目下支持上传相同的资源文件,提升不同项目下的资源文件复用率。
  • 数据开发元数据界面,新增支持 ByteHouse CE 引擎下的数据库表信息查看,在此可根据 ByteHouse CE 的库表信息直接一键生成相应的数据查询语句。

3

控制台

  • 项目控制台新增智能助手控制配置项。运维助手控制台新增支持诊断场景自定义。
  • 推送渠道配置页面全面上线,且调整获权方配置要求(获权方可以不配置飞书账号映射,即获权方没有飞书账号映射时,也不影响DataLeap 数据安全支持飞书审批工单。)

4

数据安全

  • ByteHouse CE/CDW表权限有效期支持自定义
  • 优化分类分级规则配置:新建标签时只有选内容才需配置阈值,而字段名和描述不会触发该配置;调整阈值配置信息。
  • 新增系统管理菜单项,可按需进行不同管理员角色的配置。
  • 推送渠道配置页面配置飞书账号映射后,审批工单支持飞书审批。
  • 拆解、调整审批工单文档结构、内容等。

5

数据质量

  • 质量规则支持关联分钟级别的数据开发任务。

2025/03/07

序号

功能

功能描述

使用文档

1

数据开发

  • 【白名单】DataLeap 方式开通智能开发助手、智能运维助手、智能找数助手计费项服务,平台将根据模型的输入、输出的总 Token 数进行按量计费;
  • 【白名单】DataLeap 智能开发助手接入DeepSeek R1 模型,提升数据处理和智能问答分析能力;
  • 【白名单】数据地图检索数据中新增智能找数助手,通过搜索库表信息关键词或采用智能问答模式,快速检索目标表。

2

控制台

  • 【白名单】DataLeap 支持开通智能开发助手、智能运维助手、智能找数助手三款计费项服务,平台将根据模型的输入、输出总 Token 数进行按量计费。
  • 通过对 Hadoop 类型集群部署 Presto 服务,DataLeap 数据安全支持半托管 Presto 的库表权限控制。

3

数据地图

  • 【白名单】开通智能找数助手后,支持智能问答模式检索数据。
  • LAS Catalog 表支持 TTL 生命周期管理设置。

4

数据安全

  • ByteHouse CE 支持行权限设置。

2025/02/12

序号

功能

功能描述

使用文档

1

数据集成

  • 独享数据集成资源组运行实例窗口,优化查看任务 CPU、内存申请量与使用量方式,默认不全选当前页的申请量与使用量,提升勾选查看效率;
  • 写入数据集成 EMR Serverless Hive(LAS Catalog)数据源时,支持通过选择的源表字段信息,在数据地图中实现快速建表能力,提供多种建表方式;
  • Oracle 数据源支持配置分库分表形式读取源端数据源,提升 Oracle 分库分表配置效率。
  • MySQL、Oracle 分库分表配置,支持手动添加 ${database}_${table} 或 ${database}.${table} 形式的常量字段,将分库分表各自的来源库表信息,写入到目标表字段中,方便在目标表中区分数据的来源信息。
  • 在读取Hive数据源时,可支持对多个表分区数据的读取,并将这些数据写入目标。
  • MaxCompute 数据源支持以 insert overwrite 方式向非分区表中写入数据,同步过程中将自动清除源表中的原有历史数据。
  • 实时整库同步、实时分库分表解决方案通过数据缓存方案配置时,新增支持数据转换能力,满足各类解决方案缓存场景下的数据转换需求。
  • 实时整库同步解决方案中,源表和目标表映射关系配置时,支持全屏显示展示后进行表映射配置,以便更清晰地查看源表与目标表的映射关系信息,提升任务配置效率。
  • 实时整库/实时分库分表 PostgreSQL(带Kafka缓存)2StarRocks、PostgreSQL(带Kafka缓存)2ByteHouse_CDW 通道,新增支持新增列、修改列类型等 DDL 配置能力;

2

数据开发

  • 数据开发任务发布,新增跨区域同步任务配置,可将当前地域中已发布的任务,同步到其他地域下,提升跨区域任务同步效率。
  • Serverless Flink 引擎流式计算作业,在创建作业快照界面,新增停止任务按钮,在确保有最后一个快照是成功的情况下,您可在此停止正在运行的流式作业。

2025/01/16

序号

功能

功能描述

使用文档

1

数据开发

  • 函数库新增 ByteHouse 云数仓版公共函数。在 ByteHouse CDW SQL 任务中,您能够直接使用相关函数,从而提升数据开发效率。
  • 运维中心资源运维界面中,显示当前独享计算、调度资源组已绑定哪些 DataLeap 项目,提升资源组运维效率。
  • 新增数据开发全流程引导介绍,涵盖数据开发、数据集成任务创建流程,帮助您快速熟悉产品使用流程,提高开发效率。

2

控制台

  • 引擎绑定时,随机生成的密码会发送到IAM账号邮箱;子账号可以查看自己的密码。
  • 开通的服务和资源组的自动续费、手动续费调整优化;tab页签调整大小。
  • 支持跨区域同步设置。

3

数据安全

  • LAS Formation 改名为 LAS Catalog。
  • 数据脱敏、加解密支持 LAS Catalog 类型。
  • 审批人收到的权限申请邮件增加跳转链接。

4

数据地图

  • LAS Formation 改名为 LAS Catalog。
  • 资产管理新增规则维护功能。
  • 增加了模型规范化建表的管理功能,支撑各业务线的表命名规范性。
  • 数据检索首页改版。
  • 血缘图谱更名为血缘应用。
  • DB管理、资产管理文档结构、内容优化。

5

数据质量

  • 双数据源校验支持MySQL连接串(即MySQL本地)、Oracle连接串(即Oracle本地)两种类型。