You need to enable JavaScript to run this app.
导航
功能发布记录(2024年)
最近更新时间:2025.01.03 10:43:10首次发布时间:2021.02.23 10:41:55
我的收藏
有用
有用
无用
无用

本文为您介绍 2024 年大数据研发治理套件 DataLeap 产品功能版本更新和相关文档动态。

2024/12/30

序号

功能

功能描述

使用文档

1

数据开发

  • ByteHouse CDW SQL 任务类型能力优化:
    • ByteHouse CDW 引擎类型支持多环境实例管理能力,实现配置开发环境与生产环境相隔离的环境管理,还能自定义配置环境之间的集群映射关系,从而提升多环境任务的易用性及开发效率。
    • 新增支持自动产出登记与依赖推荐能力,方便后续其余 ByteHouse CDW SQL 任务设置依赖推荐时可自动识别对应的产出任务信息,提升任务上下游配置效率。
    • 新增 ByteHouse CDW SQL 任务中语法解析,助您提前检查发现书写 SQL 代码的语法和语义正确性,运行前检查语法逻辑,防止运行出错。
  • 在临时查询任务的 SQL 语句中,若不包含平台时间变量相关参数,则取消调试运行业务日期的选择窗口弹窗,提升临时查询效率。

2

智能市场

新增 SQL Prettier、极速临时查询工具、代码版本助手、任务收藏夹、一键查看 Coral 表血缘、历史访问记录、PySQL 编辑器、函数智能助手、Github 白色主题、樱花主题、任务批量提交、文件夹依赖预览、上线前查看草稿依赖 DAG 图等十几款智能市场插件工具,提升数据开发效率。

3

数据集成

  • 离线集成任务向 MySQL 写入数据时,采用“on duplicate key update”方式写入时,新增对更新列的设置功能。可根据需求选择全部列更新或者仅更新部分列,满足更多业务配置场景,防止对某些不必要的列进行更新,从而确保数据的稳定性。
  • 实时整库、实时分库分表、实时数据采集同步解决方案,资源组高级配置窗口中,新增实时增量任务镜像版本选择,保障同步解决方案的稳定性和执行效率,降低运维成本。
  • 实时分库分表同步解决方案,支持跨 Database、跨 Schema 形式选择多库多表来配置方案,提升分库分表解决方案配置效率。
  • 实时整库同步解决方案,MySQL2ByteHouse_CE 通道,新增支持新建表、新增列、修改列类型等 DDL 配置能力;MySQL2ByteHouse_CDW 通道自动建表、新建表、新增字段、修改字段类型等 DDL 操作时,字段中的 Comment 信息支持同步到 ByteHouse CDW 数据表中。
  • 解决方案数据转换函数,补全 TRIM、SIMILAR 函数,补充 LTRIM、RTRIM、BTRIM、SIMILAR TO 函数。
  • Hive 数据源配置优化,通过 EMR Hive、Hive 连接串形式接入,且任务配置基于 JDBC 方式读取数据时,数据源配置信息中需加上用户名和密码相关信息。
  • Kafka 数据源读取数据时,Topic 新增支持数据预览能力,可提前预览 kafka 中的消息信息,在任务执行前便可验证 kafka 数据的准确性、数据结构等信息。
  • Elasticsearch 数据源新增支持 Nested 数据类型写入到 Elasticsearch 目标端中。
  • PostgreSQL 数据源,新增支持读取 roaringbitmap、_int8、_float8、_bool 数据类型。
  • ByteHouse CDW 数据源,新增支持写入 JSONB、BitMap64 数据类型。
  • ByteHouse CDW 数据源类型支持多环境实例管理能力,数据源配置时支持指定 ByteHouse CDW 环境,区分开发环境与生产环境的数据源,提升多环境任务的易用性及开发效率。
  • 数据集成独享资源组新增支持展示任务的 CPU 申请量/使用量、内存申请量/使用量,并优化运行实例列表展示;
  • 数据集成任务写入目标表后,EMR Hive、EMR StarRocks、EMR Hudi、ByteHouse CDW、LAS 目标端,支持自动产出登记,方便下游 SQL 任务类型使用推荐依赖能力时,将根据 SQL 代码自动识别上游任务和表,提高任务上下游配置效率。

4

控制台

  • 新增 ByteHouse CDW 多环境管理能力,实现开发环境、生产环境隔离。
  • 新增Onboarding新手指引功能,引导用户快速使用
  • 概览页面整体改版
  • EMR Serverless Spark/Presto支持一个队列下有不同计算组,创建编辑项目时,资源队列名称由原先的「队列」变成「队列-计算组」。

5

数据安全

  • 支持 ByteHouse CDW 多集群环境能力
  • 支持 ByteHouse CDW 、ByteHouse CE 普通列权限管控

6

数据地图

  • 支持 ByteHouse CDW 多集群环境能力
  • 新增资产管理菜单项,包括资产维护、资产圈选、专辑管理、标签管理、筛选管理、类目管理几个功能

7

数据质量

  • 引擎改造:将Hive引擎和其他引擎合并,界面相应变动,涉及数据探查功能
  • 新增 ByteHouse CDW 多集群管理能力,实现开发环境、生产环境隔离;并根据本次变动,拆分、调整数据监控部分的文档结构。

2024/11/18

序号

功能

功能描述

使用文档

1

数据开发

任务运维中心生成数据回溯实例后,支持一键终止回溯实例,将正在运行,或还未运行的回溯实例进行终止操作,提升任务运维效率。

数据回溯

2

数据地图

emr hive支持修改表结构。

管理 EMR Hive 表

3

数据安全

  • emr hive 运行时鉴权优化:在引擎侧给用户授予超级权限后,在 DataLeap-数据安全仍显示在数据安全侧原本的权限(比如以前申请的只读,现在还是显示只读),但实际获得了超级权限可以去读写数据。
  • bytehouse ce、bytehouse cdw支持用户组权限申请、授权等。
  • EMR 集群界面显示由显示 ID 改为显示名称。

4

智能市场

统一展示扩展程序,支持查看详情、自定义安装和卸载操作。

智能市场

5

数据集成

  • MongoDB 数据源新增 insert_if_not_exists写入模式,数据写入 MongoDB 时,若唯一键相同,可保持原数据不变;若唯一键不同时,则直接插入新数据,以满足更多向 MongoDB 写入数据的场景。
  • StarRocks 数据源配置,选择 EMR Serverless StarRocks 接入方式时,新增 Serverless StarRocks 集群的计算仓库信息选择,可实现 StarRocks 多仓维护,确保计算资源的物理隔离,并提高计算仓库的垂直扩展性与灵活性。
  • 柔佛地域解决方案通道新增 MongoDB 到 ByteHouse CE 数据源通道。
  • 离线整库同步、实时整库同步、实时分库分表同步解决方案新增数据转换配置能力,满足各类业务场景数据转换需求。
  • 实时整库同步解决方案写入 ByteHouse CDW 目标数据源,配置目标表分区字段,当选择的字段分区数据类型为 DateTime、DateTime64、Date、Time 时间类型时,可进一步编辑选择 MONTH、DAY、HOUR 分区粒度,进行聚合分区,提高数据写入分区效率;同时通过高级参数,可支持批量配置表分区字段,提高分区字段配置效率。

2024/10/22

序号

功能

功能描述

使用文档

1

数据集成

  • 写入 ByteHouse CE、ByteHouse CDW 数据源通道新增支持 CFS、JDBC 写入方式配置,可根据实际数据场景进行选择。
  • TOS、HDFS 数据源读取数据时,支持 “*” 通配符形式配置文件路径和数据源地址信息。
  • 实时整库同步解决方案新增多库方式配置方案,提升数据同步效率。
  • 实时整库同步解决方案新增 PostgreSQL2Hudi 通道类型。
  • Iceberg、Hudi 数据源新增支持 Array 数据类型。
  • MySQL 数据源新增支持 Blob 数据类型。
  • Doris 数据源新增对 Doris 2.1.X 的读写能力支持。
  • Rest_API 数据源读取配置时,可根据拼接 Header、请求参数等信息来自动获取数据预览,提升同步任务配置效率。
  • 在新建 Kafka 数据源时,将不再支持 kafka 0.10 版本,历史已创建的数据源不受影响。

2

数据开发

  • 运维中心数据回溯时,可单独指定任务回溯队列,可区别与日常调度实例所用的队列信息,提升任务回溯效率;
  • 离线/流式运维报警监控规则中,当发送方式配置为 Webhook,且 Webhook 链接为钉钉群机器人时,可按需勾选任务告警时,是否 @ 任务相关责任人,以此来提高任务告警的接收效率,相应的责任人也可提高对告警的关注度。
  • EMR 流式任务类型,在修改任务提交或运维界面重启任务时,以白名单形式支持设置任务重启模式,方便任务异常后,可按需选择不同的任务快照进行重启。

3

控制台

  • 数据集成资源组支持绑定 3 个子网段,便于您在同个资源组下提交运行更多任务。
  • 项目参数的是否加密项一旦设定,不可修改。
  • 主账号可以编辑、删除所有已加密的参数,其他管理员仅可编辑、删除自己创建的加密参数。

4

数据地图

  • Bytehouse CDW支持DDL建表。
  • Bytehouse CDW支持查看血缘关系、查询次数、生产信息、数据预览探查。

5

数据质量

  • emr serverless spark 过滤掉不支持离线任务执行的队列选项
  • emr serverless starrocks 数据源的实例选项改为从控制台相应的引擎绑定实例获取。
  • 数据对比的分区选择交互优化为checkbox选择形式
  • 数据探查支持bytehouse cdw数据源
  • 其他数据源监控规则支持bytehouse cdw
  • webhook报警渠道支持飞书webhook

6

数据安全

  • 支持bytehouse cdw敏感数据扫描

2024/09/20

序号

功能

功能描述

使用文档

1

数据集成

  • 实时整库、实时分库分表、实时数据采集、离线整库解决方案优化如下:
    • 四种解决方案操作流程精简优化,提升方案配置效率;
    • 离线整库、实时整库解决方案中新增表、删除表后,支持选择源表和目标表映射刷新范围,提升方案变更后的刷新效率;
    • 实时整库中目标端为 ByteHouse CDW、ByteHouse CE 类型时,新增支持设置分区表、排序键和分区字段能力。
    • 实时整库、实时分库分表中新增支持 VeDB2Doris\StarRocks\ByteHouse CDW 通道的 DDL 策略配置。
    • 实时分库分表新增支持 MySQL2Hudi 通道能力。
  • Kafka 数据源支持 Kerberos 鉴权能力,SASL 认证新增 GSSAPI(kerberos) 机制,增强 Kafka 鉴权能力。
  • Hive 数据源下的 EMR Serverless Hive 接入类型,支持离线方式读取 Hive 非分区表,满足更多场景的非分区表数据读取。
  • Redis 数据源新增支持火山引擎 Redis 企业版,优化支持 Redis RDB Dump 数据读取能力。
  • LarkSheet 数据源优化支持飞书 Wiki 链接中的电子表格和多维表格数据读取。
  • 新增 Iceberg 数据源配置,支持将其他源端数据,通过离线、流式方式写入 EMR Iceberg 数据库表中,补充数据源能力。

2

数据开发

  • EMR StarRocks SQL 任务新增支持准实时调度频率,执行间隔支持 1分钟、2分钟、3分钟、4分钟、5分钟级别,以满足更多场景下的调度频率选择;
  • 运维监控规则告警支持配置企业微信 Webhook 信息,将告警发送到企业微信群中;
  • EMR Serverless Spark 任务日志查看优化,在概览界面透出 TrackingURL 链接信息,方便用户前往 Spark 界面查看执行日志详情。
  • EMR Serverless Spark SQL 任务,新增支持项目模板,支持对任务执行队列、优先级、参数的统一设置和批量修改。
  • LAS 引擎任务,在运维实例界面重跑时,支持指定 LAS 队列,重跑实例可使用不同队列信息,提升重跑实例执行效率。
  • 流式任务报警监控内容优化,新增支持数据写入断流、数据写入上涨等监控内容配置方式。

3

数据安全

  • 新增解密权限功能,拥有权限的用户才可配置解密任务。
  • BytHouse CE 支持列权限。

4

数据质量

  • 支持通过 webhook 报警方式接收钉钉、企业微信消息。

5

数据地图

  • Serverless Spark 支持表字段编辑能力,并增加字段的业务线标签设置项。

6

控制台

  • 新增项目模板功能,用于实现对任务执行队列、优先级、参数的统一设置和批量修改。通过本功能创建的项目模板,可应用于项目下的 EMR Serverless Spark SQL 任务,实现 EMR Serverless Spark SQL 任务队列、优先级或是参数的批量设置。
  • 增加 EMR Serverless Spark 控制台 和 EMR Serverless Presto 控制台引擎跳转管理。

2024/08/23

序号

功能

功能描述

使用文档

1

数据开发

  • 临时查询模块支持 EMR Serverless Presto SQL 查询类型,您可通过临时查询能力快速查看 EMR Serverless Presto SQL 中 LAS Formation 的库表数据详情;
  • EMR Serverless Spark 引擎类型:
    • 新增任务输入自定义参数支持配置时间变量和其他自定义变量(如:任务、项目及自定义参数);
    • 新增支持 Spark Python 语言类型;
  • EMR Serverless StarRocks SQL 任务支持自动解析依赖操作,使用推荐依赖功能,可根据 SQL 逻辑,自动推荐当前任务依赖所需的上游任务信息;
  • 调度执行频率为分钟级的任务,现新增支持设定小时区间范围,您可按需配置仅在部分时间段内生成任务实例来执行。
  • 运维中心数据回溯能力优化,支持大任务量进行回溯时,可配置一定的筛选条件,进行回溯剪枝,提高任务回溯效率

2

数据质量

  • 其他数据源自定义规则支持 EMR Serverless StarRocks。
  • 数据探查支持 EMR Serverless StarRocks 引擎。

3

数据安全

  • 分类分级增加支持数据源EMR Hive、LasFormation 和 EMR Serverless StarRocks。
  • LasFormation 支持行、列权限控制
  • 行为审计支持数据源 ByteHouse CE

4

数据地图

  • LasFormation元数据采集支持实时同步
  • LasFormation支持可视化建表,支持表编辑操作
  • EMR Serverless StarRocks 与数据开发联动,支持查看生产信息;与数据探查联动,支持预览数据。

5

控制台

支持绑定 EMR Serverless Presto 引擎,并更改 EMR Serverless OLAP 名称为 EMR Serverless StarRocks。

2024/08/15

序号

功能

功能描述

使用文档

1

数据集成

  • ByteHouse CE 数据源,写入支持选择动态分区类型,即根据源端字段值内容,进行动态写入,动态分区值必须存在于源端 Columns 中。
  • ByteHouse CDW 数据源新增支持 Enum8 数据类型读取。
  • 源端读取 ByteHouse CE、ByteHouse CDW、ClickHouse 表时,支持通过自动添加字段映射方式,添加表分区字段。
  • REST_API 数据源支持按需选择是否拼接 Header 信息,同时支持分页请求方式,可根据分页信息进行请求循环读取。
  • Elasticsearch 数据源新增支持 8.X 版本;支持以索引别名方式,读取若干索引数据,提升数据读取效率。
  • Hive 数据源作为源端时支持读取 Hive 空分区;Hive 作为目标端时,支持写入空分区,空分区以"default"形式展现。
  • 流式集成 Kafka 数据源读取写入 Hive 时,支持读取 valuetimestamptopic 等元数据信息,可在字段映射时自动添加该类元数据字段映射。
  • 解决方案批任务名称生成方式优化,自动生成批任务名称命名为:解决方案名称_解决方案 ID_唯一标识UUID(12位)。
  • 实时整库解决方案,新增 SqlServer、GaussDB(仅限非直连模式读取) 数据源类型读取;
  • 数据同步解决方案整体流程优化,优化将以 Region 灰度形式逐步进行更新,首个灰度 华南 Region。

2024/07/31

序号

功能

功能描述

使用文档

1

数据开发

  • 工作流任务新增支持 EMR Serverless Spark Jar/SQL 任务类型,满足更多任务类型在工作流中使用;
  • EMR Serverless Spark SQL 任务类型支持自动手动方式登记任务产出数据;EMR Serverless Spark Jar 任务类型支持手动方式登记任务产出数据。方便后续其余 EMR Serverless Spark SQL 任务设置依赖推荐时可自动识别对应的产出任务信息。
  • 在临时查询作业中,Notebook 查询类型白名单形式支持 Spark on EMR Serverless 的 Kernel 类型,您可快速进行数据预处理、算法开发等操作。
  • 流式计算 Flink 版引擎实例,白名单形式支持 Flink 1.17 执行引擎版本,您可按需选择更多的引擎版本来满足业务需求。

2

数据质量

  • 数据对比功能支持支持 EMR Serverless Spark 引擎。

2024/07/17

序号

功能

功能描述

使用文档

1

数据开发

  • EMR Serverless Spark SQL/Jar 任务优化:
    • Spark SQL 查询结果白名单形式支持 300 万行数据下载,普通形式最高可支持 20 万行数据下载;
    • Spark SQL 语句支持语法解析能力,助您提前检查发现书写 SQL 代码的语法和语义正确性,运行前检查语法逻辑,防止运行出错。
    • 支持数据开发规范中流水线(人工卡点、执行发布、触发调试、选择器、CodeCT 等扩展程序)管理能力,支持您在不同场景下规范数据开发流程。
  • 临时查询模块支持 EMR Serverless Spark SQL 查询类型,您可通过临时查询能力快速查看 EMR Serverless Spark SQL 中 LAS Formation 的库表数据详情;
  • EMR SQL、EMR StarRocks SQL、EMR Doris SQL、ByteHouse CDW SQL、ByteHouse CE SQL、LAS SQL 等 SQL 查询结果最高可支持 20 万行数据下载;
  • 资源库中删除资源时,系统会提前检查该资源是否被其他任务或函数所依赖,以防止资源删除后导致相关任务执行异常。

2

数据地图

  • LAS Formation 表详情页中,支持数据预览、数据探查等操作,您可在数据地图中直接预览 LAS Formation 表数据。
  • LAS 建表时,支持设置 Stored AS 参数;
  • 创建 LAS Formation 表时,支持数仓建表规范管理,支持您在建表时提前校验数据表规范。

3

数据安全

  • 新增数据保护功能,包括数据加密、解密、静态脱敏,以及脱敏规则管理等。

4

数据质量

  • 模板、自定义、双数据源校验等监控规则支持 emr serverless spark 引擎;
  • 数据探查支持 emr serverless spark 引擎。

5

控制台

  • 数仓建表规范支持 emr serverless spark,支持您创建 LAS Formation 表时,提前检查建表规范;
  • Codect 规则管理类型区分为内置规则和自定义规则;
  • 资源组管理界面优化:资源组名称支持显示相应的实例订单号。

2024/07/08

序号

功能

功能描述

使用文档

1

数据集成

  • 为更好的管控数据源账号密码安全,DataSail 数据源配置时,统一以密文形式展示;
  • 实时同步解决方案、实时分库分表解决方案、实时采集解决方案,数据目标配置步骤中,新增支持 DML 事件类型配置,可同步源端更多 DML 语句事件操作类型;
  • Hive 数据源类型:
    • 目标端写入 EMR Serverless Hive 表时,新增支持一键建表能力,可通过源端字段信息,快速创建目标端 Hive 表。
    • 读取 Hive 数据源,手动添加字段映射时,支持选择 Hive 表分区字段进行字段映射配置。
  • 离线读取 Kafka 数据源时,Kafka Json 结构的数据,字段映射时支持多层级结构数据提取,可解析更复杂逻辑的 Json 数据。
  • PostgreSQL 数据源新增支持 geography 字段类型、切分键支持选择 Timestamp 类型字段、支持您在源端自定义字段数据类型,满足复杂的数据结构和业务场景需求;

2024/06/25

序号

功能

功能描述

使用文档

1

数据开发

  • 流式计算 Flink 版引擎类型,新增 Java Flink Batch 任务类型。
  • 元数据支持 EMR Serverless Spark,可在元数据界面直接查看 LAS Formation 库表信息。
  • EMR Serverless Spark SQL 任务支持自动解析依赖,方便您可直接根据表血缘信息,直接解析上游依赖任务;SQL 查询结果,支持下载到本地进行分析。

2

数据地图

  • 新增 LAS Formation 建库建表。
  • EMR Serverless StarrRocks 支持安全模式,子用户执行时需确保拥有相应库表权限。

3

数据安全

  • 支持添加 EMR StarRocks 3.x 版本的资源。

4

数据质量

  • 数据探查时,ByteHouse 企业版类型支持分区表。

5

控制台

  • EMR Serverless StarrRocks 支持安全模式。
  • EMR StarRocks 支持添加 3.x 版本的资源。

2024/06/04

序号

功能

功能描述

使用文档

1

数据集成

  • 新增流式通道写入 ByteHouse CDW 数据源类型;
  • 流式通道读取 Kafka,支持获取 Kafka Metadata 相关元数据信息,如:timestamp,offset,key,value,partition,headers 等;
  • 新增日志服务 TLS 流式读取能力;
  • 解决方案更新内容如下:
    • 更新解决方案命名限制,提升解决方案自动生成的批/流任务名称可读性,使其名称更有意义;
    • 解决方案写入目标端 ByteHouse CE 库表时,支持自动创建 ByteHouse CE 表;
    • 实时整库同步方案新增 PostgreSQL_to_ByteHouse_CDW 通道能力。
  • 新增 IAM 权限策略:DataLeapSailCreateTaskAccess,支持资源组查看、数据源创建、任务创建等能力,区分 DataLeapFullAccess 权限。

2024/05/23

序号

功能

功能描述

使用文档

1

数据开发

  • EMR Spark 任务支持读取 TOS 路径下的资源文件,提供更多形式的资源引入方式;
  • 支持 EMR Serverless Spark 全托管形态的引擎实例,新增 EMR Serverless Spark Jar、EMR Serverless Spark SQL 任务类型,以满足定制化数据查询分析需求;
  • 流式计算 Flink 版任务类型 Serverless Flink SQL、Serverless Java Flink 任务支持 File 资源文件类型,并支持在任务中引入多个类型的资源,以满足更多复杂的流式数据开发业务场景;
  • ByteHouse CE 建表支持触发建表规范检查,对 ByteHouse CE 建表流程进行约束,从而提升开发效率;
  • 运维中心新增资源运维看板,可查看监控独享计算资源组、独享调度资源组的使用详情,更好的监控资源组占用情况,提升任务运维管理能力。
  • 数据开发作业的调试、提交、发布等动作,流水线扩展程序中新增支持 CodeCT 能力,能够更好的检测任务代码和配置问题,提前发现开发流程中可能会遇到的风险,并落实数据研发规范。

2

数据地图

  • 元数据采集新增 LAS Formation 采集器,能够更好的拉取 EMR Serverless Spark 引擎实例下的数据库表信息。
  • 数据地图中 ByteHouse CE 建表能力支持触发建表规范检查,对 ByteHouse CE 建表流程进行约束,从而提升开发效率。

3

数据安全

  • 数据安全权限申请新增 EMR Serverless Spark 引擎实例下的库表权限申请。

4

控制台

  • 智能市场新增 CodeCT 扩展程序插件,提升任务代码和配置的检测能力,落实数据研发规范。
  • 数仓建表规范新增 ByteHouse CE 库表生效范围,对 ByteHouse CE 建表流程进行约束,从而提升开发效率。

5

指标平台

全新改版,主要包括指标字典、指标管理、指标应用、管理中心几大功能模块。

6

用户权限体系

新增 DataLeap 平台用户权限体系介绍,帮助您快速了解不同用户所具备的不同操作权限。

2024/05/11

序号

功能

功能描述

使用文档

1

数据集成

  • StarRocks 数据源支持离线、流式通道和解决方案写入 StarRocks 分区表;离线通道支持选择静态分区和动态分区类型写入;
  • 离线、流式通道写入 StarRocks 数据源支持根据源端表结构进行快速的一键建表操作,可在一键建表窗口修改 StarRocks DDL 建表语句。
  • 离线通道写入 TOS 数据源,当文件名称冲突时,支持根据业务场景选择冲突时任务的处理方式,可选覆盖、追加、冲突报错处理方式;
  • PostgreSQL 数据源配置时,支持添加数据源高级参数;
  • Kafka 数据源支持 SSL 公网形式连接;新增支持可视化配置 Kafka 离线读;
  • Hive 数据源新增支持 EMR 全托管 Hive 类型接入方式;离线写通道支持选择动态分区类型写入;
  • 离线整库同步方案源端新增 Mongo 数据源类型,目标端新增 ByteHouse 云数仓版、ByteHouse 企业版、Hudi 数据源类型,各数据源支持通道不同,详见支持的数据源
  • 实时整库同步方案新增功能如下:
    • 目标端新增支持 Hudi 数据源类型;
    • 数据缓存方案类型为 Kafka 数据源类型时,支持选择 Debezium Json 数据订阅格式;
    • 解决方案支持写入 StarRocks 分区表,您可自行设置分区字段信息。
  • 流式集成任务 Kafka、BMQ、RocketMQ 数据源类型,在流式运维中重启任务时,支持重置 offset 后重启。
  • 新增 Hana 数据源配置,支持 Hana 读写数据操作。

2024/04/23

序号

功能

功能描述

使用文档

1

数据开发

  • 数据开发调用依赖设置新增支持就近依赖方式,下游任务可快速依赖距离其定时执行时间最近的上游实例。
  • 数据开发支持绑定 ByteHouse 云数仓版引擎,新增 ByteHouse CDW SQL 数据开发任务和临时查询类型;元数据支持 ByteHouse CDW 表元数据类型查看。

3

控制台

  • 新增支持 ByteHouse 云数仓版引擎实例绑定。
  • 项目控制台支持任务依赖的默认配置方式选择。

2024/03/29

序号

功能

功能描述

使用文档

1

数据集成

  • 独享集成资源组创建优化,当 TOS 存储桶已开通服务后,创建独享集成资源组时可自动创建 TOS 存储桶。
  • 数据集成离线任务,支持任务实例读写云监控指标查看。
  • 流式集成任务支持引擎镜像版本管理。
  • 离线任务、流式任务字段映射支持以数据转换模式进行配置。
  • 数据源优化:
    • BMQ 数据源类型新增支持跨账号形式访问;
    • 火山引擎 E-MapReduce (EMR)中的 StarRocks、Doris、Hive、HDFS 数据源类型支持安全模式对接;
    • MaxCompute 数据源类型支持可视化写入;
    • Hive 数据源类型支持 Timestamp 字段类型;
    • StarRocks 3.X 数据源类型版本支持 Binary 字段类型;
    • ByteHouse CDW 数据源优化网络配置,支持通过内网形式访问。
  • 离线整库解决方案在目标配置时,支持源端表与目标表刷新配置,可自定义整库同步时单次拉取表的数量。
  • 实时整库、离线整库、分库分表解决方案中的离线任务配置调度时,新增支持选择独享调度资源组;ByteHouse CE、Elasticsearch、全托管 StarRocks 目标表支持解决方案自动创建目标表结构。
  • 实时采集方案新增支持 EMR Hive 为目标端。
  • 数据集成任务支持分钟级别调度粒度,Kafka 数据源支持 DSL 方式配置流式读、离线读形式。
  • 新增 Hudi 数据源配置,支持离线读取 Hudi 数据库。

2024/03/18

序号

功能

功能描述

使用文档

1

数据开发

  • 新增支持基于全托管 EMR Serverless StarRocks 引擎下的数据开发任务和临时查询;
  • 临时查询执行和数据开发任务调试支持选择是否开启任务成功\失败时的消息通知;
  • 资源库支持EMR和通用(Shell/Python)引擎的资源类型进行跨引擎复制、华北地域资源来源新增制品仓库(SCM)形式;
  • 调度时间变量参数支持分钟及自定义格式类型。

2

数据安全

  • EMR StarRocks/Hive 库表类型,支持用户组形式的申请、授权操作;
  • 数据安全支持 ByteHouse CE 数据库表的权限申请管理操作。

3

数据地图

  • 支持 ByteHouse CE 数据库表的管理、数据预览、字段血缘、元数据采集等资产管理能力;
  • 支持 ByteHouse CDW 数据库表的管理能力、详情页展示表查询次数统计;
  • 支持全托管 EMR Serverless StarRocks 数据表的管理、数据检索、元数据采集等能力;
  • EMR/LAS 引擎新增支持字段自定义标签能力;
  • EMR 数据资产显示集群名,可快速识别多集群下的 EMR 资源归属来源;
  • EMR StarRocks 数据表详情页支持展示逻辑表大小;
  • LAS 表详情页支持展示存储格式和存储路径。

4

控制台

  • 新增支持 EMR Serverless StarRocks 引擎实例绑定,区分 EMR StarRocks 引擎。

2024/02/29

序号

功能

功能描述

使用文档

1

数据集成

  • Mongo 数据源支持离线分库分表方式读取;
  • 新增 OSS 数据源离线方式读取数据配置;
  • RocketMQ、ByteHouse CE/CDW 数据源支持连接串方式进行数据源配置;
  • ByteHouse CE 数据源写入时,支持配置部分列进行数据更新;
  • ByteHouse CE/CDW、ClickHouse 数据源批式读支持 Array 类型;
  • 实时整库同步、实时分库分表解决方案中,支持 MySQL2ByteHouse CDW 通道配置 DDL 策略、新增 Mongo 数据源实时分库分表解决方案通道;
  • 实时数据采集方案新增支持 DataSail(内置 Topic)、Kafka、BMQ 读取,Kafka、BMQ 写入,目标表支持按源表名分流到不同的 Topic 中;
  • 独享集成资源组支持查看资源组中具体运行任务数与排队任务数信息;
  • 优化 DataSail 数据集成任务批式、流式集成日志的查询与下载。

2024/01/29

序号

功能

功能描述

使用文档

1

数据集成

  • Redis 新增支持可视化离线读取;
  • PostgreSQL 支持 geometry 字段类型读取;
  • StarRocks、Doris 写入权限优化,支持非 Admin 账号写入;
  • 实时整库同步、实时分库分表解决方案新增支持 VeDB 数据源、ByteHouse CDW 数据源支持自动建表;
  • 数据集成任务日志查看优化,支持自动打印,筛选检索优化,支持 Job Manager、Task Manager类型查看。

2

数据开发

  • 数据开发任务类型新增工作流任务类型,支持在工作流任务中添加多种引擎下的任务类型;
  • ByteHouse CE SQL 任务支持依赖解析与产出登记能力;
  • 任务运维监控告警规则,支持飞书群、飞书、Webhook(钉钉与飞书群 Webhook 地址)。

3

数据安全

支持 ByteHouse CDW 数据源。

4

数据地图

  • 支持数据类型 BMQ、RocketMQ、ByteHouse CE
  • 增加安全标签设置

2024/01/08

序号

功能

功能描述

使用文档

1

数据集成

  • ByteHouse CE 新增支持可视化流式写入;
  • Doris、StarRocks数据源对接 Doris 2.X、StarRocks 3.X 版本,支持 EMR 全托管 Doris、StarRocks 集群实例。
  • 数据源支持开发成员角色进行查看;
  • 独享数据集成资源组支持缩容;
  • 实时整库同步、实时分库分表解决方案支持读取 Oracle 数据源、写入 ByteHouse CE 数据源;
  • 离线整库同步解决方案 PostgreSQL2Hive 通道支持 DDL 策略配置。