You need to enable JavaScript to run this app.
文档中心
复制全文
存储优化
小文件合并
复制全文
小文件合并

AI 数据湖服务(LAS)提供多种存储优化功能,通过小文件合并等能力帮助用户提升查询性能,优化存储资源。以下是存储优化功能中小文件合并功能的详细说明及操作指南。

什么是小文件合并

在数据湖管理中,小文件合并是优化查询效率和查询性能的重要手段。在数据高频次增量写入或小批量写入,可能导致大量小数据文件块生成,通过持续小文件合并可以提升存储利用率、获取更优的查询性能以及高效的数据管理。
LAS 为您提供小文件合并的存储优化功能,打开开关后,您可配置小文件合并的优化任务,配置完成后,即可实现对小文件的合并优化。

使用限制

当前仅支持 Lance 和 Iceberg类型的表使用存储优化-小文件合并功能。

配置小文件合并

打开并配置

  1. 登录 LAS 控制台,在顶部左上角根据实际情况选择地域,在左侧导航栏选择 湖管理 > 元数据,选择对应的 数据库 > 数据表,进入数据表列表页面。

  2. 选择目标表,进入表详情 > 存储优化界面,并打开小文件合并功能。

  3. 配置小文件合并的参数。
    Image

    参数

    配置说明

    资源分配

    设置为当前小文件合并任务分配的资源CU数。
    当前支持使用公共队列资源来执行存储优化任务,设置资源分配后,会在执行存储优化任务时占用对应额度的公共队列资源。

    目标文件大小

    设置需要合并的小文件大小。

    分区过滤

    您可通过写入 where 子句的过滤条件来圈定小文件合并的范围。
    在输入框中输入 where 子句内容即可,无需输入‘where’,例如:id = 3 and name = “demo”

    周期调度

    选择是否需要打开周期调度的开关。

    • 关闭周期调度:任务配置完成后,后续您需手动触发任务执行。
    • 打开周期调度:您还需配置周期调度的调度策略,包括时间间隔粒度和间隔周期,任务配置完成后,后续会在您配置的调度周期自动执行任务。

    终止前一个优化任务

    设置是否强制终止前序优化任务。打开开关后,在每次调度任务执行时强制终止前一个优化任务。

    自定义配置

    根据需要配置小文件合并任务运行过程中涉及的自定义参数。详情请参见下文的参考:自定义参数说明

参考:自定义参数说明

Iceberg

在配置存储优化过程中,支持配置的 Iceberg 自定义参数包括 Iceberg 官方文档的options参数,strategy和sort_order参数。

Lance

配置存储优化过程中,支持配置的 Lance 自定义参数如下。

自定义参数

参数说明

target_rows_per_fragment

合并后每个 fragment 的目标行数

max_rows_per_group

控制写入时每个 row group 的上限行数

materialize_deletions

逻辑删除实体化

materialize_deletions_threshold

当某个输入文件的删除占比超过该阈值时,执行实际删除

batch_size

合并重写时的微批大小(行数)

defer_index_remap

用于“延迟索引重映射/维护”,当优化或合并产生新的数据文件、行组与行 ID 映射变化时,不在当前操作内立刻更新索引引用,而是把索引维护留到后续独立步骤统一处理

执行优化任务并查看优化结果

完成小文件合并功能开启配置后,您可以在小文件合并页面手动触发优化任务执行,也可查看优化记录和效果。
Image

最近更新时间:2026.03.10 12:03:39
这个页面对您有帮助吗?
有用
有用
无用
无用