AI 数据湖服务(LAS)提供多种存储优化功能,通过小文件合并等能力帮助用户提升查询性能,优化存储资源。以下是存储优化功能的详细说明及操作指南。
使用限制
当前仅支持 Lance 表存储优化,后续将支持 Icerberg 表存储优化能力,敬请期待。
小文件合并
在数据湖管理中,小文件合并是优化查询效率和查询性能的重要手段。在数据高频次增量写入或小批量写入,可能导致大量小数据文件快生成,通过持续小文件合并可以提升存储利用率、获取更优的查询性能以及高效的数据管理。
操作步骤
- 登陆 LAS 控制台。
- 在顶部左上角根据实际情况选择地域。
- 在左侧导航栏选择数据湖 > 元数据管理 > 数据库 > 数据表,进入数据表列表页面。
- 选择目标表,进入表详情 > 存储优化界面,并打开小文件合并功能。
- 配置小文件合并的参数。
- 资源消耗:选择队列,仅支持 LAS 公共队列。
- 合并任务:配置合并任务的资源分配,以及目标文件大小。
- 调度:配置周期调度,仅支持天级调度。
- 强制终止,打开后会在每次调度任务执行时强制终止前一个优化任务。

- 小文件合并功能开启后,可以通过优化任务,查看优化记录和效果。
