AI 数据湖服务(LAS)提供多种存储优化功能,通过孤儿文件治理等能力帮助用户提升查询性能,优化存储资源。以下是存储优化功能中孤儿文件治理功能的详细说明及操作指南。
当前仅支持 Iceberg 类型的表使用存储优化-孤儿文件治理功能。
登录 LAS 控制台,在顶部左上角根据实际情况选择地域,在左侧导航栏选择 湖管理 > 元数据,选择对应的 数据库 > 数据表,进入数据表列表页面。
选择目标表,进入表详情 > 存储优化界面,并打开孤儿文件治理功能,并配置孤儿文件治理的参数。
参数 | 配置说明 |
|---|---|
资源分配 | 设置为当前孤儿文件治理任务分配的资源CU数。 |
周期调度 | 选择是否需要打开周期调度的开关。
|
终止前一个优化任务 | 设置是否强制终止前序优化任务。打开开关后,在每次调度任务执行时强制终止前一个优化任务。 |
自定义配置 | 根据需要配置孤儿文件治理任务运行过程中涉及的自定义参数。详情请参见下文的参考:自定义参数说明。 |
支持配置的 Iceberg 自定义参数如下。
自定义参数 | 参数说明 |
|---|---|
older_than | 仅删除早于指定时间戳的孤儿文件(防止误删正在写入的临时文件) |
location | 指定要扫描的表路径(通常用于分区表或自定义位置) |
dry_run | 预览模式,仅列出将被删除的文件而不实际删除 |
max_concurrent_deletes | 控制并发删除文件的最大线程数 |
file_list_view | (保留字段,部分实现中用于提供待删除文件列表的视图名称;通常可忽略) |
equal_schemes | 在比较文件路径时是否要求 URI scheme 一致(例如 hdfs:// 与 s3a:// 被视为不同) |
equal_authorities | 在比较文件路径时是否要求 URI authority 一致(例如 namenode1:9000 与 namenode2:9000 被视为不同) |
prefix_mismatch_mode | 当检测到文件路径前缀与表位置不匹配时的处理策略,可选值如 FAIL(报错)、DELETE(仍删除)、SKIP(跳过) |
prefix_listing | 是否启用基于前缀的对象存储列表优化(适用于 S3、OSS 等),提升扫描效率 |
完成孤儿文件治理功能开启配置后,您可以在孤儿文件治理页面手动触发优化任务执行,也可查看优化记录和效果。