You need to enable JavaScript to run this app.
复制全文
存储优化
孤儿文件治理
复制全文
孤儿文件治理

AI 数据湖服务(LAS)提供多种存储优化功能,通过孤儿文件治理等能力帮助用户提升查询性能,优化存储资源。以下是存储优化功能中孤儿文件治理功能的详细说明及操作指南。

使用限制

当前仅支持 Iceberg 类型的表使用存储优化-孤儿文件治理功能。

配置孤儿文件治理

打开并配置

  1. 登录 LAS 控制台,在顶部左上角根据实际情况选择地域,在左侧导航栏选择 湖管理 > 元数据,选择对应的 数据库 > 数据表,进入数据表列表页面。

  2. 选择目标表,进入表详情 > 存储优化界面,并打开孤儿文件治理功能,并配置孤儿文件治理的参数。
    Image

    参数

    配置说明

    资源分配

    设置为当前孤儿文件治理任务分配的资源CU数。
    当前支持使用公共队列资源来执行存储优化任务,设置资源分配后,会在执行存储优化任务时占用对应额度的公共队列资源。

    周期调度

    选择是否需要打开周期调度的开关。

    • 关闭周期调度:任务配置完成后,后续您需手动触发任务执行。
    • 打开周期调度:您还需配置周期调度的调度策略,包括时间间隔粒度和间隔周期,任务配置完成后,后续会在您配置的调度周期自动执行任务。

    终止前一个优化任务

    设置是否强制终止前序优化任务。打开开关后,在每次调度任务执行时强制终止前一个优化任务。

    自定义配置

    根据需要配置孤儿文件治理任务运行过程中涉及的自定义参数。详情请参见下文的参考:自定义参数说明

参考:自定义参数说明

Iceberg

支持配置的 Iceberg 自定义参数如下。

自定义参数

参数说明

older_than

仅删除早于指定时间戳的孤儿文件(防止误删正在写入的临时文件)

location

指定要扫描的表路径(通常用于分区表或自定义位置)

dry_run

预览模式,仅列出将被删除的文件而不实际删除

max_concurrent_deletes

控制并发删除文件的最大线程数

file_list_view

(保留字段,部分实现中用于提供待删除文件列表的视图名称;通常可忽略)

equal_schemes

在比较文件路径时是否要求 URI scheme 一致(例如 hdfs:// 与 s3a:// 被视为不同)

equal_authorities

在比较文件路径时是否要求 URI authority 一致(例如 namenode1:9000 与 namenode2:9000 被视为不同)

prefix_mismatch_mode

当检测到文件路径前缀与表位置不匹配时的处理策略,可选值如 FAIL(报错)、DELETE(仍删除)、SKIP(跳过)

prefix_listing

是否启用基于前缀的对象存储列表优化(适用于 S3、OSS 等),提升扫描效率

执行优化任务并查看优化结果

完成孤儿文件治理功能开启配置后,您可以在孤儿文件治理页面手动触发优化任务执行,也可查看优化记录和效果。
Image

最近更新时间:2026.03.10 12:03:40
这个页面对您有帮助吗?
有用
有用
无用
无用