Snakemake：如何避免执行shell命令前删除输出文件？

阿华AIGC实验室

2026-5-20

如何避免Snakemake规则执行前删除输出文件

当然可以搞定这个问题！Snakemake默认会在执行规则的shell命令前删除输出文件，目的是避免旧文件残留干扰新结果，但针对你这种需要保留旧输出（比如做增量更新、处理N:M输入输出关系）的场景，有两个实用的解决方案：

方法1：给输出文件添加`protected=True`标记

这是最直接的方式，在定义输出文件时加上protected=True参数，就能让Snakemake跳过执行前的删除步骤。示例代码如下：

rule update_results:
    input:
        expand("data/inputs_{sample}.txt", sample=["A", "B", "C"])
    output:
        expand("results/output_{type}.csv", type=["summary", "details"]),
        protected=True
    shell:
        "python my_processing_script.py {input} {output}"

加上这个标记后，不管输入文件有没有变化，触发规则时Snakemake都不会提前删除你的输出文件，你的Python脚本可以直接基于已有输出做增量处理，完美适配你说的N:M输入输出场景。

方法2：将输出文件同时作为规则输入

如果你的脚本需要读取现有输出并更新它，可以把输出文件同时声明为规则的输入之一。这样Snakemake会把它当作输入文件保护起来，不会删除。示例：

rule incremental_update:
    input:
        input_files=expand("data/inputs_{sample}.txt", sample=["A", "B", "C"]),
        current_output=expand("results/output_{type}.csv", type=["summary", "details"])
    output:
        expand("results/output_{type}.csv", type=["summary", "details"])
    shell:
        "python my_incremental_script.py {input.input_files} {input.current_output} {output}"

这种方式需要你的脚本支持接收现有输出作为参数，进行增量计算或更新，好处是Snakemake依然会追踪输出文件的修改时间，确保输入变化时触发规则。

需要注意的是，无论用哪种方法，都要确保你的Python脚本能正确处理已有输出文件的情况——比如避免重复写入无效内容，或者逻辑上能区分“首次生成”和“增量更新”的场景。

内容的提问来源于stack exchange，提问作者SarahH