在Snakemake单细胞RNA测序分析流程中使用STAR共享内存模块优化比对任务

阿华AIGC实验室

2026-5-1

解决Snakemake中STAR共享内存索引的加载与卸载问题

要在Snakemake中实现STAR的LoadAndKeep共享内存功能，并确保所有比对任务完成后再卸载索引，核心是通过虚拟标记文件来控制任务的依赖关系——因为Snakemake是基于文件依赖的工作流引擎，必须用文件来跟踪任务的完成状态。

下面是具体的解决方案，分步骤调整你的流程：

1. 定义样本列表（可选但推荐）

首先在Snakefile顶部定义你的样本列表，方便后续批量生成所有样本的文件路径：

# 替换成你的实际样本名称
SAMPLES = ["sampleA", "sampleB", "sampleC"]

2. 添加STAR索引加载规则

创建一个专门的规则来加载基因组索引，并生成一个虚拟标记文件，确保这个加载操作只执行一次：

rule STAR_load:
    input:
        genomeDir=directory("/path/to/genome")
    output:
        # 用touch创建虚拟标记，标记索引已成功加载
        touch("genome_loaded.flag")
    shell:
        """
        STAR --genomeLoad LoadAndKeep \
        --genomeDir {input.genomeDir}
        """

3. 修改STAR比对规则，依赖加载标记

让所有STAR比对任务都依赖这个加载标记，确保索引先被加载到内存后再开始比对：

rule STAR:
    input:
        fq="{sample}_R1_extracted.fq.gz",
        genomeDir=directory("/path/to/genome"),
        # 新增：依赖索引加载完成的标记
        genome_loaded="genome_loaded.flag"
    output:
        "{sample}_Aligned.sortedByCoord.out.bam"
    threads:32
    shell:
        """
        STAR --runThreadN {threads} \
        --genomeLoad LoadAndKeep \  # 后续任务直接复用已加载的共享内存
        --genomeDir {input.genomeDir} \
        --readFilesIn {input.fq} \
        --readFilesCommand zcat \
        --limitBAMsortRAM 20000000000 \
        --outFilterMultimapNmax 1 \
        --outFilterType BySJout \
        --outSAMstrandField intronMotif \
        --outFilterIntronMotifs RemoveNoncanonical \
        --outFilterMismatchNmax 6 \
        --outSAMtype BAM SortedByCoordinate \
        --outFileNamePrefix {wildcards.sample}_
        """

4. 添加STAR索引卸载规则，依赖所有比对结果

让卸载规则依赖所有样本的比对输出文件，这样只有当所有比对任务完成后，才会执行卸载操作：

rule STAR_unload:
    input:
        genomeDir=directory("/path/to/genome"),
        # 依赖所有样本的BAM文件，确保所有比对任务都已完成
        all_bams=expand("{sample}_Aligned.sortedByCoord.out.bam", sample=SAMPLES)
    output:
        # 虚拟标记，标记索引已成功卸载
        touch("genome_unloaded.flag")
    shell:
        """
        STAR --genomeLoad Remove \
        --genomeDir {input.genomeDir}
        """

5. 设置流程最终目标

最后，调整rule all，把卸载标记也加入目标，确保Snakemake会执行卸载步骤：

rule all:
    input:
        # 所有比对结果文件
        expand("{sample}_Aligned.sortedByCoord.out.bam", sample=SAMPLES),
        # 索引卸载完成标记
        "genome_unloaded.flag"

关键说明

虚拟标记文件：用touch创建的.flag文件是Snakemake识别任务完成的核心——因为STAR的加载/卸载操作本身没有输出文件，必须用这种虚拟文件来告诉Snakemake任务已经执行完成。
依赖关系控制：通过让STAR比对任务依赖genome_loaded.flag，确保索引先加载；让卸载任务依赖所有BAM文件，确保所有比对完成后再卸载，完美契合Snakemake的依赖驱动逻辑。
共享内存复用：后续的STAR比对任务使用--genomeLoad LoadAndKeep会直接复用已加载到内存的索引，无需重复加载，大幅节省任务启动时间。

如果你的流程还有下游分析任务（比如基因计数），可以把下游任务的输出也加入rule all，这样卸载操作会在所有下游任务完成后自动执行（因为下游任务依赖BAM文件，而卸载任务也依赖BAM文件，Snakemake会自动处理执行顺序）。

内容的提问来源于stack exchange，提问作者Ruiyu Ray Wang