在R语言中合并Fasta文件并重新标记序列的方法

在R语言中合并Fasta文件并重新标记序列的方法

阿华AIGC实验室

2026-5-25

当然有啦！在R环境里处理多FASTA文件合并+序列重标记，我有两个实用方案，都是日常处理这类需求的常用操作：

方案1：用Biostrings包（专业生物序列工具）

这是Bioconductor生态里专门处理生物序列的包，功能全，处理FASTA文件非常稳定，适合有生物信息学需求的场景。

步骤：

先安装包（如果还没装的话）：

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("Biostrings")

加载包并处理文件：

library(Biostrings)

# 找到当前目录下所有FASTA文件（支持.fasta和.fa后缀）
fasta_files <- list.files(pattern = "\\.(fasta|fa)$", full.names = TRUE)

# 初始化一个空的序列集合
merged_seqs <- DNAStringSet()

# 循环处理每个文件
for (file in fasta_files) {
    # 读取当前文件的核苷酸序列
    seqs <- readDNAStringSet(file)
    # 提取文件名作为前缀（避免不同文件的序列ID重复）
    file_prefix <- tools::file_path_sans_ext(basename(file))
    # 重命名序列：前缀+原ID，你也可以改成自己需要的规则
    names(seqs) <- paste0(file_prefix, "_", names(seqs))
    # 合并到总序列集合里
    merged_seqs <- c(merged_seqs, seqs)
}

# 保存合并并重命名后的FASTA文件
writeXStringSet(merged_seqs, file = "merged_renamed.fasta")

方案2：轻量版（基础R+readr，无需Bioconductor）

如果你不想装Bioconductor的包，用基础R配合readr包也能搞定，代码更简洁，适合快速处理：

步骤：

先装readr（如果没装）：

install.packages("readr")

处理文件：

library(readr)

# 找到所有FASTA文件
fasta_files <- list.files(pattern = "\\.(fasta|fa)$", full.names = TRUE)

# 初始化空的内容向量
merged_content <- character()

for (file in fasta_files) {
    # 读取文件的每一行
    lines <- read_lines(file)
    # 提取文件名前缀
    file_prefix <- tools::file_path_sans_ext(basename(file))
    # 找到所有以>开头的序列ID行，替换成新的ID
    id_lines <- grepl("^>", lines)
    lines[id_lines] <- paste0(">", file_prefix, "_", substring(lines[id_lines], 2))
    # 把当前文件的内容加入合并集合
    merged_content <- c(merged_content, lines)
}

# 写入合并后的文件
write_lines(merged_content, file = "merged_renamed_light.fasta")

小提示：

如果你的重命名规则不是“文件名+原ID”，比如想给所有序列按顺序编号（seq_1, seq_2...），只需要修改重命名那一行就行：

方案1里改成：

names(seqs) <- paste0("seq_", length(merged_seqs) + 1:length(seqs))

方案2里改成：

current_seq_num <- length(grep("^>", merged_content)) + 1
seq_ids <- current_seq_num:(current_seq_num + sum(id_lines) - 1)
lines[id_lines] <- paste0(">seq_", seq_ids)

内容的提问来源于stack exchange，提问作者Furqan

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠