如何用Python 2.7从FASTA序列中提取含全部ACTG的子序列？

阿华AIGC实验室

2026-5-26

解决Python 2.7中提取FASTA序列含所有ACGT碱基的子序列问题

嘿，我懂你现在的烦恼——正则表达式确实搞不定这种场景，毕竟要覆盖所有包含A、C、T、G各至少一次的子序列，组合实在太灵活了。针对你在Python 2.7里的需求，我给你整理了一套可行的实现方案，包括FASTA文件读取和核心的子序列提取逻辑：

第一步：读取FASTA文件

首先得把FASTA文件里的DNA序列提取出来，过滤掉注释行和非ACTG的字符：

def read_fasta(file_path):
    sequence = ""
    with open(file_path, 'r') as f:
        for line in f:
            # 跳过FASTA的注释行（以>开头）
            if not line.startswith('>'):
                # 去除换行符并转成大写，确保序列统一
                sequence += line.strip().upper()
    # 只保留ACTG四种碱基，过滤掉其他可能的杂字符
    sequence = ''.join([c for c in sequence if c in {'A', 'C', 'T', 'G'}])
    return sequence

第二步：提取所有符合条件的子序列

核心思路是遍历每个起始位置，向后扩展直到集齐四种碱基，之后所有以该起始位置开头、结束位置在当前位置之后的子序列都符合要求。这个逻辑能覆盖所有可能的有效子序列：

def find_all_valid_subsequences(seq):
    valid_subseqs = []
    seq_length = len(seq)
    
    # 遍历每个可能的起始索引
    for start_idx in range(seq_length):
        # 初始化碱基计数器，记录当前窗口内各碱基的数量
        base_counter = {'A': 0, 'C': 0, 'T': 0, 'G': 0}
        found_all_bases = False
        
        # 从起始索引开始，逐个扩展结束索引
        for end_idx in range(start_idx, seq_length):
            current_base = seq[end_idx]
            base_counter[current_base] += 1
            
            # 检查是否四种碱基都至少出现了一次
            if all(count >= 1 for count in base_counter.values()):
                found_all_bases = True
                # 从当前end_idx到序列末尾的所有位置，都可以作为有效子序列的结束点
                for final_end_idx in range(end_idx, seq_length):
                    subseq = seq[start_idx:final_end_idx + 1]
                    valid_subseqs.append(subseq)
                # 一旦找到第一个符合条件的end_idx，后续的子序列已经全部收集，直接跳出内层循环
                break
    
    # 如果需要去重（比如序列中有重复子序列），可以添加下面这行
    # valid_subseqs = list(set(valid_subseqs))
    return valid_subseqs

测试示例

用你给出的测试序列AAGTCCTAG来验证：

test_sequence = 'AAGTCCTAG'
result = find_all_valid_subsequences(test_sequence)
# 打印结果会包含你示例里的所有子序列，以及更多符合条件的扩展子序列
print(result)

你示例中列出的AAGTC、AGTC、GTCCTA等都会出现在结果里，代码会返回所有满足“包含四种碱基各至少一次”的子序列。

为什么正则不行？

正则表达式擅长匹配模式固定的字符串，但这类子序列的碱基顺序、出现次数完全没有固定模式，只要集齐四种即可。你没法写出一个正则表达式覆盖所有可能的组合，所以用遍历+计数器的方法才是最可靠的。

使用说明

把上述两个函数保存为.py文件（比如dna_subseq_finder.py）
在代码末尾添加调用逻辑：

if __name__ == '__main__':
    fasta_path = 'your_sequence.fasta'  # 替换成你的FASTA文件路径
    dna_seq = read_fasta(fasta_path)
    valid_subseqs = find_all_valid_subsequences(dna_seq)
    # 可以把结果保存到文件，或者直接打印
    with open('valid_subsequences.txt', 'w') as f:
        for subseq in valid_subseqs:
            f.write(subseq + '\n')

内容的提问来源于stack exchange，提问作者Michał Kowalski