Python长文档单词替换：大语料下性能优化方案咨询

阿华AIGC实验室

2026-5-20

嘿，这个问题我太熟了——处理超大文本时最容易踩的坑就是一次性把整个文件塞进内存，或者用低效的查找逻辑拖慢速度。给你几个关键优化点，亲测处理维基级语料都丝滑：

核心优化思路

1. 把字典改成集合，把查找速度拉满

你原来如果用列表存字典单词，每次检查一个词是否在字典里是O(n)的，2000次循环下来处理百万行文本就会爆炸。把字典转成Python的set，查找直接O(1)，瞬间快N倍。

# 读取字典并转成集合
with open("your_dict.txt", "r", encoding="utf-8") as f:
    target_words = set(word.strip() for word in f if word.strip())

2. 分块/逐行处理文件，绝不一次性读全量

超大文件直接read()会把整个文件加载到内存，内存不够就会卡顿甚至崩溃。改成逐行读取，处理一行写一行，内存占用几乎可以忽略。

3. 用正则表达式批量替换，避免循环替换

不要循环遍历每个目标词去做字符串替换（比如text = text.replace(word, "word_1")），这样会反复扫描文本，效率极低。用正则的sub()方法，一次扫描完成所有替换：

import re

# 构建匹配模式，匹配整个单词（避免部分匹配，比如"apple"不会替换"apples"）
# 对字典里的特殊字符转义，防止正则语法错误
pattern = re.compile(r'\b(' + '|'.join(re.escape(word) for word in target_words) + r')\b')

# 逐行处理并写入
with open("large_corpus.txt", "r", encoding="utf-8") as infile, open("new.txt", "w", encoding="utf-8") as outfile:
    for line in infile:
        modified_line = pattern.sub("word_1", line)
        outfile.write(modified_line)

这里的\b是单词边界，确保只替换整个单词，不会误替换包含目标词的长单词（比如不会把"apples"里的"apple"替换掉）。如果你的字典里有特殊字符（比如标点、连字符），re.escape()会帮你转义，避免正则出错。

进阶优化：给磁盘IO加缓冲

要是文件大到逐行还是有点慢，可以给写入文件加缓冲，减少磁盘读写的次数，比如设置buffering=1024*1024（1MB缓冲）：

with open("large_corpus.txt", "r", encoding="utf-8") as infile, open("new.txt", "w", encoding="utf-8", buffering=1024*1024) as outfile:
    for line in infile:
        outfile.write(pattern.sub("word_1", line))