如何利用Python虚拟线程高效并行读取大文件的行？

阿华AIGC实验室

2026-4-20

嘿，我来帮你把这个问题理清楚！首先得戳破一个核心误区：单个大文件的行并行读取，不管用进程、物理线程还是虚拟线程，都不会比单线程读取更快——甚至会更慢。

为什么单个文件并行读行没用？

原因出在磁盘的IO特性上：

机械硬盘的顺序读写速度远高于随机读写，如果你同时读取同一文件的不同行，磁盘磁头需要来回跳动寻道，反而拖慢速度；
就算是SSD，单个文件的行读取本质还是顺序IO，并行读取同一文件的不同位置也不会带来性能提升，反而会增加线程/进程调度的额外开销。

你之前用ProcessPoolExecutor处理单个文件的每行，完全是南辕北辙——进程的创建、切换开销很大，而且ProcessPool是绑定物理CPU核心的，根本没法开几十万个，官方文档也说了默认max_workers最多是32或者CPU数+4，就是为了避免资源浪费。

虚拟线程的正确打开方式

虚拟线程（Python 3.10+引入的用户态线程）确实适合IO密集型任务，但必须是多个独立的IO任务——比如同时读取多个不同的大文件，这时候虚拟线程就能发挥优势：每个线程在等待磁盘IO的时候会自动让出CPU，不用像物理线程那样有内核态切换的开销，开几千、几万个都没问题。

正确的优化方案

1. 单个大文件：单线程+大块读取最高效

放弃并行读行的想法，用单线程读取，甚至可以用大块读取+手动分割行的方式，减少系统调用次数，比默认的for line in file:更快：

def process_line(line: bytes):
    # 这里替换成你对每行的实际处理逻辑
    print(line)

def process_single_file(file_path: str):
    with open(file_path, 'rb') as f:
        chunk_size = 1024 * 1024  # 每次读1MB块，可根据磁盘性能调整
        buffer = b''
        while True:
            chunk = f.read(chunk_size)
            if not chunk:
                break
            buffer += chunk
            # 按换行符分割行
            lines = buffer.split(b'\n')
            # 最后一行可能不完整，留到下一个chunk处理
            buffer = lines.pop()
            for line in lines:
                process_line(line)
        # 处理最后剩下的不完整行
        if buffer:
            process_line(buffer)

2. 多个大文件：用虚拟线程并行处理

这才是虚拟线程的用武之地！用ThreadPoolExecutor（Python 3.12+默认支持虚拟线程，低版本可以手动用threading.Thread创建虚拟线程）同时处理多个文件，每个文件用单线程读取：

from concurrent.futures import ThreadPoolExecutor

def main():
    # 替换成你的大文件列表
    file_list = ["large1.log", "large2.log", "large3.log", ...]
    # Python 3.12+ 可以设置max_workers=None，自动使用虚拟线程，支持大量worker
    with ThreadPoolExecutor(max_workers=500) as executor:
        executor.map(process_single_file, file_list)

if __name__ == "__main__":
    main()