使用Pandas合并100GB级TSV文件的分块处理方案咨询

使用Pandas合并100GB级TSV文件的分块处理方案咨询

阿华AIGC实验室

2026-5-9

完全可以实现分块合并并追加写入！

你的思路非常精准——分块加载两个大文件，逐块合并后直接追加到输出文件，这正是解决超大文件内存不足问题的核心方案，完全能避开把整个100GB数据集塞进16GB内存的尴尬。

具体实现代码示例

这里是可运行的Python代码，基于你的伪代码扩展，适配TSV文件的处理需求：

import pandas as pd

# 配置文件路径和参数
input_file1 = "file1.tsv"
input_file2 = "file2.tsv"
output_file = "merged_output.tsv"
chunksize = 10000  # 可以根据内存情况调整，比如试100000
join_key = "your_primary_key"  # 替换成实际的合并主键
join_type = "inner"  # 可选：inner/left/right/outer，根据需求调整

# 分块读取两个TSV文件
chunk_iter1 = pd.read_csv(input_file1, sep="\t", chunksize=chunksize, low_memory=False)
chunk_iter2 = pd.read_csv(input_file2, sep="\t", chunksize=chunksize, low_memory=False)

# 逐块合并并追加写入
for idx, (chunk1, chunk2) in enumerate(zip(chunk_iter1, chunk_iter2)):
    # 合并当前块
    merged_chunk = pd.merge(chunk1, chunk2, on=join_key, how=join_type)
    
    # 写入文件：第一块写表头，后续块不写
    merged_chunk.to_csv(
        output_file,
        sep="\t",
        mode="a",
        index=False,
        header=(idx == 0)
    )
    
    # 可选：打印进度，方便监控
    print(f"已完成第 {idx+1} 块合并写入")

关键注意事项

分块对应性：确保两个文件的分块是按逻辑匹配的（比如主键顺序一致），否则zip会导致合并错误。如果文件顺序不匹配，你可能需要先对每个分块按主键排序后再合并，但会增加一点开销。
chunksize调整：不用局限于1000，建议根据你的内存剩余情况测试更大的数值（比如10万行），能提升处理速度，只要单块合并后的内存占用不超过系统剩余内存即可。
编码与格式一致性：如果你的TSV文件有特殊编码（比如GBK），记得在read_csv和to_csv中指定encoding参数；如果文件有特殊分隔符或格式，也要对应调整sep等参数。
合并逻辑适配：根据你的业务需求选择合适的合并类型（比如左连接保留file1的所有数据），并确保join_key是两个文件共有的列。
异常处理：如果担心中途出错，可以添加try-except块捕获异常，或者在写入前临时保存块数据，避免输出文件损坏。

这个方案的核心优势是内存占用始终控制在单块数据的大小，完全不会触发内存溢出问题，非常适合你的场景。

内容的提问来源于stack exchange，提问作者Eliran Turgeman

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠