年量级大规模文件（日均10K-15K）迁移至AWS S3的高效批量处理方案咨询

阿华AIGC实验室

2026-4-20

嘿，针对你要处理一整年数据、日均10-15K文件的迁移场景，结合你现有的Python代码，我给你整理了几个关键优化点和落地方案，帮你把处理效率拉满：

一、先搞定全年日期生成的问题

你的get_dates函数目前只支持单月，还有个小bug——range(1,n+1)里的n应该是days。可以改成生成全年所有日期的函数，还建议用标准的YYYY-MM-DD格式，避免后续路径或数据库存储出现歧义：

import calendar
from datetime import datetime

def get_year_dates(year=2023):
    dates = []
    for month in range(1, 13):
        days_in_month = calendar.monthrange(year, month)[1]
        for day in range(1, days_in_month + 1):
            dates.append(datetime(year, month, day).strftime("%Y-%m-%d"))
    return dates

调用时直接dates = get_year_dates()就能拿到全年的日期列表了。

二、优化并行粒度：从「按日期并行」到「按文件并行」

你现在是按日期级别的多进程，但每个日期下有10-15K个文件，单进程串行处理这些文件会浪费大量资源。建议把并行粒度细化到文件级别，同时合理调整进程池大小：

调整代码结构：

把单文件的处理逻辑抽成独立函数，加上错误捕获避免单个文件失败影响全局：

def process_single_file(file_path):
    try:
        local = download_file(file_path)
        s3_key = upload_to_s3(local)
        insert_record_to_db(s3_key, file_path)
        os.remove(local)
        return True
    except Exception as e:
        print(f"处理文件{file_path}失败: {str(e)}")
        # 可选：把失败文件记录到日志或单独列表，后续单独重试
        return False

修改download_files函数，让它内部用进程池处理当前日期的所有文件：

def download_files(date):
    file_list = get_file_list(date)
    # 根据机器CPU核心数和网络带宽调整进程池大小，比如设为CPU核心数的2-4倍
    with mp.Pool(processes=mp.cpu_count() * 3) as file_pool:
        results = file_pool.map(process_single_file, file_list)
    # 可选：统计当前日期的成功/失败数量
    success_count = sum(results)
    print(f"日期{date}处理完成，成功{success_count}/{len(file_list)}个文件")

外层依然按日期并行（不同日期的文件列表完全独立）：

if __name__ == "__main__":
    import multiprocessing as mp
    import os

    # 外层进程池大小建议不超过CPU核心数太多，避免资源竞争
    with mp.Pool(processes=mp.cpu_count()) as date_pool:
        dates = get_year_dates()
        date_pool.map(download_files, dates)

三、其他能大幅提效的关键优化点

S3上传优化：
- 使用boto3时，确保开启分块上传（大文件默认自动触发，也可以手动配置阈值），或者用s3transfer库优化上传速度；
- 如果是小文件（几KB级别），可以考虑批量压缩后上传，再用AWS Lambda触发S3上的解压缩操作，减少HTTP请求次数。
数据库插入优化：
- 你现在每个文件插一条记录，会产生大量DB连接开销。建议改成批量插入：比如每处理100个文件就攒一批数据，一次性插入DB，或者用ORM的批量插入API（比如SQLAlchemy的bulk_insert_mappings）。
网络与重试机制：
- 下载和上传时加上重试逻辑（比如用tenacity库），应对第三方服务或S3的临时网络波动；
- 尽量在靠近S3的区域运行脚本（比如AWS EC2实例），减少跨区域网络延迟。
断点续传与监控：
- 把已处理的日期记录到DB或本地文件，万一脚本中断，下次可以从未处理的日期开始，不用从头再来；
- 单独记录失败的文件，后续单独重试，避免影响整体进度。

四、资源占用提醒

如果你的机器内存有限，要注意控制并行度，避免同时下载太多文件导致内存爆满。可以在process_single_file里确保文件上传后及时删除，或者适当缩小进程池的大小。如果处理量实在太大，也可以考虑用AWS Batch或Lambda做分布式处理，但先优化本地多进程的粒度，已经能提升不少效率了。

备注：内容来源于stack exchange，提问作者kishore