S3中自动创建文件夹并按月归档CSV文件的实现方案咨询

阿华AIGC实验室

2026-5-11

自动化S3文件分类+Glue增量分区实现方案

这个需求用AWS的S3事件通知+Lambda组合就能完美解决，刚好适配你要的Glue增量爬虫分区需求，下面是一步步的具体实现：

1. 先明确S3的“文件夹”本质

首先得提一句：S3里没有物理意义上的文件夹，所谓的“文件夹”其实是对象前缀（比如dec/）。我们要做的是给上传的文件添加对应月份的前缀，而非创建真正的文件夹。如果要适配Glue的分区机制，更推荐用Hive风格的分区前缀（比如month=dec/），这样Glue爬虫能自动识别分区键。

2. 创建Lambda函数（核心逻辑）

Lambda是无服务器计算，适合这种轻量的文件移动操作。用Python写逻辑最方便，核心步骤是：捕获上传事件、提取月份、复制文件到目标前缀、删除原文件。

示例Python代码（适配Glue分区格式）

import boto3
import re
from datetime import datetime

s3 = boto3.client('s3')

def lambda_handler(event, context):
    # 从S3事件中提取桶名和文件名
    bucket = event['Records'][0]['s3']['bucket']['name']
    file_key = event['Records'][0]['s3']['object']['key']
    
    # 跳过已经在分区文件夹里的文件，避免循环触发
    if 'month=' in file_key:
        return "File already in partition folder, skipping"
    
    # 方法1：从文件名提取月份（比如DecClientData -> dec）
    month_match = re.search(r'(Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec)', file_key, re.IGNORECASE)
    if month_match:
        month = month_match.group(1).lower()
    else:
        # 方法2：如果文件名没带月份，用文件上传时间取月份
        file_meta = s3.head_object(Bucket=bucket, Key=file_key)
        upload_time = file_meta['LastModified']
        month = upload_time.strftime('%b').lower()  # 输出如dec
    
    # 构造Glue友好的分区路径：month=dec/文件名
    target_key = f"month={month}/{file_key}"
    
    # 复制文件到目标路径
    s3.copy_object(
        Bucket=bucket,
        CopySource={'Bucket': bucket, 'Key': file_key},
        Key=target_key
    )
    
    # 删除原文件
    s3.delete_object(Bucket=bucket, Key=file_key)
    
    return f"Successfully moved {file_key} to {target_key}"

3. 配置S3事件通知触发Lambda

让S3在有新CSV文件上传时自动调用Lambda：

打开你的S3桶client的管理页面
进入属性标签，找到事件通知模块
点击创建事件通知：
- 事件名称：比如MonthlyDataUploadTrigger
- 事件类型：勾选Put（仅捕获文件上传事件）
- 后缀过滤：填.csv（只处理CSV文件，避免无关文件触发）
- 目标选择：Lambda函数，然后选中你刚才创建的Lambda函数
- 保存配置

4. 给Lambda配置正确的IAM权限

Lambda需要操作S3桶的权限，给Lambda的执行角色添加以下权限策略：

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:PutObject",
                "s3:DeleteObject",
                "s3:HeadObject"
            ],
            "Resource": "arn:aws:s3:::client/*"
        }
    ]
}

注意：创建Lambda时默认会生成执行角色，你只需要在IAM控制台找到这个角色，添加上述策略即可。