能否按特定名称列出S3文件夹？示例：列出标记‘darwin’的所有S3存储桶文件夹

阿华AIGC实验室

2026-5-7

列出带"darwin"标签的S3存储桶中的文件夹

没问题，我来帮你搞定这个需求！首先得明确：S3是对象存储服务，没有真正意义上的文件夹，所谓的“文件夹”其实是对象键的前缀（比如docs/report.pdf里的docs/就是一个前缀，会被当作文件夹展示）。下面分两种常用方式实现你的需求：

方法一：使用AWS CLI

1. 先筛选出带有"darwin"标签的存储桶

用AWS CLI结合JMESPath查询语法，可以直接过滤出符合标签条件的桶：

aws s3api list-buckets --query "Buckets[?Tags[?Key=='darwin']].Name" --output text

--query 参数：通过JMESPath筛选出标签集合中存在Key=='darwin'的桶，只返回桶名称
--output text：让结果以空格分隔的文本形式输出，方便后续循环处理

2. 遍历每个符合条件的桶，列出“文件夹”前缀

把上面的结果存到变量里，然后循环遍历每个桶，用s3 ls命令列出前缀（模拟文件夹）：

# 获取所有带darwin标签的桶名
DARWIN_BUCKETS=$(aws s3api list-buckets --query "Buckets[?Tags[?Key=='darwin']].Name" --output text)

# 遍历每个桶，列出文件夹前缀
for BUCKET in $DARWIN_BUCKETS; do
  echo "=== 存储桶 $BUCKET 中的文件夹 ==="
  # --delimiter "/" 会将前缀识别为文件夹，只返回CommonPrefixes
  aws s3 ls s3://$BUCKET/ --delimiter "/" | grep "PRE " | awk '{print $2}'
done

--delimiter "/"：告诉CLI把/当作分隔符，会把前缀（比如logs/）识别为文件夹
grep "PRE "：筛选出CLI输出中标记为文件夹的行（格式类似PRE logs/）
awk '{print $2}'：提取出文件夹名称

方法二：使用Python Boto3 SDK

如果需要更灵活的逻辑（比如处理大量桶、自定义过滤规则），可以用Boto3来实现：

import boto3

def get_darwin_buckets():
    """获取所有带有darwin标签的S3存储桶"""
    s3_client = boto3.client('s3')
    all_buckets = s3_client.list_buckets()['Buckets']
    darwin_buckets = []
    
    for bucket in all_buckets:
        bucket_name = bucket['Name']
        try:
            # 获取桶的标签集合
            tags = s3_client.get_bucket_tagging(Bucket=bucket_name)['TagSet']
            # 检查是否存在Key为darwin的标签
            if any(tag['Key'] == 'darwin' for tag in tags):
                darwin_buckets.append(bucket_name)
        except s3_client.exceptions.ClientError as e:
            # 处理没有标签的桶（会抛出NoSuchTagSet错误）
            if e.response['Error']['Code'] != 'NoSuchTagSet':
                raise
    return darwin_buckets

def list_bucket_folders(bucket_name):
    """列出指定S3桶中的文件夹前缀"""
    s3_client = boto3.client('s3')
    paginator = s3_client.get_paginator('list_objects_v2')
    
    # 分页查询前缀（文件夹）
    for page in paginator.paginate(Bucket=bucket_name, Delimiter='/'):
        if 'CommonPrefixes' in page:
            for prefix in page['CommonPrefixes']:
                print(prefix['Prefix'])

# 执行逻辑
if __name__ == "__main__":
    darwin_buckets = get_darwin_buckets()
    for bucket in darwin_buckets:
        print(f"\n=== 存储桶 {bucket} 中的文件夹 ===")
        list_bucket_folders(bucket)

注意事项

权限要求：执行这些操作需要具备以下IAM权限：s3:ListAllMyBuckets（列出所有桶）、s3:GetBucketTagging（获取桶标签）、s3:ListBucket（列出桶内对象/前缀）
标签过滤扩展：如果需要筛选Key=='darwin'且Value为特定值的桶，可以修改查询条件（比如CLI的JMESPath改为Buckets[?Tags[?Key=='darwin' && Value=='prod']].Name）
大规模场景：如果有大量存储桶，建议使用分页查询或者异步处理，避免超时问题

内容的提问来源于stack exchange，提问作者Sreekanth Reddy