多AWS账户环境下持续成本治理与自动化资源清理的最佳实践问询

阿华AIGC实验室

2026-3-31

完全懂这种踩坑的痛感——我之前待的电商团队也出过类似的事：一个运维同学迁移时创建的12TB临时备份卷，忘了删跑了两个半月，账单出来时直接给业务线的成本预算干超了。结合我们在多AWS账户（用了Organizations+Control Tower）场景下的落地经验，我逐个给你拆解问题：

1. 大规模自动化资源治理的推荐架构

推荐基于AWS Organizations/Control Tower做分层管控+闭环自动化的架构，核心是把治理逻辑从单账户扩展到全组织：

顶层（管理账户）：做集中的策略下发、数据聚合和审计。比如用Control Tower的着陆区统一配置OU、SCP，用Cost Explorer聚合所有账户的成本数据，用Config Aggregator收集全组织的资源合规状态。
中间层（OU层级）：按业务线/环境（Dev/Staging/Prod）划分OU，给不同OU应用差异化的治理规则——比如Dev OU可以用更激进的清理策略，Prod OU则保留更严格的人工审批环节。
底层（成员账户）：部署自动化执行组件，比如Lambda函数、Step Functions工作流，配合顶层的规则触发清理动作。

具体的闭环流程要覆盖：

资源发现与标记：用AWS Resource Groups+Tag Editor做资源分类，强制要求临时资源加ExpirationDate标签；
规则检测：用Config Rules（或自定义Lambda）检测闲置资源（比如超过30天未挂载的EBS、未关联EC2的EIP），或者未按要求标记的资源；
阶梯式自动化处理：先给资源所有者发Slack/邮件通知（用SNS+Lambda），设置缓冲期（Dev环境3天，Prod环境7天），缓冲期内无异议则自动删除；
审计复盘：用CloudTrail记录所有清理动作，每月通过Cost Explorer复盘资源浪费情况，优化规则。

像你提到的8TB临时卷的问题，用这个架构就能提前预防：创建时强制加ExpirationDate标签，到期前1天发通知，到期自动删除，根本不会等到3个月后才发现。

2. 大型企业如何执行清理策略

大型企业的核心是把策略落地到“强制合规+自动化闭环+问责机制”，我见过的常用手段：

标签策略强制落地：用SCP（服务控制策略）阻止未按要求标记的资源创建——比如SCP可以设置：所有EBS卷必须包含ResourcePurpose和ExpirationDate标签，否则拒绝创建请求。同时用Config Rules持续扫描全组织的资源，发现未合规的就触发告警，甚至自动标记为“待清理”。
环境差异化的SCP规则：给Dev OU设置SCP，禁止创建超过1TB的EBS卷（除非有特殊审批标签）；给Prod OU设置SCP，禁止自动删除任何资源，必须走人工审批流程。
自动化清理工作流：用Step Functions编排“标记-通知-等待-删除”的流程，比如Dev环境中，未挂载的EBS卷超过7天，先标记为“待清理”，给资源所有者发通知，3天后自动删除；Prod环境则只发通知，不自动删除，需要所有者手动确认。
成本归因与问责：用AWS Cost Anomaly Detection+Cost Explorer做成本归因，把每个业务线的资源成本和团队KPI挂钩，每月把资源浪费的情况同步到各业务线负责人，倒逼团队重视资源 hygiene。

3. 常用的开源工具/框架

我实际用过的、适合多账户场景的开源工具：

Cloud Custodian：这是最流行的开源云治理工具，支持多云，用YAML写策略规则，比如可以写规则：“检测所有账户中超过30天未挂载的EBS卷，标记为待清理，7天后自动删除”。它可以集成AWS Organizations，批量管理所有成员账户，规则一次编写，全组织生效。
AWS Resource Scheduler：这个是AWS社区维护的开源工具，用Lambda+CloudWatch Events实现，支持按标签或者资源状态调度清理，比如停止闲置的EC2实例、删除过期的快照，配置起来很简单，适合快速落地。
Lazy AWS Cleaner：轻量级的Python脚本工具，专门针对闲置资源（未挂载EBS、未关联的EIP、停止超过7天的EC2、旧快照）做检测和清理，适合小团队快速上手，也可以扩展到多账户。
自定义Lambda脚本：很多大型企业会自己写Lambda脚本，结合CloudWatch Metrics做更精细化的检测——比如检测EBS卷的IOPS，如果连续30天IOPS为0，就触发清理流程。这种方式灵活性最高，完全贴合自己的业务场景。

4. 实际工作中AWS原生工具 vs 外部FinOps平台的依赖情况

这个得看团队的FinOps成熟度和规模：

中小团队/起步阶段：基本100%依赖AWS原生工具——用Cost Explorer做成本分析，Budgets设置成本告警，Config做合规检查，Lambda做简单的自动化清理。优点是无额外成本，集成度高，不需要额外运维，足够覆盖大部分基础需求。
中大型企业/成熟FinOps体系：会走“原生工具做基础管控+开源/内部工具做精细化处理”的路线：
- 基础管控（SCP、Control Tower、Config、Cost Explorer）全用AWS原生，因为这些是底层的管控能力，稳定可靠，和AWS生态无缝集成；
- 精细化的成本归因、跨账户可视化、智能告警，很多团队会基于AWS的API自己搭建内部的FinOps平台，或者用开源的FinOps框架；
- 自动化清理的执行层，还是以Lambda+Step Functions为主，因为灵活性高，可以完全自定义流程。
外部FinOps平台的使用情况：除非是超大型企业（比如员工数过万，AWS账单年消耗千万级以上），否则很少用外部平台——一是你提到的不想走中间商、不想把账单过第三方的问题，二是原生+开源工具完全能满足需求，成本更低，可控性更强。

最后给个落地小建议

先从Dev环境小范围试点：先在Dev OU部署Cloud Custodian，配置几个简单的规则（比如清理未挂载超过7天的EBS、停止超过3天的EC2），跑1-2个月，收集反馈，优化规则，然后再推广到Staging和Prod环境。这样风险小，容易看到效果，也能让团队逐步适应自动化清理的节奏。