Python Pandas实现按colA与colB的唯一组合计算colD的平均值

Python Pandas实现按colA与colB的唯一组合计算colD的平均值

阿华AIGC实验室

2026-4-29

解决按多列分组计算平均值的问题

嘿，这事儿其实超简单，你不用单独折腾df.unique()去处理唯一值，直接把colB也加入到groupby的分组字段列表里就行！

具体操作步骤：

先正确读取你的CSV文件（注意原始数据是空格分隔，不是逗号，所以要指定分隔符）：

import pandas as pd
# 读取空格分隔的CSV文件
df = pd.read_csv('FILE.CSV', sep='\s+')

按colA+colB的组合分组，计算colD的平均值：

# 同时指定两个分组列，计算均值后保留列结构
result_df = df.groupby(['colA', 'colB'], as_index=False)['colD'].mean()

也可以用另一种写法，效果完全一样：

result_df = df.groupby(['colA', 'colB'])['colD'].mean().reset_index()

为什么这能解决你的问题？

groupby(['colA', 'colB'])会自动识别这两个列的唯一组合（也就是你要的「colA唯一名称+对应colB唯一年份」），每个组合都会被当成独立分组。
对每个分组的colD调用mean()，就能直接算出该组合对应的平均值。
as_index=False（或者后续的reset_index()）是为了把分组用的colA和colB从索引变回普通列，这样输出格式就和你期望的完全一致了。

最终输出效果

执行完代码后，result_df的内容就是：

colA	colB	colD
FCPP	2019	5
FCPP	2020	15
PSGS	2019	25
PSGS	2020	20

内容的提问来源于stack exchange，提问作者Ihos

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，免费解锁 ArkClaw，7*24 小时在线的专属智能伙伴

一键部署 OpenClaw

分钟级部署，云服务器包月低至￥9.9，与 CodingPlan 组合购买仅需19.8元

Seedance2.0 体验中心上线

注册即享免费500万Tokens，抢先领略新一代AI视频技术跃迁

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠