如何在Pandas透视表中仅对指定聚合函数对应的列执行去重操作？

阿华AIGC实验室

2026-4-29

解决方案：针对不同列分别处理聚合逻辑并修复Margins问题

首先，你的核心问题是同一透视表中不同列需要不同的预处理逻辑：Metric列需要基于全量原始数据计算，而Payment列需要先按Name去重再求和。直接对整个DataFrame去重会破坏Metric的计算，全量聚合又会重复计算Payment。下面分步骤解决：

一、单独处理Payment列的去重求和

我们提供两种简洁可靠的实现方式：

方法1：为Payment编写自定义聚合函数

在aggfunc中为Payment列定制逻辑，确保每个Country分组内，先提取唯一Name对应的Payment值再求和。这里我们先提前构建Name到唯一Payment的映射，避免聚合时重复处理：

import pandas as pd
import numpy as np
import io

# 加载数据（假设data_to_load已定义）
df = pd.read_csv(io.BytesIO(data_to_load['metric data.csv']))

# 构建Name到唯一Payment的映射（同一Name的Payment值一致）
name_payment_map = df.drop_duplicates(subset=['Name']).set_index('Name')['Payment']

def metricgreaterthanone(x):
    n = pd.to_numeric(x, errors="coerce")
    return (n > 1).sum() / n.notna().sum()

def sum_unique_payment(x):
    # 获取当前分组内的所有唯一Name
    unique_names = df.loc[x.index, 'Name'].unique()
    # 从映射中匹配Payment并求和
    return name_payment_map.loc[unique_names].sum()

# 生成透视表
pivot = pd.pivot_table(
    df,
    index=['Country'],
    values=["Name","Metric 1","Metric 2","Payment"],
    aggfunc={
        'Name': pd.Series.nunique,
        "Metric 1": metricgreaterthanone,
        "Metric 2": metricgreaterthanone,
        "Payment": sum_unique_payment
    },
    margins=True,
    margins_name='Total'  # 自定义汇总行名称，可选
)

方法2：拆分透视表后合并

这种方式逻辑更直观，分别处理不同需求的列后再合并结果：

基于全量数据计算Name和Metric的统计值
基于去重后的Name-Payment数据计算Payment总和
将两个结果按Country合并

# 1. 全量数据透视表：处理Name和Metric列
pivot_metric = pd.pivot_table(
    df,
    index=['Country'],
    values=["Name","Metric 1","Metric 2"],
    aggfunc={
        'Name': pd.Series.nunique,
        "Metric 1": metricgreaterthanone,
        "Metric 2": metricgreaterthanone
    },
    margins=True,
    margins_name='Total'
)

# 2. 去重后的数据透视表：处理Payment列
df_payment_unique = df.drop_duplicates(subset=['Name'])
pivot_payment = pd.pivot_table(
    df_payment_unique,
    index=['Country'],
    values=["Payment"],
    aggfunc={"Payment": np.sum},
    margins=True,
    margins_name='Total'
)

# 合并两个透视表
final_pivot = pivot_metric.join(pivot_payment)

二、修复Margins参数不生效的问题

你遇到的margins=True失效，主要有两个原因：

自定义函数的兼容性：当使用字典形式的aggfunc时，margins要求所有聚合函数都能正确处理全量数据的汇总。方法1中的sum_unique_payment函数已经兼容汇总逻辑（处理Total行时，会提取整个数据集的唯一Name并求和），但如果自定义函数依赖分组内的特殊逻辑，可能会导致汇总失败。
Pandas版本限制：旧版本Pandas在字典式aggfunc下对margins的支持存在bug，建议升级到1.3以上版本，能更好地适配这种场景。

添加margins_name='Total'可以明确指定汇总行名称，让结果可读性更强。