基于R语言dplyr实现多列分组统计计数与平均年龄并规整数据结构

阿华AIGC实验室

2026-5-19

解决方案：多维度分组聚合与结构展开

没问题，咱们一步步来解决这个需求。你用dplyr的思路是对的，再结合tidyr里的工具（spread或更推荐的pivot_wider）就能完美实现目标，具体步骤如下：

1. 加载必要工具包

首先确保你安装并加载了dplyr和tidyr：

library(dplyr)
library(tidyr)

2. 分组统计核心指标

先按group、gender、income三个维度分组，统计每组的用户数量和平均年龄：

# 替换「你的数据集名称」为实际数据集对象
aggregated_data <- 你的数据集名称 %>%
  group_by(group, gender, income) %>%
  summarize(
    用户数量 = n(),
    平均年龄 = mean(age, na.rm = TRUE)  # na.rm=TRUE处理缺失值，按需调整
  ) %>%
  ungroup()  # 取消分组状态，避免后续操作出现异常

这一步会生成一个包含分组维度和两个统计指标的中间数据集，是后续展开结构的基础。

3. 转成「Expanded Version」结构

针对你提到的展开需求，这里提供两种实现方式：

方法一：用pivot_wider（推荐，功能更灵活）

假设你想把gender作为列展开（比如将男/女的统计结果分别拆成独立列），可以直接用pivot_wider：

expanded_data <- aggregated_data %>%
  pivot_wider(
    id_cols = c(group, income),  # 保留作为行标识的核心维度
    names_from = gender,         # 要展开为列的字段
    values_from = c(用户数量, 平均年龄)  # 对应展开的统计指标
  )

执行后会生成类似用户数量_男、用户数量_女、平均年龄_男、平均年龄_女的列，行则按group和income的组合展示。如果需要展开income而非gender，只需把names_from = gender改成names_from = income即可。

方法二：用spread函数（兼容旧版tidyr）

如果你一定要用spread函数，需要先将数据转成长格式再展开：

# 第一步：把统计指标转成长格式
long_data <- aggregated_data %>%
  pivot_longer(cols = c(用户数量, 平均年龄), names_to = "指标", values_to = "数值")

# 第二步：合并指标与gender作为新列名
combined_long <- long_data %>%
  unite(新列名, 指标, gender, sep = "_")

# 第三步：用spread展开成宽格式
expanded_data <- combined_long %>%
  spread(key = 新列名, value = 数值)

这个方法和pivot_wider的结果完全一致，只是步骤稍多，因此更推荐使用pivot_wider。