R语言中多重插补（MI）数据的描述性统计计算方法问询

R语言中多重插补（MI）数据的描述性统计计算方法问询

阿华AIGC实验室

2026-5-26

解决多重插补数据的描述性统计计算问题

嘿，我太懂你作为R语言新手的这种挫败感了！计算多重插补（MI）数据的描述性统计，居然比跑回归、相关性分析还麻烦，确实是个容易被忽略的痛点。下面我给你分享几个实操过的实用方法：

方法一：用`mice`包结合自定义函数实现

如果你是用mice包生成的插补对象，咱们可以循环处理每个插补数据集，再遵循Rubin规则手动合并统计结果：

# 假设你已经通过mice生成了插补对象imp
library(mice)
library(dplyr)

# 自定义函数：计算单个数据集的数值型变量统计量
get_single_stats <- function(data) {
  data.frame(
    变量名 = colnames(data),
    均值 = sapply(data, function(x) if(is.numeric(x)) mean(x, na.rm = T) else NA),
    标准差 = sapply(data, function(x) if(is.numeric(x)) sd(x, na.rm = T) else NA),
    stringsAsFactors = FALSE
  )
}

# 遍历所有插补数据集，提取统计量
all_imp_stats <- lapply(1:imp$m, function(i) get_single_stats(complete(imp, i)))

# 按照Rubin规则合并结果
pooled_stats <- do.call(rbind, all_imp_stats) %>%
  group_by(变量名) %>%
  summarize(
    合并后均值 = mean(均值),
    合并后标准差 = sqrt(mean(标准差^2) + var(均值))
  )

print(pooled_stats)

这里重点提醒：合并标准差不能直接取均值，必须考虑插补间的变异，上面的公式就是严格遵循Rubin规则的计算方式。

方法二：用`mitml`包简化流程

mitml包专门针对多重插补数据做优化，处理描述性统计会省心很多，它会自动帮你完成Rubin规则的合并：

library(mitml)

# 把mice的插补对象转换成mitml格式
mitml_dataset <- as.mitml.list(imp)

# 计算并自动合并统计量
descriptive_result <- testEstimates(mitml_dataset, fun = function(data) {
  sapply(data, function(x) {
    if(is.numeric(x)) c(均值=mean(x, na.rm=T), 标准差=sd(x, na.rm=T)) else NA
  })
})

# 整理输出格式
print(t(descriptive_result$estimates))

额外小提示

如果是分类变量，只需要把自定义函数改成计算频数、比例，同样可以用Rubin规则合并结果；
就算你的插补数据不是用mice生成的，只要是列表格式的多个完整数据集，上面的方法也完全适用。

内容的提问来源于stack exchange，提问作者ksroogl

火山引擎最新活动

方舟 Coding Plan

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

ArkClaw

7×24在线专属智能伙伴

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠