在R中高效实现回归插补：多变量场景下的dplyr优化方案及替代方案

阿华AIGC实验室

2026-4-30

高效实现多变量回归插补（R语言）

针对你提到的30余个解释变量的场景，手动写线性组合计算预测值显然不现实，这里有几个更高效的方案，既能适配多变量场景，又能大幅简化代码：

核心改进：用`predict()`替代手动系数计算

最直接的优化是利用lm模型自带的predict()函数，它会自动处理所有解释变量——不管数量多少，完全不用手动写coefs[1] + coefs[2]*var1 + ...这种冗余代码，还能避免人为计算错误。

基础方案：全局模型插补

不需要拆分数据集再合并，直接在原数据框里完成缺失值填充，步骤更简洁：

library(dplyr)

# 构造示例数据
df <- data.frame(
  id = c(1, 1, 1, 2, 2, 2),
  group = c(1, 1, 2, 1, 1, 2),
  sub_group = c(1, 2, 3, 1, 2, 3),
  p = c(4.3, 5.7, NA, NA, NA, 10),
  var1 = c(0.3, 0.1, 0.4, 0.9, 0.1, 0.2),
  var2 = c(0, 0, 0, 1, 1, 1)
) %>% as_tibble()

# 1. 用非缺失p的样本拟合OLS模型
# 变量多的话可以用 p ~ . - id - group - sub_group 自动包含所有解释变量
imp_model <- lm(p ~ var1 + var2, data = df %>% filter(!is.na(p)))

# 2. 直接在原数据中填充缺失的p值
df_imputed <- df %>%
  mutate(
    p = if_else(
      condition = is.na(p),
      true = predict(imp_model, newdata = .), # 自动用所有解释变量计算预测值
      false = p
    )
  ) %>%
  arrange(id, group, sub_group)

这个方案的优势：

无需拆分合并数据集，减少中间步骤，代码更简洁
predict()自动适配任意数量的解释变量，哪怕你新增30个变量，只需要调整模型公式即可，预测部分完全不用修改

进阶方案：分组建模插补（如果业务需要按组单独拟合）

如果你的业务场景中，不同group或id的p值影响规律不同，需要分组单独建模的话，可以结合dplyr::nest()和purrr::map()实现批量处理：

library(dplyr)
library(purrr)

df_imputed_grouped <- df %>%
  # 按需要的分组变量分组，比如group
  group_by(group) %>%
  # 将每组数据嵌套成列表列
  nest() %>%
  # 为每组拟合模型并生成插补后的数据集
  mutate(
    # 每组单独拟合OLS模型（过滤掉该组内p缺失的样本）
    model = map(data, ~ lm(p ~ var1 + var2, data = .x %>% filter(!is.na(p)))),
    # 用每组的模型对该组数据插补缺失的p
    data_imputed = map2(data, model, ~ mutate(.x, p = if_else(is.na(p), predict(.y, newdata = .x), p)))
  ) %>%
  # 展开嵌套的数据框
  unnest(data_imputed) %>%
  arrange(id, group, sub_group)

这个方案的优势：