R语言中如何仅保存模型定义（不含数据）用于跨实例导入？

阿华AIGC实验室

2026-5-7

解决R模型保存时去除训练数据的问题

Great question! The issue you're facing is super common when sharing R models for deployment—default saveRDS() includes all training data, fitted values, residuals, and other intermediate artifacts, which can bloat file sizes drastically. Here are several reliable, practical ways to strip out the extra baggage while keeping everything needed for predictions intact:

1. 手动清理模型对象

大多数标准R模型（比如glm、lm、arima）会把训练相关的数据存储在特定属性中，你可以手动移除这些内容，同时不破坏模型的预测能力：

# 正常训练模型
modelTest <- glm(y ~ x, data = df)

# 移除和训练数据绑定的非必要元素
modelTest$data <- NULL          # 原始训练数据
modelTest$model <- NULL         # 训练时使用的模型框架
modelTest$fitted.values <- NULL # 训练阶段的预测值
modelTest$residuals <- NULL     # 训练残差
modelTest$qr <- NULL            # QR分解矩阵（仅用于训练，和预测无关）

# 保存精简后的模型
saveRDS(modelTest, file = "modelTest_stripped.rds")

之后加载这个模型时，predict()依然能完美处理新数据：

modelTest2 <- readRDS("modelTest_stripped.rds")
df2$prediction <- predict(modelTest2, newdata = df2)

小技巧：如果不确定要移除哪些元素，可以用str(modelTest)查看模型结构，找那些包含原始训练数据或训练专属计算的属性。

2. 使用`update()`生成轻量模型副本

更优雅且适配多模型类型的方法是用update()函数创建一个不保留训练数据的模型副本：

# 训练原始模型
modelTest <- glm(y ~ x, data = df)

# 重置data属性，生成轻量版本
modelTest_light <- update(modelTest, data = NULL)

# 保存精简后的模型
saveRDS(modelTest_light, file = "modelTest_light.rds")

这种方法会自动处理清理逻辑，比手动删除更安全，不会误删预测必需的关键组件。

3. 构建通用精简函数适配多模型类型

如果需要处理多种模型（比如glm、arima或自定义模型），可以写一个可复用的函数来移除常见的训练相关元素：

strip_model <- function(model) {
  # 列出常见的仅用于训练的元素
  elements_to_remove <- c("data", "model", "fitted.values", "residuals", 
                          "effects", "qr", "linear.predictors", "series")
  
  # 遍历并移除存在的元素
  for (elem in elements_to_remove) {
    if (exists(elem, where = model)) {
      model[[elem]] <- NULL
    }
  }
  
  return(model)
}

# 使用示例
modelTest_stripped <- strip_model(modelTest)
saveRDS(modelTest_stripped, file = "modelTest_stripped.rds")

注意：对于用户自定义模型（比如自己写的预测函数/结构），要引导用户把模型参数和训练数据分离。比如如果自定义模型是包含params和predict_func的列表，只保存这两个组件，不要附带整个训练环境。