如何在R中保存主题模型并在不同数据集上运行？

阿华AIGC实验室

2026-5-27

嘿，作为topicmodels的新手，你的思路完全正确——先在合并语料上训练出共享的40主题空间，再用这个模型去分别推断两个语料的主题分布，这样才能公平对比同一主题在不同语料里的出现频率。我来一步步给你拆解具体实现方法：

1. 训练并保存合并语料的LDA模型

首先你需要确保在合并语料上训练的模型能被后续复用，这里你提到的save=TRUE（你写的save=1也可以，R里TRUE和1等价）是对的，它会保存模型训练过程中的额外信息（比如词的对数似然），方便后续推断。不过要完整保存整个模型，还需要用R的save()函数：

library(topicmodels)

# 假设你已经有合并后的文档-词频矩阵dtm_merged
# 设置LDA控制参数：estimate.alpha=TRUE是合理的，alpha初始值建议设为50/k（k是主题数）
control_LDA <- list(
  estimate.alpha = TRUE, 
  alpha = 50/40,  # 这里替换成你之前的初始值也可以，但50/k是topicmodels的默认推荐
  estimate.beta = TRUE, 
  save = TRUE      # 开启这个参数保存模型内部细节，助力后续推断
)

# 训练40主题的VEM-LDA模型
lda_merged <- LDA(dtm_merged, k = 40, method = "VEM", control = control_LDA)

# 把模型保存到本地，方便后续加载使用
save(lda_merged, file = "merged_lda_model.RData")

2. 加载模型，分别在两个语料库做主题推断

这一步的关键是复用训练好的主题空间，也就是不能重新训练模型，而是用已有的模型去“适配”两个单独的语料。需要注意设置estimate.alpha=FALSE和estimate.beta=FALSE，这样才会沿用合并模型的主题词分布（beta）和alpha参数，保证主题空间完全一致：

# 加载之前保存的合并模型
load("merged_lda_model.RData")

# 假设你已经有两个语料的文档-词频矩阵dtm_corpus1和dtm_corpus2
# 注意：这两个dtm的词汇表必须和合并语料的dtm完全一致！（后面会讲怎么保证）

# 设置推断用的控制参数：固定alpha和beta，只推断主题-文档分布
control_infer <- list(
  estimate.alpha = FALSE, 
  estimate.beta = FALSE, 
  save = TRUE
)

# 对语料1做主题推断
lda_corpus1 <- LDA(dtm_corpus1, model = lda_merged, method = "VEM", control = control_infer)

# 对语料2做同样的推断
lda_corpus2 <- LDA(dtm_corpus2, model = lda_merged, method = "VEM", control = control_infer)

重要提醒：统一词汇表

如果两个单独语料的dtm词汇表和合并语料不一致，推断会报错。所以在构建单独语料的dtm时，要指定用合并语料的词汇表：

# 从合并语料的dtm中提取词汇表
vocab <- Terms(dtm_merged)

# 构建语料1的dtm时，强制使用这个词汇表（用tm包的例子）
library(tm)
dtm_corpus1 <- DocumentTermMatrix(corpus1, control = list(dictionary = vocab))

# 语料2同理
dtm_corpus2 <- DocumentTermMatrix(corpus2, control = list(dictionary = vocab))

3. 提取主题频率并对比

现在你可以从两个推断后的模型里提取主题频率，常用的两种方式：

方式一：主题的平均概率（反映整体占比）

# 提取语料1的主题-文档分布（每行是一个文档，每列是一个主题的概率）
theta_corpus1 <- posterior(lda_corpus1)$topics
# 计算每个主题的平均概率
freq_corpus1 <- colMeans(theta_corpus1)

# 语料2同理
theta_corpus2 <- posterior(lda_corpus2)$topics
freq_corpus2 <- colMeans(theta_corpus2)

# 合并成对比数据框
freq_compare <- data.frame(
  Topic = paste0("Topic_", 1:40),
  Corpus1 = freq_corpus1,
  Corpus2 = freq_corpus2
)

# 可视化对比（可选）
barplot(t(freq_compare[,2:3]), beside = TRUE, names.arg = freq_compare$Topic,
        main = "Topic Frequency Comparison",
        xlab = "Topics", ylab = "Average Probability",
        col = c("#1f77b4", "#ff7f0e"))
legend("topright", legend = c("Corpus 1", "Corpus 2"), fill = c("#1f77b4", "#ff7f0e"))

方式二：主导主题的出现次数（每个文档最相关的主题）

# 找出每个文档的主导主题（概率最大的那个）
dominant_topic1 <- apply(theta_corpus1, 1, which.max)
dominant_topic2 <- apply(theta_corpus2, 1, which.max)

# 统计每个主题的出现次数
freq_table1 <- table(dominant_topic1)
freq_table2 <- table(dominant_topic2)

# 合并对比，填充缺失主题的频率为0
freq_compare_dominant <- merge(
  as.data.frame(freq_table1), 
  as.data.frame(freq_table2),
  by = "dominant_topic1", 
  all = TRUE
)
colnames(freq_compare_dominant) <- c("Topic", "Corpus1", "Corpus2")
freq_compare_dominant[is.na(freq_compare_dominant)] <- 0

最后再确认一下：你之前考虑的save=1是正确的设置，它能让模型保存更多内部信息，让后续推断更顺畅；而保存整个模型一定要用save()函数，这样才能完整复用训练好的主题空间。

内容的提问来源于stack exchange，提问作者cupcake93