在R中对全字符串变量数据集做K-means聚类，转factor后nbclust仍无法运行怎么办

阿华AIGC实验室

2026-5-29

解决纯因子型数据集无法运行nbclust()的问题

嘿，这个问题我之前碰到好多次了——nbclust()函数本身对纯因子型数据集的支持相当有限，它内置的大部分聚类评估指标和底层算法（比如默认的k-means）都是为数值型数据设计的，哪怕你把字符串转成因子，本质还是分类变量，直接丢进去肯定会报错。下面给你几个实用的解决方案：

方案1：将因子变量转换为数值型编码

把分类变量转换成数值表示，让nbclust()能识别处理，常用的两种方式：

独热编码（One-Hot Encoding）：适合无序因子，把每个因子的不同水平拆成二进制变量，避免引入虚假的顺序关系。示例代码：

# 加载caret包来生成独热编码
library(caret)
# 假设你的数据集名为df
dummy_encoder <- dummyVars(~ ., data = df)
df_encoded <- predict(dummy_encoder, newdata = df)

# 现在用编码后的数值型数据运行nbclust
library(NbClust)
nb_result <- NbClust(df_encoded, method = "kmeans")

标签编码（Label Encoding）：仅适合有序因子（比如"差/中/优"这种有明确顺序的类别），直接把因子转成整数：

# 把有序因子转成整数
df$ordered_factor_col <- as.integer(df$ordered_factor_col)
# 转换后再跑nbclust
nb_result <- NbClust(df, method = "kmeans")

⚠️ 注意：无序因子绝对不能用标签编码，会给模型传递错误的数值关系（比如把"红/蓝/绿"转成1/2/3，模型会认为红<蓝<绿，这显然不合理）。

方案2：用Gower距离配合基于距离的聚类方法

Gower距离是专门为混合类型或纯分类数据设计的距离度量，你可以先计算数据集的Gower距离矩阵，再传给nbclust()使用基于距离的聚类算法：

# 加载cluster包计算Gower距离
library(cluster)
# metric="gower"支持纯因子/混合类型数据
gower_dist_matrix <- daisy(df, metric = "gower")

# 运行nbclust，注意data设为NULL，把距离矩阵传给diss参数
library(NbClust)
nb_result <- NbClust(data = NULL, diss = gower_dist_matrix, method = "ward.D2")

这种方法不需要改变原始数据的结构，还能保留分类变量的特性，是处理纯因子聚类的首选方案之一。

方案3：检查`nbclust()`的参数适配性

确保你选的聚类方法适合分类数据：

避免用默认的method="kmeans"（k-means依赖均值计算，因子数据无法计算均值）；
优先选择基于距离的层次聚类方法，比如"ward.D2"、"single"、"complete"，或者基于质心的"pam"（Partitioning Around Medoids，对分类数据更友好）。

内容的提问来源于stack exchange，提问作者Gary Guo