You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

K-means总距离和是否必然递减?Java实现迭代距离疑问

K-means聚类实现的两个疑问解答

嘿,我来帮你理清这两个关于K-means的疑问哈,结合你用Java实现的场景来拆解:

一、总距离和是否必然持续递减?

先明确下,我们说的总距离和一般指每个样本点到所属簇中心的平方欧氏距离之和(也就是SSE误差平方和)。答案是:它不会递增,只会单调非递增——要么每轮迭代后下降,要么保持不变,绝不可能出现总距离和变大的情况,除非你的代码逻辑出了bug。

为啥是这样?核心原因在于K-means的两步核心操作都是在“最小化总距离”:

  • 簇分配阶段(你的步骤2):每个点被分到距离最近的中心,这已经保证了当前中心配置下的最小总距离和;
  • 中心更新阶段(你的步骤3):用簇内所有点的均值作为新中心,而数学上可以证明,均值是唯一能让该簇内点到中心的平方距离之和最小的点。

那什么时候总距离和会保持不变?当某次迭代后,所有点的簇分配完全没变化,这时候新计算的中心和上一轮完全一致,总距离和自然不变——这就意味着算法收敛了,可以停止迭代了。

如果你的折线图里出现了总距离和上升的情况,那大概率是代码里出了问题,常见的坑有:

  • 计算距离时出错:比如漏了某个维度的平方和,或者用了整数除法导致精度丢失;
  • 更新中心时逻辑错误:比如忘记除以簇内样本的数量,或者用int类型累加导致溢出;
  • 簇分配逻辑有问题:比如没有遍历所有中心找最近的,而是只比较了部分中心。

二、关于你的迭代流程与折线图问题

虽然你提到的折线图内容没写完,但你的迭代步骤是标准的K-means流程,完全没问题。如果折线图出现了不符合预期的波动(比如突然上升),可以按下面的思路排查代码:

  1. 先查中心更新逻辑:比如每个簇的中心计算,是不是用double类型存储每个维度的累加值,最后除以簇内的样本数?Java里int/int会直接取整,这会导致中心计算严重失真;
  2. 再查距离计算代码:比较距离的时候其实不需要开平方(平方后的大小关系和原距离一致,还能节省计算),比如正确的平方距离计算应该是这样的:
private double calculateSquaredDistance(double[] point, double[] center) {
    double sum = 0.0;
    for (int i = 0; i < point.length; i++) {
        double diff = point[i] - center[i];
        sum += diff * diff;
    }
    return sum;
}
  1. 最后查簇分配逻辑:是不是每个点都遍历了所有聚类中心,找到距离最小的那个簇?有没有出现点被漏分配或者错分配的情况?

另外提一句,初始中心的选择会影响最终的聚类结果和迭代次数,但不会打破“SSE单调非递增”的规律——不管初始中心怎么选,每轮迭代后的总距离和都不会比上一轮大。

内容的提问来源于stack exchange,提问作者J Gee

火山引擎 最新活动