为何调整兰德指数(ARI)优于兰德指数(RI)？求ARI直观解读与实例

阿华AIGC实验室

2026-5-27

嘿，这个问题问得特别戳痛点——我当初刚接触聚类评估指标的时候，也对着RI和ARI的公式懵了好久，明明能算对数值，就是没直觉。今天就用大白话+实例给你掰扯清楚！

为什么ARI比RI靠谱？

先讲RI的致命缺陷：它没法区分“真聚类得好”和“随机瞎蒙的”。

RI的本质是“一致对”（要么同聚类且同真实标签，要么不同聚类且不同真实标签）占总对数的比例，但这里有个大问题：当样本量变大、聚类数量变多的时候，随机分配的聚类也会产生不少“巧合一致”的对，导致RI的数值不会趋近于0。

举个极端点的例子：100个样本，真实标签是分成2类（各50个），我们完全随机地把这100个样本分成2类（各50个）。算一下RI的话，你会发现它大概是0.37——这个数值看起来还挺像回事，但实际上我们根本没做任何有效聚类！如果用RI的话，你可能会误以为这个聚类结果还不错，但实际上它和瞎蒙没区别。

而ARI的核心就是把“随机聚类”作为基准线，把RI的结果归一化：

这样一来，不管样本量、聚类数怎么变，你都能通过ARI的数值直接判断聚类的真实效果，不会被随机巧合误导。

从公式层面直观理解ARI

先回忆RI的公式：

RI = (a + b) / (a + b + c + d)

其中：

ARI的公式是对RI做了“去随机化”的归一化：

ARI = (RI - E[RI]) / (max(RI) - E[RI])

这里的E[RI]就是随机聚类情况下的RI期望值——也就是完全瞎蒙时，RI的平均水平。max(RI)是理论上能达到的最大RI值，也就是完美匹配时的1。

直观翻译一下这个公式：

实际聚类的RI比随机瞎蒙的RI好多少？除以“从随机到完美能提升的最大空间”，得到的就是ARI。

这样就把RI的结果从“绝对比例”转换成了“相对随机基准的提升幅度”，彻底消除了样本量、聚类数带来的偏差。

用实例对比RI和ARI

还是拿刚才的100样本例子：

完美匹配场景：预测聚类和真实标签完全一致，RI=1，E[RI]≈0.37，所以ARI=(1-0.37)/(1-0.37)=1，符合预期。
随机聚类场景：RI≈0.37，刚好等于E[RI]，所以ARI=(0.37-0.37)/(1-0.37)=0，完美标记为“瞎蒙”。
中等效果场景：假设我们的聚类结果比随机好一点，RI=0.6，那么ARI=(0.6-0.37)/(1-0.37)=0.23/0.63≈0.365——这个数值直接告诉你，聚类效果比随机好36.5%左右，非常直观。

对比下来，RI在随机场景下的0.37很容易让人误解，而ARI的0则清晰地告诉你“这个结果没用”；RI的0.6看起来不错，但ARI的0.365则更准确地反映了它的真实水平——比随机好，但离完美还差得远。

内容的提问来源于stack exchange，提问作者RTM