You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

线性回归拟合优度比较:选Multiple R-squared还是Adjusted R-squared?

关于用Fisher R-to-z法比较两组回归拟合优度:选Multiple还是Adjusted R²?

嘿,这个问题问得很关键——很多人都会在R²的选择上犯难,尤其是用Fisher转换的时候。咱们一步步捋清楚:

核心结论:优先用Multiple R-squared

Fisher的R-to-z转换,本质是基于样本相关系数的抽样分布推导出来的。而Multiple R本身就是因变量和模型预测值之间的皮尔逊相关系数,R²就是这个相关系数的平方,完全符合Fisher转换的理论前提。这也是目前学界公认的、用于两组独立样本R²差异检验的标准做法。

为什么不优先选Adjusted R-squared?

Adjusted R²是对Multiple R²的“惩罚修正”,公式是:

R²_adj = 1 - (1 - R²) * (n - 1) / (n - k - 1)

其中n是样本量,k是自变量个数。它的设计目的是避免因加入过多无关自变量导致R²虚高,但问题在于:

  • 它的抽样分布没有像原始R²那样明确、成熟的理论支撑,Fisher z转换并不适配它的分布特征;
  • 修正项引入了样本量和自变量数的干扰,打破了原始R²作为相关系数平方的纯粹性,强行用Fisher转换的话,统计结论的可靠性会大打折扣,目前也没有广泛认可的标准方法来处理。

特殊情况的应对方案

如果你的两组模型自变量数量差异很大,或者样本量悬殊,直接用Multiple R²对比可能有失公平(比如小样本+多自变量的组,R²容易被高估),这时候可以这么做:

  • 优先统一两组的模型结构:让两组使用完全相同的自变量,这样Multiple R²的对比就没有偏差,直接用Fisher z转换即可,这是最稳妥的解决办法;
  • 如果必须保留不同的模型结构,可以考虑用AIC或BIC来对比拟合优度——这些准则本身就包含了对样本量和自变量数的惩罚,不过它们的逻辑是“模型选择”而非“R²差异检验”,解释的时候要注意区分;
  • 若非要用Adjusted R²做对比,只能尝试反推回原始R²(用上面的公式倒算),再进行Fisher转换,但这只是变通方法,一定要在报告里明确说明你的处理步骤,并且谨慎解释结果——反推的R²并非实际样本的真实R²,统计效力和准确性都不如直接用原始值。

内容的提问来源于stack exchange,提问作者RobMcC

火山引擎 最新活动