面向数据分析与挖掘新手:数据挖掘领域的信息增益比是什么?
啥是信息增益比?零基础友好版解释
嘿,零基础的朋友别慌!咱们先从信息增益比的“前辈”——信息增益说起,一步步拆解,保证你能get到~
第一步:先搞懂两个基础概念
1. 信息熵(衡量混乱程度)
你可以把熵理解成“一堆数据的混乱程度”:
- 如果一堆水果全是苹果,那完全不混乱,熵就是0;
- 如果一半苹果一半橙子,混乱到极致,熵就是1(这里用简化的二分类数值,方便理解);
- 要是有苹果、橙子、香蕉各三分之一,混乱度更高,熵也更大。
2. 信息增益(衡量特征的有用程度)
信息增益的核心是:用某个特征划分数据后,混乱度减少了多少。
举个接地气的例子:
假设你有10个水果:5个红苹果,5个黄橙子,初始熵是1(最混乱)。
- 用「颜色」这个特征划分:分成红组(全苹果)和黄组(全橙子),每组的熵都是0。
- 信息增益 = 初始熵 - 划分后的平均熵 = 1 - (5/100 + 5/100) = 1。
这说明「颜色」这个特征超级有用,一下子把混乱度降到了0!
第二步:信息增益的坑——偏爱“取值多的没用特征”
但信息增益有个大问题:它特别喜欢那种“取值超多,但根本没用”的特征。
比如你给每个水果编个唯一ID(1到10),用「ID」划分的话,每个组只有1个水果,每组的熵都是0,信息增益也是1(和「颜色」一样大)。但「ID」这个特征完全没用啊!它没法帮你判断新进来的水果是什么,因为每个新水果的ID都是新的。
第三步:信息增益比——给没用的特征“泼冷水”
信息增益比就是为了修复这个坑而生的!它的计算公式很简单:信息增益比 = 信息增益 ÷ 特征自身的熵
这里的「特征自身的熵」,就是这个特征本身的混乱程度:
- 「颜色」只有2个取值(红、黄),且各占一半,自身熵是1;
- 「ID」有10个不同取值,每个取值只出现1次,自身熵特别大(大概是3.32)。
那咱们算一下:
- 「颜色」的信息增益比 = 1 ÷ 1 = 1;
- 「ID」的信息增益比 = 1 ÷ 3.32 ≈ 0.3。
这下差距就出来了!「颜色」的增益比远高于「ID」,这样在选决策树的划分特征时,就会优先选「颜色」这种真正有用的特征,而不是「ID」这种花里胡哨的没用特征。
一句话总结
信息增益比就是给信息增益加了个“惩罚机制”:对那些本身就很混乱、取值超多的没用特征,用它自身的熵去“稀释”信息增益,让真正有价值的特征能脱颖而出,避免决策树走歪路~
内容的提问来源于stack exchange,提问作者Andrea Prakash




