面向数据分析与挖掘新手：数据挖掘领域的信息增益比是什么？

阿华AIGC实验室

2026-5-19

啥是信息增益比？零基础友好版解释

嘿，零基础的朋友别慌！咱们先从信息增益比的“前辈”——信息增益说起，一步步拆解，保证你能get到~

第一步：先搞懂两个基础概念

1. 信息熵（衡量混乱程度）

你可以把熵理解成“一堆数据的混乱程度”：

如果一堆水果全是苹果，那完全不混乱，熵就是0；
如果一半苹果一半橙子，混乱到极致，熵就是1（这里用简化的二分类数值，方便理解）；
要是有苹果、橙子、香蕉各三分之一，混乱度更高，熵也更大。

2. 信息增益（衡量特征的有用程度）

信息增益的核心是：用某个特征划分数据后，混乱度减少了多少。
举个接地气的例子：
假设你有10个水果：5个红苹果，5个黄橙子，初始熵是1（最混乱）。

用「颜色」这个特征划分：分成红组（全苹果）和黄组（全橙子），每组的熵都是0。
信息增益 = 初始熵 - 划分后的平均熵 = 1 - (5/100 + 5/100) = 1。
这说明「颜色」这个特征超级有用，一下子把混乱度降到了0！

第二步：信息增益的坑——偏爱“取值多的没用特征”

但信息增益有个大问题：它特别喜欢那种“取值超多，但根本没用”的特征。
比如你给每个水果编个唯一ID（1到10），用「ID」划分的话，每个组只有1个水果，每组的熵都是0，信息增益也是1（和「颜色」一样大）。但「ID」这个特征完全没用啊！它没法帮你判断新进来的水果是什么，因为每个新水果的ID都是新的。

第三步：信息增益比——给没用的特征“泼冷水”

信息增益比就是为了修复这个坑而生的！它的计算公式很简单：
信息增益比 = 信息增益 ÷ 特征自身的熵

这里的「特征自身的熵」，就是这个特征本身的混乱程度：

「颜色」只有2个取值（红、黄），且各占一半，自身熵是1；
「ID」有10个不同取值，每个取值只出现1次，自身熵特别大（大概是3.32）。

那咱们算一下：

「颜色」的信息增益比 = 1 ÷ 1 = 1；
「ID」的信息增益比 = 1 ÷ 3.32 ≈ 0.3。

这下差距就出来了！「颜色」的增益比远高于「ID」，这样在选决策树的划分特征时，就会优先选「颜色」这种真正有用的特征，而不是「ID」这种花里胡哨的没用特征。

一句话总结

信息增益比就是给信息增益加了个“惩罚机制”：对那些本身就很混乱、取值超多的没用特征，用它自身的熵去“稀释”信息增益，让真正有价值的特征能脱颖而出，避免决策树走歪路~

内容的提问来源于stack exchange，提问作者Andrea Prakash

火山引擎最新活动

方舟 Coding Plan

HOT

模型自由，工具不限，最新支持 DeepSeek-V4 系列与 GLM-5.1，受邀下单叠加9.5折

查看详情

ArkClaw

7×24在线专属智能伙伴

查看详情

Seedance 2.0 全面开放 API

创作无限可能，一键生成电影级 AI 视频

查看详情

新用户特惠专场

大模型19元起，Al应用9.9元畅享，新人首购爆款尽享优惠

查看详情

方舟 Agent Plan