美文网首页
信息熵、信息增益和基尼指数

信息熵、信息增益和基尼指数

作者: Andrew_jidw | 来源:发表于2020-03-18 10:45 被阅读0次

信息熵(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占的比例为p_{k}(k=1,2,...,n),则D的信息熵定义为

                                                    Ent(D)=-\sum\nolimits_{p_{k}}^n p_{k}\log_2 p_{k}

Ent(D)的值越小,则D的纯度越高。

信息增益(information gain):假设离散属性a有V个可能取值,若使用a对样本集D进行划分,则会产生V个分支结点,其中第v个分支结点包含D中所有在属性a上取值为a_{v}
的样本,记为D^v。可以计算出属性a对样本集D进行划分所获得的信息增益:

                                                Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac{|D^v|}{|D|}Ent(D^v)

基尼指数Gini(D)表示集合D的不确定性。值越大样本集合的不确定性也越大。

源自:

周志华《机器学习》

李航《统计学习方法》中基尼系数的定义

相关文章

网友评论

      本文标题:信息熵、信息增益和基尼指数

      本文链接:https://www.haomeiwen.com/subject/vyxqyhtx.html