- 信息增益的概念
信息量=熵
对分类系统来说,类别C是变量,它可能的取值是C1,C2,……,Cn,而每一个类别出现的概率是P(C1),P(C2),……,P(Cn),因此n就是类别的总数。此时分类系统的熵就可以表示为:

一个变量可能的变化越多(反而跟变量具体的取值没有任何关系,只和值的种类多少以及发生概率有关),它携带的信息量就越大
文本分类系统的作用就是输出一个表示文本属于哪个类别的值,而这个值可能是C1,C2,……,Cn,因此这个值所携带的信息量就是上式中的这么多
2 随机森林
随机森林由若干棵决策树构成


Scikit-Learn是一个用python编写的机器学习第三方库
参考资料
- word2vec简介(英文的。。。)
- 机器学习的算法(1):决策树之随机森林(我学习的时候是按照这篇的思路去学的)
- Andrew Moore决策树教程
- 了解信息增益和决策树(这篇对我理解信息增益的帮助很大)
- Information Gain Tutorial
- 分类&回归算法-随机森林(很容易看懂的一篇)
-
分类器组合方法Bootstrap, Boosting, Bagging, 随机森林(一)
概率论相关知识 -
联合分布
未完待续。。。 - K-means聚类算法
- 精确率,准确率,召回率三者区别
网友评论