8.4 基于随机森林的决策分类
随机森林是一种一个包含多个决策树的分类器,是用随机的方法建立一个森林,森林里面由很多的决策树组成,且这些决策树之间没有连续。随机森林的算法是由Leo Breiman和Adele Cutle发展推论出的。
随机森林就是通过集成学习的思路将多棵树集成的一种算法,它的基本单元是决策树,而它的本质是属于机器学习的一大分支——集成学习。
8.4.1 随机森林的特点
1、当分类资料集合具有很多资料时,可以产生高准确度的分类器。
2、当分类资料集为不平衡的资料集时,随机森林可以平衡误差。
3、随机森林可以计算出各例中的亲近度,在数据挖掘、侦测偏离者及将资料视觉化方面有着重要的作用。
4、在大数据集上表现良好。
5、能够评估在分类问题上的各个特征的重要程度。
8.4.2 随机森林的构造方法
随机树建立由两部分组成:随机采样和完全分裂。
每棵树的构造方法:
1、用N表示训练例子的个数,M表示变量的数目。
2、用m来表示当在一个结点上做决定时会用到的变量的数目。
3、从N个训练案例中采用可重复取样的方式,取样N次,形成一组训练集,并使用这棵树来对剩余变量预测其类别,并对误差进行分析。
4、对于每个结点,随机选择m个基于此点上的变量。根据这m个变量,计算器最佳的分割方式。
5、对于森林中的每棵树都用不采用剪枝技术,每棵树都能完整生长。
网友评论