集成学习系列一 ——AdaBoost

作者: 7NIC7 | 来源:发表于2019-04-29 16:04 被阅读0次

集成学习系列一 ——AdaBoost
集成学习之AdaBoost
04 集成学习 - Boosting - AdaBoost算法构
GBDT集成算法（梯度提升树）
2019年上半年收集到的人工智能集成学习干货文章
集成学习——AdaBoost
Boost-GBDT
集成学习（3）boosting代表——Adaboost
集成学习之提升法
集成学习-AdaBoost (分类)

看了好多天的adaboost，来这里记录一下。

集成学习

集成学习还是非常广泛的，它并不是具体的某种方法，你可以把这个词当做一种思想——三个臭皮匠顶个诸葛亮，总的来说，就是将一些并不是很厉害的弱分类器集合在一起，可能会有意想不到的效果。
如果你是在比赛，到了某个瓶颈的时候，不妨试一下集成学习。这篇只会涉及到adaboost，之后会相继的写其他的集成学习方法，bagging、blending等等。

AdaBoost

adaboost其实只是boosting家族中的一种，不过在使用中效果很好，且思想简单，也是最经典的一个boosting方法。
先对adaboost算法的思想简单介绍下，再摆算法。adaboost试图对一个稍弱的分类器 $h_t$ 不断的优化继而得到一个强大的分类器 $G$ ，最后得到的分类器是前面一系列弱分类器的加权平均，那么算法是怎么使得弱分类器在每轮中产生的不一样呢？那就是对样本的权重进行不断更新，更新原则就是减小前面分类器已经分类正确的样本权重，增大分类器分类错误的样本权重。

算法如下：
在每次迭代时需要计算
1.加权的错误率 $\epsilon$ 。这里做了标准化。

2.计算每个分类器的权重 $alpha$ 。
如何推导呢？西瓜书是用的指数损失函数推导出来的。如下：
$\begin{align*} min\ exploss &= arg\min_{h_t} E e^{-\alpha h_t y} \\ &= arg\min_{h_t} e^{-\alpha}P(h_t = y) + e^{\alpha}P(h_t \neq y) \\ &= arg\min_{h_t} e^{-\alpha}(1-\epsilon)+ e^{\alpha}\epsilon \end{align*}$
对其求导，并让导数为0.
$\begin{align*} &\frac{\partial exploss }{\partial \alpha} = 0 \\ =>\ &\alpha = \frac{1}{2}log\frac{1-\epsilon}{\epsilon} \end{align*}$
当 $\epsilon=1/2$ 时， $\alpha=0$ ，这个分类器没啥用啊（瞎猜也有0.5的概率猜对呢），直接剔除掉；当 $\epsilon<1/2$ 时， $\alpha$ 是正的，且 $\epsilon -> 0$ ，则 $\alpha -> \infty$ ；当 $\epsilon>1/2$ 时，错误率大于0.5，岂不是连瞎猜还不如，那这个分类器还有什么用吗？因为这个是二分类的问题，我们对这个结果取个负号，这样得到的错误率依然是小于0.5的，再看这个 $\alpha$ 值，是不是正好是负的？

3.更新每个样本的权重 $w$ ，这也是adaboost最精华的部分。
采用的策略就是在算法思想中说的那样：
$\begin{align*} w_{t+1} = \begin{cases} & w_t \sqrt{\frac{1-\epsilon}{\epsilon}} \ \ \ ,分类错误\\ & w_t / \sqrt{\frac{1-\epsilon}{\epsilon}}\ ,分类正确 \end{cases} \end{align*}$

当然要是想看理论的推导可以继续参考西瓜书，仍然是用指数损失推导的，这里用另一种思路解释为什么权重变化要乘以或者除以这样一个系数？
解释：这样做的好处是，分类错误的样本权重之和和分类正确的样本权重之和是相等的，均为 $1/2$ (权重经过标准化后)，为什么呢？你可以这样理解，经过上一轮迭代后得到的分类器的错误率是 $\epsilon$ ，那么错误分类的样本权重也就是 $w_tI(y \neq G_t) = \epsilon$ ，相对的，正确分类的样本权重是 $1- \epsilon$ ，那么经过权重更新后，正确和错误的样本权重均为 $\sqrt{(1-\epsilon)\epsilon}$ 。
那么紧接着一个问题就是：为什么要调整错误与正确样本的权重相等呢？这样对于得到非常不一样的分类器 $h_t$ 是有什么帮助吗？
可能是个不恰当的解释：这样调整了之后，相当于我们之前的分类器得到的就是和扔硬币一样的结果，正确和错误的概率是一样的，那么这轮训练我们就会得到一个与之前不一样的分类器 $h_t$ ，因为我们得到的结果会是一个分类错误率小于0.5的分类器。
————————————————————————————————
算法：
for m=1,....,M do:
    stump = Generate_Stump(data, weight)
     $\epsilon$ = $\sum w I(y_i \neq h_m(x_i)) / \sum w$     # Calculate error
     $\alpha_m = \frac{1}{2} log\frac{1-\epsilon}{\epsilon}$      # Calcualte the weight of the classifier
     $w = w \times exp(- \alpha_m h_m(x_i)y_i)$
end for
$G(x_i) = sign(\sum \alpha_mh_m(x_i))$
————————————————————————————————

集成学习系列一 ——AdaBoost
看了好多天的adaboost，来这里记录一下。集成学习集成学习还是非常广泛的，它并不是具体的某种方法，你可以把...
集成学习之AdaBoost
一. AdaBoost介绍我们在机器学习(八)-集成学习(Ensemble learning)中介绍了集成学习的...
04 集成学习 - Boosting - AdaBoost算法构
03 集成学习 - Boosting - AdaBoost算法原理十、AdaBoost算法构建上一章最后说明了...
GBDT集成算法（梯度提升树）
一、算法思想 GBDT是集成学习Boosting算法中的一种，它与Adaboost相比，Adaboost算法利用...
2019年上半年收集到的人工智能集成学习干货文章
2019年上半年收集到的人工智能集成学习干货文章机器学习-集成学习集成学习——Adaboost分类 2019-...
集成学习——AdaBoost
集成学习简单来说，集成学习就是将一组个体学习器结合起来，通过某种策略，将其结合成一个总学习器来完成相应任务；集成...
Boost-GBDT
GBDT也是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。回顾下Adaboost...
集成学习（3）boosting代表——Adaboost
1 Adaboost原理回顾前文集成学习（1）模型误差与集成学习中对boosting的定义： 2.boostin...
集成学习之提升法
AdaBoost 定义AdaBoost最流行的提升法的一种方式之一,将几个弱学习器集合成一个强学习器的任意集成方法...
集成学习-AdaBoost (分类)
1. 概念 1.1 League of Legends 还是 AdaBoost？ LOL打团的思想是这样的：对面开...