通过一元线性回归模型理解梯度下降法

作者: AwesomeTang | 来源:发表于2018-10-28 23:01 被阅读6次

多元线性回归
通过一元线性回归模型理解梯度下降法
线性回归
第2章单变量&多变量线性回归
2020-08-19--梯度下降法01
机器学习系列（十六）——随机梯度下降Stochastic Gra
（5）回归算法
线性模型和梯度下降（概念简单理解）
用人话讲明白梯度下降Gradient Descent（以求解多元
PyTorch学习笔记2 - 梯度下降

关于线性回归相信各位都不会陌生，当我们有一组数据（譬如房价和面积），我们输入到excel，spss等软件，我们很快就会得到一个拟合函数: $h_\theta(x)=\theta_0+\theta_1x$
但我们有没有去想过，这个函数是如何得到的？
如果数学底子还不错的同学应该知道，当维数不多的时候，是可以通过正规方程法求得的，但如果维数过多的话，像图像识别/自然语言处理等领域，正规方程法就没法满足需求了，这时候便需要梯度下降法来实现了。

梯度下降法

首先我们需要知道一个概念

损失函数(loss function) $J（\theta_0,\theta_1）$

损失函数是用来测量你的预测值 $f(x)$ 与实际值之间的不一致程度，我们需要做的就是找到一组 $\theta_0，\theta_1$ 使得 $J（\theta_0,\theta_1）$ 最小，这组 $\theta_0，\theta_1$ 便叫做全局最优解。

图1
我们需要定义一个损失函数，在线性回归问题中我们一般选择平方误差代价函数：

图2

假设上图是我们的 $J（\theta_o,\theta_1）$ ，那我们需要找到的就是左边箭头指向的那个点，这个点对应的 $\theta_0,\theta_1$ 便是我们找的全局最优解，当然对于其他模型可能会存在局部最优解，譬如右边箭头指向的点，但是对于线性模型，只会存在全局最优解，真正的图像模型如下图所示，是个碗状的，我们要做的是找到碗底，这样是不是很好理解了。

图3
那么如何到达最底呢，我们再看一张图。

图四
我们需要从绿点到达红点，我们需要确定的有两件事情

朝哪个方向走；
走多远。

第一个问题，我们需要回忆下高中的数学知识——导数，在二维空间里面，导数是能代表函数上升下降快慢及方向的，这个各位在脑子里面想一个就明白，函数上升，导数为正，上升越快，导数越大，下降反之。扩展到多维空间，便是偏导数( $\frac{\partial}{\partial\theta_0 }J（\theta_0,\theta_1）,\frac{\partial}{\partial\theta_1}J（\theta_0,\theta_1）$ )。
第二个问题，走多远或者说步长，这里便需要我们自己定义，在梯度下降法中叫做学习率 $(\alpha),$ 。
接下来放公式：
$\theta_0:=\theta_0-\alpha\frac{\partial}{\partial\theta_0 }J（\theta_0,\theta_1）$
$\theta_1:=\theta_1-\alpha\frac{\partial}{\partial\theta_1}J（\theta_0,\theta_1）$
这边就不推导了，偏导数自己也快忘记的差不多了，直接放结果：
$\theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)$
$\theta_1:=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)x_i$
接下来迭代去更新 $\theta_0，\theta_1$ 直至收敛就好了。

python实现

我们通过 $y = 2x+1$ 生成一些随机点，注意 $y = 2x+1$ 并不是我们的最优解：

# 以y= 2x+1为原型生成一个散点图
# 此时最优解并不是y = 2x+1
X0 = np.ones((100, 1))
X1 = np.random.random(100).reshape(100,1)
X = np.hstack((X0,X1))
y = np.zeros(100).reshape(100,1)
for i , x in enumerate(X1):
    val = x*2+1+random.uniform(-0.2,0.2)
    y[i] = val

plt.figure(figsize=(8,6))
plt.scatter(X1,y,color='g')
plt.plot(X1,X1*2+1,color='r',linewidth=2.5,linestyle='-')
plt.show()

out

图5
迭代部分：

# 梯度下降法求最优解
def gradientDescent(X,Y,times = 1000, alpha=0.01):
    '''
    alpha:学习率，默认0.01
    times:迭代次数，默认1000次
    '''
    m = len(y)
    theta = np.array([1,1]).reshape(2, 1)
    loss = {}
    for i in range(times):
        diff = np.dot(X,theta)- y
        cost = (diff**2).sum()/(2.0*m)
        loss[i] = cost
        theta = theta - alpha*(np.dot(np.transpose(X), diff)/m)
    plt.figure(figsize=(8,6))
    plt.scatter(loss.keys(),loss.values(),color='r')
    plt.show()
    return theta

theta = gradientDescent(X,Y)

默认设置的迭代1000次，学习率为0.01，最后结果如下：

损失函数

loss function
$\theta_0，\theta_1$ = 1.03229637, 1.95156735
我不是图5🤣

最后

网上介绍梯度下降法的文章很多，但很多的都是一脸懵逼🙄的点进去，然后一脸懵逼🙄的退出来，相比于那些copy来copy去的文章，我还是尽量的加入了自己的理解，还是希望能各位带来点帮助💪🏻💪🏻💪🏻
还有尼玛数学公式真难打❗️❗️❗️

多元线性回归
实现了基于线性最小二乘、基于梯度下降法、基于随机梯度下降法的多元线性回归。计算中发现对一元回归，三者均有较高的R方...
通过一元线性回归模型理解梯度下降法
关于线性回归相信各位都不会陌生，当我们有一组数据（譬如房价和面积），我们输入到excel，spss等软件，我们很快...
线性回归
单变量线性回归多变量线性回归局限性梯度下降法优点缺点单变量线性回归模型线性回归假设数据集中每个yi和...
第2章单变量&多变量线性回归
单变量线性回归梯度下降法 Gradient descent 用梯度下降法最小化代价函数J 多变量线性回归 mul...
2020-08-19--梯度下降法01
梯度下降法简介多元线性回归中的梯度下降法随机梯度下降法梯度下降法的调试 1.梯度下降法简介不是一个机器学...
机器学习系列（十六）——随机梯度下降Stochastic Gra
随机梯度下降法Stochastic Gradient Descent 在之前的梯度下降法解决线性回归问题中，梯度向...
（5）回归算法
回归的模型均可抽象为多元线性回归，其优化方法一般为最小二乘法与梯度下降法等。一般选择使用梯度下降法求解，因为最小二...
线性模型和梯度下降（概念简单理解）
对于线性模型和梯度下降在网上解释有很多版本，这里加上自己的理解，总结出了整个简单易懂的版本一元线性回归一元线性...
用人话讲明白梯度下降Gradient Descent（以求解多元
文章目录1.梯度2.多元线性回归参数求解3.梯度下降4.梯度下降法求解多元线性回归梯度下降算法在机器学习中出现频...
PyTorch学习笔记2 - 梯度下降
1 在numpy和pytorch实现梯度下降法（线性回归）梯度下降法的一般步骤为：(1) 设定初始值(2) 求取...