美文网首页
线性回归算法全攻略:详尽介绍与核心实现原理精讲

线性回归算法全攻略:详尽介绍与核心实现原理精讲

作者: 律己杂谈 | 来源:发表于2025-01-24 18:31 被阅读0次

线性回归是处理回归任务最常用的算法之一,是利用回归方程(函数)在一个或多个自变量和因变量之间进行函数拟合以便探寻数据背后规律的一种分析方式。线性回归常用于连续值的预测。例如,预测具有10年工作经验的大学毕业生的工资,预测一种新产品的销售价格等业务场景。

线性回归算法是最简单的回归形式,主要用于研究因变量(响应变量,目标变量)和自变量(预测变量)之间的关系,随着自变量的变化,因变量也会随之发生变化。

☀这段话怎么理解呢?有几个名词需要解释,如下。

(1)什么是回归任务?

回归任务就像是猜数字游戏,但这个数字是根据一些其他的线索来猜的。比如说,你想知道一个房子能卖多少钱,你会找一些线索,像房子的面积、房间数量这些东西。然后根据这些线索来猜出房子的价格,这个猜房子价格的过程就是回归任务,它主要是为了猜出一个连续的数字,像价格、温度、身高这些数字都可以通过回归任务来预测。

(2)回归方程是什么?

回归方程就像是一个魔法公式。你把那些线索(自变量)放进这个公式里,它就能给你算出你想要猜的那个数字(因变量)。比如说,有一个简单的公式是“价格=500×面积+1000”,这里的“面积”就是线索(自变量),“价格”就是你要猜的数字(因变量)。这个公式就是通过分析很多房子的面积和价格的数据得出来的,有了这个公式,你只要知道房子的面积,就能算出一个大概的价格。

(3)什么是自变量,什么是因变量?

①自变量:自变量就是那些能影响结果的因素,就像刚才说的房子的面积、房间数量。这些东西是你可以知道或者可以改变的,它们会对最终的价格产生影响。你可以把自变量想象成做菜的原料,不同的原料(自变量)会做出不同味道(因变量)的菜。

②因变量:因变量就是你最终想要知道的结果。还是拿房子来说,房子的价格就是因变量。它会因为房子的面积、房间数量这些自变量的变化而变化。就像菜的味道会因为原料的不同而不同,因变量是被自变量影响的,是我们在回归任务里重点要预测的那个数字。

当数据分析中只有一个自变量和一个因变量,那么两者的关系会表示为一条直线,称为一元线性回归。线性函数关系表示为:

y=α+βx

其中,y是因变量,x是自变量,α是回归常数,β为回归系数,分别表示直线在Y轴的截距和直线的斜率。例如,通过自变量“工龄”的值来预测因变量“薪水”的值,就属于一元线性回归。当数据分析中有至少两个的自变量,称为多元线性回归。自变量和因变量之间的线性函数关系可以表示为:

其中,y是因变量,x1,x2,… ,xp为不同的自变量,β1,β2,… ,βp则为这些自变量前的回归系数,β0为回归常数,ε为残差。例如,通过“工龄”、“行业”、“所在城市”等多个自变量来预测因变量“薪水”,就属于多元线性回归。

对于实际问题,获得n组观测数据(xi1,xi2,… ,xip) i=1,2,...,n,则多元线性回归模型可以表示为:

写成矩阵形式 y = X β + ε,式中

X是n × ( p + 1 )阶矩阵,是自变量的样本矩阵。

2、线性回归算法实现

以一元回归为例,如图所示,其中y2为实际值,y ̂2为预测值。一元线性回归的目的就是拟合出一条线来使得预测值和实际值尽可能接近,如果大部分点都落在拟合出来的线上,则该线性回归模型拟合得较好。

在数学上,可以通过实际值与预测值的差值的平方和(又称残差平方和)来进行衡量,公式如下:

在机器学习领域,残差平方和又称为回归模型的损失函数。显然希望残差平方和越小越好,这样实际值和预测值就越接近。

如何求得回归系数和截距的参数估计值,使得残差平方和最小呢?数学上可以使用最小二乘法求解,对上述公式进行求导,然后令其导数为0,求出系数的解。上述公式进行求导,当导数为0时,残差平方和最小。

(1)最小二乘法

对于多元线性回归y = X β + ε,最小二乘法就是寻找β0,β1,… ,βp,使误差平方和达到最小/极小值,需要最小化的函数表示为:

如使用矩阵表示,上式可以表示为:

根据微分求极值原理,对方程求导并令导数等于0,可到微分方程组。求方程组,可得到参数β的解,用矩阵形式表示为:

3、回归方程的显著性检验

建立回归方程后,回归效果如何?因变量与自变量是否确实存在线性关系呢?这是需要进行回归方程显著性检验的,检验这个回归方程本身是否有效,即是否达到统计意义。如果检验发现它不显著,那么这个方程就可以直接放弃。

什么叫回归方程有统计意义呢?由于建立回归方程的目的是寻找y随x变化的规律,如果回归方程所有的系数值都为0,那么不管x如何变化,y不随x的变化作线性变化,那么这时求得的线性回归方程就没有意义,称回归方程不显著;如果至少有一个回归系数不为0,那么当x变化时,y随x的变化作线性变化,那么这时求得的回归方程就有意义,称回归方程是显著的。

因变量y的均值可以表示为:

所有观测值yi与n次观测值的平均值的差,称为离差,而全部n次观测值的总离差称为总的离差平方和,公式可以表示为:

SSR(回归平方和):是回归预测值与均值之差的平方和,它反映了自变量的变化所引起的波动。

SSE(残差平方和):是实测值与预测值之差的平方和,它是由试验误差及其它因素引起的。

拟合优度:为检验总的回归效果,引入了无量纲指标,它是回归平方和SSR和总的离差平方和的比值,称为决定系数(R-Square),用来检验回归模型的拟合优度。

值在0到1之间,越接近1,表示模型对数据的拟合越好,即回归方程能解释因变量的大部分变异;越接近,表示模型拟合效果越差,自变量对因变量的解释能力较弱

相关文章

网友评论

      本文标题:线性回归算法全攻略:详尽介绍与核心实现原理精讲

      本文链接:https://www.haomeiwen.com/subject/dhhructx.html