线性回归模型

作者: 612twilight | 来源:发表于2020-04-21 21:39 被阅读0次

【机器学习实践】有监督学习：线性分类、回归模型
算法笔记（6）-线性模型及Python代码实现
logistics回归分类
西瓜书第3章线性模型学习笔记
第一次打卡
动手学深度学习(一) 线性回归
线性回归
第一天-线性回归,Softmax与分类模型,多层感知机
数据挖掘3
零基础入门数据挖掘-Task4 建模调参

DataWhale 组对学习活动笔记

本笔记源于Datawhale组对学习活动的任务笔记，也作为我对以前知识的回顾和整理。
线性回归模型首先是一个回归模型，他解决的是回归任务，所以首先介绍一下回归任务。回归任务和分类任务的主要区别在于输出的变量的取值是否为连续值，如果是连续值，则为回归任务，否则可以认为是分类任务。同时因为回归任务的输出变量是连续值，所以其输入变量也必然应该是连续值，否则无法建立有效的映射关系，在李航的《统计学习方法》里面有过如下描述：

输入变量与输出变量均为连续变量的预测问题是回归问题；
输出变量为有限个离散变量的预测问题成为分类问题；
输入变量与输出变量均为变量序列的预测问题成为标注问题。

而线性回归模型是利用了线性函数去拟合输入和输出之间的映射。

线性回归模型的一般形式

假设有如下数据集 $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})...(x^{(n)},y^{(n)})$ ,其中 $x^{(i)}$ 是一组d维特征，有 $x^{(i)}=(x^{(i)}_1,x^{(i)}_2,x^{(i)}_3...x^{(i)}_d)$ ,每个特征都是连续取值的变量。而 $y^{(i)}$ 是一个连续取值的实数变量。
线性回归模型的目的是为了找到一组权重 $\theta =(\theta_0,\theta_1,\theta_2,\theta_3...\theta_d)$ ，构造一个预测值
$\hat y^{(i)}=h_{\theta}(x^{(i)})= \theta_0+\theta_1x^{(i)}_1+\theta_2x^{(i)}_2+\theta_3x^{(i)}_3...\theta_dx^{(i)}_d$
使得对于数据集中的所有样本的损失函数之和最小。
这里的损失函数一般用均方误差损失函数。
那我们的目标损失函数就是：
$J(\theta)=\frac{1}{2}\sum^n_{i=0}(h_{\theta}(x^{(i)})- y^{(i)})^2$
我们的目标是找到一组权重 $\theta$ ，使让均方误差最小化。

概率角度的诠释

为什么选择均方误差呢？这里可以从极大似然估计的角度去诠释。
我们可以将目标值和变量写成如下形式：
$y^{(i)}=h_{\theta}(x^{(i)})+\epsilon^{(i)}$
$\epsilon$ 表示我们未观测到的变量的印象，即随机噪音。我们假定 $\epsilon$ 是独立同分布，且服从高斯分布。（根据中心极限定理）
$p({\epsilon ^{(i)}}) = \frac{1}{{\sqrt {2\pi \sigma } }}\exp ( - \frac{{{{({\epsilon ^{(i)}})}^2}}}{{2{\sigma ^2}}})$
因此：
$p({y^{(i)}}|{x^{(i)}},{\theta}) = \frac{1}{{\sqrt {2\pi \sigma } }}\exp ( - \frac{{{{({y^{(i)}} - {h_\theta }({x^{(i)}}))}^2}}}{{2{\sigma ^2}}})$
我们建立极大似然函数，即描述数据遵从当前样本分布的概率分布函数。由于样本的数据集独立同分布，因此可以写成:
$L(\theta ) = \prod\limits_{i = 1}^n {p({y^{(i)}}|{x^{(i)}},\theta )} = \prod\limits_{i = 1}^n {\frac{1}{{\sqrt {2\pi \sigma } }}\exp ( - \frac{{{{({y^{(i)}} - {h_\theta }({x^{(i)}}))}^2}}}{{2{\sigma ^2}}})}$
选择 $\theta$ 使得似然函数最大化，这就是极大似然估计的思想。
为了方便计算，通常取对数似然函数：
$l(\theta ) = \log L(\theta ) = \sum\limits_{i = 0}^n {\log (\frac{1}{{\sqrt {2\pi \sigma } }}\exp ( - \frac{{{{({y^{(i)}} - {h_\theta }({x^{(i)}}))}^2}}}{{2{\sigma ^2}}}))} = n\log (\frac{1}{{\sqrt {2\pi \sigma } }}) - \frac{1}{{2{\sigma ^2}}}\sum\limits_{i = 0}^n {{{({y^{(i)}} - {h_\theta }({x^{(i)}}))}^2}}$

参考资料

Task1 Linear_regression.ipynb

【机器学习实践】有监督学习：线性分类、回归模型
线性模型为线性模型分类和回归的区别分类：离散回归：连续本文主要关注线性回归模型常用线性回归模型类型 OLS...
算法笔记（6）-线性模型及Python代码实现
线性模型不是特指某一个模型，而是一类模型，常用的线性模型包括线性回归、岭回归、套索回归、逻辑回归和线性SVC等。线...
logistics回归分类
logistics回归分类模型和线性模型的关系非常密切；区分下线性回归模型和线性模型；线性模型：自变量和因变量之间...
西瓜书第3章线性模型学习笔记
第3章线性模型 3.1 基本形式线性模型：向量形式表示线性模型： 3.2 线性回归线性回归试图学得：均方误差...
第一次打卡
线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回...
动手学深度学习(一) 线性回归
线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现...
线性回归
线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现...
第一天-线性回归,Softmax与分类模型,多层感知机
线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现...
数据挖掘3
建模调参内容介绍线性回归模型：线性回归对于特征的要求；处理长尾分布；理解线性回归模型；模型性能验证：评价函数...
零基础入门数据挖掘-Task4 建模调参
内容介绍线性回归模型：线性回归对于特征的要求；处理长尾分布；理解线性回归模型；模型性能验证：评价函数与目标函数...