Logistic回归是什么
logistic回归是机器学习从统计领域中借用的一种技术,它是二进制分类问题的首选方法(类别只有两个值的问题),它的基础是logistic函数,这里我们只介绍sigmoid函数,让我们开始吧
image
Logistic 函数
logistic函数是logistic回归的核心,也是其命名的由来。这里我们只介绍sigmoid函数,sigmoid函数又称为S形函数,它可以将任何的输入值映射到0到1的开区间上。
1 / (1 + e^-x)
其中e是自然对数,通常表现为函数exp,x是输入的实际数值,下面是将-5到5的数字转换为0到1的闭区间的图
Logistic回归是如何运行的
logistic回归使用的方程与线性回归类似,使用权重或者系数值来表示输入值x和输出值y的关系,关键的不同在于logistic回归的输出是二进制(0或1|为了分类),而不是连续的数值
下面是logistic回归方程的示例
y = e^(w0 + w1*x1..) / (1 + e^(w0 + w1*x1..))
其中y是预测值,w0是截距,w1是输入属性x1的系数,输入数据中的每条属性都有一个相关的系数w[i],这个系数需要去学习。
Logistic回归中的概率
假如我们从身高来推测某个人的性别是男的还是女的(二值化问题),那么假设默认类是男性,logistic回归的模型可以写成下面的样子
P(sex=male|height)
也就是说我们的输入X是属于默认类(Y=1的情况下)的概率可以写为:
P(X)= P(Y = 1 | X)
由上面的logistic回归方程可知
p(X) = e ^(w0 + w1 * X)/(1 + e ^(w0 + w1 * X))
这里我不讨论太多的数学推到,我们可以把上面的式子转化为下面的形式
ln(p(X) / 1 – p(X)) = w0 + w1 * X
这样作很有用,因为我们可以看到右边的输出计算是线性的(就像线性回归一样),左边的是默认类概率的对数,左面的这个比率我们称之为默认类的概率(它是我们使用赔率的历史),赔率的计算是事件的概率出事事件概率的比例,例如0.8/1-0.8,赔率为4,所以我们写成
ln(赔率)= w0 + w1 * X.
Logistic回归模型学习
Logistics回归根据训练数据估算逻辑回归算法的系数(Beta值b),底层是使用最大似然估计完成的。
最大似然估计是各种机器学习算法使用的常用学习算法,它对数据的分布做出了假设
最佳系数将导致模型预测默认类的值非常接近1(例如,男性)而另一类的值非常接近0(例如,女性)。逻辑回归的中最大似然性的运用体现在寻找最佳系数(Beta值),将模型预测的概率中的误差最小化到数据中呈现的概率。
最小化算法用于优化训练数据系数的最佳值。这通常在实践中使用有效的数值优化算法(如牛顿法)来实现。
当您学习Logistic回归时,您可以使用更简单的梯度下降算法从头开始实现它。这将在下一章呈现












网友评论