逻辑回归

作者: bingweichen | 来源:发表于2020-04-24 13:42 被阅读0次

简书不支持公式,原文见
https://www.yinxiang.com/everhub/note/86471059-2eac-4b64-8781-6dbd859c98ef

1. 为什么有逻辑回归

线性模型对分类问题表达欠缺。

2. 逻辑回归是什么

在线性回归上增加一个sigmod函数,实现非线性函数映射。

y = \frac{1} {1 + e^{-(w^Tx+b)}}

为了对分类问题拟合更好,要在线性回归上增加一个单位阶跃函数。

单位阶跃函数

\theta(t) = 
\left\{
    \begin{array}{} 
    1,& t>0, &  \\  
    0,& t<0, &  \\  
    0.5,& t=0
    \end{array}  
\right.

但单位阶跃函数不可导,引入sigmod函数, sigmod函数任意阶可导,有很好的数学特性。

\rm sigmoid(x) = \frac{1} {1 + e^{-x}}

为什么叫逻辑回归,不叫分类

其数学原理使其有回归性质

  1. 对数几率其实与x是线性关系
In(y/(1-y)) = w^Tx + b
  1. 逻辑回归还是对函数曲线的一个拟合, 回归到原来的线上

3. 公式推导

1. 推导损失函数

使用最大似然估计法

最大似然估计

使用已有数据去推测参数, 找到那个最大可能的参数。
类似抛硬币问题,抛10次硬币,6次正面朝上,计算正面概率P。
要最大化下面这个式子(损失函数)

L(\theta) = f(x1|\theta) * f(x2|\theta) * ... *f(xm|\theta)
\begin{aligned}
L(\theta=0.5)=0.5^6*(1-0.5)^4=0.21 \\
L(\theta=0.6)=0.6^6*(1-0.6)^4 = 0.25
\end{aligned}

一般通过梯度下降估计theta值。

推导过程

现在我们使用最大似然法,通过用m个样本数据去估计w
令拟合函数等于

P(y=1|x) = \frac{1} {1 + e^{-(w^Tx+b)}} = \pi(x)

损失函数为

L = \prod_{i=1}^m{[\pi(x^i)]^{y^i}*[1-\pi(x^i)]^{1-y^i}}

分类问题(y=1,0),上式两项会消掉一项
对损失函数去对数似然(对上式取对数)
因为对数函数单调递增,当偏导

\frac{\partial(log(L))}{\partial(x)} = 0

为0,L(x)就最大。

\begin{aligned}
L(w) = \sum_{i=1}^m{[y^i*log(\pi(x^i))+(1-y^i)*log(1-\pi(x^i))]} \\

L(w) = \sum_{i=1}^m{y^iwx^i - log(1+e^{wx^i})}
\end{aligned}

使用梯度下降法使L最大,求得w

4. 特点

优点

  1. 直接对分类可能性建模,无事先假设数据分布
  2. 近似概率预测,结果是概率可用作排序模型
  3. 容易使用和解释
  4. 时间内存高效
  5. 可分布式,且工程化已经成熟
  6. 最数据中小噪声鲁棒性好(离散化使得异常值影响小)

缺点

  1. 容易欠拟合,分类精度不高
  2. 数据特征有缺失或特征空间很大时效果不好

使用注意点

1.过拟合

  1. 减少特征数量,降维
  2. 正则化
  3. 逐渐减小学习率

2.线性不可分数据

  1. 使用核函数
  2. 正则化

3.输入向量稀疏原因

  1. 分类特征one-hot
  2. 连续特征离散化

4.为什么要离散化

  1. 离散特征的增加减少容易 (快速迭代)
  2. 稀疏向量内积乘法快
  3. 离散化对异常值有鲁棒性(300岁->大于50岁)
  4. 增加表达能力(单独权重,特征交叉)
  5. 简化模型,降低过拟合风险

5.应用场景

  1. CTR预估
  2. 病理诊断
  3. 信用评估
  4. 垃圾邮件分类

相关文章

  • 机器学习day7-逻辑回归问题

    逻辑回归 逻辑回归,是最常见最基础的模型。 逻辑回归与线性回归 逻辑回归处理的是分类问题,线性回归处理回归问题。两...

  • ML03-逻辑回归(下部分)

    本文主题-逻辑回归(下部分):逻辑回归的应用背景逻辑回归的数学基础逻辑回归的模型与推导逻辑回归算法推导梯度下降算法...

  • ML02-逻辑回归(上部分)

    本文主题-逻辑回归(上部分):逻辑回归的应用背景逻辑回归的数学基础逻辑回归的模型与推导逻辑回归算法推导梯度下降算法...

  • 逻辑回归模型

    1.逻辑回归介绍2.机器学习中的逻辑回归3.逻辑回归面试总结4.逻辑回归算法原理推导5.逻辑回归(logistic...

  • Task 01|基于逻辑回归的分类预测

    知识背景 关于逻辑回归的几个问题 逻辑回归相比线性回归,有何异同? 逻辑回归和线性回归最大的不同点是逻辑回归解决的...

  • 11. 分类算法-逻辑回归

    逻辑回归 逻辑回归是解决二分类问题的利器 逻辑回归公式 sklearn逻辑回归的API sklearn.linea...

  • 机器学习100天-Day4-6逻辑回归

    逻辑回归(Logistic Regression) 什么是逻辑回归 逻辑回归被用于对不同问题进行分类。在这里,逻辑...

  • SKlearn_逻辑回归小练习

    逻辑回归 逻辑回归(Logistic regression 或logit regression),即逻辑模型(英语...

  • R glm

    R 逻辑回归 R 怎么做逻辑回归

  • 逻辑斯蒂回归在二分类中的应用

    逻辑回归简介 逻辑斯蒂回归(logistic regression,又称“对数几率回归”)是经典的分类方法。逻辑斯...

网友评论

    本文标题:逻辑回归

    本文链接:https://www.haomeiwen.com/subject/qhffwhtx.html