美文网首页
Columbia 可靠统计推断 第一课·概览

Columbia 可靠统计推断 第一课·概览

作者: 顾劝劝 | 来源:发表于2020-12-27 21:43 被阅读0次

这门课的要点:

  • 逻辑回归
  • 随机优化
    • 最小化损失的监督学习
    • 随机梯度下降
  • 近年来高阶机器学习话题
    • 归纳偏置(inductive bias)的架构
    • CV 和 NLP的进展
    • 下游应用
  • 挑战
    • 分布迁移(distributional shifts)
    • 对抗样本
    • 公平(fairness)、可解释性(accountability)、透明(transparency)、道德(ethics)
    • 虚假相关(spurious correlation)

二分类问题

损失函数

  • hinge loss: l(\theta; X,Y) = (1-Yh_\theta(X))_+
    比如SVM就是
    \min_{\theta:||\theta||_2\leq r}\mathbb{E}(1-Y\theta^TX)_+

  • logistic loss: l(\theta; X,Y) =\log(1+\exp(-Yh_\theta(X))
    比如logistic regression就是
    \min_{\theta:||\theta||_p\leq r}\log(1+\exp(-Yh_\theta(X))

  • 多分类问题的话结果就变成了MNL那样的形式,如全连接的neural networks的最终损失函数就是l(\theta;X,Y)=-\log \dfrac{\exp(h_\theta,y(X)}{\sum_{k=1}^K\exp(h_\theta,k(X)}

关于ERM/SAA

我们不知道真实的P啊。ERM通常怎么解?如果l是凸的,那么这样解出来的线性模型参数就是对的。如果用二阶优化方法,如内点法,计算hessian矩阵再往回推,计算量非常大。如果用一阶方法,估计梯度仍然需要O(n)的计算复杂度。所以大规模数据可以尝试SGD。

挑战

  • 长尾
    现代应用中长尾的现象到处都是(ubiquitous)。比如每天在谷歌上搜索的量就是一个长尾。
  • 天然的难以分类的样本。比如120类狗狗,每一类的数量即便都是一样多的,仍然有些血统的狗狗分类表现超好,有些就不尽如人意,差别非常大。
  • 细分人群与总体的表现差异很大。比如CATE在不同子群体之间的符号、大小。男性是正的,男性黑人可能就是负的。所以换一个人群分布,决策效果就没那么好了。不鲁棒。
  • 虚假相关。把背景当做前景信息进行分类。

这门课剩下的内容:

  • 用一个月的时间讲基础的统计学习结论,以及相关证明
  • 近年来的重要研究,关于识别、建模、应对上述挑战的提升工作。
  • 目标是培养一个关于可靠性话题的批判性视角 。场景可以是医疗、制造业、供应链、金融、营销等。

相关文章

  • Columbia 可靠统计推断 第一课·概览

    这门课的要点: 逻辑回归 随机优化最小化损失的监督学习随机梯度下降 近年来高阶机器学习话题归纳偏置(inducti...

  • Columbia 可靠统计推断 第四课·Asymptotics

    定义1 (大O小o) 随机变量,如果,随着。随机变量,如果。如果那么 用一致大数定律(ULLN)证明渐进 接下来证...

  • Columbia 可靠统计推断 第二课·bounded diff

    课件来自Namkoong讲义[https://hsnamkoong.github.io/b9145/lecture...

  • 假设检验之概念篇

    一、几个概念 1、统计推断 由样本信息对相应总体的特征进行推断称为统计推断, 简言之,由样本推断总体的方法称为统计...

  • 统计中的假设检验

    推断统计的概念 推断统计是研究如何利用样本数据来推断总体特征的统计方法。包含两个内容:参数估计,即利用样本信息推断...

  • 统计推断

    一、单样本假设检验:对单一的母体参数进行检验假设检验步骤:1.根据实际情况提出原假设和备择假设;2.根据假设的特征...

  • 深度学习之路

    一.概率论与统计推断 概率论与统计推断(一) ------ 概率论的基本概念概率论与统计推断(二) ------ ...

  • 统计学复习

    如上图所示统计学主要是依照样本数据分析推断和描述数据总体分布情况。统计方法可分为推断统计和描述统计;其中推断统计是...

  • 概率

    统计学分为描述性统计和推断统计。推断统计是指通过样本数据对总体特征作出推断,它有3个要素:1.随机观测的样本数据;...

  • 统计推断概述

    什么是统计推断 对于要做统计推断的人来讲,这个问题似乎显得多余,他们往往关心怎样做统计推断。这也许可以窥得发展中国...

网友评论

      本文标题:Columbia 可靠统计推断 第一课·概览

      本文链接:https://www.haomeiwen.com/subject/spranktx.html