美文网首页
统计学习03:参数、统计量&标准误、置信区间

统计学习03:参数、统计量&标准误、置信区间

作者: 小贝学生信 | 来源:发表于2020-11-15 19:05 被阅读0次

要点一:参数与统计量

参数(parameter)

  • 描述总体(population)的概括性度量;
  • 统计参数必须要在整体数据都可被观察的时候才能计算,通常由于数量过大而不便于统计计算;例如,一个完美的人口普查。
  • 统计参数一般是固定的,但难以确定;
  • 参数一般用希腊字母表示,例如总体均值μ、标准差σ

统计量(statistic)

  • 描述样本(sample)的概括性度量;
  • 一般根据统计量来估计总体参数,即为参数点估计;
  • 样本统计量是可知的,但存在抽样误差;
  • 统计量一般用英文字母表示,如样本均值x(头带一横线),样本标准差S
parameter VS statistic

要点二 :标准误差

  • Standard Error,简称标准误;用来衡量从总体的抽样误差大小。

  • 标准误指的是多个样本统计量(一般均数)的标准差,反映了每次抽样样本之间的差异。
    如SE小,说明多次重复抽样得到的统计量差别不大,即抽样误差比较小。

  • 注意不要混淆标准误与标准差。
    标准差是描述特定一组抽样数据的变异情况,即每次抽样都有一个标准差指标;
    标准误是描述多组抽样情况(例如均值)间的差异情况,即多次抽样确定一个标准误。


    SD VS SE
  • 计算方法
    理论上,需要多次抽样,得到一组均值数据,计算其标准差即可。
    但实际上,大多手边只有一组样本数据。因此前人总结根据一次抽样数据,计算标准误的公式如下:


    standard error

标准误可能举例更好理解:想要估计某校男生身高,分别随机抽取3组男生(每组10人),每组计算的平均身高分别为170,180,165,则可认为抽样误差还是蛮大的。

要点三 :置信区间

1、定义概念

  • Confidence interval,CI 是一种用区间来估计参数值的方法,一般常见的是均值

  • 对于一个样本中计算的95%置信区间,含义可以理解为“有95%的信心认为该区间包含了总体参数”。

  • 如上,95%称为置信系数:越大,则所得的区间越宽,结果越可靠,但精确度很差;越小,则相反。
    例如,估计一个人的身高在(1m, 2m)区间内,很可信,但很不精确。
    因此并不是95%置信区间就比70%置信区间显著,但目前95%置信区间应该最常见到。

2、计算方法

下面结合一个小例子,简单介绍下两种计算方法。

  • 目的:根据从某校随机抽取的20名学生(一个样本)身高,来估计该所学校的学生的平均身高。(均值参数)
2.1 bootstrap自助法
  • 利用bootstrap法计算置信区间的过程,可以对置信区间这个概念更为清楚。
  • 过程如下
    (1)从这20人中进行20次有放回的抽样,计算这次抽样的均值。(有放回的抽样就是指抽完一次后还放回去,带来最直接的结果就是抽样的20次中,可能多次抽到同一个学生)
    (2)按照步骤1,进行1000轮循环(也可是其它数,但越多越好),就得到1000个均值;


    bootstrap sample,有放回的抽样

(3)以这1000个均数为原始数据,计算寻找第2.5%和第97.5%的分位数,就组成95%置信区间。
如果计算90%置信区间,则计算出对应第5%和第95%的分位数,就组成了90%置信区间。

自助法在有些情况下有着长足的优势,比如像估计样本中位数的置信区间或者是两样本的中位数之差,而正态分布理论没有简单公式理论套用;或者潜在分布未知、出现离群点、样本量过下,或者没有可供选择的参数方法。自助法都是生成置信区间利器。

2.2 根据标准误计算
  • 根据中心极限定理,多次抽样的统计量分布符合正态分布;
  • 而上面提到的标准差是指样本统计量的标准差;
  • 根据这两点,可以得出一般常见的置信区间表示形式:参数估计值±边际误差,公式见下图
    结合到上面例子中,参数估计值就是20人身高的均值


    CI by SE

    边际误差为目标置信系数对应的Z值与数据标准误的乘积。例如95%置信系数,就是对应于正态分布中心线下95%面积的两个x坐标。


    CI by SE

相关文章

  • 统计学习03:参数、统计量&标准误、置信区间

    要点一:参数与统计量 参数(parameter) 描述总体(population)的概括性度量; 统计参数必须要在...

  • 回归分析的前提假设

    置信区间 是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence i...

  • 置信区间

    有两种估计总体统计量的方法: 1. 使用点估计量 2. 使用总体统计量的置信区间

  • 商务与经济统计技术(九):估计与置信区间

    1.点估计与置信区间 1.1名词解释 点估计:从样本计算得到的用以估计总体参数的统计量。置信区间:由样本数据构造的...

  • 8.估计

    置信区间(Confidence Intervals) 误差幅度(Margin of error):我们从样本统计量...

  • 统计学7-置信区间

    我们可以使用自助法和抽样分布,构建感兴趣参数的置信区间。 通过找出对感兴趣参数进行最好估计的统计量 (例如样本平均...

  • 标准误

    参考书《白话统计学》 标准误就是某一统计量(均值、两个均值之差等等)抽样分布的标准差 标准误度量了从统一总体中抽样...

  • 2019.3.16 错过的计算题-应用统计学

    1统计学 对于正态分布,这个关系很重要! (x-u)/ 参数估计类的题目: 无偏估计量: 置信区间 假设类的题目:...

  • 如何有效地合并统计量和标准误|显著性标识

    当整理数据分析结果的过程中涉及很多指标和很多统计量时,统计量需要标注标准误,甚至是显著性标识(p值或星号),需要把...

  • 商业技术分析第五课

    知识点介绍: 置信度:又称可信度,通俗点来说就是准确度。 置信区间:样本统计量所构造的总体参数的估计区间。我的理解...

网友评论

      本文标题:统计学习03:参数、统计量&标准误、置信区间

      本文链接:https://www.haomeiwen.com/subject/shdmbktx.html