美文网首页数据蛙强化课程第二期
统计学学习笔记(二):假设检验

统计学学习笔记(二):假设检验

作者: LucasOoo | 来源:发表于2019-04-04 09:59 被阅读3次

假设检验

概念

  • 假设检验是用来确定是否应该拒绝关于总体参数值的方法
  • 在假设检验中,我们首先对总体参数做一个尝试性的假设,该尝试性的假设被称为原假设,记作𝐻0 。然后定义另一个与原假设的内容完全对立的假设,称之为备择假设,记作𝐻𝛼

第一类错误和第二类错误

image.png
显著性水平:当原假设为真并且以等式形式出现时犯第一类错误的概率称为检验的显著性水平,用𝛼表示。

总体均值检验:𝜎已知情形

总体均值的单侧检验(one-tailed test)有以下两种形式:
下侧检验 :
𝐻0:𝜇≥𝜇0
𝐻𝛼: 𝜇<𝜇0
上侧检验:
𝐻0:𝜇≤𝜇0
𝐻𝛼: 𝜇≥𝜇0

p-值法检验:

在总体标准差已知的情形下对总体均值进行假设检验,我们用标准正态随机变量z作为检验统计量来确定x ̅是否偏离假定𝜇足够远,从而有理由拒绝原假设
定义:p-值是一个概率值,它度量样本所提供的证据对原假设的支持程度。p-值越小说明拒绝原假设的证据越多。计算p-值的方法依赖于检验是下侧检验、上侧检验还是双侧检验。
下侧检验的拒绝法则:
1、临界值法:
如果z≤z𝛼,则拒绝H0

2、p-值法的拒绝法则
如果p-值≤𝛼,则拒绝𝐻0
能够告诉结果有多显著

image.png

双侧检验

关于总体均值的双侧检验的一般形式如下:
𝐻0:𝜇=𝜇0
𝐻𝛼:𝜇≠𝜇0

双侧检验:
若统计量的值位于抽样分布的两侧尾部,则支持拒绝原假设
p-值是一个概率值,用于衡量检验统计量与根据样本计算得出的检验统计量值存在明显差异的程度

image.png

总体均值假设检验的小结:𝜎已知的情形

image.png

假设检验步骤:

  • 提出原假设和备择假设
  • 指定检验中的显著性水平
  • 收集样本数据并计算检验统计量的值

p-值法

  • 利用检验统计量的值计算p-值
  • 如果p-值≤𝛼,则拒绝𝐻0
  • 在应用中解读统计结论

临界值方法

  • 利用显著性水平确定临界值以及拒绝法则
  • 利用检验统计量的值以及局拒绝法则确定是否拒绝𝐻0
  • 在应用中解读统计结论

区间估计与假设检验的关系

image.png

常用的p-值解读

p-值越小,则拒绝𝐻_0的证据就越多,从而支持𝐻_a 的证据越多。统计学家对于p-值给出了一些解读的指导意见:

  • p-值小于0.01:强有力的证据断定𝐻𝛼为真
  • p-值介于0.01~0.05:有力的证据断定𝐻𝛼为真
  • p-值介于0.05~0.10:弱的证据断定𝐻𝛼为真
  • p-值大于0.1:没有足够的证据断定𝐻𝛼为真

总体均值的检验:𝜎未知的情形

  • 由于总体𝜎未知,我们必须利用样本同时估计𝜎和𝜇
  • 检验统计量的抽样分布是t分布
  • image.png
image.png

案例分析1:单侧检验

一份关于旅客对机场评分标准的调查数据,最低分为0分,最高分为10分,如果平均打分不低于7分,我们认为机场提供了优质的服务。我们在伦敦希斯罗机场选取了60名旅客,获得了他们的评分,数据存储在AirRating中,样本均值为7.25,样本标准差s = 1.052。

当拒绝𝐻0时将会得出结论:希斯罗机场评分的总体均值大于7。因此需要采用下侧检验:
𝐻0:𝜇≤7
𝐻𝛼: 𝜇>7

  • 显著性水平为0.05
  • 检验统计量计算出的值为t=1.84
  • t分布的自由度为n-1=59。由于该实验是一个上侧试验,因此p-值=P(t≥1.84),即t分布曲线下统计量的值t=1.84左侧的面积
import pandas as pd
import scipy.stats as stats
df=pd.read_csv('AirRating.CSV')
data = df.iloc[:,0].values
stats.ttest_1samp(data,7) #T分布双边检验,statistic为t的统计量值,pvalue为p值

计算得出:


image.png

因此p-值的上侧面积为pvalue/2=0.035 <0.05,拒绝H0,得出结论:希斯罗机场评分的总体均值大于7

案例分析2:双侧检验

Holidays Toys公司对零售商的平均玩具需求量进行假设检验
𝐻0:𝜇=40
𝐻
𝛼: 𝜇≠40

  • 样本均值37.4,标准差11.79,样本数25
  • 计算统计检验量t = -1.10
df2 = pd.read_csv('Orders.CSV')
data2 = df2.iloc[:,0].values
stats.ttest_1samp(data2,40) #T分布双边检验,statistic为t的统计量值,pvalue为p值
image.png
  • pvalue=0.281,拒绝H𝛼,说明零售商的平均玩具需求量约为40。

相关文章

  • Datawhale统计学一周集训——任务三

    任务内容 学习内容(一)47-53集 假设检验(一) 学习内容(二)54-61集 假设检验(二) 学习笔记 假设检...

  • 应用统计学与R语言实现笔记(番外篇二)——假设检验更正

    今天的文章想从统计学的角度——假设检验,来回顾最近的疫情。同时也是刚好有之前应用统计学与R语言实现笔记假设检验一章...

  • 统计学学习笔记(二):假设检验

    假设检验 概念 假设检验是用来确定是否应该拒绝关于总体参数值的方法 在假设检验中,我们首先对总体参数做一个尝试性的...

  • 生物统计——假设检验

    本文是对 孟浩巍生物信息学入门课:学习生信你需要了解的统计学课程的学习。 五. 假设检验 1. 假设检验基本介绍 ...

  • # 大数据的统计学基础

    概率论与统计学 概率论是统计学的基础,统计学冲锋在应用第一线,概率论提供武器。 我们在学习R的时候,会做过假设检验...

  • 05-22-S_数据预处理

    数据预处理 数据挖掘是统计学,机器学习,数据库三者的统一。它利用的思想有: (1)统计学的抽样、估计、假设检验; ...

  • 回归模型

    标签:统计学 相关 回归 假设检验 模型优劣之前对回归与相关不大懂,今天学习了之后,理解更深。 回归...

  • (imooc)初识机器学习—理论篇

    机器学习 从数据中寻找规律 *传统统计学方法:抽样——描述统计——假设检验*现代机器学习:从全量中寻找规律 机器学...

  • 大师兄的Python机器学习笔记:Numpy库、Scipy库和M

    大师兄的Python机器学习笔记:统计学基础之底层代码实现(二)大师兄的Python机器学习笔记:Numpy库、S...

  • 2019-02-19 第一章:简介

    1.1假设检验,估计和预测 统计学包括了对其它领域研究的设计、假设检验、估计和预测等方面。本书着重讲述估计和预测,...

网友评论

    本文标题:统计学学习笔记(二):假设检验

    本文链接:https://www.haomeiwen.com/subject/jllabqtx.html