二项分布之区间估计与假设检验

作者: shudaxu | 来源:发表于2020-12-07 17:52 被阅读0次

二项分布之区间估计与假设检验
20210105
数据分析学习Day3---商务与统计（第八章）
统计基础
假设检验之一：假设检验的基本概念
统计学基础2
2020-10-31
成为数据分析师要掌握的统计学知识（基础版）
2019-02-11至2019-02-17本周总结
非效性检验

refer假设检验：https://www.jianshu.com/p/0daa59e481e3
其实假设检验本身，就是利用区间估计的手段，来检验假设的正确与否
区间估计

1、计算D的区间

已知theta，通过P(D|theta) 计算D的范围
【这里严格意义上来讲不算区间估计，因为这里并不是做参数估计的，但是其实本质上都是一样的，都是通过P(D|theta) or P(theta|D) 来获得区间上的概率，并计算出在一定概率范围（置信水平）下，变量属于的区间】
已知真实ctr，估计其进行n次曝光后，点击次数的区间分布：（已知分布，在总体均值u的基础上，对样本均值的区间估计）
具体例子：
比如，已知ctr=0.01，进行1000次曝光后，在95%置信区间内，点击数量为多少？

计算方式：
1、使用二项分布的高斯近似
2、95%置信区间即是2sigma区间。sigma^2 = np*(1-p)=9.9，sigma= 9.9 ^ 0.5
3、区间估计为ctr * n - 2sigma ~ ctr *n + 2sigma = [3.7, 16.2]

2、估计theta的区间

已知D，通过 P(theta|D)来估计theta的范围
已知在a广告曝光n次点击m次，求a广告真实ctr的区间估计：（已知样本，在样本概率p的基础上，对总体概率p的范围进行估计）
具体例子：
a广告，曝光1000次，点击10次，求真实ctr区间：
即：样本来自于B(1000，p)的一次抽样，要预估p的区间。

正态区间：

计算方式：
1、首先，在没有先验的情况下，我们使用MLE最大似然进行估计，计为estimator $\hat p$

2、其实对于X~B(n,p)来说，假设X中每个元素为Yi，则Yi～B(p)
设，在X的一次抽样数据当中，有n个Y。
所以estimator p_hat的variance可以推断如下：
$Var(\hat p) = Var(\frac {\sum y_i} n)$
$=\frac {np(1-p)}{n^2}$
$=\frac {p(1-p)}{n}$
PS：不过这里最主要的问题是，我们不知道真实的 $p$

3、根据2的var计算。假设 $\hat p$ 本身也服从高斯分布（？），我们可以通过u和sigma计算出其区间：(这里直接拿MLE的估计 $\hat p$ 代替了真实的 $p$ ，所以有较大误差，消除误差的方式也很简单，见wilson score interval）
$\hat p \pm z\sqrt \frac {\hat p (1-\hat p )}{n}$
正太区间，z=1.96的时候为95%置信度
关键点
PS：在对p的估计中，其实我们都是在做逼近（approximation），所以要满足np》5、n（1-p）》5才能用：
因为第一，我们用p_hat*(1-p_hat)/n只是方差的估计。第二，由于二项分布是离散的，而我们用的是连续的正态分布（normal distribution），所以其本身也只是来逼近
PS：
可以速记：这里等价于p～N(p_hat, p_hat(1-p_hat)/n)
这里我们其实可以验证一下，通过已知p的情况下，估计出d的范围，换算成已知d的情况下，推出p的范围，其期望值是一致的。【已知pCtr=0.01，在95%区间，1000次展现数据结果点击的范围为3.7～16.2。在已知10次点击，1000次展现的数据下，在95%区间，真实的pCtr区间为0.37%～1.62%】
这里成功次数X的方差：np(1-p)，p的方差：p*(1-p)/n，在形式上与样本均值方差与总体均值方差的关系类似，但是本质上不是一回事，也差了一个1/n，但推理方式倒是比较类似
对于小样本(np<=5)的情况，可以用wilson score来做近似，改善正太区间对小样本不友好的问题。

威尔逊区间

即：
z的定义：
$z = \frac {\hat p -p }{\sigma_n(p)}$
（这里其实也就是Wilson 区间与正太区间的差异，对于正太区间，其实是： $z = \frac {\hat p -p }{\sigma_n(\hat p)}$ ，注意分母不同，所以我们可以得到正太区间： $p=\hat p - z\sigma_n(\hat p)$ ）
方差的定义：
$\sigma_n(p)= \sqrt \frac {p(1-p)}{n}$
通过上述式子建立等式：
$(\hat p - p )^2= z^2 \frac {p(1-p)} n$

联立上述两公式，解得p即可：

image.png

PS：
核心：使用高斯分布或者别的分布来对二项分布进行逼近。
伯努利分布：X~Bern(p) ，或者：X～B(1,p)
二项分布（n重伯努利）：X～B(n,p)
高斯分布近似：X～N(np, np(1-p))，借此也可以推导出E=np，Sigma=np(1-p)
泊松分布近似：lambda=np

PSS：
计算样本均值的方差：
样本均值的方差S2=总体方差S1 / 样本容量n
【这里注意区分样本方差 与 样本均值方差】
【这里还有一个前提假设是，对于随机选取的样本Xi，其样本自身的方差与总体方差一致】
refer：https://www.zhihu.com/question/33394664
这个结论也非常符合直觉，即样本越大n，其均值约接近总体均值，即“样本均值的方差越小”。其实在t检验中，其分母就是样本均值的标准差。（样本内元素的sigma/样本容量n开根号）
$Var(\overline X) = Var(\frac {\sum X_i}{N})=\frac {N \times Var(X)}{N^2}=\frac {Var(X)}{N}$

PSS：
上述的其实都是频率学派的分析，那么我们怎么加入贝叶斯的思想。其实贝叶斯的关键就是，我们是否有一个前置的信念（prior belief）。譬如，我们对这个工厂生产的硬币已经有足够多的历史数据，获得了它们重量分布（p）的一个先验分布。那么我们便可以使用这个先验分布（prior）与该硬币的实验数据（evidence）一起推断出后验的分布（posterior）

Refer:
[1]关于二项分布的各种区间计算：
https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval

二项分布之区间估计与假设检验
refer假设检验：https://www.jianshu.com/p/0daa59e481e3[https://...
20210105
研究目标：深刻理解置信区间、假设检验、大数定律、t分布、自由度、（标准）正态分布、显著性水平点估计、区间估计...
数据分析学习Day3---商务与统计（第八章）
基于两个样本的统计推断：置信区间和假设检验 1.独立大样本下的均值置信区间估计： 2.独立大样本下的假设检验： 3...
统计基础
注：采转归档，自己学习查询使用统计Go, Go, Go数据描述参数估计区间估计假设检验线性回归ANOVA无参估计...
假设检验之一：假设检验的基本概念
假设检验与参数估计(包括点估计和区间估计)是建立在中心极限定理和抽样分布之上的推断统计的两个重要基础方法，由这两个...
统计学基础2
目录抽样和抽样分布区间估计假设检验抽样和抽样分布抽样是为了估计总体的参数样本比率：样本均值的抽样分布...
2020-10-31
今日再读《概率论与数理统计》--陈希孺。辨析了区间估计与假设检验的异同，2.1在讲连续型随机变量分布中直接引入了正...
成为数据分析师要掌握的统计学知识（基础版）
阅读路线：概率介绍离散型概率分布和连续型概率分布抽样和抽样分布区间估计假设检验概率介绍概率是指的对于...
2019-02-11至2019-02-17本周总结
这周主要完成的学习任务是常见的概率分布、区间估计、假设检验、线性回归、梯度下降和逻辑回归的原理以及公式推导【这部分...
非效性检验
一、与传统假设检验的不同非劣效、等效和优效性试验的区间检验与传统假设检验最大的不同是考虑了临床意义，以临床意义的...