到现在才搞明白怎么算的··· 老师我对不起你啊 (o_ _)ノ
1. 为什么要做多重检验校正
假设一次检验犯错误的概率为,则这次检验不犯错误的概率
;
假设做了m次检验,那这m次检验不犯错误的概率为,则至少犯一次错误的概率为
,也叫FWER
随着检验次数的增加,FWER也逐渐增加
2. 常见的校正方法
设整体犯错的概率为,比如常设的
;共做
次实验
2.1 bonferroni校正
如果<
,则拒绝
2.2 holm校正
如果<
,则拒绝
2.3 FDR-Benjamini and Hochberg
简单形式
如果<
,则拒绝
复杂形式
FPR
3. p值和FDR
3.1. p值
衡量一次检验的假阳性率。
例子:,也就是说在零假设成立的情况下,检验统计量有
的概率变得更极端-更大或更小。因为
是一个很小的概率,观测到的检验统计量已经很极端了,此时我们就会拒绝零假设,说feature在treatment作用下发生了显著变化。当我们设置
时,我们想让实际
为真的feature被call成显著不同的概率小于
做多重检验的时候,随着检验次数的增加,null feature被call成显著的概率越大。做的所有假设检验中假阳性的期望值就是FPR。如果我们控制FPR在这样一个水平上,我们可以保证所有假设检验中假阳性率低于
。如果做了1000次试验,平均有50个truly null gene会被call成显著的,这个假阳性率太高了。
FPR
3.2. q值
通常,多重检验校正会控制FWER。其中,bonferroni校正通过更改每次检验的阈值来控制FWER在合适的范围内。但是bonferroni校正太严格,会miss掉很多真正有意义的变化。控制FDR可以在维持低假阳性率的同时,识别到更可能多的显著变化。
例子:意味着我们识别到的所有显著feature中,有
是truly null。
FDR











网友评论