美文网首页
PH525x series - Robust summaries

PH525x series - Robust summaries

作者: 3between7 | 来源:发表于2019-11-21 17:37 被阅读0次

鲁棒性(robust)

人们经常使用正态分布去分析生命科学领域的数据,然而,因为设备的复杂性,常常会由于一些未知的过程而误导人们的分析。比如说,PCR的偏好性问题。我们举例来说明这一问题:

set.seed(1)
x=c(rnorm(100,0,1)) ##real distribution
x[23] <- 100 ##mistake made in 23th measurement
boxplot(x)
robust.png

统计学上将类似最上方的那个点称为离群值,几个离群值就可以破坏整个分析,平均值与方差都会受到离群值的影响,而中位数对离群值却是拥有鲁棒性的(也就是不会因为离群值的存在而受太大的影响)。

绝对中位差(The median absolute deviation,MAD)

在统计学中,绝对中位数MAD是对单变量数值型数据的样本偏差的一种鲁棒性测量。它的定义如下:

1.4826 * median\{|X_i - median(X_i)|\}

其中,1.4826是转换系数,作用是将MAD转换为标准差的无偏估计量。

斯皮尔曼相关(Spearman correlation)

相关分析同样会受到离群值的影响,而spearman相关并不会,因为spearman相关分析会将数据转变为秩次,然后再计算相关性。现在举例说明:

set.seed(1)
x=c(rnorm(100,0,1)) ##real distribution
x[23] <- 100 ##mistake made in 23th measurement
y=c(rnorm(100,0,1)) ##real distribution
y[23] <- 84 ##similar mistake made in 23th measurement
library(rafalib)
mypar(1,2)
plot(x,y,main=paste0("correlation=",round(cor(x,y),3)),pch=21,bg=1,xlim=c(-3,100),ylim=c(-3,100))
abline(0,1)
plot(rank(x),rank(y),main=paste0("correlation=",round(cor(x,y,method="spearman"),3)),pch=21,bg=1,xlim=c(-3,100),ylim=c(-3,100))
abline(0,1)

spearman.png

从图中可以看出,经过秩次转变后做出的相关系数一下降到了0.066,结果并未受到离群值的影响。

log比值的对称性

比值是不对称的,但经过log转换的比值却是对称的,数学上的推导过程如下:

log(x/y) = log(x) - log(y) = -(log(y) - log(x)) =- log(y/x)

相关文章

  • PH525x series - Robust summaries

    鲁棒性(robust) 人们经常使用正态分布去分析生命科学领域的数据,然而,因为设备的复杂性,常常会由于一些未知的...

  • PH525x series - Exercises - Line

    本篇文章是PH525x series课程中Linear models and randomness的练习章节,下面...

  • 线性回归模型

    在学习PH525x series - Chapter 5 - Linear Models时,觉得有些地方理解起来有...

  • PH525x series - Hierarchical Mod

    在上一篇文章PH525x series - Bayesian Statistics中是将层次模型应用到了棒球运动当...

  • PH525x series - Collinearity

    共线性 当自变量之间存在共线性时,线性回归得到的最小二乘估计的值并不唯一。共线性简单点说就是,设计矩阵中的某几列存...

  • PH525x series - Introduction to

    本章会对线性模型做一个大致的介绍,还是举例说明吧: 例1:自由落体问题 想象自己是16世纪的伽利略,正在研究自由落...

  • PH525x series - Projections

    前面的章节学的是降维、奇异值分解以及主成分分析的大致内容,本篇文章则开始更加详细的介绍这背后的数学原理,首先要学的...

  • PH525x series - Running PCA and

    在PCA相关的章节最后,系列教程的作者又专门写了一章“在R中运行PCA和SVD”,使用的还是tissuesGene...

  • PH525x series - Statistical Mode

    正连续值的分布 在生物学中有很多数据的分布特征是“strictly positive and heavy righ...

  • PH525x series - Principal Compon

    这一章,作者就是在数学原理方面又细讲了下主成分分析(PCA) 例子:双胞胎身高 作者首先使用双胞胎身高的例子来说明...

网友评论

      本文标题:PH525x series - Robust summaries

      本文链接:https://www.haomeiwen.com/subject/xvstwctx.html