相关性计算与检验

作者: Socrates1024 | 来源:发表于2016-11-24 16:06 被阅读651次

成对数据进行相关性分析可使用可视化方法及相关性检验方法:可视化方法主要通过散点图观察数据的线性关系; 而相关性检验主要通过Pearson检验、Kendall检验、Spearman检验三种方法进行检验。
  R语言提供了plot函数,可以通过散点图的方法直接观察数据间的线性关系。通常可视化方法只是粗略的观察一下数据间的关系,比如从下图所示可以观察到iris中Sepal.Length、Sepal.Width这两个属性间并没有线性关系,因此也就不用做要求线性关系的进一步处理了。

除了可视化方法外,R语言中提供cor.test函数进行相关性检验,具体格式如下:

cor.test(x, y, alternative = c(“two.sided”, “less”, “greater”), method = c("pearson", "kendall", "spearman"),conf.level = 0.95)

其中x,y是供检验的样本;alternative指定是双侧检验还是单侧检验;method为检验的方法;conf.level为检验的置信水平。

pearson检验#

cor.test(iris$Sepal.Length, iris$Sepal.Width,alternative = "two.sided",method = "pearson",conf.level = 0.95)
结果为
Pearson's product-moment correlation

data:  iris$Sepal.Length and iris$Sepal.Width
t = -1.4403, df = 148, p-value = 0.1519
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.27269325  0.04351158
sample estimates:
       cor 
-0.1175698  

从中可以看出二者的相关性系数为-0.1175698,检验p值为0.1519>0.05。故x和y没有相关性。

kendall检验#

cor.test(iris$Sepal.Length, iris$Sepal.Width,alternative = "two.sided",method = "kendall", conf.level = 0.95)
结果为
Kendall's rank correlation tau

data:  iris$Sepal.Length and iris$Sepal.Width
z = -1.3318, p-value = 0.1829
alternative hypothesis: true tau is not equal to 0
sample estimates:
        tau 
-0.07699679

从中可以看出二者的相关性度量值为-0.07699679,检验p值为0.1829>0.05。故iris$Sepal.Length和iris$Sepal.Width没有相关性。

spearman检验#

cor.test(iris$Sepal.Length, iris$Sepal.Width,alternative = "two.sided",method = "spearman",conf.level = 0.95)
结果为
无法给连结计算精確p值 

从中可以看出二者的相关性度量值为0.4559064,检验p值为1.874e-06<0.05。故x和y是有相关性的,但相关性也并不是太大。

卡方检验#

上面所提到的方式均用于数值型数据的处理,对于分类数据可以使用卡方检验检验两个变量是否具有相关性。卡方检验,或称x2检验,被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者卡尔•皮尔逊是一位历史上罕见的百科全书式的学者,研究领域涵盖了生物、历史、宗教、哲学、法律。

library("MASS") 
head(Cars93)
car.data <- table(Cars93$AirBags, Cars93$Type)
chisq.test(car.data)
    Pearson's Chi-squared test
data:  car.data
X-squared = 33.001, df = 10, p-value = 0.0002723

从结论看出p-value小于0.05,表明AirBags、Type这两个变量具有高度相关性。

相关文章

  • 相关性计算与检验

    成对数据进行相关性分析可使用可视化方法及相关性检验方法:可视化方法主要通过散点图观察数据的线性关系; 而相关性检验...

  • R语言-相关性检验及线性拟合

    相关性检验 相关性检验R=1时为完全正相关。R=-1为完全负相关。R=0为正态分布 斜率与R值无关 相关性检验co...

  • Spark MLlib机器学习开发指南(2) --基本统计

    翻译自官方文档 如有问题,欢迎留言指正,转载请注明出处。 基本统计 目录 相关性 假设检验 相关性 计算两个数据...

  • 03-相关性与线性回归

    1 相关性 1.1 散点图评估 1.2 正态分布检验 1.3.1 pearson相关性检验 (正态分布) 1.3....

  • -0.1- 两个随机变量的相关性、独立性、两个概率分布之间的相似

    [相关性检验参考link][独立性检验参考link][分布的相似性参考link] -1- 两随机变量相关性检验 前...

  • numpy必知必会-第八天

    36 计算两列数据间的相关性 皮尔逊相关系数计算公式如下: 例如: 计算iris_2d第一列与第三列的相关性。 解...

  • R相关分析(二)

    相关性分析 本节提到的相关性分析和后面会提到的t-test, ANOVA 以及回归分析等被称为参数检验,这些检验在...

  • R语言-相关系数计算(一)

    应用R语言完成相关性检验,相关性矩阵及相关性可视化首先安装相应的R包 相关性分析的方法Pearson correl...

  • R计算多个向量两两之间相关性

    我们知道R里面计算两个数值向量之间的相关性用cor函数,而检验是否显著相关用cor.test。例如 会得到如下结果...

  • 题目41

    41.什么是Bartlett球形检验? 巴特利特球形检验是一种检验各个变量之间相关性程度的检验方法。一般在做因子分...

网友评论

    本文标题:相关性计算与检验

    本文链接:https://www.haomeiwen.com/subject/bpwbpttx.html