美文网首页
chap 3.11 展示数据分布

chap 3.11 展示数据分布

作者: 陆慕熙 | 来源:发表于2021-02-18 16:11 被阅读0次

直方图

  • 一维连续型分布:直方图
  • 注意调试binwidth/bins/breaks(组间距离/组数/切分位置)
ggplot(diamonds,aes(depth))+
  geom_histogram()
image.png
#调整binwidth(组距宽度)/bins(组数)/breaks(切分位置)
ggplot(diamonds,aes(depth))+
  geom_histogram(binwidth = 0.1)+
  xlim(55,70)
image.png

如何比较不同组间数据分布的差异?

answer1:绘制多个小直方图[facet_wrap(~var)]
answer2: 绘制频数多边形并以颜色作为分类[geom_freqpoly()]
anser3:绘制条件密度图[geom_histogram(position="fill)]

分面多个小直方图

ggplot(diamonds,aes(depth))+
  geom_histogram(binwidth = 0.1)+
  facet_wrap(~cut)
image.png

频数多边形

#错误代码
ggplot(diamonds,aes(depth))+
  geom_histogram(binwidth = 0.1)+
  geom_freqpoly(aes(colour=cut))
image.png
#正确代码
ggplot(diamonds,aes(depth))+
  geom_freqpoly(aes(colour=cut),binwidth=0.1,na.rm = T)+
  xlim(58,68)+
  theme(legend.position = "none")
image.png

条件密度图

ggplot(diamonds,aes(depth))+
  geom_histogram(aes(fill=cut),binwidth=0.1,position = "fill",na.rm = T)+
  xlim(58,68)+
  theme(legend.position = "none")
image.png

直方图和频数多边形使用stat="bin"统计变换,此统计变换生成两个输出变量:count和density。默认将count作为y轴

  • density基本上等于各组频数除以总频数再乘以组距,此变量在需要比较不同分布的形状而非绝对大小时比较有用

密度估计geom_density():对每个数据点天上一点整他分布然后把所有曲线累加起来?

  • 仅在已知潜在的密度分布为平滑、连续且无界线的时候使用密度曲线图,可使用adjust参数调整所得密度曲线的平滑程度
ggplot(diamonds,aes(depth))+
  geom_density(na.rm = T)+
  xlim(58,86)+
  theme(legend.position = "none")
image.png
ggplot(diamonds,aes(depth))+
  geom_density(aes(fill=cut),na.rm = T)+
  xlim(58,86)+
  theme(legend.position = "none")
image.png
ggplot(diamonds,aes(depth))+
  geom_density(aes(fill=cut,colour=cut),na.rm = T)+
  xlim(58,86)+
  theme(legend.position = "none")
image.png
ggplot(diamonds,aes(depth,fill=cut,colour=cut))+
  geom_density(alpha=0.2,na.rm = T)+
  xlim(58,86)+
  theme(legend.position = "none")
image.png

每一条密度曲线下的面积都已经标准化为1,因此损失了有关个各子集间相对大小的信息

  • 箱线图如何处理连续性变量?
ggplot(diamonds,aes(carat,depth))+geom_boxplot()
image.png
  • 解决之道 : cut_width
ggplot(diamonds,aes(carat,depth))+
  geom_boxplot(aes(group=cut_width(carat,0.1)))+
  xlim(NA,2.05)
image.png

相关文章

  • chap 3.11 展示数据分布

    直方图 一维连续型分布:直方图 注意调试binwidth/bins/breaks(组间距离/组数/切分位置) 如何...

  • 数据的描述性分析:图表展示

    一、类别数据的图表展示 用频数分布表观察类别数据频数分布 是指由变量的取值及相应的频数形成的分布频数分布表 是展示...

  • 如何展示统计结果的表格

    今天和老板讨论,又学到了如何正确地展示统计的表格,主要分为两种:1)正态分布的数据对于正态分布的数据,数据的展示形...

  • 统计学3、4章

    数据的图标展示 品质数据整理与展示 频数分布,分类数据图示(条形——帕累托图,饼图——环形图),顺序数据(累计频数...

  • SpringCloud-笔记11-Sleuth链路监控&Zipk

    Sleuth Zipkin查看链路情况 分布式追踪系统 数据采集 数据存储 数据展示 OpenTrace优势介绍 ...

  • plotly--火山互作图--在线分析

    1. 输入数据 包含下面几列: P,即图上主要展示的数据分布 EFFECTSIZE, 从另一个方面展示显示值强度的...

  • When I See You Again - Table of

    Chap. 1 Chap. 2 Chap. 3 Chap. 4 Chap. 5 Chap. 6 Chap. 7

  • 第四篇 数据概括性的度量

    利用数据的图表展示数据,可以对数据的分布形状和特征有一个大致的了解。但是要全面的把握数据的分布特征,还需要找到反映...

  • R语言绘图——条形图/柱状图

    直方图又称柱状图/条形图,用来展示连续数据分布的常用工具,用来估计数据的概率分布。 1.利用hist()函数绘制 ...

  • matplotlib之直方图hist

    问题描述 当我们想展示不同的数据在所有数据样本中的分布时,需要用直方图来展示。当然在数据量很大的时候,如果为每个数...

网友评论

      本文标题:chap 3.11 展示数据分布

      本文链接:https://www.haomeiwen.com/subject/rbbgxltx.html