第五章 数据的描述性分析
R内置的分布
- d 概率密度函数
- p 累计分布函数
- q 分位数
- r 伪随机数
** dnorm、pnorm、qnorm、pnorm分别表示正态分布的四个函数。**
| 分布 | R函数 | 参数及默认值 | 所属程序包 |
|---|---|---|---|
| 贝塔Beta | _beta | shape1,shape2,ncp=0 | stats |
| 二项Binomial | _binom | size,prob | stats |
| 柯西Cauchy | _cauchy | location=0,scale=1 | stats |
| 卡方Chi-squares(x^2) | _chisq | df,ncp | stats |
| 指数Exponential | _exp | rate | stats |
| F分布Fisher-Snedecor | _f | df1,df2,ncp | stats |
| 伽马Gamma | _gamma | shape,scale=1 | stats |
| 几何Geometric | _geom | prob | stats |
| 超几何Hypergeometric | _hyper | m,n,k | stats |
| 对数正态Lognormal | _lnorm | meanlog=0,sdlog=1 | stats |
| 逻辑斯谛Logistic | _logis | location=0,scale=1 | stats |
| 负二项Negative binomial | _nbinom | size,prob | stats |
| 多项式Multinomial | _multinom | size,prob | stats |
| 正态Normal | _norm | mean=0,sd=1 | stats |
| 泊松Poisson | _pois | lambda | stats |
| 学生Students t | _t | df | stats |
| 均匀Uniform | _unif | min=0,max=1 | stats |
| 威布尔Weibull | _weibull | shape,scale | stats |
| 威尔考克森Wilcoxon | _wilcox | m,n | stats |
| 帕累托Pareto | _pareto | shape,scale | actuar |
| 布尔Buee | _burr | shape1,shape2,rate=1(scale=1/rate) | actuar |
| 逆指数Inverse Exponential | _invexp | rate | actuar |
| 狄利克雷Dirichlet | _dirichlet | alpha | MCMCpack |
| 威沙特Wishart | _wish | v,S | MCMCpack |
| 逆威沙特Inverse Wishart | _iwish | v,S | MCMCpack |
| 广义极值Generalized Extreme Value | _gev | xi,mu,sigma | evir |
| 广义帕累托Generalized Pareto | _gpd | xi=1,mu=0,sigma=1 | evir |
| 多元正态Multivariate Normal | _mvnorm | mean,sigma | mvtnorm |
| 多元t分布MULtivariate-t | _mvt | sigma=diag(2),df=1 | mvtnorm |
集中趋势的分布
mean() 均值
weighted.mean(x,w,...) 加权均值
median() 中位数
quantile(x,probs,...) 分位数
fivenum() 计算五数
summary() 总体描述
which.max(table(x)) 计算离散型变量众数
离散趋势的分析
- 极差
m <- range(x);m[2]-m[1]
max(x)-min(x) - 四分位差
q <- fivenum(x);q[4]-q[2] - 方差
var() - 标准差
sd() - 离差
mad(x,center = median(x),constant = 1.4826,na.rm = FALSE,low = FALSE,high = FALSE)
数据的分布分析
加载 timeDate包
- 偏度
skewness() - 峰度
kurtosis()
图形分析
- 直方图
hist() - 密度函数图
lines() - QQ图
qqnorm()
qqline()
qqplot() - 茎叶图
stem - 箱线图
boxplot() - 经验分布图
ecdf()给出样本的经验分布
plot(ecdf(),...)画出经验分布图
多组数据分析
- 统计分析
summary()均值和五数
var()协方差阵
cor()相关系数矩阵 - 图形分析
lowess()加权多项式回归,二维
loess()处理多维的情况
plot(x~y,...)散点图
lines(lowess(x,y),...)拟合曲线
kde2d()MASS包,估计二维数据的密度函数
contour()密度的等高线图
plot()或pairs()矩阵散点图
matplot()矩阵图
boxplot()箱线图
stars()星图、雷达图
折线图
outline <- function(x){
if(is.data.frame(x) == TRUE
x <- as.matrix(x)
m <- nrow(x);n <- ncol(x)
plot(c(1,n),c(min(x),max(x)),type = "n",main = ,xlab = ,ylab = )
for(i in 1:m){
lines(x[i, ],col=i)
}
}
调和曲线图
outline <- function(x){
if(is.data.frame(x) == TRUE
x <- as.matrix(x)
t <- seq(-pi,pi,pi/30)
m <- nrow(x);n <- ncol(x)
f <- array(0,c(m,length(t)))
for(i in 1:m){
f[i, ] <- x[i,1]/sqrt(2)
for(j in 2:n){
if(j%%2 == 0)
f[i, ] <- f[i, ]+x[i,j]*sin(j/2*t)
else
f[i, ] <- f[i, ]+x[i,j]*cos(j%/%2*t)
}
}
plot(c(-pi,pi),c(min(f),max(f)),type = ,main = ,xlab = ,ylab= )
for(i in 1:m) lines(t,f[i, ],col = i)
}
`













网友评论