大师兄的应用回归分析学习笔记(二十三):主成分回归与偏最小二乘(二)
大师兄的应用回归分析学习笔记(二十五):非线性回归(一)
二、偏最小二乘
3. 偏最小二乘的应用
-
对发电量需求和工业产量的关系进行建模:
- 因变量y为发电量需求(亿千瓦时)
为原煤产量(亿吨)
为原油产量(万吨)
为天然气产量(亿立方米)
为生铁产量(万吨)
为纱产量(万吨)
硫酸煤产量(万吨)
为烧碱产量(万吨)
为纯煤产量(万吨)
为农用化肥产量(万吨)
为水泥产量(万吨)
为平板玻璃产量(万重量箱)
为钢产量(万吨)
为成品钢材产量(万吨)
-
先用逐步回归法队方程进行回归:
- 得到回归方程为:
![]()
- 对t检验和f检验来说,这个模型非常好,但回归方程中仅剩下
,这两个产业并不是需求电量最大的,最依赖于发电量的众多重工业没能进入方程。
- 若是运营全模型,不能满足
的条件,在这种情况下可以运用偏最小二乘法:
library(pls)
library(readxl)
data <- read_excel('data.xlsx')
data <- data.frame(scale(data))
model <- plsr(y~.,data=data,validation="LOO")
summary(model,what="all")
- 输出:
Data: X dimension: 13 14
Y dimension: 13 1
Fit method: kernelpls
Number of components considered: 11
VALIDATION: RMSEP
Cross-validated using 13 leave-one-out segments.
(Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps 8 comps 9 comps 10 comps
CV 1.041 0.04308 0.02736 0.02632 0.03133 0.03541 0.05464 0.06764 0.08043 0.09832 0.1240
adjCV 1.041 0.04281 0.02700 0.02586 0.03051 0.03448 0.05285 0.06527 0.07750 0.09460 0.1193
11 comps
CV 0.1521
adjCV 0.1463
TRAINING: % variance explained
1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps 8 comps 9 comps 10 comps 11 comps
X 98.66 99.20 99.55 99.61 99.79 99.93 99.96 99.98 99.99 100.00 100
y 99.86 99.96 99.98 99.98 99.98 99.99 99.99 99.99 99.99 99.99 100
- 分量compos就是潜在因子(Latent Factors),得到最多11个分量的偏最小二乘回归模型拟合结果。
- 用交叉验证法计算的RMSEP数值在取3个分量时达到最小极值0.02632
- 用调整的交叉验证法计算的RMSEP数值在取3个分量时达到最小极值0.02586
- 由此选定
个分量
- 计算回归系数:
data2 <- plsr(y~.,data=data,ncomp=3,validation="LOO",jacknife=TRUE)
coef(data2)
- 输出:
y
年份 1.439407e-04
X1 2.069994e-07
X2 2.018226e-02
X3 2.589581e-03
X4 -1.623751e-02
X5 4.797348e-03
X6 4.891615e-03
L7 1.673471e-02
T8 7.898279e-03
X9 9.010393e-03
X10 1.032650e-01
T11 2.216526e-01
X12 3.671180e-02
Z13 6.225321e-02













网友评论