美文网首页
大师兄的应用回归分析学习笔记(十七):多重共线性的情形及其处理(

大师兄的应用回归分析学习笔记(十七):多重共线性的情形及其处理(

作者: superkmi | 来源:发表于2025-03-06 17:14 被阅读0次

大师兄的应用回归分析学习笔记(十六):多重共线性的情形及其处理(一)
大师兄的应用回归分析学习笔记(十八):多重共线性的情形及其处理(三)

三、多重共线性的诊断

  • 一般情况下,回归方程的解释变量之间存在很强的线性关系,回归方程的检验高度显著时,有些与因变量y的简单相关系数绝对值很大的自变量,其回归系数不能通过显著性检测,甚至有的回归系数所带符号与实际经济意义不符,这时就认为存在多重共线性。
  • 集中主要方法如下:
1. 方差扩大因子法
  • 对自变量做中心标准化,则X^{*'}X^*为自变量的相关阵,记C=(C_{ij})=(X^{*'}X^*)^{-1},称其主对角线元素VIF_j=c_{jj}为自变量x_j的方差扩大因子(variance inflation factor, VIF), 可知var(\hat\beta_j)=C_{jj}\delta^2/L_{jj},j=1,2,...,p
  • 式中L_{jj}x_j的离差平方和
  • C_{jj}作为衡量自变量x_j的方差扩大程度的因子是恰如其分的
  • R^2_j为自变量x_j对其余p-1个自变量的复决定系数,可以证明c_{jj}=\frac{1}{1-R^2_j}
  • R^2_j度量了自变量x_j与其余p-1个自变量的线性相关程度,这种相关程度越强,说明自变量之间的多重共线性越严重,R^2_j越接近1,VIF_j就越大。
  • 相反,x_j与其余p-1个自变量的线性相关程度越弱,自变量间的多重共线性就越弱,R^2_j就越接近0,VIF就越接近1.
  • 经验表明,当VIF \geq10时,说明变量x_j与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。
  • 也可以用p个自变量所对应的方差扩大因子的平均数来度量多重共线性,当\overline {VIF}=\frac{1}{p}\sum^p_{i=1}VIF_j远远大于1时,就表现存在严重的多重共线性问题。
  • 对于只含两个解释变量x_1,x_2的回归方程,计算x_1,x_2的决定系数R^2_{12}就是判断它们是否存在多重共线性:
  • 如果R^2很大,则认为x_1,x_2可能存在严重的多重共线性
  • R^2和样本量n有关,当样本量较小时,R^2容易接近1
  • 所以当样本量不算小,而且R^2接近1时,可以肯定存在严重的多重共线性
2. 特征根判定法
2.1 特征根分析
  • 根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。
  • 因而,当行列式|X'X|\approx 0时,矩阵X'X至少有一个特征根近似为零。
  • 反之可以证明,当矩阵X'X至少有一个特征根近似为零时,X的列向量间必然存在多重共线性。
  • 如果矩阵X'X有多个特征根近似为零,取每个特征根的特征向量为标准化正交向量,即可证明X'X有多个特征根近似零,X就有多少个多重共线性关系。
2.1 条件数
  • 特征根分析表明,当矩阵X'X有一个特征根近似为零时,设计矩阵X的列向量间必然存在多重共线性,并且X'X有多少个特征接近零,X就有多少个多重共线性关系。
  • 特征根近似为零的标准用下面方法界定:记X'X的最大特征根为\lambda_mk_i=\sqrt{\frac{\lambda_m}{\lambda_i}},i=0,1,2,...,p为特征根的条件数(condition index)
  • 条件数度量了矩阵X'X的特征根的散布程度,可以用来判断多重共线性是否存在以及多重共线性的严重程度:
  • 通常认为0<k<10时,设计矩阵X没有多重共线性
  • 10\leq k<100时,存在较强的多重共线性;
  • k\geq 100时,存在严重的多重共线性。
  • 计算出特征根与条件数输出结果:


  • 从条件数看到,最大的两个条件数k_6=116.995,k_5=101.639
  • 说明自变量间存在严重的多重共线性。
  • 可以由条件数表中右边的方差比例粗略判定哪几个自闭那辆间存在共线性,如果有某几个自变量的方差比例值在某一行同时较大(接近1),则这几个自闭间就存在多重共线性。
  • 从第6行看,x_5对应的0.91方差比例0.91最大,说明x_5与x_1,x_2,x_3,x_4之间存在强的付共线性。
  • 第5行常数项方差比例0.96最大,x_5对应的方差比例0最小,其他变量的方差比例再0.11~0.39之间,说明x_1,x_2,x_3,x_4之间存在一个线性组合约等于常数。
  • 但是方差比例并不直接是共线性关系的系数,方差比例是根据特征向量计算的,计算方法是:
  • 在求特征根和特征向量时数据要标准化,以消除量纲的影响。
  • 由于设计矩阵X的第一列有一列1,所以在标准化时变量不能减去均值,而是直接除以每列数据平方和的平方根。
  • 包括每一列1也做同样的变换,得标准化的设计矩阵X',其中每列都是单位列向量,列平方和等于1,然后再对X'X求特征根和特征向量。
3.直观判定法
  • 方差扩大因子和条件数方法给出了识别多重共线性的数量标准
  • 需要注意的是,这种数量标准并不是识别多重共线性的绝对标准,还应该结合一些直观方法综合识别多重共线性。
  • 当出现与因变量y的简单相关系数绝对值很大的自变量,但是其偏回归系数不能通过显著性检验,检验,甚至出现回归系数符号与实际经济意义相反的情况时,就认为存在多重共线性。
  • 直管判断综述如下
  • 当增加或剔除一个自变量,其他自变量的回归系数的估计值或显著性发生较大变化时,认为回归方程存在严重的多重共线性。
  • 当定性分析认为一些重要的自变量在回归方程中没有通过显著性检验时,可初步判断存在严重的多重共线性。
  • 当与因变量之间的简单相关系数绝对值很大的自变量在回归方程中没有通过显著性检验时,可初步判断存在严重的多重共线性。
  • 当有些自变量的回归系数的数值大小与预期相差很大,甚至正负号与定性分析结果相反时,存在严重的多重共线性问题。
  • 在自变量的相关矩阵中,当自变量间的相关系数较大时会出现多重共线性问题。
  • 当一些重要的自变量的回归系数的标准误差较大时,可能存在多重共线性。

相关文章

网友评论

      本文标题:大师兄的应用回归分析学习笔记(十七):多重共线性的情形及其处理(

      本文链接:https://www.haomeiwen.com/subject/vpimpjtx.html