美文网首页
大师兄的应用回归分析学习笔记(三十一):含定性变量的回归模型(四

大师兄的应用回归分析学习笔记(三十一):含定性变量的回归模型(四

作者: superkmi | 来源:发表于2025-06-12 15:28 被阅读0次

大师兄的应用回归分析学习笔记(三十):含定性变量的回归模型(三)
大师兄的应用回归分析学习笔记(三十二):含定性变量的回归模型(五)

四、Logistic回归模型

1. 分组数据的Logistic回归模型
  • 针对0-1型因变量产生的问题,对回归模型应该做两个方面的改进:
  1. 回归函数应该改用限制在[0,1]区间内的连续曲线,而不能再沿用直线回归方程。Logistic函数的形式为:f(x)=\frac{e^x}{1+e^x}=\frac{1}{1+e^{-x}}
  2. 因变量y_i本身只取0,1两个离散值,不适合直接作为回归模型中的因变量。由于回归函数E(y_i)=\pi_i=\beta_0+\beta_1x_i表示在自变量为x_i的条件下y_i的平均值,而y_i是0-1型随机变量,因此E(y_i)=\pi_i就是在自变量为x_i的条件下y_i等于1的比例。
2. 案例
  • 再一次住房展览会上,与房地产商签订初步购房意向书的共有n=313名顾客,在随后的3个月内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买的顾客记为0。以顾客的年家庭收入为自变量x,建立Logistic回归模型:
序号 年家庭收入(万元) x 签订意向书人数n_i 实际购房人数m_i 实际购房比例p_i=m_i/n_i 逻辑变换p'_i=ln(\frac{p_i}{1-p_i}) 权重 w_i=n_ip_i(1-p_i)
1 1.5 25 8 0.320000 -0.75377 5.440
2 2.5 32. 13 0.406250 -0.37949 7.719
3 3.5 58 26 0.448276 -.020764 14.345
4 4.5 52 22 0.423077 0.31015 12.692
5 5.5 43 20 0.465116 -0.13976 10.698
6 6.5 39 22 0.564103 0.257829 9.590
7 7.5 28 16 0.571429 0.287682 6.857
8 8.5 21 12 0.571429 0.287682 5.143
9 9.5 15 10 0.666667 0.693147 3.333
  • Logistic回归方程为:p_i=\frac{exp(\beta_0+\beta_1x_1)}{1+exp(\beta_0+\beta_1x_1)},i=1,2,...,c
  • c为分组数据的组数,本例c=9
  • 通过logit变换(令p'_i=ln(\frac{p_i}{1-p_i})),线性回归模型为p'_i=\beta_0+\beta_1x_i+\epsilon_i
  • 回归方程\hat p' = -.0866 + 0.156x
  • 决定系数r^2=0.9243,显著性P值 \approx 0,高显著度
  • 还原式的Logistic回归方程为:\hat p = \frac{exp(-0.886 + 0.156x)}{1+ exp(-0.886 + 0.156x)}
  • 用方程做预测,例如x_0=8时\hat p_0 = 0.590,可知年收入8万元的家庭预计实际购房比例为59%。
  • 但上面没有解决异方差性,应该用加权最小二乘估计。
  • 当n_i较大时,p'_i的近似方差为:D(p'_i)\approx \frac{1}{n_i\pi_i(1-\pi_i)},选取权数为w_i=n_ip_i(1-p_i)
  • 利用加权最小二乘法的道德Logistic回归方程为:\hat p = \frac{exp(-0.849 + 0.149x)}{1+ exp(-0.849 + 0.149x)} = 0.585

相关文章

网友评论

      本文标题:大师兄的应用回归分析学习笔记(三十一):含定性变量的回归模型(四

      本文链接:https://www.haomeiwen.com/subject/guppwjtx.html