Regression
Regression,即回归。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。这也是统计学的价值所在——预测。通过对现有数据进行分析,找出各因素之间的相关关系,通过回归分析,最终得到定量关系,从而对未来做出推断。
在本节的内容里,作者提到了“相关关系不等于因果关系”,也就是说,即使两个因素在统计上表现出相关性——无论是正相关还是负相关,也不能说明二者之间存在因果关系。举一个简单的例子,数据表明,医院是排在心脏病、脑血栓之后的人类第三大死亡原因,因为确实有很多人是“死”在医院的。但是这不能说明医院和死亡之间有因果关系。
一般认为,两个因素之间存在相关关系,至少存在5种可能性:
- A导致B
- B导致A
- A和B互为因果
- C导致A和B
- A和B完全没有关系,仅仅是小样本导致的巧合
在知乎上有关于这个问题的讨论,其中列举了一些很容易就造成误解的例子。
基于吸烟的人比不吸烟的人寿命短,有人可能就会得出吸烟会导致寿命短的结论。但仔细想想就会发现,吸烟本身不会影响寿命,影响寿命的是尼古丁等等有毒物质。如果能从香烟中去除这些物质,可能吸烟不会对人体有害。
回归分析是对相关关系的定量化,但是能否从中得出因果关系并据此作出决策,还需要更进一步的考量。









网友评论