万能的统计指标?
如果想了解社会、经济某个方面的发展状况,采用能够反映其特征的统计指标无疑是非常便捷的方式。例如:
- 劳动参与率是经济活动人口(包括就业者和失业者[1])占劳动年龄人口的比率,衡量了人们参与经济活动状况的情况;
- 社会平均工资反映了全社会拿工资的就业人员的工资收入情况;
- 城镇失业率反映了全社会处于失业状况的人数占比;
- 等等......
在众多经济指标中,有一类指标因为其简洁易懂而被广泛使用,这就是“平均值”指标。对于社会管理者(例如:政府官员)或者经济管理者(例如:企业高管),平均值指标是一个非常强大的管理工具,基于原始数据可以统计各种平均值指标,然后衍生出一整套 KPI;管理者看到 KPI 就像看到了整个体系的运作一样,然后基于此作出精准的决策。正是基于这一套数据化管理和运营的理念,大数据的观念才能如此深入人心。
但是,统计指标是否万能的?是否真的能够让使用它的人得到关于现实世界的真实情况?
平均值的疑惑
在各类统计指标中,平均值指标是使用最为广泛的指标之一,例如:社会平均工资等指标。平均值是一个非常好理解的统计指标,反映了被统计个体的平均情况,并且非常好计算,具有很好的统计学特性等等。
如果想计算社会平均工资,在收集到所有拿工资的人的工资数据,将所有工资数据加总并除以拿工资的人数就得到社会平均工资; 其它指标的平均值的计算跟这个类似。
让我们来看一个实际的例子:
- 国家统计局在2018年发布了统计报告“2017年城镇私营单位就业人员年平均工资45761元”,这个发布信息里面涉及到一个平均值类的统计指标“城镇私营单位就业人员年平均工资” ,这个指标的值为45761元,相比于2016年增长了6.8%。
- 通过国家统计局发布的这个统计指标,所有人都可以了解到全国在私营单位(也就是大多数中国人就业的企业)就业的人员的工资收入情况(大体情况);
- 那么,困惑来了。绝大多数网友们表示自己的工资拖了后腿(也就是比统计部分发布的平均工资低),有不少人质疑统计部门发布的数据存在造假情况(认为实际的平均工资比发布的平均工资低不少);
- 统计数据导致网友困惑的原因是什么?是网友们集体调侃吗?是统计部门的数据造假吗[2]?
困惑解析
正态分布
德国马克:数字10右上角有一个正态分布的曲线
对统计略有了解的人可能都知道有一个叫“正态分布”的东西,这是统计学里面最重要的一个概率分布。正态分布重要是因为它可以描述现实世界中非常多的随机变量,例如:
- 多次测量一个人的身高,那么所有身高测量结果构成正态分布;
- 测量一个国家所有人的身高,那么所有身高测量结果构成正态分布;
- 在物理实验中,多次测量一个物理量,那么多次测量的结果构成正态分布;
关于正态分布,大家记住一点就好[3],符合正态分布的随机变量的观测结果绝大部分都在其平均值附近。这里用一个假想的例子来说明正态分布的这个特性:假如城镇私营单位就业人员年工资符合正态分布(实际上不符合),那么从国家统计局发布的2017年城镇私营单位就业人员年平均工资45761元这个信息可以知道,全国在私营单位就业的人员的工资都在45761元附近,工资高的不会比平均工资高很多,工资低的也不会比平均工资低很多。
正态分布是如此的常见,但是依然有很多观测结果无法采用正态分布,特别是社会经济领域的指标,例如:年工资、GDP等。对于这类不是正态分布的指标,有一个专门的名词叫“偏态分布”,让我们一起来看一下。
偏态分布
正态分布分布表示指标的取值比较高或者比较低的比例差不多,而偏态分布则不同:
- 如果指标的取值比较小(小于平均值)的比例比较高,称为“负偏态分布”或者简称为“左偏”,例如:年工资、企业规模等等指标都是左偏的。左偏的指标在社会经济领域非常常见;
- 如果指标的取值比较大(大于平均值)的比例比较高,称为“正偏态分布”或者简称为“右偏”,例如:在老龄化社会里面人的年龄、发达国家人的体重等等。
更加学术化的说法是:如果指标的中位数[4]小于平均值,指标称为左偏;如果指标的中位数大于平均值,指标称为右偏。
如果一个指标符合偏态分布(左偏或者右偏),采用平均值将无法很好地描述该指标的整体情况。换句话说,仅仅查看偏态分布的平均值指标将导致对该指标的误解,正如其名,统计指标反映的结果是有偏差的。
偏态分布的平均值困惑
统计局发布的:城镇私营单位就业人员年平均工资45761元,相比于2016年增长了6.8%,能够说明的问题如下:
| 统计指标 | 统计指标表面反映的 | 大部分人的困惑 | 实际情况 |
|---|---|---|---|
| 年平均工资45761元 | 所有人的年工资差不多是45761元 | 自己收入没有那么多,拖了后腿,要不就是统计局数据造假 | 大部分人的年工资比45761元低,少数高收入的人拉高了平均水平 |
| 增长了6.8% | 所有人的年工资相对于2016年差不多增长了6.8% | 自己的收入没有增长那么多,拖了后腿,要不就是统计局数据造假 | 大部分人的收入增长没有6.8%,少数收入高增长的人拉高了平均水平 |
结论
统计指标并非万能,权威机构发布的统计指标也可能无法反映社会经济的真实情况,搞清楚统计指标的特征才能最大限度的消除统计指标带来的困惑。









网友评论