不知道你注意过没有,为什么在抖音这样的短视频平台上有的视频有几百万甚至更多的播放量,而绝大多数视频压根就无人问津呢?为什么有的人这么有钱,而像我们这样的芸芸众生只能温饱呢?为什么我们经常使用的汉字也就两三千个,字典里的绝大多数汉字(总数9万多个)见都没见过?这都是因为叫做幂律分布的魔鬼在捣蛋。
1.幂律分布的特征
经济学家帕累托在19世纪的意大利,发现极少数的富人赚走了绝大部分的钱,大部分家庭的收入都很低,基于这个发现,后来命名为“幂律分布”。他的这一发现被后人称为“帕累托法则”,也叫“二八定律”,也就是20%的人获得了80%的收入。
用《新约·马太福音》里的话就是:“凡有的,还要加倍给他叫他多余;没有的,连他所有的也要夺过来。”用现在的话来说,就是“穷者越穷、富者越富”。我们生活中各式各样的现象,从点击量、关注度、语言、城市人口,还有人脉、财富、声望,都遵循的是幂律分布。
幂律分布的图像长这样:
图里横坐标代表随机变量的取值,纵坐标代表发生的概率。幂律分布就是一条向下的曲线,拖着一个长长的尾巴,它的含义就是它的数据波动非常地大,少数点的数值特别高,大多数的点数值都很低,最大和最小的点之间,可能相差好几个数量级。
幂律分布有个好玩的数学特征,就是无标度,也叫“无尺度”“尺度无关”,意思是在任何观测尺度下,都呈现同样的分布特征。比如,图书销量是服从幂律分布的,最畅销那本书的销量在前10名销量中占的比例,和前10名的销量在前100名的销量中占的比例,和前100名在前1000名的总销量中占的比例,大体都是相同的。
2.幂律分布来自不独立的随机变量作用的结果
大家知道一个词叫“马太效应”。比如去书店买书,大部分人会优先关注那些上了排行榜的“畅销书”。越畅销的书就会越容易被关注,而越容易被关注就让它进一步更畅销。幂律分布使得图书市场中会出现少量特别畅销的书,而绝大多数书的销售成绩都很差。这就是不独立带来的后果,因为你做决定的时候是在模仿别人,其他人也在互相模仿,不独立的行为就导致了幂律分布。
幂律分布模型还来自于复杂系统的“自组织”现象。一个系统在变大、变复杂的过程中,它的各个部分互相依赖的程度将会增加。到了一个临界点,因为互相关联实在太紧密了,一部分出个小问题就会导致整个系统出大问题,那就是雪崩式的灾难。
3.幂律分布是个无法预测的魔鬼
一是幂律分布让平均数失去意义。如果数据变化幅度非常大,那么平均值毫无意义。这是统计个人收入或者城镇居民收入的时候平均数完全没有意义,比如我和马云一平均我也是超级富豪了,这完全没有任何意义。
这就是幂律分布,随机变量波动的范围非常大,常用的平均值、标准差到这里都没用了。幂律分布就是一个喜怒无常的魔鬼,让已有的秩序和工具全部失效,使一切变得难以捉摸。
二是幂律分布让原本不会发生的极端事件发生。虽然极端数据出现的概率很低,但这个概率永远不会趋近于0,永远不会小到可以忽略不计。而在幂律分布里,极端数据往往意味着极端事件。而极端事件,比如超大型海啸、超强大地震、席卷全球的金融风暴等,都会给人带来非常大的损失。
三是幂律分布完全不可预测。科学家们一直在致力于幂律分布的研究,但到目前为止,幂律分布还完全无法预测,所以我们的世界在很多领域就是这么不公平。比如著名的“沙堆模型”,在平台上不断添加沙粒,慢慢形成一个沙堆。随着沙堆高度的增加,新添加的沙粒会带动沙堆表面其他沙粒滚落,产生所谓的“沙崩”。
统计沙崩的规模和发生的频率,科学家发现它服从幂律分布。这是一个极其简单的模型实验。所有物理知识我们都掌握,而且能用计算机跟踪每一粒沙子的位置,但仍然找不到沙堆崩塌的原因。我们既不知道在什么条件下,再放一粒沙子就会导致沙崩,也无法预测这粒沙子导致的沙崩规模会有多大。
如果一个局面中有很多极端事件,我们基本上可以猜测它满足幂律分布,针对符合幂律分布的各种事件,平时做好预防重大灾难的资源和措施就至关重要,对我们的人生也是一样。
参考资料:
得到app《刘嘉·概率论22讲》《万维钢·精英日课3》《卓克·科技参考》《郑路的社会网络课》。










网友评论