美文网首页简友广场想法
二项分布转化高斯分布的应用研究

二项分布转化高斯分布的应用研究

作者: 花儿翟 | 来源:发表于2022-10-27 03:29 被阅读0次

题记:自然态即疫情防控常态化、社会面各空间感染人数清零的状态,与其对应的是封控态即社会面某空间发现感染1例或多例的状态下,政府采取对某行政区域、社区、楼道、个人等采取封控隔离措施。但是,众所周知,在被动出现封控态前的广大时间内自然态占主导地位,因此,研究自然态下病毒感染的随机过程更具有普适性,本文就是在这种背景下提出个计算模型用于茶余饭后的交流。

       奥密克戎的传染率暂时没有确切的官方数字,据资料显示根据世卫组织所提供的信息,可侧面反映出奥密克戎在无防护状态下,传染率约为15%左右【数据来源于某医学官网】,但从个体角度分析,传染率与接触时间、接触途径、自身免疫能力、接触病毒数量以及是否进行防护等多种因素有关,因此这个数据还不够准确。

      那么,出于对数据准确性权威性的要求,笔者发现2020年10月12日,在世卫组织举行例行发布会上,世卫组织卫生紧急项目技术主管玛丽亚·范·科霍夫研究提出的大多数地区人口的新冠病毒感染率低于10%,但也有密集传播区域的感染率超过20%或25%,甚至更高的结论。因此,我们采用感染率为7%进行计算。

(一)构建模型

      假设:

      一、在城市静默管理前的14天当中,疫情防控处于常态化管理,社会基本面处于清零状态;

      二、人员社会活动频繁,日常交往处于正常状态,48小时内核酸检测阴性(自然态);

    三、感染者(不一定确诊)的概率是p,未感染者的概率是1-p

      四、正常活动人口数量有n个。

        那么,我们就可以根据以下规则来定义随机变量Xi,正常活动人数i,如果感染(不一定确诊),则Xi=1,如果未感染,则Xi=0,其中i=1,2,3,...,n。因此,Xi=1的概率为p,而Xi=0的概率为1-p。设Sn=X1+X2+...+Xn,那么,Sn是正常活动人数当中被感染的数字(不一定确诊)。不难看出,Sn服从一个参数为np的二项分布。根据二项分布的特性,我们得到了Sn的均值和标准离差的公式:

E(Sn)=np;

SD(Sn)=\sqrt{np(1-p)}

      那么,现在将离散随机分布转化为连续随机分布,根据中心极限定理,对于一个较大的n值,我们发现Sn将呈现近似地服从正态分布。换句话说,当n是足够大的数值时,正态分布是二项分布的一个很好的近似表示。因此,数学上的一个应用规则是:当np\geq 5n(1-p)\geq 5时,正态分布可作为二项分布的一个近似。

      好了,问题逐步水落石出,那我们就进一步假设X服从一个参数为n和p的二项分布,那么其均值和标准离差是\mu x=np和\sigma x=\sqrt{np(1-p)} 。现在,假设Y是服从均值\mu y=np和标准离差\sigma y=\sqrt{np(1-p)} 的一个正态分布随机变量。因为X和Y有相同的均值和标准离差,所以XY的分布近似相同。因为X近似的服从正态分布,而Y完全服从正态分布,所以如果对于一些特定的值ab,我们通过计算P(a\leq X\leq b)就能够近似地计算这个概率值。因此,不难得出如下结论:P(a\leq X\leq b)\approx P(a\leq Y\leq b),其中X服从参数为np的二项分布,Y服从均值\mu y=np和标准离差\sigma y=\sqrt{np(1-p)} 的正态分布。

      以上就是构建了从离散随机分布到连续随机分布及二项分布转化为标准高斯分布的计算模型。

      (二)指导计算

       根据前文提到的世卫组织公布的7%的感染率,自然态下的正常活动人数是258.31万人,计算:超过10万人感染的概率有多大?

    下面是解答过程:

      设X是表示在258.31万自然态下常规活动人口中感染者(不一定确诊)的数目。X服从参数p=0.07n=258.31的一个二项分布。

由此计算P(X\geq 10),如下:

\mu x=np=258.31\times 0.07=18.08

\sigma x=\sqrt{np(1-p)} =\sqrt{258.31\times 0.07\times (1-0.07)} =4.10

由于np\geq 5n(1-p)=258.31\times 0.93=240.22\geq 5,因此,根据上文推论不难得出,可以采用一个均值\mu y=18.08和标准离差\sigma y=4.10的正态分布随机变量Y近似的表示X。所以,

P(X\geq 10)\approx P(Y\geq10 )=P(\frac{Y-18.08}{4.10} \geq \frac{10-18.08}{4.10} )

采用Z=\frac{Y-18.08}{4.10} ,上式继续转化成标准正态分布P(X\geq 10)\approx P(Y\geq 10)=P(Z\geq -1.97)=1-P(Z\leq -1.97),通过查阅标准正态表,如表1所示,我们得到的结果是0.9756,当然也可以通过\int_{a}^{b} f(z)dz=\int_{a}^{b} \frac{1}{\sqrt{2\pi } } e(-\frac{z^2}{2} )dz计算出结果,因此,在这几个严重区县中超过10万感染人数(不一定确诊)的概率达到97.56%。

表1 标准正态分布累积分布函数

      笔者为了更清晰的描述这个随机过程,特通过程序(附源码如图3、图4)绘出了随机分布图像,再次证明了足够大的样本数量的二项分布近似的服从于正态分布,从图1中不难看出:P(10\leq X\leq 25)\approx 1

图1 正态分布密度函数图像(二维)

        再通过三维图像验证下,如图2所示,边界更加清晰些,其实不到25万时,概率已经为0了,这里就不展开计算了,读者可以自行根据以上方法得出准确结果:

图2 正态分布密度函数图像(三维)

       以上论证了二项分布转化高斯分布的完整过程,也为我们的从业人员在知识图谱或事件图谱研究过程中提供了一种方法即离散随机分布转化为连续随机分布能够更好地去解决某些实际问题,从而也间接证明了因果论的正确性。仅供交流参考。(2022年10月28日于家)

附:python源码如图3、图4所示,仅供交流参考。

图3 二维函数图像源码 图4 三维函数图像源码

相关文章

网友评论

    本文标题:二项分布转化高斯分布的应用研究

    本文链接:https://www.haomeiwen.com/subject/fndxtdtx.html