二项分布转化高斯分布的应用研究

作者: 花儿翟 | 来源:发表于2022-10-27 03:29 被阅读0次

高尔顿钉板与二项分布
指数族分布|机器学习推导系列（九）
检验正态分布方法的汇总
CenterNet 数据加载解析
二项分布
统计学第六章几种离散变量的分布及其应用
机器学习入门笔记系列（11） | 异常检测
学习笔记|程序员的数学：概率统计#3
高斯混合模型与EM算法的推导
高斯分布|机器学习推导系列（二）

题记：自然态即疫情防控常态化、社会面各空间感染人数清零的状态，与其对应的是封控态即社会面某空间发现感染1例或多例的状态下，政府采取对某行政区域、社区、楼道、个人等采取封控隔离措施。但是，众所周知，在被动出现封控态前的广大时间内自然态占主导地位，因此，研究自然态下病毒感染的随机过程更具有普适性，本文就是在这种背景下提出个计算模型用于茶余饭后的交流。

奥密克戎的传染率暂时没有确切的官方数字，据资料显示根据世卫组织所提供的信息，可侧面反映出奥密克戎在无防护状态下，传染率约为15%左右【数据来源于某医学官网】，但从个体角度分析，传染率与接触时间、接触途径、自身免疫能力、接触病毒数量以及是否进行防护等多种因素有关，因此这个数据还不够准确。

那么，出于对数据准确性权威性的要求，笔者发现2020年10月12日，在世卫组织举行例行发布会上，世卫组织卫生紧急项目技术主管玛丽亚·范·科霍夫研究提出的大多数地区人口的新冠病毒感染率低于10%，但也有密集传播区域的感染率超过20%或25%，甚至更高的结论。因此，我们采用感染率为7%进行计算。

（一）构建模型

假设：

一、在城市静默管理前的14天当中，疫情防控处于常态化管理，社会基本面处于清零状态；

二、人员社会活动频繁，日常交往处于正常状态，48小时内核酸检测阴性（自然态）；

三、感染者（不一定确诊）的概率是 $p$ ，未感染者的概率是 $1-p$ ；

四、正常活动人口数量有 $n$ 个。

那么，我们就可以根据以下规则来定义随机变量 $Xi$ ，正常活动人数 $i$ ，如果感染（不一定确诊），则 $Xi=1$ ,如果未感染，则 $Xi=0$ ，其中 $i=1，2,3，...，n$ 。因此， $Xi=1$ 的概率为 $p$ ，而 $Xi=0$ 的概率为 $1-p$ 。设 $Sn=X1+X2+...+Xn$ ，那么， $Sn$ 是正常活动人数当中被感染的数字（不一定确诊）。不难看出， $Sn$ 服从一个参数为 $n$ 和 $p$ 的二项分布。根据二项分布的特性，我们得到了 $Sn$ 的均值和标准离差的公式：

$E(Sn)=np$ ;

$SD(Sn)=\sqrt{np(1-p)}$

那么，现在将离散随机分布转化为连续随机分布，根据中心极限定理，对于一个较大的 $n$ 值，我们发现 $Sn$ 将呈现近似地服从正态分布。换句话说，当 $n$ 是足够大的数值时，正态分布是二项分布的一个很好的近似表示。因此，数学上的一个应用规则是：当 $np\geq 5$ 和 $n(1-p)\geq 5$ 时，正态分布可作为二项分布的一个近似。

好了，问题逐步水落石出，那我们就进一步假设 $X$ 服从一个参数为 $n和p$ 的二项分布，那么其均值和标准离差是 $\mu x=np和\sigma x=\sqrt{np(1-p)}$ 。现在，假设 $Y$ 是服从均值 $\mu y=np和标准离差\sigma y=\sqrt{np(1-p)}$ 的一个正态分布随机变量。因为 $X和Y$ 有相同的均值和标准离差，所以 $X$ 和 $Y$ 的分布近似相同。因为 $X$ 近似的服从正态分布，而 $Y$ 完全服从正态分布，所以如果对于一些特定的值 $a$ 和 $b$ ，我们通过计算 $P(a\leq X\leq b)$ 就能够近似地计算这个概率值。因此，不难得出如下结论： $P(a\leq X\leq b)\approx P(a\leq Y\leq b)$ ,其中 $X$ 服从参数为 $n$ 和 $p$ 的二项分布， $Y$ 服从均值 $\mu y=np$ 和标准离差 $\sigma y=\sqrt{np(1-p)}$ 的正态分布。

以上就是构建了从离散随机分布到连续随机分布及二项分布转化为标准高斯分布的计算模型。

（二）指导计算

根据前文提到的世卫组织公布的7%的感染率，自然态下的正常活动人数是258.31万人，计算：超过10万人感染的概率有多大？

下面是解答过程：

设 $X$ 是表示在258.31万自然态下常规活动人口中感染者（不一定确诊）的数目。 $X$ 服从参数 $p=0.07$ 和 $n=258.31$ 的一个二项分布。

由此计算 $P(X\geq 10)$ ，如下：

$\mu x=np=258.31\times 0.07=18.08$

$\sigma x=\sqrt{np(1-p)} =\sqrt{258.31\times 0.07\times (1-0.07)} =4.10$

由于 $np\geq 5$ 及 $n(1-p)=258.31\times 0.93=240.22\geq 5$ ，因此，根据上文推论不难得出，可以采用一个均值 $\mu y=18.08$ 和标准离差 $\sigma y=4.10$ 的正态分布随机变量 $Y$ 近似的表示 $X$ 。所以，

$P(X\geq 10)\approx P（Y\geq10 )=P(\frac{Y-18.08}{4.10} \geq \frac{10-18.08}{4.10} )$

采用 $Z=\frac{Y-18.08}{4.10}$ ，上式继续转化成标准正态分布 $P(X\geq 10)\approx P(Y\geq 10)=P(Z\geq -1.97)=1-P(Z\leq -1.97)$ ，通过查阅标准正态表，如表1所示，我们得到的结果是 $0.9756$ ，当然也可以通过 $\int_{a}^{b} f(z)dz=\int_{a}^{b} \frac{1}{\sqrt{2\pi } } e(-\frac{z^2}{2} )dz$ 计算出结果，因此，在这几个严重区县中超过10万感染人数（不一定确诊）的概率达到97.56%。