二项分布和泊松分布

作者: 壮志_凌云 | 来源:发表于2020-07-14 15:58 被阅读0次

泊松分布
使用泊松分布判定chipseq的蛋白结合位点
泊松分布
金融中的概率论（弱大数定律和中心极限定理）
应用数学
泊松（Poisson）分布
数理统计拾遗
【泊松分布】
如何在Python中实现五类强大的概率分布
分布

一、超几何分布、二项分布和泊松分布的定义

设在 $N$ 个产品中有 $M$ 个不合格品，从这 $N$ 个产品中不放回的等可能的随机抽取 $n$ 个产品，随机变量 $X$ 表示这 $n$ 个产品中包含的不合格品的数量，则 $X$ 的分布就符合超几何分布 $H(n, M, N)$ ，且分布列为：

$P_X(k) = h(k, n, M, N) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n - k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }, 0 \leq k \leq M$

设随机事件 $A$ 在一次试验中发生的概率为 $p$ ，随机变量 $Y$ 表示在 $n$ 次重复的独立试验中事件 $A$ 发生的次数，则 $Y$ 的分布就符合二项分布 $B(n, p)$ ，且分布列为：

$P_Y(k) = b(k, n, p) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}, 0 \leq k \leq n$

设随机事件 $B$ 在一段时间内发生的平均次数为 $\lambda$ ，随机变量 $Z$ 表示在一段时间内事件 $B$ 发生的总次数，则 $Z$ 的分布就符合泊松分布 $P( \lambda ）$ ，且分布列为：

$P_Z(k) = p(k, \lambda) = e^{- \lambda} \frac{ \lambda^k }{ k! }, k \geq 0$

二、超几何分布、二项分布和泊松分布的关系

对于超几何分布随机变量 $X$ ，当固定 $n$ 和 $k$ ， $N \to \infty, \frac{M}{N} \to p$ 时， $X$ 的分布极限是二项分布，即：

$\lim_{ N \to \infty } P_X(k) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}$

证明：

$P_X(k) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n - k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }$

$= \left(\begin{array}{c} n \\ k \end{array}\right) \frac{ \Pi_{i=0}^{k-1} (M-i) * \Pi_{j=0}^{n-k-1} (N-M-j) }{ \Pi_{l=0}^{n-1} (N - l) }$

$= \left(\begin{array}{c} n \\ k \end{array}\right) \frac{ \Pi_{i=0}^{k-1} (p - \frac{i}{N} ) * \Pi_{j=0}^{n-k-1} ( 1 - p - \frac{j}{N} ) }{ \Pi_{l=0}^{n-1} (1 - \frac{1}{N} ) }$

$\implies \lim_{ N \to \infty } P_X(k) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}$

这就证明了超几何分布的极限是二项分布，同时也说明了，当不合格率固定并且产品数量足够大时，不放回抽样的概率分布非常接近放回抽样的概率分布。

对于二项分布随机变量 $Y$ ，当 $n \to \infty, np \to \lambda$ 时， $Y$ 的分布极限是泊松分布，即：

$\lim_{ n \to \infty } P_Y(k) = e^{- \lambda} \frac{ \lambda^k }{ k! }$

证明：

设随机变量 $Y$ 表示在一段时间内随机事件 $B$ 发生的次数。现在将这段时间分割为 $n$ 个足够多的时间段，并假设在每个时间段内，事件 $B$ 发生的概率为 $p$ ，且最多只能发生 1 次，并假设 $np \to \lambda$ ，那么在这种假设下，变量 $Y$ 符合二项分布，有：

$P_Y(k) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}$

$= \frac{ \lambda^k }{ k! } \Pi_{i=0}^{k-1} (1 - \frac{1}{n}) (1 - \frac{\lambda}{n})^{n-k}$ ， $p$ 替换为 $\frac{\lambda}{n}$

$\implies \lim_{ n \to \infty } P_Y(k) = e^{- \lambda} \frac{ \lambda^k }{ k! }$

这就证明了二项分布的极限是泊松分布，当 $n$ 特别大， $p$ 特别小时，可以使用 $p(k, np)$ 来近似计算 $b(k, n, p)$ 。

三、二项分布可加性和极值

设随机变量 $X_1 ～ B(n, p), X_2 ～ B(m, p)$ 且相互独立，那么随机变量 $X_1 + X_2 ～ B(n + m, p)$

证明：

从二项分布定义的角度考虑，对于随机事件 $A$ ， $X_1$ 表示在 $n$ 次独立试验中事件 $A$ 发生的次数， $X_2$ 表示在 $m$ 次独立试验中事件 $A$ 发生的次数，所以随机变量 $X_1 + X_2$ 就表示在 $n + m$ 次试验中事件 $A$ 发生的次数。

下面通过计算对命题进行证明：

$P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)$

$= \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) p^i (1 - p)^{n-i} \left(\begin{array}{c}m \\ k-i\end{array}\right) p^{k-i} (1-p)^{m - k + i}$

$= p^k (1-p)^{n + m-k} \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) \left(\begin{array}{c}m \\ k-i\end{array}\right)$

$= \left(\begin{array}{c}n+m \\ k \end{array}\right) p^k (1-p)^{n + m-k}$

这就证明了 $X_1 + X_2 ～ B(n + m, p)$ ，结论可以推广到 $n$ 个独立的二项分布随机变量的情况：若相互独立的随机变量 $X_i ～ B(n_i, p), i = 1, 2, \dots, n$ ，则 $\sum_{i=1}^n X_i ～ B(\sum_{i=1}^n n_i, p)$

设随机变量 $X ～ B(n, p)$ ，则分布列 $P_X(k)$ 在 $[0, k^*]$ 区间内单调非减，在 $[k^*, n]$ 区间内单调非增，其中 $k^* = \lfloor (n+1) p \rfloor$

证明：

设 $k = 1, 2, \dots, n$ ，则分布列的比值为：

$f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ (n-k+1) p }{ k(1-p) }$

可以看出， $f(k)$ 是 $k$ 的单调递减函数，当 $f(k) = 1$ 时可得：

$k = (n+1)p \implies k^* = \lfloor (n+1) p \rfloor$

这就证明了二项分布的分布列在 $\lfloor (n+1) p \rfloor$ 处取的最大值，特别的：

当 $p \le \frac{1}{n+1}$ 时，即事件发生的概率特别小时， $P_X(k)$ 在 $[0, n]$ 上都是单调非增的；

当 $p \ge \frac{n}{n+1}$ 时，即事件发生的概率特别大时， $P_X(k)$ 在 $[0, n]$ 上都是单调非减的；

四、二项分布的分布函数

设随机变量 $X ～ B(n, p)$ ，则分布函数 $F_X(p)$ 是 $p$ 的单调递减函数，且有：

$F_X(p) = f(p) = \frac{ n! }{ k! (n-k-1)! } \int_0^{1-p} t^{n-k-1}(1-t)^k dt, 0 \le k < n$

证明：

$F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) p^i (1-p)^{n-i}$

$\implies \frac{d}{dp} F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) (i p^{i - 1} (1-p)^{n-i} - (n-i) p^i (1-p)^{n-i-1})$

$\implies \frac{d}{dp} F_X(p) = - (n-k) \left(\begin{array}{c} n \\ k \end{array}\right) p^k (1-p)^{n-k-1}$

$\implies \frac{d}{dp} F_X(p) = \frac{d}{dp} f(p)$

$\implies F_X(p) = f(p) + C$ ， $C$ 为常数

$F_X(0) = f(0) = 1 \implies C = 0$

这就证明了 $F_X(p) = f(p)$ ，且 $F_X(p)$ 是 $p$ 的单调递减函数。

五、泊松分布的可加性和极值

设随机变量 $X_1 ～ P(\lambda_1), X_2 ～ P(\lambda_2)$ ，且相互独立，那么随机变量 $X_1 + X_2 ～ P(\lambda_1 + \lambda_2)$

证明：

从泊松分布的定义进行考虑， $X_1$ 表示在一段时间内事件 $A_1$ 发生的次数， $X_2$ 表示在一段时间内事件 $A_2$ 发生的次数，那么 $X_1 + X_2$ 就表示在一段时间内事件 $A_1 + A_2$ 发生的次数，所以 $X_1 + X_2 ～ P(\lambda_1 + \lambda_2)$

下面通过计算进行证明：

$P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)$

$= \frac{ e^{-(\lambda_1 + \lambda_2)} }{ k! } \sum_{i=0}^k \left(\begin{array}{c} k \\ i \end{array}\right) \lambda_1^i \lambda_2^{k - i}$

$= e^{-(\lambda_1 + \lambda_2)} \frac{ (\lambda_1 + \lambda_2)^k }{ k! }$

这就证明了 $X_1 + X_2 ～ P(\lambda_1 + \lambda_2)$ ，结论可以推广到 $n$ 个独立的泊松分布随机变量的情况：若相互独立的随机变量 $X_i ～ P(\lambda_i), i = 1,2,\dots,n$ ，则 $\sum_{i=1}^n X_i ～ P(\sum_{i=1}^n \lambda_i)$

设随机变量 $X ～ P(\lambda)$ ，则分布列 $P_X(k)$ 在 $[0, k^*]$ 区间内单调非减，在 $[k^*, + \infty]$ 区间内单调非增，其中 $k^* = \lfloor \lambda \rfloor$

证明：

设 $k = 1, 2, \dots$ ，则分布列的比值为：

$f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ \lambda }{ k }$

可以看出， $f(k)$ 是 $k$ 的单调递减函数，当 $f(k) = 1$ 时可得：

$k = \lambda \implies k^* = \lfloor \lambda \rfloor$

这就证明了泊松分布的分布列在 $k^*$ 处取的最大值，特别的：

当 $\lambda \le 1$ 时，即单位时间内事件发生的平均次数特别小时， $P_X(k)$ 在 $[0, +\infty]$ 上都是单调非增的；

当 $\lambda > 1$ 时， $P_X(k)$ 先增大后减小，并在 $k^*$ 处达到最大值；

六、泊松分布的分布函数

设随机变量 $X ～ P(\lambda)$ ，则分布函数 $F_X(\lambda)$ 是 $\lambda$ 的单调递减函数，且有：

$F_X(\lambda) = f(\lambda) = \frac{1}{k!} \int_\lambda^{\infty} t^k e^{-t} dt, k \ge 0$

证明：

$F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} \frac{ \lambda^i }{ i! }$

$\implies \frac{d}{d\lambda} F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} ( \frac{ i \lambda^{i-1} }{ i! } - \frac{\lambda^i}{i!} )$

$\implies \frac{d}{d\lambda} F_X(\lambda) = - e^{-\lambda} \frac{\lambda^k}{k!} = \frac{d}{d\lambda} f(\lambda)$

$\implies F_X(\lambda) = f(\lambda) + C$ ， $C$ 为常数

$F_X(0) = f(0) = 1 \implies C=0$

这就证明了 $F_X(\lambda) = f(\lambda)$ ，且 $F_X(\lambda)$ 是 $\lambda$ 的单调递减函数。

泊松分布
泊松分布条件泊松分布条件.PNG 二项分布的近似二项分布 n 较大，p 较小的时候可以用泊松分布来近似，减小计算...
使用泊松分布判定chipseq的蛋白结合位点
二项分布和泊松分布都描述的是事件成功次数的分布，泊松分布是二项分布的极限分布，其适用条件是n很大，p很小的情况。生...
泊松分布
泊松分布由二项分布推导而来，当二项分布 , 时，便得出泊松分布的公式：其中: 单位时间内，事件发生的次数， ...
金融中的概率论（弱大数定律和中心极限定理）
泊松分布:将二项分布的时间分为无穷多个间隔的组成，则二项分布转为泊松分布 MIT课程（直接看连接中的内容）分析...
应用数学
时间序列分析马尔可夫过程概率论正态分布二项分布-百度百科二项分布-统计之都泊松分布泊松分布的现实意义...
泊松（Poisson）分布
知乎:泊松分布 (Poisson Distributions) 的推导&二项分布、泊松分布到底该如何近似计算？阮一...
数理统计拾遗
两点分布取n此是二项分布，二项分布n->∞（取极限）是泊松分布
【泊松分布】
从二项分布到泊松分布二项分布概率公式：泊松分布需要做以下假定：一个事件在一段时间或空间内发生的平均次数或数学...
如何在Python中实现五类强大的概率分布
五类概率分布二项分布（Binomial Distribution）泊松分布（Poisson Distribut...
分布
伯努利分布二项分布泊松分布参考https://www.zhihu.com/question/26441147

二项分布和泊松分布

一、超几何分布、二项分布和泊松分布的定义

二、超几何分布、二项分布和泊松分布的关系

三、二项分布可加性和极值

四、二项分布的分布函数

五、泊松分布的可加性和极值

六、泊松分布的分布函数

相关文章

泊松分布

使用泊松分布判定chipseq的蛋白结合位点

泊松分布

金融中的概率论（弱大数定律和中心极限定理）

应用数学

泊松（Poisson）分布

数理统计拾遗

【泊松分布】

如何在Python中实现五类强大的概率分布

分布

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数理统计