美文网首页数理统计
二项分布和泊松分布

二项分布和泊松分布

作者: 壮志_凌云 | 来源:发表于2020-07-14 15:58 被阅读0次

一、超几何分布、二项分布和泊松分布的定义

设在 N 个产品中有 M 个不合格品,从这 N 个产品中不放回的等可能的随机抽取 n 个产品,随机变量 X 表示这 n 个产品中包含的不合格品的数量,则 X 的分布就符合超几何分布 H(n, M, N),且分布列为:

 P_X(k) = h(k, n, M, N) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n -  k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }, 0 \leq k \leq M

设随机事件 A 在一次试验中发生的概率为 p,随机变量 Y 表示在 n 次重复的独立试验中事件 A 发生的次数,则 Y 的分布就符合二项分布 B(n, p),且分布列为:

 P_Y(k) = b(k, n, p) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}, 0 \leq k \leq n

设随机事件 B 在一段时间内发生的平均次数为 \lambda,随机变量 Z 表示在一段时间内事件 B 发生的总次数,则 Z 的分布就符合泊松分布 P( \lambda ),且分布列为:

 P_Z(k) = p(k, \lambda) =  e^{- \lambda} \frac{ \lambda^k }{ k! }, k \geq 0

二、超几何分布、二项分布和泊松分布的关系

对于超几何分布随机变量 X,当固定 n 和 k, N \to \infty, \frac{M}{N} \to p 时,X 的分布极限是二项分布,即:

 \lim_{ N \to \infty } P_X(k) =  \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

证明:

 P_X(k) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n -  k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }

 = \left(\begin{array}{c} n \\ k \end{array}\right)  \frac{  \Pi_{i=0}^{k-1} (M-i) * \Pi_{j=0}^{n-k-1} (N-M-j)  }{ \Pi_{l=0}^{n-1} (N - l) }

 = \left(\begin{array}{c} n \\ k \end{array}\right)  \frac{  \Pi_{i=0}^{k-1} (p - \frac{i}{N} ) * \Pi_{j=0}^{n-k-1} ( 1 - p - \frac{j}{N} )  }{ \Pi_{l=0}^{n-1} (1 - \frac{1}{N} ) }

 \implies \lim_{ N \to \infty } P_X(k) =  \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

这就证明了超几何分布的极限是二项分布,同时也说明了,当不合格率固定并且产品数量足够大时,不放回抽样的概率分布非常接近放回抽样的概率分布。

对于二项分布随机变量 Y,当 n \to \infty, np \to \lambda时,Y 的分布极限是泊松分布,即:

 \lim_{ n \to \infty } P_Y(k) =  e^{- \lambda} \frac{ \lambda^k }{ k! }

证明:

设随机变量 Y 表示在一段时间内随机事件 B 发生的次数。现在将这段时间分割为 n 个足够多的时间段,并假设在每个时间段内,事件 B 发生的概率为 p,且最多只能发生 1 次,并假设 np \to \lambda,那么在这种假设下,变量 Y 符合二项分布,有:

 P_Y(k) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

 = \frac{ \lambda^k }{ k! } \Pi_{i=0}^{k-1} (1 - \frac{1}{n}) (1 - \frac{\lambda}{n})^{n-k}p 替换为 \frac{\lambda}{n}

 \implies \lim_{ n \to \infty } P_Y(k) =  e^{- \lambda} \frac{ \lambda^k }{ k! }

这就证明了二项分布的极限是泊松分布,当 n 特别大,p特别小时,可以使用 p(k, np) 来近似计算 b(k, n, p)

三、二项分布可加性和极值

设随机变量 X_1 ~ B(n, p), X_2 ~ B(m, p) 且相互独立,那么随机变量 X_1 + X_2 ~ B(n + m, p)

证明:

从二项分布定义的角度考虑,对于随机事件 AX_1 表示在 n 次独立试验中事件 A 发生的次数,X_2 表示在 m 次独立试验中事件 A 发生的次数,所以随机变量 X_1 + X_2 就表示在 n + m 次试验中事件 A 发生的次数。

下面通过计算对命题进行证明:

 P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)

 = \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) p^i (1 - p)^{n-i} \left(\begin{array}{c}m \\ k-i\end{array}\right) p^{k-i} (1-p)^{m - k + i}

 =  p^k (1-p)^{n + m-k} \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) \left(\begin{array}{c}m \\ k-i\end{array}\right)

 = \left(\begin{array}{c}n+m \\ k \end{array}\right) p^k (1-p)^{n + m-k}

这就证明了 X_1 + X_2 ~ B(n + m, p),结论可以推广到 n 个独立的二项分布随机变量的情况:若相互独立的随机变量 X_i ~ B(n_i, p), i = 1, 2, \dots, n,则 \sum_{i=1}^n X_i ~ B(\sum_{i=1}^n n_i, p)

设随机变量 X ~ B(n, p),则分布列 P_X(k) 在 [0, k^*] 区间内单调非减,在 [k^*, n] 区间内单调非增,其中 k^* = \lfloor (n+1) p \rfloor

证明:

设 k = 1, 2, \dots, n,则分布列的比值为:

 f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ (n-k+1) p }{ k(1-p) }

可以看出,f(k) 是 k 的单调递减函数,当 f(k) = 1 时可得:

 k = (n+1)p \implies k^* = \lfloor (n+1) p \rfloor

这就证明了二项分布的分布列在 \lfloor (n+1) p \rfloor 处取的最大值,特别的:

当 p \le \frac{1}{n+1} 时,即事件发生的概率特别小时,P_X(k) 在 [0, n] 上都是单调非增的;

当 p \ge \frac{n}{n+1} 时,即事件发生的概率特别大时,P_X(k) 在 [0, n] 上都是单调非减的;

四、二项分布的分布函数

设随机变量 X ~ B(n, p),则分布函数 F_X(p) 是 p 的单调递减函数,且有:

 F_X(p) = f(p) = \frac{ n! }{ k! (n-k-1)! } \int_0^{1-p} t^{n-k-1}(1-t)^k dt, 0 \le k < n

证明:

 F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) p^i (1-p)^{n-i}

 \implies \frac{d}{dp} F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) (i p^{i - 1} (1-p)^{n-i} - (n-i) p^i (1-p)^{n-i-1})

 \implies \frac{d}{dp} F_X(p) = - (n-k) \left(\begin{array}{c} n \\ k \end{array}\right) p^k (1-p)^{n-k-1}

 \implies \frac{d}{dp} F_X(p) =  \frac{d}{dp} f(p)

 \implies F_X(p) = f(p) + CC 为常数

 F_X(0) = f(0) = 1 \implies C = 0

这就证明了 F_X(p) = f(p),且 F_X(p) 是 p 的单调递减函数。

五、泊松分布的可加性和极值

设随机变量 X_1 ~ P(\lambda_1), X_2 ~ P(\lambda_2),且相互独立,那么随机变量 X_1 + X_2 ~ P(\lambda_1 + \lambda_2)

证明:

从泊松分布的定义进行考虑,X_1 表示在一段时间内事件 A_1 发生的次数,X_2 表示在一段时间内事件 A_2 发生的次数,那么 X_1  + X_2就表示在一段时间内事件 A_1 + A_2 发生的次数,所以 X_1 + X_2 ~ P(\lambda_1 + \lambda_2)

下面通过计算进行证明:

 P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)

 = \frac{ e^{-(\lambda_1 + \lambda_2)} }{ k! } \sum_{i=0}^k \left(\begin{array}{c} k \\ i \end{array}\right) \lambda_1^i \lambda_2^{k - i}

 = e^{-(\lambda_1 + \lambda_2)} \frac{ (\lambda_1 + \lambda_2)^k }{ k! }

这就证明了 X_1 + X_2 ~ P(\lambda_1 + \lambda_2),结论可以推广到 n 个独立的泊松分布随机变量的情况:若相互独立的随机变量 X_i ~ P(\lambda_i), i = 1,2,\dots,n,则 \sum_{i=1}^n X_i ~ P(\sum_{i=1}^n \lambda_i)

设随机变量 X ~ P(\lambda),则分布列 P_X(k) 在 [0, k^*] 区间内单调非减,在 [k^*, + \infty] 区间内单调非增,其中 k^* = \lfloor \lambda \rfloor

证明:

设 k = 1, 2, \dots,则分布列的比值为:

 f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ \lambda }{ k }

可以看出,f(k) 是 k 的单调递减函数,当 f(k) = 1 时可得:

 k = \lambda \implies k^* = \lfloor \lambda \rfloor

这就证明了泊松分布的分布列在 k^* 处取的最大值,特别的:

当 \lambda \le 1 时,即单位时间内事件发生的平均次数特别小时,P_X(k) 在 [0, +\infty] 上都是单调非增的;

当 \lambda > 1 时,P_X(k) 先增大后减小,并在 k^* 处达到最大值;

六、泊松分布的分布函数

设随机变量 X ~ P(\lambda),则分布函数 F_X(\lambda)\lambda 的单调递减函数,且有:

 F_X(\lambda) = f(\lambda) = \frac{1}{k!} \int_\lambda^{\infty} t^k e^{-t} dt, k \ge 0

证明:

 F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} \frac{ \lambda^i }{ i! }

 \implies \frac{d}{d\lambda} F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} ( \frac{ i \lambda^{i-1} }{ i! } - \frac{\lambda^i}{i!} )

 \implies \frac{d}{d\lambda} F_X(\lambda) = - e^{-\lambda} \frac{\lambda^k}{k!} = \frac{d}{d\lambda} f(\lambda)

 \implies F_X(\lambda) = f(\lambda) + CC 为常数

 F_X(0) = f(0) = 1 \implies C=0

这就证明了 F_X(\lambda) = f(\lambda),且 F_X(\lambda) 是 \lambda 的单调递减函数。

相关文章

  • 泊松分布

    泊松分布条件泊松分布条件.PNG 二项分布的近似 二项分布 n 较大,p 较小的时候可以用泊松分布来近似,减小计算...

  • 使用泊松分布判定chipseq的蛋白结合位点

    二项分布和泊松分布都描述的是事件成功次数的分布,泊松分布是二项分布的极限分布,其适用条件是n很大,p很小的情况。生...

  • 泊松分布

    泊松分布由二项分布推导而来, 当二项分布 , 时, 便得出泊松分布的公式:其中: 单位时间内, 事件发生的次数, ...

  • 金融中的概率论(弱大数定律和中心极限定理)

    泊松分布:将二项分布的时间分为无穷多个间隔的组成,则二项分布转为泊松分布 MIT课程 (直接看连接中的内容) 分析...

  • 应用数学

    时间序列分析 马尔可夫过程 概率论 正态分布 二项分布-百度百科 二项分布-统计之都 泊松分布 泊松分布的现实意义...

  • 泊松(Poisson)分布

    知乎:泊松分布 (Poisson Distributions) 的推导&二项分布、泊松分布到底该如何近似计算?阮一...

  • 数理统计拾遗

    两点分布取n此是二项分布,二项分布n->∞(取极限)是泊松分布

  • 【泊松分布】

    从二项分布到泊松分布 二项分布概率公式: 泊松分布需要做以下假定: 一个事件在一段时间或空间内发生的平均次数或数学...

  • 如何在Python中实现五类强大的概率分布

    五类概率分布 二项分布(Binomial Distribution) 泊松分布(Poisson Distribut...

  • 分布

    伯努利分布 二项分布 泊松分布 参考https://www.zhihu.com/question/26441147

网友评论

    本文标题:二项分布和泊松分布

    本文链接:https://www.haomeiwen.com/subject/mqjqcktx.html