美文网首页
2019-10-20 n份数据同概率被选中(蓄水池抽样)

2019-10-20 n份数据同概率被选中(蓄水池抽样)

作者: 路人乙yh | 来源:发表于2019-10-20 16:30 被阅读0次

1.等概率选择 1 个

一开始选择第一个数据作为候选数据,以概率为1/2拿第二个数据替换当前候选,以1/3拿第三个数据替换当前候选,依次类推。

这样第 m 个数据为最终选中数据的概率 = 第m个数据被选中 * 第 m+1、m+2 ...n个数据不被选择

p = \frac{1}{m} *(\frac{m}{m+1} *\frac{m+1}{m+2} * ...* \frac{n-1}{n})

2.等概率选择 k 个

一开始选择前k个数据作为候选数据,以\frac{k}{m}的概率选择后面的数据(也就是从k+1开始的数据)。

这样第m个数据被选择的概率
= 第m个数据被选中 * (后面的数据没有被选中+后面的数据被选中了但是没有替换掉第m个数据)
= 第m个数据被选中 * {(第m+1个没中+第m+1中了*没有替换掉第m个)*(第m+2个没中+第m+2中了*没有替换掉第m个* ... *(第n个没中+第n中了*没有替换掉第m个)}
公式表达:
p(m) = \frac{k}{m}*\{(\frac{m+1-k}{m+1}+\frac{k}{m+1}*\frac{k-1}{k}) *(\frac{m+2-k}{m+2}+\frac{k}{m+2}*\frac{k-1}{k}) * ... * (\frac{n-k}{n}+\frac{k}{n}*\frac{k-1}{k})\} \\ =\frac{k}{m}*\frac{m}{n} \\ =\frac{k}{n}

参考文章:https://blog.csdn.net/jingshuiliushen_zj/article/details/83584567

相关文章

  • 2019-10-20 n份数据同概率被选中(蓄水池抽样)

    1.等概率选择 1 个 一开始选择第一个数据作为候选数据,以概率为1/2拿第二个数据替换当前候选,以1/3拿第三个...

  • 概率 - 蓄水池抽样

    参考 蓄水池抽样——《编程珠玑》读书笔记 问题描述 如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是...

  • 蓄水池抽样-reservoir

    蓄水池抽样是在O(n)复杂度下随机从海量动态的数据流中取m个数据的一种算法,常在机器学习中使用。 以下是对蓄水池抽...

  • 统计

    抽样采集数据:概率抽样和非概率抽样概率抽样也称为随机抽样,是指遵守随机原则进行的抽样,总体中每个单位都有一定的机会...

  • 蓄水池抽样算法(Reservoir Sampling)

    蓄水池抽样算法(Reservoir Sampling) 许多年以后,当听说蓄水池抽样算法时,邱simple将会想起...

  • 2019-08-04丨《市场调查与预测》丨抽样方法

    随机抽样 随机抽样要求严格遵循概率原则,每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时...

  • R语言统计抽样

    1 简单随机抽样 简单随机抽样是指从数据总体中任意抽取指定数量的数据作为样本,其中每个可能被抽取中的样本概率相...

  • 确定抽样方法和收集资料

    抽样方法 概率抽样 单纯随机抽样、系统抽样、分层抽样、整群抽样。 非概率抽样 便利抽样(用的比较多)、主观抽样、配...

  • 常用统计量 的抽样分配

    样本比例 的抽样概率分布 样本方差 的抽样概率分布

  • 蓄水池抽样

    蓄水池抽样,首先有它的应用和它的神奇之处,其次这个也是机器学习领域面试的热门试题。 问题一(引子):流式数据(St...

网友评论

      本文标题:2019-10-20 n份数据同概率被选中(蓄水池抽样)

      本文链接:https://www.haomeiwen.com/subject/prkamctx.html