这里要谈到的就是自然取样的问题,是通过更新没有被人为,固定边界频率的事件的频率,而连续获得信息的,这种取样叫自然取样,就是看病过程中,大夫看病过程中,他看一个病人又看一个病人,一个一个病人,这种情况就是它的自然取样。
我们在讲到启发式策略的时候,其中有一个就代表性取样的问题,也是一个自然取样的特殊例子。
我们下面来看自然取样,和严格控制实验中的差别。
在严格控制的实验室研究中,边际概率都是事先固定的,这样我们要研究100个患病的人,我们选取的控制组就是100个没有患病的人,这是我们现在依然在遵循的一个规则。
我们做实验研究中,严格控制的实验研究中,边际的频率都是严格的先期固定下来的,这就不属于自然取样。
刚才讲的都是概率格式的问题,现在我们来看看所谓的频率格式是什么样的。
这个跟我们现实生活中非常吻合,这只是讲了一个例子,我们可以很容易想象出,这么一种情境。
有一个上了年纪,经验非常丰富的医生,处在一个文盲社会中,没有书籍,也没有统计调查,只能依赖他的经验来看病。
他的患者中有人染了一种,以前不为人所知的恶性疾病,但他发现有一种症状,可以表征这种疾病,但它不是很确定,他已经见过了1000个患者,1000个患者中有10个人,患有这种疾病,而在这10个人中有8个都有这种症状,另外990个人没有患这种病,但这990个人中,有95个人表现了这种症状。
现在又来了一个患者,他有这种症状,他患病的可能性有多大?
感觉比刚才还难,刚才还可以用贝叶斯公式套一套,现在他该怎么算了?
我们来看一下,身处文盲社会的医生,不需要袖珍计算器,也不需要考虑基础率,他需要的只是既有症状又患病的案例个数,和具有症状的案例个数。
前面那个个数是8,有症状,又有又确诊为患了病的是8,有症状这种个数在这1000人,患症的总就是有这种数8加上没有患病,但有症状的95个人,它只需要这三个数据,其实说起来是需要两个数据,他怎么计算?
得到的结果是相同完全相同的。
8除上(8+95),整数运算不超过两位数的,整数运算非常简单,明白这个意思吗?
我们来比较一下这两个方程式,差异是很明显的。
我们来分析一下,用频率格式来代替,概念格式是到底有什么样的优越性?
首先是计算简化了,计算需要这种简化,间接的方式,当信息以频率格式而不是以概率格式进行编码时,贝叶斯运算规则的计算变得非常的简单,方程式是2,比方式样,需要的完成的运算要更少,而且数一个是自然数,另外一个是小数或者百分数。
自然数的运算会更简洁一些。
第二个,是我们注意的需要,我们的负担心理负荷的需要,用频率格式代替概率格式进行贝叶斯推理,可以减轻注意的负担,我们只需要注意两种信息,d和h这两种信息就足够了,我们不需要处理所有的数据,只要有这两条信息就足够了,这两个信息就是击中和误报,他有症状也患了病,就是击中了,他有这个症状,但是没有患病,是误报,只需要这两个信息就足够了。
但这是频率,不是击中率和误报率。







网友评论