美文网首页
大数据中的统计学基础——Day3

大数据中的统计学基础——Day3

作者: XaviSong | 来源:发表于2020-08-21 14:08 被阅读0次

本章内容

  1. 条件概率
  2. 乘法定理
  3. 全概率公式
  4. 贝叶斯公式、先验与后验
  5. 相互独立、互斥、对立(互逆)

一、条件概率

已知某个事件A发生的条件下,另一个事件B发生的概率称为条件概率,记为P(B|A)

引例:

甲乙两人各抛一颗骰子,点数大的赢。如果甲先抛骰子,得到点数4,那么乙获胜的概率是多少?

记A={甲得到点数为4},B={乙获胜} ,P(A)=1/6;P(AB)=2/36=1/18;P(B|A)2/6=1/3

看一下P(B|A)与P(A)、P(B)的关系:P(B|A)=P(AB)/P(A)

条件概率也是概率的一种,同样满足前一章所说的概率定义的条件与性质
举例:

某公司年终决定丼行抽奖活动,从全部员工中选取一名特等奖。公司人事架构如下:

(1)若被抽中的人是销售部的,问该员工是女性的概率?

(2)若被抽中的人是女生的,问该员工是销售部的概率是?

解题上来要设事件!!

解:设A={被抽中的是销售部的},B={被抽中的是女生}

(1)P(B|A)=P(AB)/P(A)=(10/100)/(30/100)=1/3

(2)P(A|B)=P(AB)/P(B)=(10/100)/(40/100)=1/4

著名的三门问题:到底换了的概率变大了没有

将3个门记为1,2,3号,假设参赛者先选择的是1号门。

记A={1号门是汽车};B={2号门 是汽车};C={3号门是汽车},则P(A)=P(B)=P(C)=1/3。原来的选择有1/3的机会获得 汽车。

假设主持人开启了2号门,这个事件记为D。那么参赛者坚持选择或是改变选择而赢得 汽车的概率又是多少?

从图中的第一列看出,当参赛者选择了1号门, 2号门被打开的概率P(D)=1.5/3;汽车在1号门 并且主持人打开了2号门的概率P(AD)=0.5/3 。

  1. 坚持选择:P(A|D)=P(AD)/P(D)=1/3
  2. 改变选择:P(CD)=1/3 P(C|D)=P(CD)/P(D)=2/3

所以,改变选择将有更大的几率获得汽车。

二、乘法定理

由条件概率的定义,很容易得到P(AB)=P(B|A)P(A),其中P(A)>0。这条公式很容易推广到P(ABC)=P(C|AB)P(B|A)P(A)=P(A|BC)P(B|C)P(C)

例1:设某光学仪器厂 制造的透镜,第一次落下时打破的概率为1/2,若 第一次落 下未打破,第二次落下打破的概率为7/10,若前两次落下未打破,第三次落下打破的概率为9/10.试求透镜落下三次而未打破的概率.

例2:某行业进行专业劳动技能考核,一个月安排一次 ,每人最多参加3次;某人第一次参加能通过的概率为60% ;如果第一次未通过就去参加第二次,这时能通过的概率为80% ;如果第二次再未通过,则去参加第三E次,此时能通过的概率为90%。求这人能通过考核的概率。

三、全概率公式

划分:
全概率公式:
举例:

例1: 假设在某时期内影响股票价格变化的因素只有银行存折利率的变化。经分析,该时期内利率下调的概率为60% ,利率不变的概率为40%。根据经验,在利率下调时某支股票上涨的概率为80% ,在利率不变时,这支股票上涨的概率为40%。求这支股票上涨的概率。

三、贝叶斯公式

引例:

病树的主人外出,委托邻居浇水,设已知如果不浇水,树死去的概率为0.8.若浇水则树死去的概率为0.15.有0.9的把握确定邻居会记得浇水.

(1)求主人回来树还活着的概率.

(2)若主任回来树还活着,求邻居忘了浇水的概率.

先验概率与后验概率:

例1:对以往数据分析结果 表明,当机器调整得良好时,产品的合格率为98% ,而当机器发生某种故障时,其合格率为55%.每天早上机器开动时,机器调整良好的概率为95%.试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?

这就是说,当生产出第一件产品是合格品时,此时机器调整良好的概率为0. 97.这里,概率0.95是由以往的数据分析得到的,叫做先验概率.而在得到信息(即生产出的第一件产品是合格品)之后再重新加以修正的概率(即0,97)叫做后验概率。有了后验概率我们就能对机器的情况有进一步的了解。

例2:根据以往 的临床记录,某种诊断癌症的试验具有如下的效果:若以A表示事件“试验反应为阳性”,以C表示事件“被诊断者患有癌症”,则有P(A|C)=0.95,P(A|C)=0.95.现在对自然人群进行普查,设被试验的人患有癌症的概率为0.005,即P(C)==0.005,试求P(C|A).

本题的结果表明,虽然P(A|C)=0.95,P(A|C)=0.95,这两个概率都比较高.但若将此试验用于普查,则有P(C|A)=0.087,亦即其正确性只有8. 7%(平均1000个具有阳性反应的人中大约只有87人确患有癌症).如果不注意到这一点,将会得出错误的诊断,这也说明,若将P(A|C)和P(C|A)混淆了会造成不良的后果.

公式比较:

乘法公式、全概率公式与贝叶斯公式

1 乘法公式是求“几个事件同时发生”的概率;

2 全概率公式是求“最后结果”的概率;

3 贝叶斯公式是已知“最后结果” ,求“某个事件”的概率.

先验概率与后验概率

1 P(Bj|A)是在事件A发生的条件下, 某个事件Bj发生的概率, 称为 “后验概率”;

2 Bayes公式又称为“后验概率公式”或“逆概公式”;

3 称P(Bj) 为“先验概率”.

五、相互独立、互斥、对立

P(B|A)=P(B), P(B|A)=P(B)表示事件A的发生与否对事件B发生的概率都没有影响,这时我们可以说A、B相互独立。

多个事件相互独立与多个事件两两独立不是一回事

相互独立事件:风马牛丌相及。两个事件没有一点关系。例如,A、B分别表示甲、乙 两人患感冒,丏甲乙两人的活动范围相距甚进,那么甲是否患感冒跟乙没什么关系, 所以可以认为A、B独立。

互斥事件:要么只有其中一个事件发生,要么两个事件都不发生。在某次抽奖活动中, 一等奖只有一个名额,A={甲中一等奖},B={乙中一等奖}。那么A、B互为互斥事件, 实际情况可能是甲中一等奖,可能是乙中一等奖,当然,更有可能甲乙都没中奖。

对立事件:两个只能活一个,不是你死就是我亡。跟互斥事件相比,对立事件必然会 有一个事件发生。例如在上述的抽奖活动中,C={甲没中一等奖},那么A与C是对立事件。

互斥事件不对立事件都不是相互独立事件!

相关文章

  • 大数据中的统计学基础——Day3

    本章内容 条件概率 乘法定理 全概率公式 贝叶斯公式、先验与后验 相互独立、互斥、对立(互逆) 一、条件概率 已知...

  • 统计

    自选课程-统计学可汗学院统计学 定义 统计学是在数据分析的基础上,研究测定、收集、整理、归纳和分析反映数据数据,以...

  • 读书感想-大数据的工具:R语言实战

    入门书籍。不是大数据入门书籍,而是R语言的入门书籍。 大数据的基础,还是统计学。没有统计学的基础,看这本书,就好像...

  • 如何快速掌握数据分析与数据挖掘?

    做数据分析最重要的还是本身的逻辑能力和是否有统计学的基础。 数据分析师需要什么技能: 数据分析技能、统计学基础、计...

  • 【小火杂谈】描述性统计的深入分析

    描述性统计是:报告数据、不做任何分析,不做任何猜测。 推断统计学:推断统计学建立到样本的基础上,作出推断。定量数据...

  • 聊一聊统计学和数据挖掘的区别(四)

    前几篇文章中我们都是从统计学的角度给大家讲解数据挖掘和统计学的区别所在,但是对于统计学来说,数据挖掘中的核心就是准...

  • 数据分析有哪些好书值得推荐?

    1、统计学书单 如果你打开招聘的职位要求,都会要求具有统计学的知识,这是因为统计学是数据分析、机器学习的基础知识,...

  • 数据挖掘 数据分析

    数据挖掘: 预备基础知识 : 概率论 、线性代数、信息论 、概率论、统计学 。 编程基础 : 数据库 、pytho...

  • 学数据分析要懂的统计学知识

    对于数据分析师来说,我们是必须学习统计学知识的,毕竟天天跟数据打交道,总不能连最基础的统计学知识都不会吧? ...

  • 125、描述统计学基础

    学习数据分析最重要的基础之一是描述统计学,我推荐《深入浅出统计学》这本书,那什么是描述统计学呢? 描述统计学就是将...

网友评论

      本文标题:大数据中的统计学基础——Day3

      本文链接:https://www.haomeiwen.com/subject/cbuujktx.html