一、基本概念
1. 随机变量
随机变量是试验结果的实值函数。
举例来说,掷一枚质地均匀的骰子,可能出现的结果有1,2,3,4,5,6。那么可以定义随机变量X=出现的点数。
或者,调查一个地区居民的年收入,可能出现的结果是任意正数。那么可以定义随机变量X=随机抽取一个人的年收入。
根据取值范围,可以分为离散型随机变量和连续型随机变量。
2.古典概率
设一个试验有N个等可能性的结果,而事件A包含了M个结果,那么事件E的概率,记为P(A)定义为:p(A) =M/N;
因为每个等可能基本事件概率为1/N,因此M个自然就是M/N。
3.条件概率
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”。

4.离散变量
如果随机变量的取值是有限的或可数无限的,称为离散型随机变量。
- 有限:
取值可以列举出来,如掷骰子的结果只有6种。 - 无限但可数:
取值跟自然数是一一对应的,如一个地区的人口数,理论上总是能够数得尽。
5.连续变量
如果随机变量的取值在是无穷的,且不能无遗漏的排列出来,称为连续型随机变量。
如灯泡的寿命,从0到正无穷(理论上)都有可能。
6.期望值
二、离散变量概率分布
1. 伯努利分布(0-1分布)
0-1分布又名两点分布,或叫伯努利分布。
其中 k=0,1。
伯努利分布未必一定是 0-1 分布,也可能是 a-b 分布,只需满足相互独立、只取两个值的随机变量通常称为伯努利(Bernoulli)随机变量。
2. 二项分布(n 重伯努利分布)
二项分布有以下性质:
- 一次试验有且仅有两种可能结果:“成功”和“失败”,两个结果是随机决定且互斥的。
- 每次试验中,成功的概率是P,失败的概率是1-P,并且成功和失败的概率是常数或近似于不变。
- 各次试验之间相互独立,每次试验结果不受其它各次试验结果的影响。
二项分布 记为k~B(n,p)。
伯努利分布是二项分布在n=1时的特例。
二项分布的均值和方差分别为np和npq。
二项分布的另一个性质是其分布形状的变化规律。从二项分布概率质量函数P(x)可知,概率分布只与试验次数n和成功概率p有关,其分布形状的变化规律为: - "成功"概率p越接近0.5(也即"成功"概率与"失败"概率越接近),二项分布将越对称。保持二项分布试验的次数n不变,随着成功概率p越接近0.5,二项分布逐渐对称,且近似于均值为np、方差为npq的正态分布。(见下图的第一排3个子图)。
-
对于任意"成功"概率p,无论其距离0.5有多远,随着试验次数n的增加,二项分布与均值为np、方差为npq的正态分布越来越接近。(见下图的第二排3个子图)。
以上两个二项分布形状变化规律,可明显由上图观察出来。图中的横轴代表试验"成功"的次数;纵轴代表次数对应的概率;红线是均值为np、方差为npq的正态分布曲线。
3. 泊松分布
泊松概率分布是考虑在连续时间和空间单位上发生的随机事件的概率。
通俗解释:基于过去的经验,预测该随机事件在新的同样长的时间或同样大的空间中发生N次的概率。
泊松分布经常用于商业中的库存控制。诸如,一家海鲜餐厅过去一个月顾客平均订购7只龙虾,如果该餐厅希望今后能有95%的把握满足顾客需求,需要储存龙虾的数量。
三、连续变量概率分布
1. 均匀分布
若连续型随机变量X具有概率密度:

分布函数:

2. 正态分布
连续随机变量X的概率密度为:


图像特点:
(1)集中性:正态曲线的高峰位于正中央,即均数所在的位置。
(2)对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
(3)均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
采用正态分布在很多应用中都是一个明智的选择。当我们缺乏关于某个数据上分布的先验知识而不知道该怎么选择形式时,正态分布时默认的比较好的分布。而我们现实中的很多分布都是接近正态分布的,在具有相同方差的所有可能的概率分布中,正态分布在实数上具有很大的不确定性,可以认为正态分布是对模型加入的先验知识量最少的分布。
3. 指数分布
连续随机变量X的概率密度为:
其中λ>0,为常数,则称X服从参数为λ的指数分布。在深度学习中,我们经常会需要一个x=0点处取得边界点的分布,而指数分布就可以达到这一目的。





如何确定是指数分布:画出取对数后的互补累积分布函数(1-CDF(x)),如果数据服从指数分布,则是指数分布。
4. 偏态分布
频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。
偏态分布是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。
如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布。
当偏度系数等于0时,称之为对称分布;当偏度系数小于0时,为之为左偏分布,长尾拖在左边;当偏度系数大于0时,称之为右偏分布,长尾拖在右边。

构建模型时为什么要尽量将偏态数据转换为正态分布数据?
数据整体服从正态分布,那样本均值和方差则相互独立。正态分布具有很多好的性质,很多模型假设数据服从正态分布。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。总之, ML中很多model都假设数据或参数服从正态分布。
如果不是正态分布怎么办?
数据右偏的话可以对所有数据取对数、取平方根等,它的原理是因为这样的变换的导数是逐渐减小的,也就是说它的增速逐渐减缓,所以就可以把大的数据向左移,使数据接近正态分布。
如果左偏的话可以取相反数转化为右偏的情况。
网友评论