第四章 数据的概括性度量(应用中:对样本数据,计算某些统计值,来粗略的观察样本的分布情况。)
1. 样本:数据有不同类型,进行分析时采用不同的统计方法。数据类型有两种:取值是否有限,是否有序。
2. 目标:主要观察的是样本的集中趋势、离散程度、偏态与峰态。
集中趋势 (反映一组数据中心点的位置):
1. 有限取值,众数。 前提:数据量够大。 特点: 不受极端值影响。 可能不唯一。
2. 有序,中位数、分位数。 优点: 不受极端值影响。数据偏斜程度较大时,适合用中位数。
3. 连续数值型, 平均数、加权平均数、几何平均数(累乘,开方)。 平均数是误差相互抵消后的必然结果。
当数据本身是比率形式时,适合用几何平均数。比如计算平均增长率。
易受异常值影响。对于偏态数据,不适合用作分析指标。
离散程度(各变量的值远离中心的程度)
1. 分类数据: 异众比率。 非众数值的占比。
2. 有序数据: 四分位差。 上下四分位点之差。
3. 数值型数据:方差、标准差。 标准差是有量纲的。数值大小与原变量值自身大小相关。
4. 相对离散程度: 变异系数。标准差/均值。
偏态与峰态 (是否对称、偏斜程度、扁平程度)
1. 偏态系数:excel 中 SKEW() 函数
2. 峰态系数:
第五章 概率与概率分布(有限值,无限值)
1. 二项分布 n次重复独立实验,每次实验只有两个结果。X ~ B(n,p) E(X)= np D(X)=npq
2. 泊松分布 指定时间段、指定面积、指定体积之内, 某一事件出现次数的分布。
3. 正态分布
第六章 统计量及其抽样分布
统计量:样本的函数。用来反映数据的特征。
分布:(目的都在于如何逼近最真实的分布,进而计算统计量,分析数据,参数估计,再进一步进行应用。)
1. 抽样分布 :
2. 渐进分布 : 当样本量趋近于无穷大时,则抽样分布无限接近真实分布。
3. 随机模拟得到的近似分布 : 精确分布与渐进分布都很难得到。N次,从总体重随机抽取容量为n的样本。得到n个统计量T,则得到统计量T的分布。k折、 mini-batch。
4. 抽样方法: 分层抽样,不均衡时如何抽样,重复抽样。
重要分布
1. 卡方分布 独立同正态分布,随机变量,平方之和。
2. t 分布
3. F分布
中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。
补充:
1. 抽样方法 :过采样(对数据少的类别,重复采样。改变数据分布消除不平衡,可能导致过拟合。)、欠采样(对数据多的类别,随机抽样。可能导致信息损失。)、分层采样(将抽样单位按某种特征或者某种规则划分为不同的层,然后从不同的层中独立、随机的抽取样本。将个层的样本结合起来,对总体的目标量估计)。权重调整(加大数据量小的类别的样本的权重。)
2. k折交叉验证、
2. LR:误差e,是独立同分布的,服从均值为0,方差为定值的高斯分布。从这个角度,可以发现极大似然和均方误差有相同的含义。
3. 卡方检验 : 是假设检验问题。可用来检验某两个分类变量是否相互独立。
假设:观察频数与期望频数没有差别。
认为: 当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。
检验: 计算统计量(卡方值),卡方值大,则拒绝假设。卡方值小,则接受假设。
网友评论