统计学（一）

作者: 吹洞箫饮酒杏花下 | 来源:发表于2017-03-16 21:06 被阅读0次

外国统计学优秀著作译丛统计学
《统计学习方法》读书笔记（一）
大数据统计基础前四周笔记
统计学2 集中趋势总体样本方差
统计学-复习
女士品茶读书笔记 - 草稿
女士品茶读书笔记
统计学学习方法推荐
《统计学习方法-第2版》第1章概论
125、描述统计学基础

第四章 数据的概括性度量（应用中：对样本数据，计算某些统计值，来粗略的观察样本的分布情况。）

1. 样本：数据有不同类型，进行分析时采用不同的统计方法。数据类型有两种：取值是否有限，是否有序。

2. 目标：主要观察的是样本的集中趋势、离散程度、偏态与峰态。

集中趋势 （反映一组数据中心点的位置）：

1. 有限取值，众数。前提：数据量够大。特点：不受极端值影响。可能不唯一。

2. 有序，中位数、分位数。优点：不受极端值影响。数据偏斜程度较大时，适合用中位数。

3. 连续数值型，平均数、加权平均数、几何平均数（累乘，开方）。平均数是误差相互抵消后的必然结果。

当数据本身是比率形式时，适合用几何平均数。比如计算平均增长率。

易受异常值影响。对于偏态数据，不适合用作分析指标。

离散程度（各变量的值远离中心的程度）

1. 分类数据：异众比率。非众数值的占比。

2. 有序数据：四分位差。上下四分位点之差。

3. 数值型数据：方差、标准差。标准差是有量纲的。数值大小与原变量值自身大小相关。

4. 相对离散程度：变异系数。标准差/均值。

偏态与峰态 （是否对称、偏斜程度、扁平程度）

1. 偏态系数：excel 中 SKEW() 函数

2. 峰态系数：

第五章概率与概率分布（有限值，无限值）

1. 二项分布 n次重复独立实验，每次实验只有两个结果。X ~ B（n，p） E（X）= np D（X）=npq

2. 泊松分布指定时间段、指定面积、指定体积之内，某一事件出现次数的分布。

3. 正态分布

第六章统计量及其抽样分布

统计量：样本的函数。用来反映数据的特征。

分布：(目的都在于如何逼近最真实的分布，进而计算统计量，分析数据，参数估计，再进一步进行应用。)

1. 抽样分布 :

2. 渐进分布 : 当样本量趋近于无穷大时，则抽样分布无限接近真实分布。

3. 随机模拟得到的近似分布 : 精确分布与渐进分布都很难得到。N次，从总体重随机抽取容量为n的样本。得到n个统计量T，则得到统计量T的分布。k折、 mini-batch。

4. 抽样方法：分层抽样，不均衡时如何抽样，重复抽样。

重要分布

1. 卡方分布独立同正态分布，随机变量，平方之和。

2. t 分布

3. F分布

中心极限定理：设从均值为μ、方差为σ^2;（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

补充：

1. 抽样方法：过采样（对数据少的类别，重复采样。改变数据分布消除不平衡，可能导致过拟合。）、欠采样（对数据多的类别，随机抽样。可能导致信息损失。）、分层采样（将抽样单位按某种特征或者某种规则划分为不同的层，然后从不同的层中独立、随机的抽取样本。将个层的样本结合起来，对总体的目标量估计）。权重调整（加大数据量小的类别的样本的权重。）

2. k折交叉验证、

2. LR：误差e，是独立同分布的，服从均值为0，方差为定值的高斯分布。从这个角度，可以发现极大似然和均方误差有相同的含义。

3. 卡方检验：是假设检验问题。可用来检验某两个分类变量是否相互独立。

假设：观察频数与期望频数没有差别。

认为：当n比较大时，χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。

检验：计算统计量（卡方值），卡方值大，则拒绝假设。卡方值小，则接受假设。