美文网首页
统计学(一)

统计学(一)

作者: 吹洞箫饮酒杏花下 | 来源:发表于2017-03-16 21:06 被阅读0次

第四章  数据的概括性度量(应用中:对样本数据,计算某些统计值,来粗略的观察样本的分布情况。)

   1. 样本:数据有不同类型,进行分析时采用不同的统计方法。数据类型有两种:取值是否有限,是否有序。

    2. 目标:主要观察的是样本的集中趋势、离散程度、偏态与峰态。

   集中趋势  (反映一组数据中心点的位置):

           1. 有限取值,众数。      前提:数据量够大。  特点: 不受极端值影响。 可能不唯一。

           2. 有序,中位数、分位数。  优点: 不受极端值影响。数据偏斜程度较大时,适合用中位数。

           3. 连续数值型, 平均数、加权平均数、几何平均数(累乘,开方)。 平均数是误差相互抵消后的必然结果。  

                当数据本身是比率形式时,适合用几何平均数。比如计算平均增长率。

                 易受异常值影响。对于偏态数据,不适合用作分析指标。

离散程度(各变量的值远离中心的程度)

            1. 分类数据: 异众比率。    非众数值的占比。

             2. 有序数据:  四分位差。  上下四分位点之差。

             3.  数值型数据:方差、标准差。 标准差是有量纲的。数值大小与原变量值自身大小相关。

             4.   相对离散程度:  变异系数。标准差/均值。 

偏态与峰态 (是否对称、偏斜程度、扁平程度)

              1. 偏态系数:excel   中  SKEW() 函数

               2. 峰态系数: 

第五章 概率与概率分布(有限值,无限值)

1. 二项分布  n次重复独立实验,每次实验只有两个结果。X ~ B(n,p) E(X)= np  D(X)=npq

2. 泊松分布  指定时间段、指定面积、指定体积之内, 某一事件出现次数的分布。

3. 正态分布  

第六章    统计量及其抽样分布

统计量:样本的函数。用来反映数据的特征。

分布:(目的都在于如何逼近最真实的分布,进而计算统计量,分析数据,参数估计,再进一步进行应用。)

          1. 抽样分布 : 

           2. 渐进分布 : 当样本量趋近于无穷大时,则抽样分布无限接近真实分布。

           3. 随机模拟得到的近似分布 : 精确分布与渐进分布都很难得到。N次,从总体重随机抽取容量为n的样本。得到n个统计量T,则得到统计量T的分布。k折、 mini-batch。

           4. 抽样方法: 分层抽样,不均衡时如何抽样,重复抽样。

重要分布

           1. 卡方分布  独立同正态分布,随机变量,平方之和。

            2. t 分布    

            3. F分布

中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。

补充: 

        1. 抽样方法  :过采样(对数据少的类别,重复采样。改变数据分布消除不平衡,可能导致过拟合。)、欠采样(对数据多的类别,随机抽样。可能导致信息损失。)、分层采样(将抽样单位按某种特征或者某种规则划分为不同的层,然后从不同的层中独立、随机的抽取样本。将个层的样本结合起来,对总体的目标量估计)。权重调整(加大数据量小的类别的样本的权重。)

         2. k折交叉验证、 

         2. LR:误差e,是独立同分布的,服从均值为0,方差为定值的高斯分布。从这个角度,可以发现极大似然和均方误差有相同的含义。

         3. 卡方检验 : 是假设检验问题。可用来检验某两个分类变量是否相互独立。

              假设:观察频数与期望频数没有差别。

               认为: 当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布

 检验: 计算统计量(卡方值),卡方值大,则拒绝假设。卡方值小,则接受假设。

相关文章

  • 外国统计学优秀著作译丛 统计学

    01外国统计学优秀著作译丛 统计学.pdf: 在线阅读: 01外国统计学优秀著作译丛 统计学.pdf:

  • 《统计学习方法》读书笔记(一)

    第一章 统计学习方法概论 一、统计学习 1.1.统计学习的特点 (1)统计学习以计算机与网络为平台,建立在它们...

  • 大数据统计基础前四周笔记

    该笔记从炼数成金的课程中整理 第一周 概率论与统计学 统计学可以分为:*** 描述统计学 不推断统计学 *** 描...

  • 统计学2 集中趋势 总体样本 方差

    1、统计学分类statistic 1)描述统计学descriptive 2)推论统计学inferential 对样...

  • 统计学-复习

    统计学 简介 统计学是一门独立的学科。 统计学研究的是随机现象,而数学研究的是确定性的规律。 统计学的应用性很强,...

  • 女士品茶读书笔记 - 草稿

    女士品茶是一本统计学入门读物。它描述了统计学研究的历史,统计学思想和方法如何进入科学工作思想。统计学思想如何改变人...

  • 女士品茶读书笔记

    女士品茶是一本统计学入门读物。它描述了统计学研究的历史,统计学思想和方法如何进入科学工作思想。统计学思想如何改变人...

  • 统计学学习方法推荐

    学习目标: 统计学基础知识 统计(假设)检验相关 用R语言进行统计学相关分析计算 统计学基础知识: 统计学入门路线...

  • 《统计学习方法-第2版》第1章 概论

    1.1 统计学习 统计学习的特点统计学习(statistical learning):是关于计算机基于数据构建概率...

  • 125、描述统计学基础

    学习数据分析最重要的基础之一是描述统计学,我推荐《深入浅出统计学》这本书,那什么是描述统计学呢? 描述统计学就是将...

网友评论

      本文标题:统计学(一)

      本文链接:https://www.haomeiwen.com/subject/slfsnttx.html