在我们现代的社会中,我们的任何推理和论证,离不开一个词:数据。
正如我们一切都要拿证据说话,我们都要拿出数据说话。统计学就是研究数据的学科。
首先,要通过一系列的手段得到数据,得到后用简单的方法对数据进行分析和解读。最后利用概率进行思考,可以帮我们把事实和无关紧要的干扰信息分离。而最终的结果是,我们要学会利用手中的少量数据,对一个较大的总体做出结论。
统计学的本质:让你学会用手中的少量数据,对重大问题做出明智的决策。
用数据辨别真伪:我们在现实生活中,比较喜欢用直觉来做判断,事实上,我们的直觉是可能存在欺骗和隐瞒的。但是,数据则不同了,比如我们的直觉感觉受教育多的民众,比受教育少的民众,赚钱要多。如果我们的数据也可以证明这一点的话,说明我们的感觉是正确的。
统计学的关键词:总体和样本。
事实上,当我们想要研究某一个现象时,我们并不能拿到这个现象的所有数据。
比如:我们想知道住在高压电旁边的儿童是否比其他儿童更容易罹患白血病。
可能我们没办法去找到所有住在高压电旁边,并且罹患白血病的儿童。
这个时候,我们就要用到抽样。抽样调查是很重要的一种观测研究。他们只研究调查对象当中的一部分人,而这一部分人就叫做样本,而所有的调查对象就是总体。
在绝大多数时候,我们都只能拿到样本,而非总体。
既然是抽样,那么在数据上就会丧失一定的真实性。甚至可以刻意的通过某些手段取得可能偏向某种结果的样本。
这种样本是有偏的,也就是不好的样本。
例子:每个星期卖几箱橘子给你的公司,你从每箱当中抽几个橘子检查,以评定橘子的品质。
最容易的做法是从摆在每箱最上面的橘子中抽取,但这些橘子可能无法代表整箱的情况,因为摆在底下爱的橘子较易在运送过程中损伤。假如我不够老实,也许会把烂橘子摆在底下,上面摆好些橘子让你检查。如果你从上面抽样,所得结果会是“有偏的”:样本橘子的品质总是优于他们所应代表的整个总体。
如果统计问题的设计使得结果总是往某个方向偏,我们就称这个设计是有偏的。
参数是描述总体的数字。参数是一个固定数字,但我们实际上无法知道参数的值。
统计量是描述样本的数字。一旦取了样本,统计量的值就知道了,但是换个不同的样本,统计量的值就可能改变。我们常用统计量来估计未知的参数。
随机样本的两个有点优点可以消除偏差。第一大优点是,随机选择可以消除“偏心”,也就是说随机抽样把偏差给消灭了。第二个优点是,如果我们从同一个总体,重复抽取许多大小一样的随机样本,所有样本的变异状况就会遵循某种可预测的形态。从这个可预测的形态可以得知,由较大样本所得结果的变异,会小于小样本结果的变异。
偏差是当我们取很多样本时,统计量一直朝同一个方向偏离总体的参数值。
变异性描述的是,当我们取很多样本时,统计量的值会离散到什么程度。变异性大,就代表不同样本的结果可能差别很大。一个好的抽样方法,应该要有小偏差以及小变异性。
置信叙述包含两个部分:误差界限及置信水平。误差界限告诉我们,样本统计量离总体参数多远。置信水平告诉我们,所有可能样本中有多少百分比满足这样的误差界限。
抽样误差是抽样这个动作所造成的误差。抽样误差使得样本结果和普查结果不同。
随机抽样误差是样本统计量和总体参数之间的差距,是在选区样本时因机遇造成的。置信叙述中的误差界限只包含随机抽样误差。
非抽样误差是和“从总体取样本”这个动作无关的误差。非抽样误差即使在人口普查中也可能出现。
观测研究是被动的数据搜集方式。我们只观察、记录或度量,但是不干扰。
反应变量是指用来度量研究结果的变量。
解释变量是我们认为可以解释或造成反应变量变化的变量。实验中所研究的个体,通常称为受试对象。
处理是任何加诸于受试对象的特定实验条件。若实验当中有数个解释变量,则处理就是指每个变量都设定一个特定值后的组合。
潜在变量是对研究中其他变量间的关系有重要影响,却并未被列为解释变数的变量。
当两个变量对反应变数的影响混在一起而无法区分时,我们称这两个变量是交叉的。交叉的变量可以是解释变量,也可以是潜在变量。
双盲实验,在双盲实验当中,不论是受试对象,还是会和受试对象有互动的人,都不知道哪位受试对象接受了哪种处理。
中位数M是一个分布的中间点,也就是一半观测值比它小,一半比它大的那个数。要找分布的中位数,步骤如下:
1、把所有观测值排顺序,由小到大。
2、若观测值个数N为奇数,中位数M就是排序后观测值最中间的一个。要找中位数的位置,只要从头数起,数到第(n+1)/2个位置即可。
3、若观测值个数N为偶数,中位数M就是排序后最中间的两个观测值的平均。要找中位数的位置,仍然是从头数到第(n+1)/2个位置即可。
平均数:
相关系数描述两个数量变量之间直线相关的方向和强度.相关系数通常用符号来表示.相关系数r的值,永远在-1和+1之间.r值若接近0,代表很弱的直线相关.当r由0向-1或+1趋近时,相关系数的轻度会逐次增加.r值若接近-1或+1,表示点的分布很接近一直线.而r=-1或+1,表示点的分布很接近一直线.而r=-1或r=1这两个极端的情况,只有散布图中的点全部落在同一条直线上时才会发生。
回归直线就是对两个变量间的关系做概述,但条件是:其中一个变量可以用来解释或预测另一个变量.也就是说,回归描述的是一个解释变量和一个反应变量之间的相关关系.
CPI的概念是,它是美国消费者买的所有东西得到价格指数。
指数度量的是,以变量在某个基期的值为标准,该变量相对于基期值得比值大小。
概率模型:
分布
统计的最终结果,用样本的事实,当做总体真实信息的估计。
个体就是一组数据描绘的对象。个体也许是指人,但也可以是动物或其他东西。
变量是指一个个体的任意“特征”,同一个变量对于不同个体,可能有不同的值。














网友评论