1.数据分析与统计入门
数据分析:用基本的统计方法对收集来的数据进行分析,提取有用信息形成结论,加以详细描述总结的过程。
目的:帮助人们进行合理的判断,并采取合理的判断。
应用方面:会计、财务、市场营销、生产、经济、信息统计。
统计学:通过搜集、分析、表述和解释数据的科学,广泛用在商务和经济活动。
2.数据分析的基本应用
数据:为了描述和解释所搜集、分析汇总的事实和数字。 截面数据(类别数据) 时间数据
数据集:搜集的所有数据。
个体:具备所有特征的实体。
变量:感兴趣的特征。(1)分类变量。(2)数量变量
观测值:抽取部分个体观测所有变量。
数据可视化:数据视觉表现形式的科学。
数据源:谷歌趋势、百度趋势、谷歌数据库、公司内部数据、World factbook、data.gov、数据公司购买、爬网络。
数据分析实验准则:公平、客观、谨慎、中立。避免对分析结果有任何倾向性的统计分析工作。
3.图表分析方法初步
频数分布:表示互不重叠组数中,每一组项目的个数。
相对频数 = 频数 / N
一.条形图: 优点、缺点、使用场景
如何具体画条状图:
(1)确定互不重叠的组数。
(2)确定每组租宽。建议租宽相等。 近似组宽 = (最大数 - 最小数)/组数
(3)确定组限。 5-20组。 分组目的:用足够多的组数来显示数组的差异性,而不是有这么多的组却只包含很少的数据项。
(4)组限:让每个数据只属于一个组。
(5)组中值:组上下限之和的平均数。
复合条形图:对已汇总的多个条形图同时显示的一种图形显示方法。
结构条形图:一个长条被分解成不同颜色的矩形段。
二、直方图:
应用领域:连续数值
分布状态偏斜:对称、右偏、左偏(尾巴方向)、严重左偏、严重右偏。
饼状图:
三、打点图:横轴是数据的值域,每个数据值由位于横轴上的点表示。
应用领域:离散值。
作用:显示数据的细节,有利于分析两个不同类别数据的分布。
四、茎叶图:显示数据的等级排序和分布形态的图形显示。
把数据十位及十位以上数据从小到达从上到下依次排开。用横线隔开与个位数的间隙,依次对应在不同行写数据。
优点:(1)易于手动绘制。(2)显示实际数值
五、帕累托图(主次图):按照发生频率大小顺序绘制的直方图,表示有多少结果由已确认类型或范畴的原因造成。
帕累托图分析(贡献度分析):2/8定律。
六、散点图。
对两个变量数量间关系的图形描述。
七、趋势图。
显示相关性,近似程度的一条直线。
开口组:只有一个上组限或下组限的组。
交叉分组表:汇总两个变量数据的方法。
辛普森悖论(bei):从两个或多个单独的交叉分组表中得到的结论与一个综合的交叉分组数据得到的结论可能截然相反,依据综合和未综合数据得到的相反结论。(注意隐藏变量)
4.数值分析方法
总体参数:
样本统计量:
点估计量:在统计推断中,样本统计量是总体参数
平均数
几何平均数: 常用于财务数据的增长率。
网友评论