数据的整理、可视化和描述
数据分类:
变量(variable),
观测值(observation).
数值型数据(Numerical Data)与分类数据(Categorical Data):
数值型数据=定量数据(quantitative data)
数值型数据可分为:
1、连续数据(continuous data)
2、离散数据(discrete data)
分类数据=定性数据(qualitative data)
分类数据可分为:
1、名义数据(nominal data)
2、排序数据(ordinal data)
截面数据(Cross-Sectional Data)、时间序列数据(Time-Series Data)和面板数据(Panel Data)
结构化数据(Structured Data)与非结构化数据(Unstructured Data)
非结构化数据是另类数据(alternative data)包含文本数据(textual data)和视频、音频等数据。
数据的整理和可视化:
整理数据
一维数组(One-Dimensional Array)
二维矩阵数组(Two-Dimensional Rectangular Arrays)or 数据表(data table)行(row)与列(column)
频率分布(Frequency Distributions):
interval(类别or区间)
绝对频数(absolute frequency) or (frequency)
相对频率(relative frequency)
累积频数or累积频率(cumulative absolute frequency) or (cumulative relative frequency)
列联表(Contingency Table):
联合频数(joint frequency)
边际频数(marginal frequency)
相对频率的三种情况
数据的交叉分类,独立性分析,创建列联表,卡方检验(chi-square test)
数据可视化:
直方图(Histogram)
频数多边形(Frequency Polygon)
条形图(Bar Chart)-简单条形图,组合条形图(grouped bar chart),堆叠条形图(stacked bar chart)
树状图(Tree-Map)
词云(Word Cloud)
折线图(Line Chart)-气泡折线图(bubble line chart)
散点图(Scatter Plot)-异常值(outliers),散点图矩阵(scatter plot matrix)
热力图(Heat Map)
可视化方法的选择
数据的描述
统计学的基本概念:
描述性统计学(Descriptive Statistics)
推断性统计学(Inferential Statistics)
总体(Populations)与样本(Samples):参数(parameter)和样本统计量(sample statistics)
中心趋势:均值、中位数和众数
均值(Mean):
1、算数平均(Arithmetic Mean)公式+优缺+三种调整
2、几何平均(Geometric Mean)公式
3、调和平均数(Harmonic Mean)公式
调和平均数【小于等于】几何平均数【小于等于】算数平均数
【等号】当且仅当X1=X2...Xn时成立
4、加权平均(Weighted Mean)
中位数(Median)
众数(Mode)
离散程度(Absolute Dispersion):
1、分位数(Quantiles)
四分位数(quartiles),五分位数(quintiles),
十分位数(deciles),百分位数(percentiles)
公式
2、极差(Range)公式
3、平均绝对离差(Mean Absolute Deviation, MAD)公式
4、方差(Variance)与标准差(Standard Deviation)公式
5、下行标准差(Downside Deviation)公式
相对离散程度(Relative Dispersion):
变异系数(Coefficient of Variation,CV)-样本的标准差除以样本均值,公式
夏普比率---衡量单位风险下的超额收益(Sharp ratio公式)
偏度(Skewness):公式
右偏(right skewed)or 正偏(positivity skewed)
左偏(left skewed)or 负偏(negatively skewed)
左偏时,分布的均值<中位数<众数
右偏时,分布的众数<中位数<均值
峰度(Kurtosis):公式
尖峰态(leptokurtic),尖峰肥尾(more peak and fat tail)
低峰态(platykurtic),矮峰瘦尾(less peak and thin tail)
超峰度(Eaccess kurtosis),平峰态(mesokurtic)
峰态的判断






网友评论