1、了解数据和统计基础
数据类型 | ||
---|---|---|
数值 | 连续 | 离散 |
身高、年龄、收入 | 书中的页数、院子里的树、咖啡店里的狗 | |
分类 | 定序 | 定类 |
字母成绩等级、调查评级 | 性别、婚姻状况、早餐食品 |
2、描述统计学基础
在分析离散数值数据和连续数值数据的时候,我们从四个角度:
- center(集中趋势)
- spread(离散程度)
- shape(形状)
- outliers(异常值)
center 集中趋势
三大测量方法:mean(均值)、median(中位数) 、mode(众数)
3、理解数据分析过程
数据分析步骤:
- question(提出问题)
- wrangle(整理数据)
收集数据(gather data)、评估数据(assess data)、清理数据(clean data) - explore(探索数据EDA——explore data analysis)
寻找数据模式(finding patterns)、可视化数据中的相关性(visualizing relationships)、对处理对象的直观认知、剔除异常值 - draw conclusions(得出结论、甚至作出预测)
通过借助machine learning、inferential statistics(推断统计学)来实现预测 - communicate(进行交流)
数据可视化
网友评论