-
PCA
(Principal Component Analysis)是一套全面用于各类数据分析的分析方法,包括特征集压缩。每当需要将数据直观化的时候,都可以采用。-
PAC
特别适用于坐标系的位移和旋转问题 - 通过一系列小测试,理解数据维度的转变
-
数据维度测试.png
-
-
对于任何形式和形状(分布)的数据,
PCA
从旧坐标系统仅通过转换translation
和旋转rotation
,移动原坐标原点,将X轴移动到新的坐标系统的主轴,该主轴使所有数据有最大方差;进一步将另一坐标轴移至正交处(第二主成分),使其处于重要性较低的方向。PCA
找到这些轴,并证明其重要性。
PCA
-
一些手动
PCA
的练习,练习中的△X
和△Y
可视为新坐标轴在原坐标系中的分量。-
练习一
-
练习二
-
练习三:可用于PCA的数据
-
练习四:轴何时占主导地位
-
-
保留信息,同时压缩特征数量的操作
- 在许多特征中,假设只有少量特征驱动数据模式
- 寻找一个特征组合(即主要成分
principal component
),以便弄清楚深层次的现象 -
复合特征
-
如何决定主要成分:
- 主成分是数据分布具有最大方差,也就是说在该方向上,数据更加分散。
- 这样做的原因是,在主成分的方向上进行投射(数据压缩)时,可以尽可能多地保留原始数据所含的信息。
-
主要成分使数据分布具有最大方差
-
最大方差和信息损失
-
用于特征转换的PCA:非监督学习的强大之处
-
PCA
的回顾和释义-
PCA
是将特征转为主成分的系统化方式 - 主成分可被用作新的特征
- 主成分是数据中使方差最大化的分布方向,它可以使压缩特征时信息损失降到最低
- 可以对主要的成分划分等级,数据因特定主成分产生的方差越大,该成分的等级越高
- 主成分之间彼此正交
- 主成分的数量有限,最大值为输入的特征数量
-
-
sklearn中的PCA
-
何时使用PCA
- 驱动数据模式的隐藏特征(如big shots in Enron)
- 降维,如以下情况时:可视化高维数据;降噪;使用另一算法之前对数据进行预处理
-
PCA
迷你项目
网友评论