看网上的解释,真的知道了什么是模型不一致,同一个输入产生的输出真是千差万别。
特征提取/特征抽取(feature extraction):Creatting a subset of new features by combinations of the existing features.
即通过原来存在的特征的集合创造一个新的特征子集。这里的创造就是重点,即经过特征提取以后的新特征是原来特征的一个映射,创造凝练出了新的特征出来,比如图片是由像素点组成的,但是经过特征提取,变成了数值矩阵,这就是变成了新的映射。还有的说法是,特征提取的过程是将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程。其实内涵是一样的,即根据原始的d个特征的组合形成k个新的特征,将数据从d维空间映射到k维空间,改变了数据的性质。
特征选择(feature selection):choosing a subset of all the features(the ones more informative).即从原来的特征中选择出子集。这里的特征只是被选择出来,性质和原来的特征是一致的。
特征选择和特征提取都是属于特征降维(feature reduction)。特征降维分为两种方式,一种就是不改变特征的性质,单纯筛选,即特征选择。一种就是空间变换(映射),改变了原本的特征的性质,即特征提取/特征抽取。
最后总结之:1. 特征提取是从杂乱无章的世界中,去到更高层的世界去俯瞰原始世界,你会发现很多杂乱无章的物理现象中背后暗含的道理是想通的,这时候你想用一个更加普世的观点和理论去解释原先的理论,这个是特征提取要做的事情。2. 而你仍呆在原始世界中,只是想对现有的“取其精华,去其糟粕”,这个是所谓特征选择。只是对现有进行筛选。3. 特征提取和特征选择统称为降维。(Dimension Reduction)
网友评论