机器学习特征工程2-特征降维(sklearn实践)

作者: scottlin | 来源:发表于2018-07-15 21:48 被阅读15次

特征降维

当特征选择完成后,可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。常见的降维方法有主成分分析法(PCA)和线性判别分析(LDA)。PCA和LDA的区别是:PCA是为了让降维后的样本具有最大的发散性;而LDA是为了让降维后的样本有最好的分类性能力。

主成分分析法(PCA)

PCA计算步骤

  • 对数据进行归一化处理(代码中并非这么做的,而是直接减去均值)
  • 计算归一化后的数据集的协方差矩阵
  • 计算协方差矩阵的特征值和特征向量
  • 保留最重要的k个特征(通常k<n),可以自己制定,也可以选择个阈值,然后通过前k个特征值之和减去后面n-k个特征值之和大于这个阈值,找到这个k
  • 找出k个特征值对应的特征向量
  • 将m ∗∗ n的数据集乘以k个n维的特征向量的特征向量(n ∗∗ k),得到最后降维的数据。

sklearn代码

不要担心PCA计算方法,sklearn已经将上述步骤封装好了,代码如下:

from sklearn.decomposition import PCA

#参数n_components为主成分数目,即上诉的k
#X 特征矩阵
PCA(n_components=12).fit_transform(X)

线性判别分析(LDA)

LDA概述

LDA的原理是,将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近

sklearn代码

同样不要担心LDA计算方法,sklearn已经将上述步骤封装好了,代码如下:

from sklearn.lda import LDA

#参数n_components为降维后的维数
#X 特征矩阵, Y标签矩阵
LDA(n_components=12).fit_transform(X, Y)

相关文章

  • 机器学习特征工程2-特征降维(sklearn实践)

    特征降维 当特征选择完成后,可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少...

  • 2019-02-27

    内容为西瓜书的第10章特征选择和第11章特征降维。 1 在机器学习工程中,特征工程才是最重要,特征决定着算法的上限...

  • sklearn库-特征工程

    sklearn作为python机器学习的一个常用库,可以用来做特征工程,算法的调用,模型的评估 特征工程 特征工程...

  • 面试题目总结-机器学习算法-基础

    1.机器学习中特征的理解 def:特征选择和降维 特征选择:原有特征选择出子集,不改变原来的特征空间 降维:将原有...

  • 【机器学习】sklearn与tensorflow

    sklearn定位是通用机器学习库;tensorflow定位是深度学习库。 sklearn提供强大的特征工程处理函...

  • 机器学习之特征工程-降维

    当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维...

  • 使用sklearn做单机特征工程

    使用sklearn做单机特征工程 | 转载 使用sklearn做单机特征工程 目录1 特征工程是什么?2 数据预处...

  • 2018-04-03-机器学习相关

    No.1 特征工程 (1)使用sklearn做单机特征工程 - jasonfreak - 博客园 (2)特征工程实...

  • 2019-01-07特征工程文章

    使用sklearn优雅地进行数据挖掘 使用sklearn做单机特征工程 特征工程到底是什么? Kaggle入门,看...

  • 07 特征工程 - 特征降维 - PCA

    06 特征工程 - 特征选择 特征降维必须在特征选择做完以后才能进行。 当特征选择完成后,可以直接可以进行训练模型...

网友评论

    本文标题:机器学习特征工程2-特征降维(sklearn实践)

    本文链接:https://www.haomeiwen.com/subject/guappftx.html