特征工程

作者: 潇萧之炎 | 来源:发表于2019-04-12 00:20 被阅读5次

特征工程

特征使用方案

要实现业务需求目标需要哪些数据?

  • 基于业务理解,尽可能多的找出对因变量影响的所有自变量

可用性评估

  • 获取难度
  • 覆盖率
  • 准确率

特征获取方案

如何获取这些特征?

  • 用户行为数据
  • 业务数据
  • 第三方数据

如何存储?

  • 本地磁盘
  • 数据库
  • 大数据平台

数据清洗&特征处理

特征清洗

  • 清洗异常样本数据

  • 采样

    • 数据不均衡

      • 权重
      • 上采样
      • 下采样
      • SMOTE算法
    • 样本权重

特征工程

  • 单个特征

    • 归一化、标准化、区间缩放法

    • 离散化/二值化

    • 哑编码/Dummy Coding

    • 缺失值处理

    • 数据变换

      • log
      • 指数
  • 多个特征

    • 增维

      • 多项式扩展
      • 核函数
      • GBDT+LR
    • 降维

      • PCA
      • LDA
    • 特征选择

      • Filter

        • 思路:自变量和因变量之间的关联
        • 相关系数
        • 卡方检验
        • 信息增益、互信息
      • Wrapper

        • 思路:通过目标函数(AUC/MSE)来决定是否加入一个变量

        • 迭代:产生特征子集,评价

          • 完全搜索

          • 启发式搜索

          • 随机搜索

            • GA
            • SA
      • Embedded

        • 思路:学习器自身自动选择特征

        • 正则化:

          • L1--Lasso
          • L2--Ridge
        • 决策树

          • 熵、信息增益
  • 衍生变量

    • 对原始数据根据业务进行加工,生成的具有商业意义的变量

特征监控

特征有效性分析

  • 分析特征的重要性、权重

特征监控

  • 监控重要特征,防止特征质量下降,影响模型效果

相关文章

  • 2018-04-03-机器学习相关

    No.1 特征工程 (1)使用sklearn做单机特征工程 - jasonfreak - 博客园 (2)特征工程实...

  • 机器学习之特征工程

    目录大纲 特征工程是什么? 特征工程的重要性 特征工程子问题:1.特征处理2.Feature Selection(...

  • 使用sklearn做单机特征工程

    使用sklearn做单机特征工程 | 转载 使用sklearn做单机特征工程 目录1 特征工程是什么?2 数据预处...

  • 特征工程

    http://www.cnblogs.com/jasonfreak/p/5448385.html

  • 特征工程

    特征工程  我们做比赛的初衷是想在比赛中锻炼用深度学习模型解决实际问题的能力。所以我们做特征工程时更多的考虑了深度...

  • 特征工程

    目录 1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化...

  • 特征工程

    数据和特征的质量决定了机器学习的上限,而模型和算法只是不断逼近这个上限而已 数据清洗 数据样本抽样 异常值(空值处...

  • 特征工程

  • 特征工程

    首先,给一张特征工程的思维导图: 【如果要浏览图片,建议将其下载到本地,使用图片浏览软件查看】 关于特征工程(Fe...

  • 特征工程

    Feature Enginnering 应用机器学习的本质是特征工程。通过特征工程,我们能持续地提升效果,而模型算...

网友评论

    本文标题:特征工程

    本文链接:https://www.haomeiwen.com/subject/nfnfwqtx.html