美文网首页
数据分桶、离散化的好处

数据分桶、离散化的好处

作者: 有机会一起种地OT | 来源:发表于2020-04-11 19:48 被阅读0次

将数据离散化、分桶是比较多件的数据处理方式。根据具体情况,这样的处理有以下好处

  • 离散特征的增加和减少都较容易,有利于模型迭代

  • 对异常离群点有很强的鲁棒性
    对于远离数据正常分布范围的离群数据,在分桶时可分入正产范围的边界桶中。这样就消除了过大或过小异常数值的影响

  • 缺失值可以单独分为一类进入模型

  • 降低了数据复杂度,提升模型运算速度。如采用 one-hot 形式的稀疏向量表示,计算速度更快,结果也方便存储。

  • 离散化数据后,采用例如 one-hot 形式表示,能为每个类别(或桶)附以单独的权重,相当于对原来的连续数据维度引入了非线性,相应地提升了特征表达能力

  • 离散化后模型更稳定,不会因为特征的小变动导致完全不同的输出。但对于离散化划分边界出的数据正好相反,所以如何划分区间需要特别考虑。



对连续变量的分桶,可以分为无监督分桶,有监督分桶。

无监督分桶主要包括等宽划分、等频划分。
等宽指按相同数值宽度分组,这时每组内数据量不定,受异常值影响相对大。pandas.cut方法实现等宽划分。
等频指将数据集分为几等份,每组内数据量是相同的。pandas.qcut实现等频划分。

有监督的划分方法主要指卡方分桶。其依赖于卡方检验,从每个数据单独为一组开始,不断地将具有最小卡方值的相邻区间合并在一起,直到所有组间卡方值都大于给定阈值。要注意初始化时需要对实例进行排序,在排序的基础上进行合并

相关文章

  • 数据分桶、离散化的好处

    将数据离散化、分桶是比较多件的数据处理方式。根据具体情况,这样的处理有以下好处 离散特征的增加和减少都较容易,有利...

  • 特征工程

    1、数据分桶(分桶后需要编码) 连续值经常离散化或者分离成“箱子”进行分析, 为什么要做数据分桶呢? 离散后稀疏向...

  • 2019-04-08

    一、离散化 简单离散 通过定义一些划分规则,将原来连续的数据划分成不同的类别,从而将数据离散化。 分桶后平滑 先根...

  • 1. 数据预处理

    目录 NO.1 ---Pandas数据处理NO.2 ---数值型数据的处理NO.3 ---离散化、分箱、分桶NO....

  • hive表分桶设计

    分桶字段选择 进行分桶之前需要对表的数据分布情况进行大致的分析,一般遵循的原则为,选择离散度高的字段进行分桶。可以...

  • 数据预处理_数据离散化

    一、数据离散化 1、所谓离散化,就是把无限空间中的有限个体映射到一个有限的空间中。 2、数据离散化大多针对连续数据...

  • QuantileDiscretizer用法

    QuantileDiscretizer(分位数离散化)将一列连续型的数据列转成分类型数据。通过取一个样本的数据,并...

  • scipy.interpolate - 离散数据求根&两组离散数

    scipy.interpolate - 离散数据求根&两组离散数据求交点 第一部分:离散数据求根 第二部分:两组离...

  • 连续数据离散化

    在工作中经常会有对连续数据进行分级的工作。我们可以构造一个这样的实例: 人工分级 Artificial Divis...

  • 数据预处理

    总 数据预处理包括数据清洗、无量纲化、特征分桶、统计变换和特征编码等步骤, 数据清洗 无量纲化 说明 一般而言,原...

网友评论

      本文标题:数据分桶、离散化的好处

      本文链接:https://www.haomeiwen.com/subject/dupumhtx.html