数据归一化
为了消除数据之间量纲的影响
<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>
-
线性函数归一化
是原始数据,
是数据最大值,
是数据最小值。
-
零均值归一化
在学习率相同的情况下,归一化的数据更新速度会加快,需要更多的迭代才能获取最优解。
类别特征
类别型特征,如性别(男女),血型(A,B,AB,O)。类别型特征通常数字符串的形式,除了决策树等少数模型支持字符串的输入,对于逻辑回归,支持向量机等,我们需要将其转成数值特征才行。
-
序号编码
序号编码处理类别间有大小关系的数据,比如成绩,可分为高中低三档,序号编码会按照大小关系对类别型特征赋予一个数字ID,比如高中低对应3,2,1。转换之后还保留了大小关系。 -
独热编码
读热编码处理不具有大小关系的特征,比如血型,A,B,C,D。独热编码把血型转成一个4维稀疏向量。比如A为(0,0,0,1),B为(0,0,1,0)。
使用稀疏向量用来节省空间,目前大部分算法接受稀疏向量的输入形式。
配合特征选择来降低维度。 -
二进制编码
二进制编码相比如独热编码进一步节省空间
比如血型,A为001,B为010。
还有一些编码,Helmert Contrast,Sum Contrast,Polynomial Contrast,Backward Difference Contrast
高维组合特征的处理
为了提高复杂关系的拟合能力,把一阶离散特征两两组合,构成高阶特征。
举例,
是否点击 | 语言 | 类型 |
---|---|---|
0 | 中文 | 电影 |
1 | 英文 | 电影 |
1 | 中文 | 电视剧 |
0 | 英文 | 电视剧 |
进行特征组合
是否点击 | 语言=中文,类型=电影 | 语言=英文,类型=电影 | 语言=中文,类型=电视剧 | 语言=英文,类型=电视剧 |
---|---|---|---|---|
0 | 1 | 0 | 0 | 0 |
1 | 0 | 1 | 0 | 0 |
1 | 0 | 0 | 1 | 0 |
0 | 0 | 0 | 0 | 1 |
若是逻辑回归,数据的特征向量为,则有
就表示的是
和
的组合特征。
的维度等于
当然,如果数据维度为m,n时组合,那么规模就是m×n,当m,n的值过大之时,就需要用k维的低维向量表示
网友评论