美文网首页
机器学习day1

机器学习day1

作者: rivrui | 来源:发表于2020-05-27 16:09 被阅读0次

数据归一化

为了消除数据之间量纲的影响
<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

  • 线性函数归一化

    X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}

X是原始数据,X_{max}是数据最大值,X_{min}是数据最小值。

  • 零均值归一化

    z=\frac{x-\mu}{\sigma}

    在学习率相同的情况下,归一化的数据更新速度会加快,需要更多的迭代才能获取最优解。

类别特征

类别型特征,如性别(男女),血型(A,B,AB,O)。类别型特征通常数字符串的形式,除了决策树等少数模型支持字符串的输入,对于逻辑回归,支持向量机等,我们需要将其转成数值特征才行。

  • 序号编码
    序号编码处理类别间有大小关系的数据,比如成绩,可分为高中低三档,序号编码会按照大小关系对类别型特征赋予一个数字ID,比如高中低对应3,2,1。转换之后还保留了大小关系。

  • 独热编码
    读热编码处理不具有大小关系的特征,比如血型,A,B,C,D。独热编码把血型转成一个4维稀疏向量。比如A为(0,0,0,1),B为(0,0,1,0)。
    使用稀疏向量用来节省空间,目前大部分算法接受稀疏向量的输入形式。
    配合特征选择来降低维度。

  • 二进制编码
    二进制编码相比如独热编码进一步节省空间
    比如血型,A为001,B为010。

还有一些编码,Helmert Contrast,Sum Contrast,Polynomial Contrast,Backward Difference Contrast

高维组合特征的处理

为了提高复杂关系的拟合能力,把一阶离散特征两两组合,构成高阶特征。
举例,

是否点击 语言 类型
0 中文 电影
1 英文 电影
1 中文 电视剧
0 英文 电视剧

进行特征组合

是否点击 语言=中文,类型=电影 语言=英文,类型=电影 语言=中文,类型=电视剧 语言=英文,类型=电视剧
0 1 0 0 0
1 0 1 0 0
1 0 0 1 0
0 0 0 0 1

若是逻辑回归,数据的特征向量为X=(x_{1},x_{2},...,x_{k}),则有
Y=sigmoid(\sum_{i}\sum_{j}w_{ij}<x_{i},x_{j}>)
<x_{i},x_{j}>就表示的是x_{i}x_{j}的组合特征。w_{ij}的维度等于|x_{i}|.|x_{i}|
当然,如果数据维度为m,n时组合,那么规模就是m×n,当m,n的值过大之时,就需要用k维的低维向量表示(k\ll m,k\ll n)

相关文章

网友评论

      本文标题:机器学习day1

      本文链接:https://www.haomeiwen.com/subject/chowahtx.html