基于特征的算法模型
线性回归模型
线性回归对于给定的输入 x,会输出一个数值 f(x)。为了消除常数项 b,我们可以令,同时,也就是说给 x 多加一项,使得它的值恒为 1,这时 b 就到了 w 中。
对线性回归模型来说,它具有模型简单、可解释性强、运算速度快等优点,但也仅限于线性关系的拟合,如果变量之间是非线性的关系则不适用。
逻辑回归(LR)模型
逻辑回归模型预测的目标是一个概率,它的取值在 [0,1] 区间,而线性回归模型的值域在区 间。因此不能直接使用线性模型进行打分推荐,而是需要通过一个模型将线性模型的值域压入 [0,1] 区间。
逻辑回归模型还有另外一种表达式。
逻辑回归模型相比协同过滤模型而言,它不单单考虑了用户的行为特征,还加入了年龄、性别等用户特征和时间、地点等物品特征,从而大大提升了模型表达能力。因此,它的优点是模型简单、训练开销小、可解释性强、易于并行化。
不过,线性回归模型和逻辑回归模型都存在一定缺陷,因为它们都是将各个特征进行独立考虑,并没有考虑到特征与特征之间的相互关系。因此,这两种模式的表达能力仍然比较弱,需要大量具备业务背景知识的人员进行人工特征筛选与交叉。
实际上,特征之间可能存在一定关联性。以 58 同城 APP 本地服务推荐为例,一般来说,查看“租车”品类的男性用户较多,而查看“保姆月嫂”品类的女性用户较多。从中我们可以看出,性别与本地服务的品类存在一定关联性。
POLY2 模型
在逻辑回归模型的基础上使用了一种暴力方式将所有特征实现了两两相交进行组合。于是,原来的 LR 模型变成了 POLY2 模型(Degree-2 Polynomial Margin)
POLY2 模型通过暴力的方式将所有的特征进行两两相交,表达了每两个单一特征之间的关系。
在该表达式中,只有第三项不为 0 时才有意义,而这种情况只有X1、X2都不为 0 时才能真正满足。
不过,在数据稀疏的情况下,满足交叉项不为 0 的样本将非常少。
在训练样本不足的情况下,很容易导致参数w{ij} 训练不充分,从而使得推荐结果不准确,最终影响模型效果。因此,这种特征组合模式存在一定缺陷:
大大增加了特征维度:因为它会让模型复杂度由原来的 O(n) 上升到 模型不收敛:因为数据极度稀疏,模型在训练过程中很难收敛。
网友评论