有 ,
, 数据空间
. 以下
, 分离超平面为
SVM 的目的是最大化间隔 (margin), 对于线性可分的数据集, 模型假设为
考虑到存在线性不可分的数据集, 引入了变量 , 且
表示点
到离它最近的边界的距离, 模型便改写为
在学术上预测损失 , 被称为 hinge loss,
被称为线性整流函数 (ReLU).
下图, 红线代表 soft margin, 绿线代表 hard margin.
SVM
如图可知:随着参数 C 的增大,margin width (两条虚线间的距离) 会变小。
- 当
C比较小时是soft margin模型,它更加注重的是靠近类别中心的数据点; - 当
C比较大时是hard margin模型,它更加注重靠近分离超平面的 “异常点”。













网友评论