0变为y1,
只是标记不同外,与logistic回归的形式化表示没区别。再明确下假设函数
上一节提到过我们只需考虑
的正负问题,而不用关心gz,因此我们这里将gz做一个简
化,将其简单映射到y1和y1上。映射关系如下:
4函数间隔(fu
ctio
almargi
)和几何间隔(geometricmargi
)函数间隔()和几何间隔()给定一个训练样本如下:,x是特征,y是结果标签。i表示第i个样本。我们定义函数间隔
可想而知,当
时,在我们的gz定义中,
,
的值实际上就是
。反之亦然。为了使函数间隔最大(更大的信心确定该例是正例还是反例)当,时,应该是个大正数,反之是个大负数。因此函数间隔代表了我们认为特征是正例还
是反例的确信度。继续考虑w和b,如果同时加大w和b,比如在前面乘个系数比如2,那么所有点
的函数间隔都会增大二倍,这个对求解问题来说不应该有影响,因为我们要求解的是,同时扩大w和b对结果是无影响的。这样,我们为了限制w和b,可能需要加入归一化条件,毕竟求解的目标是确定唯一一个w和b,而不是多组线性相关的向量。这个归一化一会再考虑。刚刚我们定义的函数间隔是针对某一个样本的,现在我们定义全局样本上的函数间隔
说白了就是在训练样本上分类正例和负例确信度最小那个函数间隔。接下来定义几何间隔,先看图
f假设我们有了B点所在的
分割面。任何其他一点,比如A到该面的距离以
表示,
假设B就是A在分割面上的投影。我们知道向量BA的方向是(分割面的梯度),单位向量是。A点是得,,所以B点是x(利用初中的几何知识),带入
进一步得到
实际上就是点到平面距离。再换种更加优雅的写法:
当
时,不就是函数间隔吗?是的,前面提到的函数间隔归一化结果就是几何间隔。他
们为什么会一样呢?因为函数间隔是我们定义的,在定义的时候就有几何间隔的色彩。同样,同时扩大w和b,w扩大几倍,就扩大几倍,结果无影响。同样定义全局的几何间隔
5最优间隔分类器(optimalmargi
classifier)最优间隔分类器()
f回想前面我们提到我们的目标是寻找一个超平面,使得离超平面比较近的点能有更大的间距。也就是我们不考虑所有的点都必须远离超平面,我们关心求得的超平面能够让所有点中离它最近的点具有最大间距。形象的说,我们将上面的图看作是一张纸,我们要找一条折线,按照这条折线折叠后,离折线最近的点的间距比其他折线都要大。形式化表示为:
这里用
1规约w,使得
是几何间隔。
到此,我们已经r