一个训练数据集D:
∈∈11
1
其中,表示的是样本i在d维空间()中的实向量,表示样本所对
应的类别。在这里训练数据集D中的的取值要么是1要么是1(1和1表示的
是两种不同类别)
,而i则从1一直取到
(表示该训练数据集D包含总共
个
样本)
。
在给定上述训练数据集D之后,SVM的目标就是在这些训练样本的基础之上,
找到我们想要的能够把属于1这一类别的数据和属于1这一类别的数
据完全分开的最优分类超平面,即距离不同类别数据最近点的间隔都达到最大的
分类平面。考虑到任何一个超平面在d维空间中所对应的一般方程都可以写成以
下一般形式:
0
上式中的表示的是超平面的法向量;表示超平面上的任意一点;是
向量和向量的内积(也称点积);b是任意常数。
因此,对于那些线性可分的训练数据集来说,我们总能找到这样两个超平面:
这两个超平面中的任何一个都可以把训练数据集按照其所属的类别完全分开,并
且在这两个超平面之间没有任何其它的数据点存在。而这两个超平面可以用以下
两个等式进行表达:
1
1
f2
故,这两个超平面之间的距离或者说间隔即为‖‖。
2
从上述的两个超平面之间的距离间隔‖‖可以看出,向量的模越小,这两个
超平面之间的距离就越大,那么在这样的情况下我们所选取的分类超平面
0对数据的分类效果也就越好。而考虑到,对于类型1的所有样本来说,
它们都满足不等式:
≥1,1
对于类型1的所有样本来说,它们都满足不等式:
≤1,1
综合起来就是,对于所有的样本(不管它属于1类,还是属于1类)
它们都必须满足不等式:
≥1,12…
因此,寻找最优分类超平面的问题就自然而然地转化成了以下最优问题:
确定和b使得所有的样本点在满足不等式:
≥1,12…
的基础上,让的模‖‖达到最小。
下图(图422)是一个利用SVM对线性可分数据进行分类的例子。图中方
程0所对应的实线即为所求的最优分类超平面;所指的方向即为最
优分类超平面的法向量的方向;‖‖表示的是最优分类超平面与原点之间的偏移
2
量r