全球旧事资料 分类
进行详细描述,且描述内容都是在本人所收集
的文献资料的基础之上的总结2691112。其它在标准SVM分类算法基础之上进行
扩展或改进的算法不在本文的描述范围之内。
41
SVM发展历史
SVM最初是由两位俄罗斯人VladimirNVap
ik和AlexeyYa
Chervo
e
kis在1963年提出来的。这时的SVM算法还只能处理那些在自身空间
中呈线性可分状态的数据,而对于处于非线性可分情况的数据还不能进行有效处
理。之后在1992年,Ber
hardEBoser,IsabelleMGuyo
和VladimirN
Vap
ik三人为了解决或处理之前所涉及到的数据非线性可分问题,应用核函数
在原有的SVM算法基础之上做出了相应改进。虽然这时的SVM算法既可以对线性
可分的数据进行分类,也可以对非线性可分的数据进行分类,但对于那些本身就
不可分的数据还是无能为力。针对这一问题,Cori
aCortes和VladimirN
Vap
ik接着于1995年通过引入松弛变量ξi(一种衡量数据被错分程度的度量)
来选择在SVM含有错分样本时的最佳分类方案。自此,SVM分类算法不论是在数
据可分与不可分,还是在线性与非线性方面都能得到有效一个用。因此,这也被
公认为目前标准的SVM分类法。
42
线性可分SVM
标准SVM分类法是在线性可分SVM的基础之上逐渐发展和完善起来的。图
421给出了两类数据线性可分的情况。图中黑色实心点和白色空心点分别表示
两种不同类别的数据;H1、H2和H3分别是试图用于把不同类别的数据区分开来
的3条不同的直线;H3是分别离两类数据最近的点的距离最大的一条直线。从
图中我们可以很明显地看出,直线H1并不能把图中的两类数据区分开来,而H2
和H3则可以把这些不同类别的数据区分开来。而通过对该图的观察,我们也可
以进一步看到,能够把从属不同类别的数据区分开来的直线可能不止一条。因此,
为了达到最优的分类效果,SVM算法必须要在这些可把原来不同类别的数据分开
的各个分类超平面(在二维空间中为一条直线)中选择出一个距离不同类别数据
最近点的都很远的分类平面,即最优分类超平面。按照这种最优选择方式,图中
的直线H3就成为图示数据的最优分类超平面。
f图421线性可分示意图
对于如何寻找或计算最优分类超平面,标准SVM分类法对此的解决和处理方
式会随着数据的线性可分性或非线性可分性的不同而不同。从目前的研究情况看,
这些处理或解决方式不外乎是以下三种情况中的一种:
(1)对于那些在原有空间中本身就线性可分的数据而言,标准SVM分类法
在寻求最优分类超平面时的方法和过程是按照以下所述内容进行的。
给定r
好听全球资料 返回顶部