代表了对离群点的重视程度,C越大,表示不能舍弃该样本的程度越大,在极端的情况下,C趋于无穷时退化为硬间隔分类问题。惩罚因子可用来解决数据集偏斜的问题,即分别给正类、负类的样本点赋予不同的惩罚因子,由此区分对两类样本的重视程度。
数据集偏斜是指参与分类的两类样本数量差距很大,此时对于数量少的样本应予以重视,不能轻易舍弃,应赋予较大的惩罚因子。
此时我们目标函数中因松弛变量而损失的部分就变为
p
pq
CiCj
i1
jp1
j0
其中,i1p为正样本,jp1…pq为负样本。
C、C的比例选取应根据实际情况具体问题具体分析,如当两类样本分部情况类似时,
正负类惩罚因子的比例可以由数量之比确定,当一类与另一类相比样本较集中时,可以用覆盖两类的超球半径之比来确定。
(五)SVM用于多类分类由于SVM属于二类分类器,一个分类器只能完成二类分类,在处理多类分类问题时,需
要用到多个分类器共同完成分类工作。常用的多类分类方法有:一类对余类(1ar)、一对一类1a1和有向无环图支持向量机DAGSMV
1ar方法是指,训练时,每次选取一个类的样本作为正类样本,其余为负类样本,此时生成的分类器个数为
。分类时,将待分类样本代入每个分类器进行运算。1ar方法由于分类器较少,所以分类速度较快,但会出现分类重叠或不可分类现象,并且由于训练阶段正负类数量差距较大,这就人为造成了数据集偏斜。
1a1方法是指,训练时,选取一个样本作为正类样本,分别取其余样本中的一类为负类样本进行训练,此时生成的分类器个数为
1个。分类时,将待分类样本代入每个分类器进行运算,采用每个分类器投票的方式决定样本类别。1ar方法的优点在于,由于训练阶段正负类样本数量较少,整体上来说,速度要优于1ar方法,虽然仍然存在分类重叠现象,
第10页共14页
f密
封
线
但避免了不可分类现象,缺点在于分类器个数过多,分类过程会较慢。DAGSMV方法是指,训练时,按照1a1的方法求出分类器,在分类阶段,以有向无环
图的形式选取分类器进行运算,最终得到分类结果,如图
DAGSVM的优点在于分类时不必遍历所有的分类器,具有较高的分类效率。但一旦根节点分类错误,则后面将无法修正错误并导致错误的分类。故一般根节点都会使用差别较大的两类分类器。
(六)SVM算法的改进目前针对SVM应用中出现的r