全球旧事资料 分类
第五章特征选择与特征提取
51问题的提出
前面主要介绍的是各种分类器的设计方法,实际上我们已经完全可以解决模式识别的问题了。然而在实际应用中,在分类器设计之前,往往需要对抽取出的特征进行一下处理,争取尽量减小特征的维数。在实践中我们发现,特征的维数越大,分类器设计的难度也越大,
一维特征的识别问题最容易解决,我们只要找到一个阈值t,大于t的为一类,小于t的为一
类。同时特征维数越大,要求的训练样本数量越多,例如在一维的情况下,10个训练样本就可以比较好的代表一个类别了,而在10维空间中,10个训练样本则是远远不够的。这一章中我们就来介绍一下减小特征维数的方法。
一般来说模式识别系统的输入是传感器对实物或过程进行测量所得到的一些数据,其中有一些数据直接可以作为特征,有一些数据经过处理之后可以作为特征,这样的一组特征一般称为原始特征。在原始特征中并不一定每个特征都是有用的,比如在识别苹果和橙子的系统中,我们可以抽取出的特征很多,(体积,重量,颜色,高度,宽度,最宽处高度),同样还有可能抽取出其它更多的特征。在这些特征中对分类有用的是(颜色,高度,最宽处高度),其它特征对识别意义不大,应该去除掉。这样的过程称为是特征选择,也可以称为是特征压缩。
特征选择可以描述成这样一个过程,原始特征为N维特征Xx1x2LxNT,从中
T
选择出M个特征构成新的特征矢量Yxi1xi1LxiM,MN。
同时,特征矢量的每一个分量并不一定是独立的,它们之间可能具有一定的相关性,比如说高度和最宽处的高度,高度值越大,最宽处的高度值也越大,它们之间具有相关性,我们可以通过一定的变换消除掉这种相关性,比如取一个比值:最宽处的高度高度。这样的过程称为特征提取。
特征提取可以描述为这样一个过程,对特征矢量Xx1x2LxNT施行变换:
yihiX,i12LM,MN,产生出降维的特征矢量Yy1y2LyMT。
在一个实际系统的设计过程中,特征的选择和提取过程一般都需要进行,首先进行特征选择,去除掉无关特征,这些特征实践上根本就不需要抽取出来,这部分传感器根本不需要安装,这样也可以减小系统的的成本。然后进行特征提取,降低特征的维数。然后利用降维之后的样本特征来设计分类器。
52模式类别的可分性判据
在讨论特征选择和特征压缩之前,我们先要确定一个选择和提取的原则。对一个原始特
f征来说,特征选择的方案很多,从N
维特征种选择出M
个特征共有CNM

N

Mr
好听全球资料 返回顶部