NM
选法,其中哪一种方案最佳,则需要有一个原则来进行指导。同样,特征的压缩实际上是要
找到M个N元函数,N元函数的数量是不可数的,这也要有一个原则来指导找出M个最佳的N元函数。
我们进行特征选择和特征提取的最终目的还是要进行识别,因此应该是以对识别最有利原则,这样的原则我们称为是类别的可分性判据。用这样的可分性判据可以度量当前特征维数下类别样本的可分性。可分性越大,对识别越有利,可分性越小,对识别越不利。
人们对的特征的可分性判据研究很多,然而到目前为止还没有取得一个完全满意的结果,没有哪一个判据能够完全度量出类别的可分性。下面介绍几种常用的判据,我们需要根据实际问题,从中选择出一种。
一般来说,我们希望可分性判据满足以下几个条件:1与识别的错误率由直接的联系,当判据取最大值时,识别的错误率最小;2当特征独立时有可加性,即:
N
Jijx1x2LxNJijxkk1
Jij是第i类和第j类的可分性判据,Jij越大,两类的可分程度越大,
x1x2LxN为N维特征;
3应具有某种距离的特点:
Jij0,当ij时;
Jij0,当ij时;
JijJji;
4单调性,加入新的特征后,判据不减小:
Jijx1x2LxNJijx1x2LxNxN1。
但是遗憾的是现在所经常使用的各种判据很难满足上述全部条件,只能满足一个或几个条件。
一、基于几何距离的可分性判据
在介绍这一类判据之前,先来看一下各种几何距离的定义。1点与点的距离
这是我们前面已经介绍过的一种距离,可以有多种形式,如欧氏距离、街市距离、
马氏距离等,特征矢量X和Y之间的距离可以表示为:
dXYXYTXY(欧氏距离)
2点与类别之间的距离这也是我们前面定义过的一种距离度量,常用的有:平均样本法、平均距离法、最
f近距离法,K近邻法等。特征矢量X与i类别之间距离的平方可以表示为:
d2
Xi
1
Ni
d2
Nik1
XXki
(平均距离法)
其中X1iX2iLXNii为i类中的样本,Ni为i类别中的样本数。
3类内距离
设i了由样本集X1iX2iLXNii,样本的均值矢量为mi,则由样本集定义
的类内均方距离为:
d2
i
1
NiNi
d2
NNiik1l1
XkiXli
当取欧氏距离时有:
d2
i
1NiNik1
XkimiT
Xkimi
4类别之间的距离在第二章中对类别之间的距离也做过定义,包括最短距离法,最长距离法,类平均
距离法等。i类与j类之间的距离可以表示为:
dij
1
NiNj
d
NNijk1l1
XkiXlj
(平均距离法)
当取欧氏距离时,可定义两类之间的均方距离r