征中挑选出一些最有代表性的特征,称之为特征选择;另一种方式是用映射(或称变换)的方法把原始特征变换为较少的特征,称之为特征提取。51模式类别可分性的测度距离和散布矩阵点到点之间的距离:在
维空间中,a与b两点之间的欧氏距离为:Dabab,写成距离平方:D
2
abababakbk2。其中,a和b为
维向量,
Tk1
其第k个分量分别是ak和bk。i点到点集之间的距离在
维空间中,点x到点a之间的距离平方为
D2xaixkaki2因此,点x到点集aii12K之间的均方距离为:k1
D2xai
1K21K
Dxaixkaki2类内距离
维空间中同Ki1Ki1k1
i
一类内各模式样本点集ai12K,其内部各点的均方距离为D
2
ajai,其中
ij12Kij,即:
f
1K1K
ji22Daaakak。可证明:D22kK1Kj1i1k1k1ij
2ji
22其中k为a在第k个分量上的无偏方差,即k
i
。
1Kiakak2。其中K1i1
ak
1Kiak为ai在第k个分量方向上的均值。证明作为练习Ki1
i
类内散布矩阵考虑一类内模式点集a
Sa
i1Ki
i12K,其类内散布矩阵为:
1Kia。对属于同一类的模式样本,类内散布矩Ki1
ma
i
m
T
其中m
阵表示各样本点围绕其均值周围的散布情况。ij类间距离和类间散布矩阵在考虑有两个以上的类别,如集合a和b时,类间距离对类别的可分性起着重要作用,此时应计算:D
2
aibji12Kaj12Kb。为简化起见,
常用两类样本各自质心间的距离作为类间距离,并假设两类样本出现的概率相等,则:
D2m1km2k2
k1
其中m1和m2为两类模式样本集各自的均值向量,m1k和m2k为m1和m2的第k个分量,
为维数。写成矩阵形式:Sb2
m1m2m1m2T为两类模式的类间散布矩阵。对三
ci1
T个以上的类别,类间散布矩阵常写成:SbPimim0mim0其中,m0为
多类模式(如共有c类)分布的总体均值向量,m0ExPimiii12c即:
i1
c
多类模式集散布矩阵多类情况的类内散布矩阵,可写成各类的类内散布矩阵的先验概率的加权和,即:
SwPiExmixmiiPiCi
Ti1i1
r