全球旧事资料 分类
c
c
。其中Ci是第i类
的协方差矩阵。有时,用多类模式总体分布的散布矩阵来反映其可分性,即:
StExm0xm0Txii12c。其中,m0为多类模式分布的总
体均值向量。可以证明:StSwSb,即总体散布矩阵是各类类内散布矩阵与类间散布矩阵之和。52特征选择设有
个可用作分类的测量值,为了在不降低(或尽量不降低)分类精度的前提下,减小特征空间的维数以减少计算量,需从中直接选出m个作为分类的特征。问题:在
个测量值中选出哪一些作为分类特征,使其具有最小的分类错误?从
个测量值中选出m个特征,一共有中可能的选法。一种“穷举”办法:对每种选法都用训练样本试分类一下,测出其正确分类率,然后做出性能最好的选择,此时需要试探的特征子集的种类达到种,非常耗时。需寻找一种简便的可分性准则,间接判断每一种子集的优劣。
对于独立特征的选择准则
f类别可分性准则应具有这样的特点,即不同类别模式特征的均值向量之间的距离应最大,而属于同一类的模式特征,其方差之和应最小。假设各原始特征测量值是统计独立的,此时,只需对训练样本的
个测量值独立地进行分析,从中选出m个最好的作为分类特征即可。对于ωi和ωj两类训练样本的特征选择例:对于ωi和ωj两类训练样本,假设其均值向量为mi和mj,其k维方向的分量为mik和mjk,方差为ik和jk,定义可分性准则函数:
2
2
Gk
mikmjk2
22ikjk
k12

则GK为正值。GK值越大,表示测度值的第k个分量对分离ωi和ωj两类越有效。将GKk12…
按大小排队,选出最大的m个对应的测度值作为分类特征,即达到特征选择的目的。讨论:上述基于距离测度的可分性准则,其适用范围与模式特征的分布有关。三种不同模式分布的情况a中特征xk的分布有很好的可分性,通过它足以分离i和j两种类别;中b的特征分布有很大的重叠,单靠xk达不到较好的分类,需要增加其它特征;c中的i类特征xk的分布有两个最大值,虽然它与j的分布没有重叠,但计算Gk约等于0,此时再利用Gk作为可分性准则已不合适。因此,假若类概率密度函数不是或不近似正态分布,均值和方差就不足以用来估计类别的可分性,此时该准则函数不完全适用。
T一般特征的散布矩阵准则类内:SwPiExmixmiii1
c
类间:Sb
Pimim0mim0T;直观上,类间离散度越大且类内离散度越
i1
c
小,则可分性越好。因r
好听全球资料 返回顶部