三主成分分析方法
地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。一、主成分分析的基本原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有
个地理样本,每个样本共有p个变量描述,这样就构成了一个
×p阶的地理数据矩阵:
x11x21Xx
1
x12x22x
2
x1px2px
p
(1)
如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为x1,x2,…,xp,它们的综合指标新变量指标为z1,z2,…,zm(m≤p。则z1l11x1l12x2l1pxpz2l21x1l22x2l2pxpzlxlxlxmppmm11m22在(2式中,系数lij由下列原则来决定:
(2)
f(1zi与zj(i≠j;i,j1,2,…,m相互无关;(2z1是x1,x2,…,xp的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,xp的所有线性组合中方差最大者;……;zm是与z1,z2,……zm1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x,x2,…,xp的第一,第二,…,第m主成分。其中,z1在总方差中占的比例最大,z2,z3,…,zm的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
1
从以上分析可以看出,找主成分就是确定原来变量xj(j1,2,…,p在诸主成分zi(i1,2,…,mr