全球旧事资料 分类
数据分析二主成分分析
主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法。多元统计分析处理的是多变量(多指标)问题。由于变量个数太多,并且彼此之间存在着一定的相关性,因而使得所观测到的数据在一定程度上反映的信息有所重迭。而且当变量较多时,在高维空间中研究样本的分布规律比较复杂。人们自然希望用较少的综合变量来代替原来较多的变量;而这几个综合变量又能够尽可能多地反映原来变量的信息,而且彼此之间互不相关。利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法。本章介绍主成分分析方法。
§51总体的主成分
1总体主成分的定义1总体主成分的定义
设XX1Xp是

p
维随机向量,均值EX
U,协差阵DX∑。考虑它的线
性变换:
Z1a1Xa11X1a21X2ap1XpZ2a2Xa12X1a22X2ap2XpZpapXa1pX1a2pX2appXp
易见
(51)
VarZiai∑aiCovZiZjai∑aj
定义51设X
i12pij12p
X1Xp为p维随机向量。称ZiaiX为X的第i主成分
i12p,如果:
①aiai②当i③

1i12p

1时aiaj0j12i1
aa1aaj0j1i1
VarZi
Max
VaraX
f2总体主成分的性质2总体主成分的性质记∑σij,Λdiagλ1λ2λp,其中λ1值a1a2ap是相应的标准化特征向量。主成分
≥λ2≥≥λp为∑的特征
ZZ1Zp,其中
λi且它们是互不相关
ZiaiXi12p。
①DZΛ即p个主成分的方差为VarZi的。②

σ∑i1λii1ii
pp
常称为

pi1
σii
系统总方差,该性质说明系统总方
差可分解为不相关的主成分的方差和,且存在m
p,使∑i1σii≈∑i1λi。
pp
即p个原变量所提供的总信息的绝大部分只须用前m个主成分来代替。③主成分Zk与原始变量Xi的相关系数
ρZkXiλkaikσii
ki12p
并把主成分Zk与原始变量Xi的相关系数称为因子负荷量。④

pi1
ρ2ZkXi1
i12p
因Xi也可表示成Z1Zp的线性组合,且Z1Zp相互独立,由回归分析的知识,Xi与Z1Zp的全相关系数的平方和等于1。⑤

pi1
σiiρ2ZkXi1
k12p
取多大,这是一个很实际的问题。
用主成分的目的是为了减少变量的个数,故在实际应用中一般绝不用p个主成分,而选用m(m定义52称λr
好听全球资料 返回顶部