主成分分析法
一、主成分分析(pri
cipalcompo
e
tsa
alysis)也称为主分量分析,是由Holtelli
g于1933年首先提出的。主成分分析是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。
二、应用背景:对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp,它们都是相关的一时难以综合。这时就需要借助主成分分析pri
cipalcompo
e
ta
alysis来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。
例1、考察对象股票业绩(这里单个股票为观察个体)。(1)确定影响股票业绩主要因素:主营业务收入(X1),主营业务利润(X2)利润总额(X3),净利润(X4),总资产(X5),净资产(X6),净资产收益率(X7),每股权益(X8),每股收益(X9),每股公积金(X10),速动比率(X11)作为变量。因此对单个股票来说,用11个随机变量综合刻化。但这些因素过多,各因素区别不明显,有交叉反映。通过主成分分析,可降为少数几个综合指标加以刻化。(2)考察20支不同的股票。从数学角度看,每种影响因素是随机变量(Xi),观察一支股票便得到影响该股票的11个随机变量取值;观察20支股票,便得到了20×11的原始数据阵X20×11(略)。
三、问题:作为主成分?严格的数学定义?相应的性质有哪些?主成分取多少?
1、主成分的一般定义设有随机变量X1,X2,…,Xp,其样本均数记为X1,X2,…,Xp,样本
标准差记为S1,S2,…,Sp。首先作标准化变换xXXS
我们有如下的定义:1若Y1a11x1a12x2…a1pxp,a121a122a12p1,且使VarY1最大,则称Y1为第一主成分;2若Y2a21x1a22x2…a2pxp,a221a222a22p1,a21,a22,…,a2p垂直于a11,a12,…,a1p,且使VarY2最大,则称Y2为第二主成分;
f3类似地,可有第三、四、五…主成分,至多有p个。
2、主成分的性质:Y1,Y2,…,Yp具有如下几个性质
1主成分间互不相关,即对任意i和j,Yi和Yj的相关系数
CorrYi,Yj0
ij
2组合系数ai1,ai2,…,aip构成的向量为单位向量,
a
2i1
a
2i2
a
2ip
1
3各主成分的方差是依次递减的r