第十一章典型相关分析
主成分分析、因子分析研究的是一组变量间或一组观测间的相互关系。而当研究两组变量间的相互关系时,一般不采用各自的分析或两个变量一对一的直接分析。例如,在研究一组环境因素与畜禽诸生产性能间的相关性时,通常是把各环境因素当作一个整体,把各生产性能也作一个整体来研究。这时研究两个整体之间的相关可化为研究两个新变量之间的相关关系,而这两个新变量将分别由各自整体中变量的线性组合所构成,因此不会丢失原有诸变量的任何信息。这样构成的两个新变量具有最大相关的性质。类似地还可找出由两组变量构成的第二对线性组合,该组合与第一对线性组合不相关,但该对组合间有最大的相关。如此类推,直到两组变量的相关被分解完毕。这种逐步得到的线性组合称为典型变量,它们之间的相关系数称为典型相关系数。这种分析方法称为典型相关分析(Ca
o
icalCorrelatio
sA
alysis)。可见,典型相关分析是研究两组变量之间相关关系的一种统计方法,它避免了孤立地对两个变量间的研究,分析结果较为全面,且各组中变量的个数不受限制,两组的内容可以不相同。因此,应用十分广泛。
111概述
在实际工作中,通常接触到的多为样本资料,所以典型相关系数及典型变量多数是从样本资料中获取。其计算方法如下。设有两组变量X1x1,x2,…,xp和X2xp1,xp2,…,xpq的
次观察值,取自多元正态总体Npq(μ,∑),由XX1,X2算得协差阵为∑的最大似然估计,若对X1、2进行标准化,此,X时协差阵为相关阵R:
RRR1112R21R22pqpq
其中R11为第一组各变量间的相关系数阵,22为第二组各变量间的相关系数阵,R12R21各R
变量间的相关系数阵。设P≤q解得特征方程R12R22R21R120或
12
R
12111
2RR122R220的非零特征根122(r≤p)的算术平方根,即为典型2r
相关系数。将求得各特征根四代上两式,可求得与典型相关系数相对应的特征向量(典型变量)αi及βj,于是第i对典型变量(线性组合)为:Viα1x1α2x2…αpxpWjβ1xp1β2xp2…βqxpq其中αi、βj亦称负荷量,用来反映该变量对两组变量的相关中所起的作用或影响的程度。实际工作中对R特征根以及相应特征向量的求得通常借助相关的软件来完成。
152典型相关分析的SAS过程
过程格式:
fPROC
CANCORRVARWITHPARTIATFREQWEIGHTBY
选项串;变量名称串;变量名称串;变量名称串;变量名称;变量名称;变量r