主成分分析方法
在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法也是数学上处理降维的一种方法一主成分分析法简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。信息的大小通常用离差平方和或方差来衡量。主成分分析的基础思想是将数据原来的p个指标作线性组合作为新的综合指标F1F2LFP。其中F1是“信息最多”的指标,即原指标所有线性组合中使
varF1最大的组合对应的指标,称为第一主成分;F2为除F1外信息最多的指标,
即covF1F20且varF2最大,称为第二主成分;依次类推。易知F1F2LFP互不相关且方差递减。实际处理中一般只选取前几个最大的主成分(总贡献率达到85),达到了降维的目的。主成分的几何意义:设有
个样品,每个样品有两个观测变量X1X2二维平面的散点图。
个样本点,无论沿着X1轴方向还是X2轴方向,都有较大的离散性,其离散程度可
f以用X1或X2的方差表示。当只考虑一个时,原始数据中的信息将会有较大的损失。若将坐标轴旋转一下:
F1X1cosθX2si
θF1X1si
θX2cosθ
F1cosθFsi
θ2si
θX1UXcosθX2
即
且有UUI,U是正交距阵,
个样品在F1轴的离散程度最大即则(方差最大),
变量F1代表了原始数据的绝大部分信息,即使不考虑F2,信息损失也不多。而且F1,F2不相关。只考虑F1时,二维降为一维。主成分分析是一种进行信息压缩的方法r