集中在几个主要变量上,只需要将这几个变量分离出来,对这几个变量进行重点分析,用它们的线性组合表示事物的主要特征。因此,主成分分析方法的目标就是寻找x(x22PCA模型PCA是一种正交变换,利用二阶的统计信息进行计算。它强调数据之间的相似和不同,是一种在高维数据中寻找模式的技术2。对于原始数据,我们可以通过一些变换来提取数据间的内在特征,其中一种方法就是通过线性变换去实现4。这个过程可以表示为:这里是一个变换值,可以把它当作基本的变换矩阵,通过此变换来提取原始数据的特征。令为表示环境的维随机向量。假设均值为零,即:令表示为维单位向量,在其上投影。这个投影被定义为向量和的内积,表示为:在上式中,需满足以下约束条件:主成分分析方法就是寻找一个权值向量,它能够使表达式取最大值4。23特征值求解PCA特征根求解的步骤如下:(1)将原始数据表示为m
的矩阵。
为原始数据的个数,m为变量个数。(2)计算原始数据的均值。(3)用原始数据减去均值,得到矩阵X。(4)对XXT进行特征根分解,求特征向量及其对应的特征值。(5)选取最大的若干个特征值对应的特征向量,即为求得的主成分。
f龙源期刊网httpwwwqika
comc
PCA方法用线形代数可以描述为:寻找一组正交基组成的矩阵P,定义YPX,使得CYMYYT是对角阵。P的行向量,就是数据X的主成分,也就是XXT的特征向量,矩阵CY对角线上第i个元素是数据X在方向Pi的方差4。
24主成分数量的选取
主成分是
个原始变量的线性组合,各主成分之间互不相关。每个主成分对应一个方差,该方差为协方差阵对应的特征值,各主成分特征值之和为1。将主成分按照其对应的方差值从大到小依次排列,则最大的方差对应第一主成分,以此类推。
选择主成分的数量取决于保留部分的累积方差在总方差中所占的百分比。由于所有主成分的总方差值是确定的,前面变量的方差较大,则后面的变量方差就较小。只有前几个综合变量才称得上是主成分,后几个综合变量为次成分。一般情况下,可根据问题的实际需要,主观地确定一个百分比值,当前x项的方差之和大于此百分比值时,就可以决定保留前x个主成分,而忽略后面的次成分5。
3主成分分析的特点(CharacteristicofPCA)
综上所述,主成分分析方法有很多优点,可将其归纳如下:
(1)在数据处理时,舍弃了一部分主成分,只取前几个方差较大的几个主成分来表示原始数据,可减少计算量。
(2)主成分之间是互不相关的,消除了原始数据之间的r