全球旧事资料 分类
取的k个特征向量组成的矩阵为Eige
Vectors
k。那么投影后的数据Fi
alData为
这里是Fi
alData101DataAdjust102矩阵×特征向量得到结果是
f这样,就将原始样例的
维特征变成了k维,这k维就是原始特征在k维上的投影。
上面的数据可以认为是lear
和study特征融合为一个新的特征叫做LS特征,该特征基本上代表了这两个特征。
上述过程有个图描述:
f正号表示预处理后的样本点,斜着的两条线就分别是正交的特征向量(由于协方差矩阵是对称的,因此其特征向量正交),最后一步的矩阵乘法就是将原始样本点分别往特征向量对应的轴上做投影。
如果取的k2,那么结果是
f这就是经过PCA处理后的样本数据,水平轴(上面举例为LS特征)基本上可以代表全部样本点。整个过程看起来就像将坐标系做了旋转,当然二维可以图形化表示,高维就不行了。上面的如果k1,那么只会留下这里的水平轴,轴上是所有点在该轴的投影。
f这样PCA的过程基本结束。在第一步减均值之后,其实应该还有一步对特征做方差归一化。比如一个特征是汽车速度(0到100),一个
f是汽车的座位数(2到6),显然第二个的方差比第一个小。因此,如果样本特征中存在这种情况,那么在第一步之后,求每个特征的标准差
,然后对每个样例在该特征下的数据除以。归纳一下,使用我们之前熟悉的表示方法,在求协方差之前
的步骤是:
其中是样例,共m个,每个样例
个特征,也就是说是
维向量。是第i个样例的第j个特征。是样例均值。是第j个特征的标准差。
整个PCA过程貌似及其简单,就是求协方差的特征值和特征向量,然后做数据转换。但是有没有觉得很神奇,为什么求协方差的特征向量就是最理想的k维向量?其背后隐藏的意义是什么?整个PCA的意义是什么?
PCA理论基础
f要解释为什么协方差矩阵的特征向量就是k维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论PCA意义时简单概述。
最大方差理论
在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。
因此我们认为,最好的k维特征是将
维样本点转换为k维后,每一维上的样本方差都很大。
比如下图有5个样本点:(已经做过预处理,均值为0,特征方差归一)
f下面将样本投影到某一维上,这里用一条过原点的r
好听全球资料 返回顶部