全球旧事资料 分类
由此得来。此时,的协方差矩阵为对角阵,说明不同维度间的相关性已降至最低,而对角线上的元素又是前p个最大的特征值特征值的下降速度很快,一般只有前百分之几,即完成了对于较大信息量维度的筛选,至此噪声和冗余的数据已被去除。整个PCA的过程结束。小结1设立样本矩阵并中心化2计算样本矩阵的协方差矩阵3将协方差矩阵特征值分解,选取最大的p个特征值对应的特征向量组成投影矩阵4对原样本矩阵进行投影即降维,得到新样本矩阵,以此达到了降噪去冗余
5PCA简单matlab操作Sfixra
d5350随机产生53的整数样本矩阵
SSrepmatmea
S51将S堆叠为51的矩阵
CcovS原始协方差矩阵
fPLambdaeigCPCA处理后的样本协方差矩阵
因为三个方差没有很小的趋近于0的方差,所以对角线的元素都可以被保留,尽管没有降维,但经过PCA后的样本协方差矩阵Lambda比起原始的协方差矩阵C,可以发现,温度之间的相关性几乎没有了,即达到了去冗余的目的。最后我们得到降维后的样本矩阵:S1SP降维后样本矩阵
用matlab自带的PCA函数验证COEFFSCOREpri
compS;求投影矩阵和投影后新样本矩阵
f比较直接调用PCA函数和协方差的方法,SCORE和S1在不考虑维度顺序和正负的情况下是完全一致的,通过协方差计算的S1的维度顺序不同我认为可能是投影矩阵P通常是按特征值的降序排列的,而这个eig函数是按升序排列。一般情况下,我们将协方差矩阵分解后从最大的特征值开始加,一直到所加和占特征值总和的大部分为止,此时含有的特征值个数即为p,也就是降维至p维。6总结至此,我个人对PCA的全部理解就结束了,讲道理的话PCA在的数学理论应该是很成熟的,毕竟特征值分解,协方差矩阵,都是在代数和统计中早已被玩儿烂的东西,从理论上也通俗易懂,而且简化效果立竿见影又不会过度简化,这应该也是它在机器学习中有着重要应用的原因吧。
fr
好听全球资料 返回顶部