全球旧事资料 分类
PCA主成分分析
1引出PCA的实际问题由于现实中的训练数据要比理想中的繁杂得多,比如一组身高的样本,里面既有以“米”度量的身高特征,又有“尺”度量的身高特征,显然有一个是多余的。又如拿到一组信计31学生的期末考试成绩单,共三列,一列是平时学习时间,一列是学习兴趣,最后一列是考试成绩。成绩优异的学霸们平时一定没少下功夫,很可能是兴趣使然,所以兴趣与学习强相关,而成绩和学习也是强相关。那何不将学习与兴趣两项合为一项呢?还如北京的房价:若房子的特征有大小,地段,建造时间,楼层,环境,社区设施等等,如此多的特征,却只有二三个样本,特征非常多,而样本很少,若用回归直接拟很容易过度拟合。最后,假设建立的一个完全竞争市场的经济矩阵,其中“边际收益”和“平均收益”,在传统的向量空间中,认为两者相互独立。然而在完全竞争市场中,两者是相似的,而且两者出现频率也类似,是否可以合成一个特征呢?以上说的的特征很多是和类相关的,但里面存有噪声或者冗余。在这种情况下,需要一种特征降维的方法来减少特征数,从而达到减少噪音和冗余的目的,且不会发生过度拟合。接下来就引入主角主成分分析(PCA)来解决部分上述实际问题。PCA的思想是将
维特征映射到k维上(k
),这k维是全新的正交特征称为主元,是重新构造出来的k维特征,而不是简单地从
维特征中去除其余
k维特征。2PCA的目的个人理解,PCA的目的即是降噪和去冗余。噪声字面意思即是干扰我们想听到的真正声音的声音。假设样本中某个主要的维度A,它能代表原始数据,也就是真正想获取的东西”,它本身本来应该是很突出的,但由于它与其他维度有那么一些相关性,受到相关维度的干扰,它被削弱了,而我们希望通过PCA处理后,使维度A与其他维度的相关性尽可能减弱,进而恢复维度A应有的显著性,让我们识别A原本的声音。冗余就是多余的意思,留着只有占地方。假设样本中有些维度,在所有的样本上变化不明显,也就是说该维度上的方差接近于零,那么显然它对区分不同的样本丝毫起不到任何作用,这个维度即是冗余的,所以PCA应该去掉这些维度。3如何实现PCA简而言之,降噪就是希望使筛选后的的维度间的相关性尽可能小,而去冗余就是使保留下来的维度的方差尽可能大。于是我们就需要知道各维度间的相关性以及个维度上的方差,而同时表将不同维度间的相关性以及各个维度上的方差包容进一个数据结构的工具就是协方差矩阵。协方差是一种用来度量两个随机变量r
好听全球资料 返回顶部