关系的统计量,设含有
个样本的集合
则有
协方差:
如果协方差结果为正,则说明两者是正相关的,结果为负就说明两者是负相关的
如果为0,即“相互独立”。
f个人理解,协方差放一起就是协方差矩阵则协方差矩阵的定义:
举一个三维的例子,假设数据集有
三个维度,则协方差矩阵为
可见,协方差矩阵是一个对称的矩阵,度量的是维度与维度之间的关系,而非样本与样本之间,而对角线元素正是各个维度上的方差,其他元素是两两维度间的协方差即相关性,如此协方差矩阵就包括了方差和相关性。
接下来我们首先用协方差矩阵来达到“降噪”的目的。当协方差矩阵中非对角线元素都为零时即相关性为0,则保留下的不同维度间的相关性尽可能小。利用矩阵对角化可是非对角线元素为0。对角化后得到的矩阵,其对角线上的元素是协方差矩阵的特征值,在PCA中,它们还是各个维度上的新方差。
然后看“去冗余”。对角化后的协方差矩阵,也在对角线上得到了新的方差,为了使维度在样本上有明显的差别,我们应该去掉对角线上较小的新方差对应的的维度,只取那些含有较大信息量特征值的维度即可。
有以上分析可见PCA的本质其实就是对角化协方差矩阵。
4PCA过程推导设一个样本集X,里面有N个d维样本。即:
,将样本写成矩阵形式即得样本矩阵
。将样本中心化,
即保证每个维度的均值为零,我们让矩阵的每一维度减去该维度的均值即可。中心化的目的在于保证所有维度的偏移都是以0为基点。样本矩阵中心化然后直接用新的到的样本矩阵乘上它的转置,然后除以N1即可得到协方差矩阵即:
然后如在3中所述,再将协方差矩阵对角化。C为对称矩阵则满足
,
其中P为正交阵。于是先对C进行特征值分解,得到特征值矩阵对角阵A,将
其正交化得到P,其中
。取最大的前ppd个特征值所对应的维度,
那么这个p个特征值组成了新的对角阵
,它所对应的新的特征向量组
成的特征向量矩阵
。假设PCA降维后的样本矩阵为
,显然,
f根据PCA的目的,中的各个维度间的协方差基本为零,也就是说的协方差矩阵应该为。
即满足:又有公式:
则:
这个新的特征向量矩阵正是投影矩阵由于样本矩阵每一行都是一组样本,
特征向量矩阵
每一列都是一个特征向量。上式中右乘相当于每个样本以
的特征向量为基进行线性变换,得到的新样本矩阵中每个样本的维数降低为p,达到了降维的目的。实实上,中的特征向量就是低维空间新的坐标系,称之为“主成分”,而我们所说的主成分分析即PCA就r