【数据挖掘】PCA 主成分分析算法过程及原理讲解

PCA 主成分分析算法过程及原理讲解

1 概念

主成分分析(Principal componet analysis,PCA) 是一种无监督学习方法，利用正交变换把线性相关变量表示的观测数据转换为几个由线性无关变量表示的数据，线性无关的变量成为主成分。主成分的个数通常小于原始变量的个数，属于降维方法。根据分解协方差矩阵的策略，分为两种PCA方法，第一种是基于特征值分解协方差矩阵实现PCA算法，第二种是基于奇异值分解法(SVD)分解协方差矩阵实现PCA算法。

2 算法过程

2.1 基于特征值分解协方差矩阵实现PCA算法

输入：数据集 $X = \{x_1,x_2,...,x_n\}$ ，需要降到k维。

（1）去平均值(即去中心化)，即每一位特征减去各自的平均值。

（2）计算协方差矩阵 $\frac{1}{n} XX^T$ ,注：这里除或不除样本数量n或n-1,其实对求出的特征向量没有影响。

（3）用特征值分解方法求协方差矩阵 $\frac{1}{n} XX^T$ 的特征值与特征向量。

（4）对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。

（5）将数据转换到k个特征向量构建的新空间中，即Y=PX。

2.2 基于奇异值分解法(SVD)分解协方差矩阵实现PCA算法

输入：数据集 $X = \{x_1,x_2,...,x_n\}$ ，需要降到k维。

（1）去平均值（去中心化），即每一位特征减去各自的平均值。

（2）计算协方差矩阵。

（3）通过奇异值分解法（SVD）计算协方差矩阵的特征值与特征向量。

（4）对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

（5）将数据转换到k个特征向量构建的新空间中。

3 问答

3.1 SVD分解矩阵原理

奇异值分解是一个能适用于任意矩阵的一种分解的方法，对于任意矩阵A总是存在一个奇异值分解：
$\Sigma V^T$

假设A是一个m×n的矩阵，那么得到的U是一个m×m的方阵，U里面的正交向量被称为左奇异向量。Σ是一个m×n的矩阵，Σ除了对角线其它元素都为0，对角线上的元素称为奇异值。 $V^T$ 是V的转置矩阵，是一个n×的矩阵，它里面的正交向量被称为右奇异值向量。而且一般来讲，我们会将Σ上的值按从大到小的顺序排列。

SVD分解矩阵A的步骤：

(1) 求 $AA^T$ 的特征值和特征向量，用单位化的特征向量构成 U。

(2) 求 $A^TA$ 的特征值和特征向量，用单位化的特征向量构成 V。

(3) 将 $AA^T$ 或者 $A^TA$ 的特征值求平方根，然后构成 Σ。