《统计学习方法》第十六章主成分分析PCA

主成分分析(PCA)

假设 $x$ 为 $m$ 维随机变量，其均值为 $\mu$ ，协方差矩阵为 $\Sigma$

考虑由 $m$ 维随机变量 $x$ 到 $m$ 维随机变量 $y$ 的线性变换

$\alpha _ { i } ^ { T } x = \sum _ { k = 1 } ^ { m } \alpha _ { k i } x _ { k } , \quad i = 1,2 , \cdots , m$

其中 $\alpha _ { i } ^ { T } = ( \alpha _ { 1 i } , \alpha _ { 2 i } , \cdots , \alpha _ { m i } )$

如果该线性变换满足以下条件，则称之为总体主成分：

$\alpha _ { i } ^ { T } \alpha _ { i } = 1 , i = 1,2 , \cdots , m$ ；

$\operatorname { cov } ( y _ { i } , y _ { j } ) = 0 ( i \neq j )$ ;

变量 $y_1$ 是 $x$ 的所有线性变换中方差最大的

$y_2$ 是与 $y_1$ 不相关的 $x$ 的所有线性变换中方差最大的

一般地， $y_i$ 是与 $\cdots , y _ { i - 1 } , ( i = 1,2 , \cdots , m )$ 都不相关的 $x$ 的所有线性变换中方差最大的

这时分别称 $\cdots , y _ { m }$ 为 $x$ 的第一主成分、第二主成分、…、第 $m$ 主成分

假设 $x$ 是 $m$ 维随机变量

其协方差矩阵是 $\Sigma$

$\Sigma$ 的特征值分别是 $\lambda _ { 1 } \geq\lambda _ { 2 } \geq \cdots \geq \lambda _ { m } \geq 0$

特征值对应的单位特征向量分别是 $\alpha _ { 1 } , \alpha _ { 2 } , \cdots , \alpha _ { m }$ ，则 $x$ 的第2主成分可以写作

$\alpha _ { i } ^ { T } x = \sum _ { k = 1 } ^ { m } \alpha _ { k i } x _ { k } , \quad i = 1,2 , \cdots , m$

并且， $x$ 的第 $i$ 主成分的方差是协方差矩阵 $\Sigma$ 的第 $i$ 个特征值，即 $\operatorname { var } ( y _ { i } ) = \alpha _ { i } ^ { T } \Sigma \alpha _ { i } = \lambda _ { i }$

主成分有以下性质：

主成分 $y$ 的协方差矩阵是对角矩阵 $\operatorname { cov } ( y ) = \Lambda = \operatorname { diag } ( \lambda _ { 1 } , \lambda _ { 2 } , \cdots , \lambda _ { m } )$

主成分 $y$ 的方差之和等于随机变量 $x$ 的方差之和

$\sum _ { i = 1 } ^ { m } \lambda _ { i } = \sum _ { i = 1 } ^ { m } \sigma _ { i i }$

其中 $\sigma _ { i i }$ 是 $x_2$ 的方差，即协方差矩阵 $\Sigma$ 的对角线元素

主成分 $y_k$ 与变量 $x_2$ 的相关系数 $\rho ( y _ { k } , x _ { i } )$ 称为因子负荷量（factor loading）

它表示第 $k$ 个主成分 $y_k$ 与变量 $x$ 的相关关系，即 $y_k$ 对 $x$ 的贡献程度

$\rho ( y _ { k } , x _ { i } ) = \frac { \sqrt { \lambda _ { k } } \alpha _ { i k } } { \sqrt { \sigma _ { i i } } } , \quad k , i = 1,2 , \cdots , m$

样本主成分分析就是基于样本协方差矩阵的主成分分析

给定样本矩阵

$\left[$

\begin{array}{llll} x_{1} & x_{2} & \dots & x_{n} \end{array}

\right] = \left[

\begin{array}{cccc} x_{11} & x_{12} & \dots & x_{1 n} \\ x_{21} & x_{22} & \dots & x_{2 n} \\ ⋮ & ⋮ & ⋮ \\ x_{m 1} & x_{m 2} & \dots & x_{m n} \end{array}

\right]

X = [x_{1} x_{2} \dots x_{n}] = ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ x_{11} x_{21} ⋮ x_{m 1} x_{12} x_{22} ⋮ x_{m 2} \dots \dots \dots x_{1 n} x_{2 n} ⋮ x_{m n} ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤

其中 $\cdots , x _ { m j } ) ^ { T }$ 是 $x$ 的第 $j$ 个独立观测样本， $j = 1, 2 ， \dots, n$ 。

$X$ 的样本协方差矩阵

$\left.$

\begin{matrix} S = [s_{i j}]_{m \times m}, s_{i j} = \frac{1}{n - 1} \sum_{k = 1}^{n} (x_{i k} - {\bar{x}}_{i}) (x_{j k} - {\bar{x}}_{j}) \\ i = 1, 2, \dots, m, j = 1, 2, \dots, m \end{matrix}

\right.

S = [s_{i j}]_{m \times m}, s_{i j} = \frac{1}{n - 1} \sum_{k = 1}^{n} (x_{i k} - \overline{x}_{i}) (x_{j k} - \overline{x}_{j}) i = 1, 2, \dots, m, j = 1, 2, \dots, m

给定样本数据矩阵 $X$ ，考虑向量 $x$ 到 $y$ 的线性变换 $y = A ^ { T } x$

这里

$\left[$

\begin{array}{llll} a_{1} & a_{2} & \dots & a_{m} \end{array}

\right] = \left[

\begin{array}{cccc} a_{11} & a_{12} & \dots & a_{1 m} \\ a_{21} & a_{22} & \dots & a_{2 m} \\ ⋮ & ⋮ & ⋮ \\ a_{m 1} & a_{m 2} & \dots & a_{m m} \end{array}

\right]

A = [a_{1} a_{2} \dots a_{m}] = ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ a_{11} a_{21} ⋮ a_{m 1} a_{12} a_{22} ⋮ a_{m 2} \dots \dots \dots a_{1 m} a_{2 m} ⋮ a_{m m} ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤

如果该线性变换满足以下条件，则称之为样本主成分。样本第一主成分 $y _ { 1 } = a _ { 1 } ^ { T } x$ 是在 $a _ { 1 } ^ { T } a _ { 1 } = 1$ 条件下

使得 $\cdots , n )$ 的样本方差 $a _ { 1 } ^ { T } S a _ { 1 }$ 最大的 $x$ 的线性变换

样本第二主成分 $y _ { 2 } = a _ { 2 } ^ { T } x$

是在 $a _ { 2 } ^ { T } a _ { 2 } = 1$ 和 $a _ { 2 } ^ { T } x _ { j }$ 与 $\cdots , n )$ 的样本协方差

$a _ { 1 } ^ { T } S a _ { 2 } = 0$ 条件下

使得 $\cdots , n )$ 的样本方差 $a _ { 2 } ^ { T } S a _ { 2 }$ 最大的 $x$ 的线性变换

一般地，样本第 $i$ 主成分 $y _ { i } = a _ { i } ^ { T } x$ 是在 $a _ { i } ^ { T } a _ { i } = 1$ 和 $a _ { i } ^ { T } x _ { j }$ 与 $\cdots , n )$ 的样本协方差

$a _ { k } ^ { T } S a _ { i } = 0$ 条件下

使得 $\cdots , n )$ 的样本方差 $a _ { k } ^ { T } S a _ { i }$ 最大的 $x$ 的线性变换

主成分分析方法主要有两种，可以通过相关矩阵的特征值分解或样本矩阵的奇异值分解进行

相关矩阵的特征值分解算法

针对 $\times n$ 样本矩阵 $X$ ，求样本相关矩阵

$\frac { 1 } { n - 1 } X X ^ { T }$

再求样本相关矩阵的 $k$ 个特征值和对应的单位特征向量，构造正交矩阵

$\cdots , v _ { k } )$

$V$ 的每一列对应一个主成分，得到 $\times n$ 样本主成分矩阵

$Y = V ^ { T } X$

矩阵 $X$ 的奇异值分解算法

针对 $\times n$ 样本矩阵 $X$

$\prime } = \frac { 1 } { \sqrt { n - 1 } } X ^ { T }$

对矩阵 $\prime }$ 进行截断奇异值分解，保留 $k$ 个奇异值、奇异向量，得到

$\prime } = U S V ^ { T }$

$V$ 的每一列对应一个主成分，得到 $\times n$ 样本主成分矩阵 $Y$

$Y = V ^ { T } X$

PCA（principal components analysis）即主成分分析技术旨在利用降维的思想，把多指标转化为少数几个综合指标。

PCA的算法相当简单。在确保数据被归一化之后，输出仅仅是原始数据的协方差矩阵的奇异值分解。

现在我们有主成分（矩阵U），我们可以用这些来将原始数据投影到一个较低维的空间中

对于这个任务，我们将实现一个计算投影并且仅选择顶部K个分量的函数，有效地减少了维数

我们也可以通过反向转换步骤来恢复原始数据。

第一主成分的投影轴基本上是数据集中的对角线

当我们将数据减少到一个维度时，我们失去了该对角线周围的变化，所以在我们的再现中，一切都沿着该对角线

代码实现

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from scipy.io import loadmat

X = data['X']
def pca(X):
    # normalize the features
    X = (X - X.mean()) / X.std()
    
    # compute the covariance matrix
    X = np.matrix(X)
    cov = (X.T * X) / X.shape[0]
    
    # perform SVD
    U, S, V = np.linalg.svd(cov)
    
    return U, S, V
def project_data(X, U, k):
    U_reduced = U[:,:k]
    return np.dot(X, U_reduced)
def recover_data(Z, U, k):
    U_reduced = U[:,:k]
    return np.dot(Z, U_reduced.T)
U, S, V = pca(X)
Z = project_data(X, U, 1)
X_recovered = recover_data(Z, U, 1)
fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(list(X_recovered[:, 0]), list(X_recovered[:, 1]))
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

在这里插入图片描述

相关阅读:
C++中resize和reserve
vue3开发必备核心要点
crossover23.6闪亮登场发布啦，2023最新功能解析
大三学生HTML期末作业,网页制作作业——HTML+CSS+JavaScript饮品饮料茶(7页)
css水平居中的几种方法
MyBatis大数据量插入方案
Linux命令
写在大二结束
Visual Studio 和 VSCode哪个更好?
58-66-hive-数据类型-分区-分桶

原文地址：https://blog.csdn.net/qq_38973721/article/details/128067434

《统计学习方法》 第十六章 主成分分析PCA

《统计学习方法》第十六章主成分分析PCA