人工智能数学课高等数学线性微积分数学教程笔记（5. 线性代数高级）

前言

对人工智能数学课高等数学线性微积分数学教程的学习笔记。主要用于快速回忆已学的数学知识点，不适合基础学习。博客园中同步更新。

文章目录

笔记目录

前言
文章目录
5. 线性代数高级

5. 线性代数高级

- 二次型

纯二次项构成的函数，把含有 $n$ 个变量的二次齐次函数称为二次型：

$f\left ( x_1,x_2,\cdots,x_n \right )=a_{11}x_1^2+a_{22}x_2^2+\cdots+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+\cdots+2a_{n-1,n}x_{n-1}x_{n}$

它其实是向量和矩阵相乘的结果： $\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x}=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}a_{ij}x_ix_j$ ， $\boldsymbol{A}$ 即二次型矩阵。

$\left ( x_1,\cdots,x_n \right )[a11a12⋯a1na21a22⋯a2n⋯⋯⋯⋯an1an2⋯ann]$

⎡ ⎣ ⎢ ⎢ ⎢ a 11 a 21 \dots a n 1 a 12 a 22 \dots a n 2 \dots \dots \dots \dots a 1 n a 2 n \dots a n n ⎤ ⎦ ⎥ ⎥ ⎥

⎛ ⎝ ⎜ ⎜ ⎜ x 1 \dots \dots x n ⎞ ⎠ ⎟ ⎟ ⎟

(x_{1}, \dots, x_{n}) ⎣ ⎡ a_{11} a_{21} \dots a_{n 1} a_{12} a_{22} \dots a_{n 2} \dots \dots \dots \dots a_{1 n} a_{2 n} \dots a_{nn} ⎦ ⎤ ⎝ ⎛ x_{1} \dots \dots x_{n} ⎠ ⎞

机器学习中常见形式，比如是一次型： $f(\boldsymbol{x};\boldsymbol{w})=\boldsymbol{w}^T\boldsymbol{x}+b$ ，或者二次型： $f(\boldsymbol{x};\boldsymbol{w})=\boldsymbol{x}^T\boldsymbol{w}\boldsymbol{x}+b$ 。
回看 Hessian 矩阵：对于二次型函数， $f(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x}$ ：
- $f(\boldsymbol{x})>0,x\ne0,x\in \mathbb{R}$ ，则 $f$ 为正定二次型， $A$ 为正定矩阵；
- $f(\boldsymbol{x})\ge0,x\ne0,x\in \mathbb{R}$ ，则 $f$ 为半正定二次型， $A$ 为半正定矩阵；
- $f(\boldsymbol{x})<0,x\ne0,x\in \mathbb{R}$ ，则 $f$ 为负定二次型， $A$ 为负定矩阵;
- $f(\boldsymbol{x})\le0,x\ne0,x\in \mathbb{R}$ ，则 $f$ 为半负定二次型， $A$ 为半负定矩阵;
- 以上皆不是，不定。

- 特征值和特征向量

矩阵与向量的乘法相当于对向量做了一个线性变换，变换后不一定和原来在一条直线上。
设 $\boldsymbol{A}$ 是 $n$ 阶方阵，若存在数 $\lambda$ 和非零 $n$ 维向量 $\boldsymbol{x}$ ，使得 $\boldsymbol{A}\boldsymbol{x}=\lambda \boldsymbol{x}$ 成立，则称 $\lambda$ 是矩阵 $\boldsymbol{A}$ 的一个特征值 (characteristic value) 或本征值 (eigenvalue)。
$\boldsymbol{Ax}=\lambda \boldsymbol{x} \Rightarrow \left ( \boldsymbol{A}-\lambda \boldsymbol{I }\right )\boldsymbol{x}=0$ ，有非零解的充要条件是系数行列式 $\left | \lambda \boldsymbol{I}-\boldsymbol{A} \right |=0$
$\left | \lambda \boldsymbol{I}-\boldsymbol{A} \right |=\lambda ^n+\alpha _1\lambda ^{n-1}+\alpha _2\lambda ^{n-2}+\cdots+\alpha _{n-1}\lambda+\alpha _n$
5 次和 5 次以上代数方程没有求根公式，工程上计算矩阵特征值使用 QR 算法。
$tr(\boldsymbol{A}) = \sum\limits_{i=1}^{n}a_{ii}=\lambda _1+\lambda _2+\cdots+\lambda _n=\sum\limits_{i=1}^{n}\lambda _i$ ， $\prod\limits_{i=1}^{n}\lambda _i=\left | \boldsymbol{A} \right |$
np.linalg.eig(X)

- 特征值分解

$n\times n$ 矩阵 $\boldsymbol{A}$ 的 $n$ 个特征值 $\lambda_1\le\lambda_2\le\cdots\le\lambda_n$ ，以及这 $n$ 个特征值所对应的特征向量
$(w 1 w 2 \dots w n)$ $(w_{1} w_{2} \dots w_{n})$ ，那么矩阵 $\boldsymbol{A}$ 可以用特征分解表示：$ \boldsymbol{A}=\boldsymbol{W}\boldsymbol{\Sigma}\boldsymbol{W}^{-1}$。特征向量可被正交单位化从而使 $\boldsymbol{W}$ 为正交矩阵。
定理1：设 $\boldsymbol{M}$ 为 $n\times n$ 的矩阵，其特征值为 $\lambda_1,\lambda_2,\cdots,\lambda_n$ ，特征向量为 $\boldsymbol{V}_1,\boldsymbol{V}_2,\cdots,\boldsymbol{V}_n$ ，形成线性无关集合，以每个特征向量为列构成矩阵 $\boldsymbol{A}= [V1V2⋯Vn]$
$[V 1 V 2 \dots V n]$ $A = [V_{1} V_{2} \dots V_{n}]$ 。矩阵 $\boldsymbol{A}$ 可以将矩阵 $\boldsymbol{M}$ 对角化，乘积矩阵 $\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}$ 的主对角元素是矩阵 $\boldsymbol{M}$ 的特征值：
$\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}=(λ10⋯00λ2⋯0⋮⋮⋱⋮00⋯λn)⎛⎝⎜⎜⎜⎜⎜λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎞⎠⎟⎟⎟⎟⎟$
反之，若存在可逆矩阵 $\boldsymbol{A}$ ，使 $\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}$ 为对角矩阵，则矩阵 $\boldsymbol{A}$ 的列等于矩阵 $\boldsymbol{M}$ 的特征向量， $\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}$ 的主对角元素为矩阵 $\boldsymbol{M}$ 的特征值。
正交矩阵 $\boldsymbol{P}^{-1}=\boldsymbol{P}^T$ ，行和列相互之间是正交的。
特征分解 (Eigendecomposition)，又称谱分解 (Spectral decomposition)，只有可对角化矩阵才可以作特征分解。一个矩阵可以拆分成一个正交阵和对角矩阵以及正交阵的逆的乘积。

- 多元函数的泰勒展开

$f(\boldsymbol{x})=f(\boldsymbol{x}_k)+[\nabla f(\boldsymbol{x}_k)]^T(\boldsymbol{x}-\boldsymbol{x}_k)+\frac {1}{2}(\boldsymbol{x}-\boldsymbol{x}_k)^TH(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k)+\boldsymbol{o}^n$

注： $\nabla f(\boldsymbol{x}_k)$ 是梯度， $H(\boldsymbol{x}_k)$ 是 Hessian 矩阵， $\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x }\Rightarrow ax^2$ 。

- 矩阵和向量的求导公式

$\nabla (\boldsymbol{w}^T\boldsymbol{x})=\boldsymbol{w}$
$\nabla (\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x})= (\boldsymbol{A}+\boldsymbol{A}^T)\boldsymbol{x}$
$\nabla ^2 (\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x})= \boldsymbol{A}+\boldsymbol{A}^T$ 二阶导即再对 $\boldsymbol{x}$ 求导。

- 奇异值分解 (SVD)

可以应用于任意形状的矩阵，区别于谱分解；
$\boldsymbol{A}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T$ ，其中 $\boldsymbol{A}$ 是 $m\times n$ 的矩阵， $\boldsymbol{U}$ , $\boldsymbol{V}$ 都是正交矩阵， $\boldsymbol{\Sigma}$ 是对角阵 $m\times n$ ；
$\boldsymbol{U}$ 是 $\boldsymbol{A}\boldsymbol{A}^T$ 正交化特征向量构成的 $m\times m$ 矩阵， $\boldsymbol{V}$ 是 $\boldsymbol{A}^T\boldsymbol{A}$ 正交化特征向量构成的 $n\times n$ 矩阵；
$\boldsymbol{\Sigma}$ 是 $m\times n$ 的矩阵，除了主对角线上的元素 (奇异值) 以外全部为0， $\boldsymbol{U}$ , $\boldsymbol{V}$ 都是酉矩阵，即 $\boldsymbol{U}^T\boldsymbol{U}=\boldsymbol{I}$ , $\boldsymbol{V}^T\boldsymbol{V}=\boldsymbol{I}$

- 求解奇异值分解

$n\times n$ 方阵 $\boldsymbol{A}^T\boldsymbol{A}$ 求 $n$ 个特征向量： $(\boldsymbol{A}^T\boldsymbol{A})\boldsymbol{v}_i=\lambda_i\boldsymbol{v}_i$ ，将所有特征向量张成 $n\times n$ 的矩阵 $\boldsymbol{V}$ ，其中每个特征向量叫 $\boldsymbol{A}$ 的右奇异向量；
$m\times m$ 方阵 $\boldsymbol{A}\boldsymbol{A}^T$ 求 $m$ 个特征向量： $(\boldsymbol{A}\boldsymbol{A}^T)\boldsymbol{u}_i=\lambda_i\boldsymbol{u}_i$ ，将所有特征向量张成 $m\times m$ 的矩阵 $\boldsymbol{U}$ ，其中每个特征向量叫 $\boldsymbol{A}$ 的左奇异向量；
$\boldsymbol{A}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T\Rightarrow \boldsymbol{A}\boldsymbol{V}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T\boldsymbol{V}\Rightarrow \boldsymbol{A}\boldsymbol{V}=\boldsymbol{U}\boldsymbol{\Sigma}\Rightarrow \boldsymbol{A}\boldsymbol{v}_i=\boldsymbol{\sigma}_i\boldsymbol{u}_i\Rightarrow \boldsymbol{\sigma}_i=\boldsymbol{A}\boldsymbol{v}_i/\boldsymbol{u}_i$
$\boldsymbol{A}^T\boldsymbol{A}=\boldsymbol{V}\boldsymbol{\Sigma}^2\boldsymbol{V}^T,\boldsymbol{A}\boldsymbol{A}^T=\boldsymbol{U}\boldsymbol{\Sigma}^2\boldsymbol{U}^T$

$\boldsymbol{A}^T\boldsymbol{A}$ 特征值与奇异值： $\sigma_i=\sqrt{\lambda_i}$

- 奇异值分解的性质

奇异值矩阵中按照从大到小排列，且减少得特别快，即可以用最大的 $k$ 个奇异值和对应的左右奇异向量来近似描述矩阵：

$\boldsymbol{A}_{m\times n}=\boldsymbol{U}_{m\times m}\boldsymbol{\Sigma}_{m\times n}\boldsymbol{V}_{n\times n}^T\approx \boldsymbol{U}_{m\times k}\boldsymbol{\Sigma}_{k\times k}\boldsymbol{V}_{n\times k}^T$

大的矩阵用三个小矩阵近似描述；
若 $\boldsymbol{\Sigma}$ 中有 $k$ 个非0值： $\sigma_1\ge \sigma_2\ge\cdots\ge\sigma_k>0$ ，则此时乘回去即是 $\boldsymbol{A}$ ；

- SVD 的应用

- 数据压缩

import numpy as np
u, sigma, v = np.linalg.svd(arr)
new_arr = np.mat(u[:,0:2])*np.mat(np.diag(sigma[0:2]))*np.mat(v[0:2,:])
np.rint(new_arr)
1
2
3
4

- PCA 降维

PCA (principal components analysis) 主成分分析
总体方差： $\sigma^2=\frac{\sum(X-\mu)^2}N$ ，样本方差： $s^2=\frac{\sum (X-\bar{X})}{n-1}$ ，

$D(X)=E[(X-E(X))^2]=E(X^2)-[E(X)]^2$ ，

$D(X\pm Y)=D(X)+D(Y)\pm2Cov(X,Y)$ ， $Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}$
左奇异向量压缩行，右奇异向量压缩列，即取奇异值较大的左奇异向量或右奇异向量与原数据相乘。

- 协调过滤

用户推荐
用 SVD 分解把样本映射到低维空间

- 矩阵求逆

奇异值求倒数： $\boldsymbol{A}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T\Rightarrow \boldsymbol{A}^{-1}=\boldsymbol{V}\boldsymbol{\Sigma}^{-1}\boldsymbol{U}^T$

相关阅读:
使用VUE等主流框架提升小程序开发效率
数据结构：（c实现）手把手教你实现栈和队列（内附详细代码）
2022面试相关 - react相关原理
printf函数
rust编程-通用编程概念（chapter 3.4 & 3.5 注释和控制语句）
Windows10源码编译安装RDKit
腾讯云防火墙是干啥的？有哪些优势？适用于哪些场景？
Java学习 --- 设计模式的适配器模式
Python Basics with Numpy（吴恩达课程）
如何解决机器视觉高速图像处理软件的加密需求？

原文地址：https://blog.csdn.net/yyywxk/article/details/127673857