首先注意前提:特征值和特征向量,仅针对方阵讨论,因为非方阵不可能满足定义式 A v ⃗ = λ v ⃗ \mathbf A \vec v=\lambda \vec v Av=λv的维度要求
特征向量(Eigenvectors)
v
⃗
\vec v
v:线性变换后,仍保持在其原张成空间内的向量(方向不变或反向)
特征值(Eigenvalue)
λ
\lambda
λ:衡量特征向量在线性变换中被拉伸/压缩的比例因子
它们之间的关系记作:
A
v
⃗
=
λ
v
⃗
\mathbf A \vec v=\lambda \vec v
Av=λv
考虑一个变换,其i轴被拉伸,其j轴向i轴倾斜,我们可以写出对应的变换矩阵
考虑一个向量 v ⃗ = [ 2 , 1 ] T \vec v=[2,1]^T v=[2,1]T
在变换前,它的张成空间span为其所在的直线;
在变换后,由于整个空间的“压缩”,这个向量离开了它原先的张成空间
另一方面,也的确存在一些特殊的向量,在变换后留在其原来张成的空间内
线性变换对这些向量的作用,仅是压缩/拉伸,就好像是一个标量的作用一样
- x轴上的所有向量留在原span内,容易理解
- 隐蔽的是,处于变换后的新坐标系的基向量张成的对角线上的任意向量,例如(-1, 1),同样留在其span内
Eg1. 对于所有列向量线性无关的矩阵
A
\mathbf A
A,他代表了一个平面,而投影矩阵
P
=
A
(
A
T
A
)
−
1
A
T
\mathbf P=\mathbf A(\mathbf A^T\mathbf A )^{-1}\mathbf A^T
P=A(ATA)−1AT能够将平面外的向量投影到平面上,例如将向量
b
\boldsymbol b
b投影到平面上得到的
p
=
P
b
=
A
(
A
T
A
)
−
1
A
T
b
\boldsymbol p=\mathbf P\boldsymbol b=\mathbf A(\mathbf A^T\mathbf A )^{-1}\mathbf A^T\boldsymbol b
p=Pb=A(ATA)−1ATb

现在,求投影矩阵
P
\mathbf P
P的所有特征值和特征向量
Eg2. 置换矩阵 A = [ 0 1 1 0 ] A=\left[0110\right] A=[0110],其作用是将向量的两行位置互换,求其所有特征值和特征向量
进一步的,要求解某个变换矩阵对应的特征向量
v
⃗
\vec v
v
就是求下面方程的解(其中
v
⃗
\vec v
v是待求解的量,并且需要非零解):
(
A
−
λ
I
)
v
⃗
=
0
\mathbf{( A-\lambda I)} \vec v=0
(A−λI)v=0
注意:一般与特征向量对应的特征值都是实数
而特征值为虚数的情况,对应于变换中出现了某种旋转(例如对于旋转90°矩阵求特征值为 i \boldsymbol i i,联系复平面内乘以 i \boldsymbol i i的效果)
特征值和特征向量有什么用?
- 考虑三维空间中的三维向量,用一个3x3矩阵对其做“旋转”的线性变换,如果能找到这个变换中的特征值为1的特征向量(在变换过程中,始终留在其张成空间内的向量),那么就找到了旋转轴!(进一步可以将旋转视为绕轴一定角度的旋转,这比矩阵描述更直观)
- 并且,之前将矩阵的列向量看作基向量去向的做法,非常依赖于当前所用的坐标系(在其他的坐标系下,同一矩阵表示的变换完全不同),而特性向量则避开了对特定坐标系的依赖,只关注变换的特性本身
应用:在图像压缩过程中,极小的特征值会被赋值为0,从而节省存储空间,降维后的图像基本轮廓依旧清晰,图像细节有所牺牲
例如对于三角阵 A = [ 3 1 0 3 ] \boldsymbol{A}=\left[3103\right] A=[3013],可以解得 λ 1 = λ 2 = 3 \lambda_1=\lambda_2=3 λ1=λ2=3,两者对应同一个特征向量 x 1 = [ 1 0 ] \mathbf{x}_{1}=\left[10\right] x1=[10];
分三种情况:
例如对于 A = [ 3 1 1 3 ] \boldsymbol{A}=\left[3113\right] A=[3113],特征值和特征向量 λ 1 = 4 , x 1 = [ 1 1 ] \lambda_{1}=4, \mathbf{x}_{1}=\left[11\right] λ1=4,x1=[11], λ 2 = 2 , x 2 = [ − 1 1 ] \lambda_{2}=2, \mathbf{x}_{2}=\left[−11\right] λ2=2,x2=[−11]
注意,这里与前面的 A 0 = [ 0 1 1 0 ] \boldsymbol A_0=\left[0110\right] A0=[0110]对比,其 λ 1 = 1 , x 1 = [ 1 1 ] \lambda_{1}=1, \mathbf{x}_{1}=\left[11\right] λ1=1,x1=[11], λ 2 = − 1 , x 2 = [ − 1 1 ] \lambda_{2}=-1, \mathbf{x}_{2}=\left[−11\right] λ2=−1,x2=[−11],可见由于 A = A 0 + 3 I \boldsymbol A=\boldsymbol A_0+3\boldsymbol I A=A0+3I,对应的特征值也加3,特征向量不变,但这个结论不是普遍成立,即两个矩阵的和的特征值不是两特征值直接相加,因为特征向量很可能并不相同因
例如对于正交矩阵 Q = [ 0 − 1 1 0 ] = [ cos 9 0 ∘ − sin 9 0 ∘ sin 9 0 ∘ cos 9 0 ∘ ] \boldsymbol{Q}=\left[0−110\right]= \left[cos90∘−sin90∘sin90∘cos90∘\right] Q=[01−10]=[cos90∘sin90∘−sin90∘cos90∘],该矩阵对应了90°的旋转变换,应该不存在只受伸缩的特征向量(没有实数特征值),可以解得 λ 1 = i 和 λ 2 = − i \lambda_{1}=i \text { 和 } \lambda_{2}=-i λ1=i 和 λ2=−i
特征值若为复数,则一定共轭成对出现,即两个共轭复数必然同时为特征值
实数特征值对应特征向量的伸缩,虚数特征值对应特征向量的旋转
迹实际上是一种是相似不变量(它仅由线性变换决定,但具体可以表现为多个相似矩阵),它就像是线性变换在矩阵中留下的“痕迹”
抓住核心:相似矩阵,始终描述同一个线性变换,因此这个线性变换虽然有不同的表现形式(相似矩阵),但其某些核心特性是固定了的
根据 特征值分解,矩阵 A = P − 1 Λ P \mathbf{A=P^{-1}\Lambda P} A=P−1ΛP,其中 Λ \Lambda Λ为 d a i g ( λ 1 , λ 2 , . . . , λ n ) daig(\lambda_1,\lambda_2,...,\lambda_n) daig(λ1,λ2,...,λn),而 P P P为对应的特征向量组成的矩阵,显然这里 A A A和 Λ \Lambda Λ也是相似矩阵,可见, Λ \Lambda Λ将同一个线性变换对应的各个相似矩阵联系起来(不同的相似矩阵, Λ \Lambda Λ相同,i.e.它们都有相同的特征值,但 P P P不同,因为同一个变换,特征向量缩放比例一致,但是不同坐标系下观察到的特征向量不同)
进一步的,不同相似矩阵,其特征值固定,才导致了:
同一个变换,不管在什么坐标系下进行(表现为不同的相似矩阵),其“核心特性”——特征值始终不变,(这就是为什么要称之为“特征”),特征值不变也决定了行列式、迹不变,他们都是相似不变量