一组标准正交向量Orthonormal vectors满足:
q i T q j = { 0 i ≠ j 1 i = j \mathbf{q}_{i}^{T} \mathbf{q}_{j}=\left\{\right. qiTqj={01i=ji=j" role="presentation" style="position: relative;"> 0 i ≠ j 1 i = j
“标准”是指各个向量长度都为1,“正交”指任意两个向量正交;标准正交基础让问题变得简单可控
将一组标准正交向量作为列向量,得到的矩阵为
Q
\mathbf Q
Q
根据上面的性质,这个矩阵一定满足
Q
T
Q
=
[
q
1
T
q
2
T
q
3
T
]
[
q
1
q
2
q
3
]
=
I
\mathbf Q^T\mathbf Q=
ps. Q \mathbf Q Q不一定为方阵,例如三维空间中两个正交的基向量,也可以构成一个 Q \mathbf Q Q;
但是,如果 Q \mathbf Q Q为方阵,则其列向量就是 R n \mathbf R^n Rn空间的一组标准正交基( n n n个长度为1的 n × 1 n \times 1 n×1基向量)
当
Q
\mathbf Q
Q为方阵时,这样以一组标准正交基作为列向量的矩阵称为正交矩阵 Orthogonal matrix
正交矩阵满足
Q
T
Q
=
Q
Q
T
=
I
\mathbf Q^T\mathbf Q=\mathbf Q\mathbf Q^T=\mathbf I
QTQ=QQT=I,
Q
−
1
=
Q
T
\mathbf Q^{-1}=\mathbf Q^T
Q−1=QT
之前说过,如果想要将一个向量 b \boldsymbol b b投影到矩阵 A \mathbf A A的列空间内,做法是使用投影矩阵 P \mathbf P P:
将向量 b \boldsymbol b b投影到平面上得到的投影为 p = P b \boldsymbol p=\mathbf P\boldsymbol b p=Pb,其中投影矩阵 P = A ( A T A ) − 1 A T \mathbf P=\mathbf A(\mathbf A^T\mathbf A )^{-1}\mathbf A^T P=A(ATA)−1AT
对应这里,如果要将向量投影到正交矩阵
Q
\mathbf Q
Q的列空间内,对应的投影矩阵
P
=
Q
(
Q
T
Q
)
−
1
Q
T
=
Q
Q
T
=
I
\mathbf P=\mathbf Q(\mathbf Q^T\mathbf Q )^{-1}\mathbf Q^T=\mathbf Q\mathbf Q^T=\mathbf I
P=Q(QTQ)−1QT=QQT=I
这表明:正交矩阵这个方阵,其列空间就是整个
R
n
\mathbf R^n
Rn空间(投影后仍在原点)
之前说过, A x = b \mathbf A \boldsymbol x=\boldsymbol b Ax=b无解时,转而求解 A T A x ^ = A T b \mathbf A^T\mathbf A \hat{\boldsymbol x}=\mathbf A^T\boldsymbol b ATAx^=ATb,该方程的解 x ~ \tilde{\boldsymbol x} x~会是“最优解”
对于正交矩阵 Q \mathbf Q Q(或者列向量都为标准正交向量的非方阵 Q \mathbf Q Q),直接得到 Q T Q x ^ = x ^ = Q T b \mathbf Q^T\mathbf Q \hat{\boldsymbol x}=\hat{\boldsymbol x}=\mathbf Q^T\boldsymbol b QTQx^=x^=QTb
采用矩阵的QR分解(后面会介绍,即从列向量线性无关的矩阵 A \mathbf A A施密特正交化,得到正交矩阵 Q \mathbf Q Q)来帮助求解 A x = b \mathbf A \boldsymbol x=\boldsymbol b Ax=b的问题,最大的优势是提高了数值的稳定性
已知一组线性无关的向量,希望用它们导出一组标准正交向量,
或者说,将满秩的矩阵,变为一个正交矩阵,
方法是施密特正交化Gram-Schmidt
例如,对于任意 R n \mathbf R^n Rn空间中的三个线性无关向量 a \boldsymbol a a、 b \boldsymbol b b和 c \boldsymbol c c,对应构造的正交的向量为 A \boldsymbol A A、 B \boldsymbol B B和 C \boldsymbol C C
在消元部分,学习了矩阵的LU分解得到 A = L U \mathbf{A=LU} A=LU
列向量线性无关的矩阵
A
\mathbf A
A的施密特正交化,也可表示为
A
=
Q
R
\mathbf{A=QR}
A=QR形式,并且
Q
\mathbf Q
Q必为上三角阵
另外注意,正交化后列空间不变:
C
(
A
)
=
C
(
Q
)
C(\mathbf A)=C(\mathbf Q)
C(A)=C(Q)(正交化只不过是调整了我们使用的“基向量”,使其正交)
原理:
若有
A
=
Q
R
\mathbf{A=QR}
A=QR,则
R
=
Q
−
1
A
=
Q
T
A
\mathbf R=\mathbf Q^{-1}\mathbf A=\mathbf Q^{T}\mathbf A
R=Q−1A=QTA(因为
Q
\mathbf Q
Q为正交矩阵),由此我们得到了矩阵
R
\mathbf R
R
矩阵 R \mathbf R R中的元素应该为 q 1 T a 1 \boldsymbol q_1^T\boldsymbol a_1 q1Ta1等,但由于这是向量点积,结果是一个数字,因此下面写作 a 1 T q 2 \boldsymbol a_1^T\boldsymbol q_2 a1Tq2也可以
并且矩阵
R
\mathbf R
R必然为上三角阵:
其中,由于
a
1
\boldsymbol a_1
a1和
q
2
\boldsymbol q_2
q2必然正交(
q
2
\boldsymbol q_2
q2来自于
a
2
\boldsymbol a_2
a2的正交化),因此元素
a
1
T
q
2
=
0
\boldsymbol a_1^T\boldsymbol q_2=0
a1Tq2=0
理解: