机器学习笔记之最优化理论与方法(十)无约束优化问题——共轭梯度法背景介绍

机器学习笔记之最优化理论与方法——共轭梯度法背景介绍

引言

引言

本节将介绍共轭梯度法，并重点介绍共轭方向法的逻辑与几何意义。

背景：共轭梯度法

关于最小化二次目标函数： $min f (x) = min \frac{1}{2} x^{T} Q x + C^{T} x$ ，其中 $\mathcal Q \in \mathbb R^{n \times n};\mathcal Q \succ 0$ ，且 $\mathcal C \in \mathbb R^n$ 。很明显：由于 $\mathcal Q$ 是正定矩阵，那么该函数是凸二次函数。

关于该函数的最优解：令 $\nabla f(x) \triangleq 0$ ，有：
凸函数的局部最优解(极值点)也是它的全局最优解。
$\nabla f(x) = \mathcal Q x + \mathcal C \triangleq 0$
可以看出： $\mathcal Q x + \mathcal C = 0$ 是一个包含 $n$ 个方程的线性方程组。

如果 $n$ 的规模较小时，关于解方程组，可以使用其他工具进行解决。例如：高斯消去法；
相反，当 $n$ 的规模较大时，对应的增广矩阵规模同样很大，使用高斯消去法解方程组的成本较高。

而共轭梯度法初始就是针对方程组的一种迭代求解方法。随着最优化问题的推广，关于目标函数 $f (x)$ 也不仅仅局限在二次函数。对于这类 $\min f(x)$ 的方法也被称作非线性共轭梯度法。
对于上述方程组问题的迭代求解方法也被称作线性共轭梯度法。

线性共轭梯度法

关于上述优化问题： $min f (x) = \frac{1}{2} x^{T} Q x + C^{T} x; Q ≻ 0$

假设正定矩阵 $\mathcal Q$ 是一个对角矩阵 $\mathcal B = (b1b2⋱bn)_{n \times n}$ ，那么此时可以发现： $f (x) = \frac{1}{2} x^{T} B x + C^{T} x$ 中的二次项部分仅包含 $x$ 内各分量的平方项，而不包含各分量的交叉项；
以 $n = 2$ 为例，对应目标函数图像以及在 $x_1,x_2$ 方向上的投影(等值线)示例如下。

很明显，可以看出：描述等值线的椭圆，其长轴与短轴分别与坐标轴平行。如果通过迭代的方式进行求解，可以根据无约束优化问题——常用求解方法(上)中介绍的坐标轴交替下降法进行求解。图像表示如下：
由于更新方向被确定——与坐标轴方向平行。因此仅需要计算各维度达到最小步长即可。因而仅需要 $2$ 步就可以找到最优解。

同理，如果是 $\in \mathbb R^n$ ，需要将所有的轴均迭代一遍即可找到最优解。
如果 $\mathcal Q$ 是一个一般形式的正定矩阵： $\mathcal Q = (q11q12⋯q1nq21q22⋯q2n⋮⋮⋱⋮qn1qn2⋯qnn)_{n \times n};\mathcal Q \succ 0$ 。这里依然以 $n = 2$ 为例，对应的目标函数 $f (x)$ 在决策变量 $x$ 各分量的等值线示例如下：
由于交叉项 $q_{mn}(m \neq n)$ 的存在，对应椭圆图像的长轴与短轴不再与坐标轴平行。

针对这种一般情况的二次型函数 $min f (x) = \frac{1}{2} x^{T} Q x + C^{T} x$ ，可以通过二次型的线性替换，从而将函数转化为标准型函数：
其中 $\mathcal D$ 是由 $\mathcal Q$ 特征值组成的对角阵;而 $\mathcal P$ 则表示由特征值对应特征向量组成的正交阵。
$\mathcal Q = \mathcal P^T \mathcal D \mathcal P \quad \mathcal D = (λ1λ2⋱λn)_{n \times n}$
替换后的函数 $f (x)$ 可表示为：
记 $\hat {x} = \mathcal P x$ 反之 $\mathcal P^T \hat x$ 。
$f (x) = \frac{1}{2} x^{T} Q x + C^{T} x = \frac{1}{2} x^{T} P^{T} DP x + C^{T} x = \frac{1}{2} (P x)^{T} D (P x) + C^{T} x = \frac{1}{2} [\overset{x}{^}]^{T} D \overset{x}{^} + C^{T} (P^{T} \overset{x}{^}) = \frac{1}{2} [\overset{x}{^}]^{T} D \overset{x}{^} + (P C)^{T} \overset{x}{^} = \hat{f} (\overset{x}{^})$
此时，该公式又变回了第一类标准型。同样可以通过坐标轴交替下降法对新目标函数 $\hat f(\hat x)$ 进行求解。如果找到了关于 $\hat x$ 的最优解，可以通过 $\mathcal P^T \hat x$ 找到 $x$ 的最优解。

而线性共轭梯度法是用来针对线性方程组 $\nabla f(x) = \mathcal Q x + \mathcal C \triangleq 0$ 的求解问题。如果针对上述逻辑，必然需要先将正交矩阵 $\mathcal P$ 求解出来。但相反，由于 $\mathcal P$ 是由特征值对应特征向量组成的正交矩阵，而求解特征向量依然要解方程组 $\mathcal Q x + \mathcal C \triangleq 0$ 。
很明显，这形成了一个闭环:想要通过 $\mathcal P$ 求解方程组，而 $\mathcal P$ 自身也要通过求解方程组来获取。

而共轭梯度法的思路是：想要通过获取一系列的 $n$ 维向量： $d_0,d_1,\cdots,d_{n-1} \in \mathbb R^n$ ，其组成的矩阵 $\mathcal S = (d_0,d_1,\cdots,d_{n-1})_{n \times n}$ ，使其替代上面描述的正交矩阵 $\mathcal P_{n \times n}$ ，从而帮助 $\mathcal Q$ 完成对角化：
$\mathcal Q = \mathcal S^T \mathcal D \mathcal S$
从而通过上述思路，求解最优解： $\mathcal S^T \hat {x}$ 。

关于向量组： $d_0,d_1,\cdots,d_{n-1}$ ，向量之间的关系被定义为共轭关系。

共轭方向

共轭方向的定义表示为：考虑正定矩阵 $\mathcal Q$ 以及非零向量 $d_i,d_j(i \neq j)$ ，若满足：
$(d_i)^T \mathcal Q d_j = 0$
则称向量 $d_i,d_j$ 关于矩阵 $\mathcal Q$ 共轭。如果向量组 $\mathcal D = \{d_0,d_1,\cdots,d_k\}$ 关于矩阵 $\mathcal Q$ 共轭，即向量之间两两共轭：
$\forall d_i,d_j \in \mathcal D;i \neq j \Rightarrow (d_i)^T \mathcal Q d_j = 0$

共轭VS正交

根据上述共轭梯度法的思路，以及共轭方向定义的描述，观察：共轭与正交之间的关系。

如果向量组 $\mathcal D \{d_0,d_1,\cdots,d_k\}$ 关于单位矩阵 $\mathcal I$ 共轭：此时向量 $d_i,d_j \in \mathcal D$ 之间的共轭关系退化为正交关系：
$\forall d_i,d_j \in \mathcal D,i \neq j \quad (d_i)^T \mathcal Id_j = 0 \Rightarrow (d_i)^T d_j = 0$
如果向量组 $\mathcal D \{d_0,d_1,\cdots,d_k\}$ 关于正定矩阵 $\mathcal Q$ 共轭：令 $\mathcal Q = \mathcal M^T \Lambda \mathcal M$ ，并令 $\Lambda = \lambda^2$ ，有：
- 由于 $\mathcal M$ 是正交矩阵: $\mathcal M \mathcal M^T = \mathcal I$ ,因而可以在展开过程中插入一个 $\mathcal M \mathcal M^T$ 。
- 令 $\mathcal P = \mathcal M^T \lambda \mathcal M$
  $Q = M^{T} Λ M = M^{T} λ^{2} M = (M^{T} λ M) (M^{T} λ M) = (M^{T} λ M)^{2} = P^{2}$
从而将 $\mathcal Q$ 分解成 $\mathcal P^2$ 的形式。并且 $\mathcal P = \mathcal M^T \lambda \mathcal M$ 也是一个正定矩阵： $\mathcal P^2 = \mathcal P \cdot \mathcal P = \mathcal P^T \mathcal P$ 。
关于向量 $d_i,d_j$ 共轭： $(d_i)^T \mathcal Q d_j = 0$ 可表示为：
$(d_{i})^{T} Q d_{j} = (d_{i})^{T} P^{2} d_{j} = (d_{i})^{T} P^{T} P d_{j} = (P d_{i})^{T} (P d_{j}) = 0$
也就是说：向量 $d_i,d_j$ 经过正交矩阵 $\mathcal P$ 的投影结果： $\mathcal Pd_i,\mathcal Pd_j$ 之间是正交关系。
关于向量投影的描述详见主成分分析(最大投影方差)
根据正交的性质，两两正交的向量组，其内部向量必然线性无关；两两共轭的向量组，其内部向量同样线性无关。由于决策变量 $\in \mathbb R^n$ ，因而对应的两两共轭向量组内最多包含 $n$ 个两两共轭的向量。
再多一个，必然出现向量之间不共轭的情况。

共轭方向法

依然针对凸二次函数的优化问题： $min f (x) = \frac{1}{2} x^{T} Q x + C^{T} x, Q ≻ 0$ ，通过迭代的方式求解 $x$ 的最优解：

给定：初始点 $x_0$ 以及一组关于 $\mathcal Q$ 的共轭方向 $d_0,d_1,\cdots,d_{n-1}$ ，令：
与坐标轴交替下降法的思路如出一辙，只不过方向选择由原来两两正交的坐标轴作为方向替换为两两共轭的向量作为方向。
$x_{k+1} = x_k + \alpha_k \cdot d_k$
其中 $\alpha_k$ 满足：
即当前迭代步骤的最优解，之所以选择最优解，因为该函数是凸函数,对应的最优解必然是全局最优解。
$\alpha_k = \mathop{\arg\min}\limits_{\alpha} \phi(\alpha) = \mathop{\arg\min}\limits_{\alpha} f(x_k + \alpha \cdot d_k)$
计算 $\nabla \phi(\alpha_k) \triangleq 0$ ，有：
$\nabla ϕ (α_{k}) = \nabla f (x_{k} + α_{k} \cdot d_{k})^{T} d_{k} = [Q (x_{k} + α_{k} \cdot d_{k}) + C]^{T} d_{k} = (Q x_{k} + C)^{T} d_{k} + α_{k} (d_{k})^{T} Q d_{k} ≜ 0$
最终有：
$\alpha_k = -\frac{(\mathcal Q x_k + \mathcal C)^T d_k}{(d_k)^T \mathcal Q d_k} = -\frac{[\nabla f(x_k)]^T d_k}{(d_k)^T \mathcal Q d_k}$

整个的算法过程并不麻烦，但需要一个前提：将共轭方向 $d_0,d_1,\cdots,d_{n-1}$ 提前给出。因而不同共轭方向的选择方式对应其相应的共轭方向法。
与牛顿法的描述相似：针对 $\text{Hessian Matrix}$ 可能不是正定矩阵的一类情况，分为修正法， $\text{SR-1,DFP,BFGS}$ 等等方法;同理，共轭方向法为一类方法，而共轭梯度法只是其中一种方法。

共轭方向法的几何解释

观察关于初始点 $x_0$ 的第一次迭代： $x_0 \Rightarrow x_1$ ：
$x_1 = x_0 + \sum_{i=0}^{n-1} \alpha_i \cdot d_i$
如果将 $n$ 个共轭方向组成矩阵，记作 $\mathcal S = (d_0,d_1,\cdots,d_{n-1})_{n \times n}$ ，由于共轭方向两两线性无关，因而 $\mathcal S$ 必然是可逆矩阵。该矩阵存在如下性质：

关于 $\mathcal S^T \mathcal Q \mathcal S = [(d0)T⋮(dn−1)T] \mathcal Q (d_0,\cdots,d_{n-1}) = [(d_i)^T \mathcal Q d_j]_{n \times n}$ ，根据共轭方向的定义，当 $\neq j$ 时，必然有： $(d_i)^T \mathcal Q d_j = 0$ ；相反，当 $i = j$ 时，由于 $\mathcal Q$ 是正定矩阵，因而 $(d_i)^T \mathcal Q d_j >0$ 恒成立。从而 $\mathcal S^T \mathcal Q \mathcal S$ 不仅是一个正定矩阵，甚至是一个对角阵。
从而达到利用 $\mathcal S$ 对 $\mathcal Q$ 进行对角化的目的。
由于 $\mathcal S$ 可逆，根据逆矩阵的性质，必然有： $\mathcal S^{-1} \mathcal S = \mathcal S^{-1}(d_0,d_1,\cdots,d_{n-1}) = \mathcal I$ (单位矩阵)。将该式展开，有：
$I = S^{- 1} (d_{0}, d_{1}, \dots, d_{n - 1}) = (S^{- 1} d_{0}, S^{- 1} d_{1} \dots S^{- 1} d_{n - 1})$
其中展开后矩阵中的元素 $\mathcal S^{-1} d_i(i=0,1,2,\cdots,n-1)$ 表示单位坐标向量 $e_{i+1} = (0,0,\cdots,\underbrace{1}_{i+1},\cdots,0)^T$

如果将决策变量 $\mathcal S \cdot \hat {x}$ 或者 $\hat x = \mathcal S^{-1} x$ ，从而原始目标函数 $f (x) = \frac{1}{2} x^{T} Q x + C^{T} x$ 可替换为一个新函数 $\hat f(\hat {x})$ ：
$\hat f(\hat {x}) = \frac{1}{2} [\hat x]^T \underbrace{\mathcal S^T \mathcal Q \mathcal S}_{对角阵} \cdot \hat {x} + (\mathcal S^T \mathcal C)^T \hat {x}$
此时的新函数中仅包含关于 $\hat {x}_i(i=1,2,\cdots,n)$ 的平方项，而没有交叉项。从而新函数 $\hat f(\hat x)$ 在 $\hat x$ 特征空间中的等值线依然是一个椭圆/椭球/超椭球，其长轴与短轴同样与坐标轴平行。

回归第一次迭代： $x_0 + \sum_{i=0}^{n-1} \alpha_i \cdot d_i$ ，这明显是一个在原始特征空间 $x$ 上的操作。如果该操作映射在 $\hat x$ 的特征空间中会变成什么样的效果 $?$
只需要将 $x$ 特征空间中的正交向量乘以 $\mathcal S^{-1}$ 即可得到对应 $\hat x$ 特征空间的正交向量。
$\mathcal S^{-1}x_0 + \alpha_0 \mathcal S^{-1}d_0 + \alpha_1 \mathcal S^{-1} d_1 + \cdots + \alpha_{n-1} \mathcal S^{-1} d_{n-1}$
由于 $e_{i+1} = \mathcal S^{-1} d_i(i=1,2,\cdots,n-1)$ ，整理有：
很明显，在 $\hat x$ 的特征空间中，相当于坐标轴交替下降法,沿着坐标轴进行搜索。
$\mathcal S^{-1}x_0 + \alpha_0 e_1 + \alpha_1 e_2 + \cdots + \alpha_{n-1} e_{n}$

下一节将继续介绍共轭方向法。
$0 : 37 : 14/1 : 26 : 29$

$\text{Reference}$ ：
最优化理论与方法-第七讲-无约束优化问题（三）

相关阅读:
chrome108 版本跨域问题
OpenMP Sections Construct 实现原理以及源码分析
[Python中常用的回归模型算法大全：从线性回归到XGBoost]
Leetcode.213 打家劫舍 II
【Docker】容器连接到mysql（容器互联超详细）
【Java多线程】线程同步机制（含同步方法）及不安全案例讲解
CodeGeeX：一款强大的 Copilot 之外可以免费使用的 AI 代码生成工具
【Java-----IO流（三）之缓冲流详解】
【自然语言处理】【实体匹配】AutoBlock：一个用于实体匹配的自动化Blocking框架
【Vue 开发实战】生态篇 # 19：Vue Router的使用场景

原文地址：https://blog.csdn.net/qq_34758157/article/details/132777644