共轭梯度法（CG）详解

文章目录

- 共轭梯度法（CG）详解

之前写过几个关于共轭梯度法的注记，譬如：

但事实上很多人反应，看得一头雾水，基于此，本篇文章旨在对于共轭梯度方法从优化的角度给一个干净的描述。

线性共轭梯度法

线性共轭梯度方法是 Hestenes 和 Stiefel 在 20 世纪 50 年代提出来的的一个迭代方法，用于求解正定系数矩阵的线性系统。
假定 $A$ 是对称正定的矩阵，求解线性方程组
$A x = b$
等价于求解如下凸优化问题：
$\min \phi(x) \equiv \frac{1}{2} x^{T} A x-b^{T} x$
该问题的梯度便是原线性系统的残差，
$\nabla \phi(x)=A x-b \equiv r(x)$
在 $x=x_k$ 点， $r_{k}=A x_{k}-b$ 。

共轭方向

定义对于非零向量集合 $\left\{p_{0}, p_{1}, \cdots, p_{t}\right\}$ 关于对称正定矩阵 $A$ 是共轭的，若
$p_{i}^{T} A p_{j}=0, \quad \text { for all } i \neq j .$

容易证明，共轭向量之间是线性独立的。

假设已经有了一组共轭向量，我们把未知量表示为它们的线性组合 $x=\sum_{i=1}^{n} \alpha^{i} p_{i}$ ，我们希望能够寻找一组系数，去极小化
$\phi(x)=\sum_{i=1}^{n} \left(\frac{\left(\alpha^{i}\right)^{2}}{2} p_{i}^{T} A p_{i}-\alpha^{i} p_{i}^{T} b\right)$
求和中的每一项都是独立的，极小化之，那么我们就可以得到
$\alpha^{i}=\frac{p_{i}^{T} b}{p_{i}^{T} A p_{i}}$

通过共轭方向，把一个 n 维问题，拆解成了 n 个一维问题。

从矩阵的角度来看这个问题，我们把自变量做一个变换，
$\hat{x}=S^{-1} x$
其中， $S$ 由共轭向量张成，
$S=\left[p_{0}, p_{1}, \cdots, p_{n-1}\right]$
那么二次问题变为，
$\hat{\phi}(\hat{x}) \equiv \phi(S \hat{x})=\frac{1}{2} \hat{x}^{T}\left(S^{T} A S\right) \hat{x}-\left(S^{T} b\right)^{T} \hat{x}$
由共轭性，我们知道矩阵 $S^{T} A S$ 是个对角矩阵，那么久变成了一个对角矩阵系数的极简方程。

共轭方向法

所谓的共轭方向法，就是给定初值点 $x_0$ 和一组共轭方向，我们通过如下方式迭代更新 $x_k$ ：
$x_{k+1}=x_{k}+\alpha_{k} p_{k}$
$\alpha_{k}=-\frac{r_{k}^{T} p_{k}}{p_{k}^{T} A p_{k}}$

1、这里的步长 $\alpha_k$ 是二次函数 $\phi$ 沿着 $x_{k}+\alpha p_{k}$ 的一维的极小化，我们一般称之为精确线搜索步长。
2、理论上，精确线搜索方法至多 n 步收到到线性系统的解。忽略证明。

对于共轭方向法来说，有如下定理。

定理： $x_{0} \in \Re^{n}$ 是任意起点， $\left\{x_{k}\right\}$ 通过共轭方向法生成，那么
$r_{k}^{T} p_{i}=0, \text { for } i=0,1, \cdots, k-1,$
且 $x_{k}$ 在集合
$\left\{x \mid x=x_{0}+\operatorname{span}\left\{p_{0}, p_{1}, \cdots, p_{k-1}\right\}\right\} .$
上，关于 $\phi(x)=\frac{1}{2} x^{T} A x-b^{T} x$ 的极小化。

CG 方法

共轭方向法的共轭方向如何得到呢？共轭梯度方法（Conjugate Gradient，CG）方法是一个特别的共轭方向法：它的共轭方向是在 $x_k$ 的迭代中一个一个生成出来的，并且 $p_k$ 的计算只用到 $p_{k-1}$ 。

它的思想在于，选取当前共轭方向为负梯度方向和前一个共轭方向的线性组合，
$p_{k}=-r_{k}+\beta_{k} p_{k-1}$
将其左乘 $p_{k-1}^{T} A$ ，由 $p_k$ 与 $p_{k-1}$ 的共轭性，可以得到组合系数：
$\beta_{k}=\frac{r_{k}^{T} A p_{k-1}}{p_{k-1}^{T} A p_{k-1}}$
在这个过程中，选择 $p_0$ 为 $x_0$ 处负梯度方向，结合前面的介绍，就可以得到线性共轭梯度方法。
在这里插入图片描述

注意到梯度和共轭方向的一些关系：
$\begin{aligned} r_{k}^{T} r_{i} &=0, \quad \forall i=0, \cdots, k-1 \\ \operatorname{span}\left\{r_{0}, r_{1}, \cdots, r_{k}\right\} &=\operatorname{span}\left\{r_{0}, A r_{0}, \cdots, A^{k} r_{0}\right\} \\ \operatorname{span}\left\{p_{0}, p_{1}, \cdots, p_{k}\right\} &=\operatorname{span}\left\{r_{0}, A r_{0}, \cdots, A^{k} r_{0}\right\} \\ p_{k}^{T} A p_{i} &=0, \quad \forall i=0,1, \cdots, k-1 . \end{aligned}$
通过一些简单的推导，替换掉 CG 算法中的一些表达，就得到了如下的 CG 方法的更加经济的实用形式，

在这里插入图片描述

####收敛率
定义条件数：
$\kappa(A)=\|A\|_{2}\left\|A^{-1}\right\|_{2}=\frac{\lambda_{n}}{\lambda_{1}}$
那么，CG 的收敛率可以表达为：
$\left\|x_{k}-x^{*}\right\|_{A} \leq 2\left(\frac{\sqrt{\kappa(A)}-1}{\sqrt{\kappa(A)}+1}\right)^{k}\left\|x_{0}-x^{*}\right\|_{A}$

由表达式可以看出，当 $A$ 条件数很大的时候，前面的系数趋近于 1，收敛速度无法保证。

预条件

所谓的预条件，就是希望对矩阵 $A$ 做一个改造，改进特征值分布，让它的条件数小一些。

具体地，引入一个非奇异矩阵 $C$ ，做变量替换，
$\hat{x}=C x .$
二次问题就变为了，
$\hat{\phi}(\hat{x})=\frac{1}{2} \hat{x}^{T}\left(C^{-T} A C^{-1}\right)^{-1} \hat{x}-\left(C^{-T} b\right)^{T} \hat{x}$
其对应的线性系统是，
$\left(C^{-T} A C^{-1}\right) \hat{x}=C^{-T} b$
我们要做的，就是找一个逆比较好求的 $C$ ，使得 $C^{-T} A C^{-1}$ 特征值分布更集中。落实到实用算法上，得到：

在这里插入图片描述

注意到，这里没有显式用到 $C$ ，而是用到了
$M = C^TC$
性质中的残差的正交性表达也发生了改变，
$r_{i}^{T} M^{-1} r_{j}=0 \text { for all } i \neq j$

非线性共轭梯度法

求解非线性极小化问题：
$\min f(x)$

$f$ 此时是非线性函数。

FR 方法

相对于共轭梯度法，我们做两点改动：

对于步长 $\alpha_k$ ，我们需要采取一种线搜索方法沿着 $p_k$ 去逼近非线性目标函数 $f$ 的极小。（满足所谓的强 wolfe 条件的步长）
残差 $r$ 原来是线性 CG 方法的梯度，现在需要用 $f$ 的梯度来替代它。

那么我们就得到了第一个非线性共轭梯度法，它是 Fletcher 和 Reeves 在 20 世纪 60 年代搞的。
在这里插入图片描述

对于 FR 方法，如果某步的方向不太好或者步长太小，那么下一步的方向和步长也会很糟糕。

其他非线性 CG

除了 PR 方法，我们选取不同的组合系数 $\beta$ ，就能得到不同的非线性 CG 方法。

PR 方法：
$\beta_{k+1}^{P R}=\frac{\nabla f_{k+1}^{T}\left(\nabla f_{k+1}-\nabla f_{k}\right)}{\left\|\nabla f_{k}\right\|^{2}} .$

HS 方法：
$\beta_{k+1}^{H S}=\frac{\nabla f_{k+1}^{T}\left(\nabla f_{k+1}-\nabla f_{k}\right)}{\left(\nabla f_{k+1}-\nabla f_{k}\right)^{T} p_{k}}$

DY 方法：
$\beta_{k+1}^{D Y}=\frac{\nabla f_{k+1}^{T} \nabla f_{k+1}}{\left(\nabla f_{k+1}-\nabla f_{k}\right)^{T} p_{k}}$

容易观察到，这四种方法无非是两个分子和两个分母的四种组合。

我们指出以下几点：

DY 方法是我们所的戴彧虹和袁亚湘老师提出的。
对于 $f$ 是强凸的二次问题，若采用精确想搜索，那么 PR-CG 和 HS-CG 是一个东西。
数值实验表明，PR 更鲁棒更有效。
PR 方法其实就是在 FR 的基础上，当遇到前后两步梯度变化比较小的坏条件的时候，重新开始梯度下降的 “重启动” 方法。
PR 方法可能不收敛。

PR+ 方法

若要保证 $p_k$ 是下降方向，我们只需要为 PR 的 $\beta$ 进行微调：
$\beta_{k+1}^{+}=\max \left\{\beta_{k+1}^{P R}, 0\right\}$
称之为 PR+ 方法。

重启动

一个重启动的方式是，每迭代 $n$ 步，就设置 $\beta_{k}=0$ ，即取迭代方向为最速下降方向。重启动能抹掉一些旧的信息。但是这种重启动，没有什么实际的意义，只能说是一种理论的贡献。因为大部分情况下 $n$ 很大，可能不需要迭代多少个 $n$ 步，差不多就达到了比较好的逼近解。

另外一个重新启动是基于前后两步的梯度不正交的考虑，即当遇到
$\frac{\left|\nabla f_{k}^{T} \nabla f_{k-1}\right|}{\left\|\nabla f_{k}\right\|^{2}} \geq 0.1$
我们进行一个重启动。

相关阅读:
【Python第三方包】快速获取硬件信息和使用情况(psutil、platform)
Git远程分支项目强制覆盖本地项目
【LeetCode】剑指 Offer Ⅱ 第6章：栈（6道题） -- Java Version
FreeRTOS 延时函数和软件定时器详解
道可云元宇宙每日资讯｜文旅中国元宇宙第二届生态大会即将举行
网络工程师---第四十六天
C++的自定义结构——枚举、结构体、联合体
Java 连接SqlServer问题
算法训练第六十五天|螺旋遍历二维数组
这个职业堕落的人

原文地址：https://blog.csdn.net/lusongno1/article/details/124988357