机器学习笔记之最优化理论与算法(十二)无约束优化问题——共轭梯度法

机器学习笔记之最优化理论与方法——共轭梯度法

引言

引言

上一节主要介绍了共轭方向法的重要特征以及相关证明，本节将介绍共轭方向法的代表算法——共轭梯度法。

回顾：共轭方向法的重要特征

关于凸二次函数 $f (x)$ 的优化问题： $min f (x) = \frac{1}{2} x^{T} Q x + C^{T} x$ ，给定初始点 $x_0$ 以及关于正交矩阵 $\mathcal Q$ 的一系列共轭方向： $\mathcal D = \{d_0,d_1,\cdots,d_{n-1}\}$ ，在迭代过程中的输出位置 $x_k(k=1,2,\cdots,n)$ 表示如下：
$x_k = x_{k-1} + \alpha_{k-1} \cdot d_{k-1} \quad k = 1,2,\cdots,n$

基于上述操作产生的数值解序列 ${x_k\}_{k=1}^n$ 具有如下特征：

目标函数 $f(\cdot)$ 在输出位置 $x_k$ 处的梯度 $\nabla f(x_k)$ 与迭代过程中使用过的共轭方向 $d_i(i=0,1,\cdots,k-1)$ 均相互垂直：
$[\nabla f(x_k)]^T d_i = 0 \quad i=0,1,\cdots,k-1$
如果定义集合 $\mathcal X_k$ 为 $k$ 次迭代过程中 $x_k$ 可选择的位置空间：
$\mathcal X_k = \left\{x_0 + \sum_{i=0}^{k-1} \alpha_i \cdot d_i \mid \alpha_i \in \mathbb R\right\}$
那么如果 $x_k$ 是第 $k$ 次迭代的最优解，等价于：
$x_k = \mathop{\arg\min}\limits_{x} \left\{\frac{1}{2} x^T \mathcal Q x + \mathcal C^T x \mid x \in \mathcal X_k \right\}$
并且当 $k = n$ 时，此时的位置空间 $\mathcal X_n$ 就是由共轭方向 $d_0,d_1,\cdots,d_{n-1}$ 描述的投影空间： $\mathcal X_n \in \mathbb R^n$ ，因而目标函数 $f (x)$ 必然可以通过最多 $n$ 次迭代找到最优解。
- 首先，投影空间与原始特征空间不同，它是将正定矩阵 $\mathcal Q$ 对角化后的特征空间效果;
- 该特征空间是由共轭方向 $d_i(i=0,1,\cdots,n-1)$ 但并不是说它们是正交基：
  $\forall d_i,d_j \in \mathcal D,i \neq j \Rightarrow (d_i)^T \mathcal Q d_j = 0$
  令 $\mathcal Q = \mathcal P^2 = \mathcal P^T \mathcal P$ ，其中 $\mathcal P$ 同样是正定矩阵。有：
  $(d_{i})^{T} Q d_{j} = (d_{i})^{T} P^{T} P d_{j} = (P d_{i})^{T} (P d_{j}) = 0$
  可以看出： $\mathcal P d_i(i=0,1,\cdots,n-1)$ 才是投影空间的正交基。当然 $d_i$ 也有成为正交基的情况，即： $\mathcal Q = \mathcal P^2 = \mathcal P \Rightarrow \mathcal P = \mathcal I$ 。其中 $\mathcal I$ 表示单位矩阵。

线性共轭梯度法

显然，上面存在被我们忽视的核心问题：如何通过一种简单方式获取一组共轭方向 $?$

而共轭梯度法构造共轭方向的思想在于：在迭代下降的过程中，借助当前位置 $x_k$ 的梯度信息构造共轭方向。对应算法步骤表示如下：
该操作是在迭代过程的同时构造梯度方向：初始化 $d_0$ ,在构造新的共轭方向 $d_1$ 时，需要保证其与 $d_0$ 共轭；在构造 $d_2$ 时，需要保证其与 $d_0,d_1$ 均相互共轭，以此类推。

初始化操作：

给定初始点 $x_0$ ，记 $d_0 = -\nabla f(x_0)$ ；设置阈值 $\epsilon > 0$ ； $k = 0$

算法过程：

事先判断 $\|\nabla f(x_k)\| \leq \epsilon$ 是否成立 $?$ 是，则算法终止；
计算当前迭代步骤的最优步长 $\alpha_k$ ：
求解过程详见共轭梯度法背景介绍
$\alpha_k = - \frac{[\nabla f(x_k)]^T d_k}{(d_k)^T \mathcal Q d_k}$
计算新位置点： $x_{k+1} = x_k + \alpha_k \cdot d_k$ ，并计算共轭方向 $d_{k+1}$ ：
$d_{k+1} = -\nabla f(x_{k+1}) + \beta_k \cdot d_k,\beta_k = \frac{[\nabla f(x_{k+1})]^T \mathcal Q d_k}{(d_k)^T \mathcal Q d_k}$
令 $k = k + 1$ ，转步骤 $1$ 重新判断。

共轭方向公式的证明过程

新共轭方向产生时，需要满足一个重要条件：与之前迭代产生的共轭方向均共轭：
$(d_{k+1})^T \mathcal Q d_{i} = 0 \quad i=0,1,2,\cdots,k$
首先，尝试将 $d_{k+1}$ 表示为： $x_{k+1}$ 负梯度方向 $\nabla f(x_{k+1})$ 与 $d_0,d_1,\cdots,d_k$ 线性组合的加法形式：
其中 $\beta_0,\cdots,\beta_k$ 表示对应共轭方向的系数，是一个标量;
$d_{k+1} = - \nabla f(x_{k+1}) + \beta_0 d_0 + \beta_1d_1 \cdots + \beta_k d_k$
将该式代入上面的重要条件，即：
在线性组合中，除去与 $d_i$ 相同的一项外，其余项均为 $0$ 。
$(d_{k + 1})^{T} Q d_{i} = 0 \Rightarrow [- \nabla f (x_{k + 1}) + β_{0} d_{0} + β_{1} d_{1} \dots + β_{k} d_{k}]^{T} Q d_{i} = 0 \Rightarrow [- \nabla f (x_{k + 1})]^{T} Q d_{i} + β_{0} \cdot = 0 (d_{0})^{T} Q d_{i} + \dots + β_{i} \cdot (d_{i})^{T} Q d_{i} + \dots + β_{k} = 0 (d_{k})^{T} Q d_{i} = 0 \Rightarrow [- \nabla f (x_{k + 1})]^{T} Q d_{i} + β_{i} \cdot (d_{i})^{T} Q d_{i} = 0$
经过整理，有：
很明显:项 $(d_i)^T \mathcal Q d_i$ 与项 $[\nabla f(x_{k+1})]^T \mathcal Q d_i$ 描述的都是 $\times 1$ 的矩阵，一个值，移项就好啦~
$\beta_i \cdot (d_i)^T \mathcal Q d_i = \nabla f(x_{k+1})^T \mathcal Q d_i \Rightarrow \beta_i = \frac{[\nabla f(x_{k+1})]^T \mathcal Q d_i}{(d_i)^T \mathcal Q d_i}$
此时，当 $\beta_i$ 确定后， $d_{k+1}$ 必然与 $d_i$ 共轭。同理，可以对所有的 $\beta_i(i=0,1,\cdots,k)$ 进行求解，当所有的 $\beta$ 值确定后，必然与 $d_0,d_1,\cdots,d_k$ 均共轭。但上面的结论公式中，仅仅描述了 $\beta_k$ 参数。也就是说：在迭代公式中，仅描述了 $d_{k+1}$ 与 $d_k$ 共轭，其余的共轭方向并没有提。

观察除了 $d_k$ 之外的其他项。当 $j=0,1,\cdots,k-1$ 时，观察 $\beta_j$ 的分子部分：
$[\nabla f(x_{k+1})]^T \mathcal Q d_j$
关于共轭方向 $d_j$ ，通过线搜索公式可以将其表示为如下形式：
$x_{j+1} = x_j + \alpha_j \cdot d_j \Rightarrow d_j = \frac{x_{j+1} - x_j}{\alpha_j}$
两边同时左乘正定矩阵 $\mathcal Q$ ，有：
在小括号内两项同时加上系数项 $\mathcal C$ ，符号不发生变化。很明显， $\mathcal Q x_{j+1} + \mathcal C$ 就是 $\nabla f(x_{j+1}),\nabla f(x_j)$ 同理。
$Q d_{j} = \frac{1}{α _{j}} (Q x_{j + 1} - Q x_{j}) = \frac{1}{α _{j}} [(Q x_{j + 1} + C) - (Q x_{j} + C)] = \frac{1}{α _{j}} [\nabla f (x_{j + 1}) - \nabla f (x_{j})]$
将 $\mathcal Q d_j$ 的展开结果代入上式，有：
$[\nabla f (x_{k + 1})]^{T} Q d_{j} = \frac{1}{α _{j}} \cdot [\nabla f (x_{k + 1})]^{T} [\nabla f (x_{j + 1}) - \nabla f (x_{j})] = \frac{1}{α _{j}} \cdot {[\nabla f (x_{k + 1})]^{T} \nabla f (x_{j + 1}) - [\nabla f (x_{k + 1})]^{T} \nabla f (x_{j})}$
观察大括号内第一项： $[\nabla f(x_{k+1})]^T \nabla f(x_{j+1})$ ，将 $\nabla f(x_{j+1})$ 使用共轭方向进行表示：
$d_{j+1} = -\nabla f(x_{j+1}) + \beta_0 d_0 + \beta_1 d_1 + \cdots \beta_j d_j \\ \Downarrow \\ \nabla f(x_{j+1}) = -d_{j+1} + \beta_0 d_0 + \beta_1 d_1 + \cdots + \beta_j d_j$
将其代入，有：
根据共轭方向法的第一条重要特征，所有项全部是 $0$ 。
$[\nabla f (x_{k + 1})]^{T} \nabla f (x_{j + 1}) = - = 0 [\nabla f (x_{k + 1})]^{T} d_{j + 1} + β_{0} \cdot = 0 [\nabla f (x_{k + 1})]^{T} d_{0} + \dots + β_{j} \cdot = 0 [\nabla f (x_{k + 1})]^{T} d_{j} = 0$
同理，大括号内第二项： $[\nabla f(x_{k+1})]^T\nabla f(x_j) = 0$ 。最终可得：当 $j=0,1,\cdots,k-1$ 时,对应的分子 $\beta_j = 0$ ，最终整理，有：
$d_{k+1} = -\nabla f(x_{k+1}) + \beta_k \cdot d_k,\beta_k = \frac{[\nabla f(x_{k+1})]^T \mathcal Q d_k}{(d_k)^T \mathcal Q d_k}$

关于线搜索公式中参数的化简

关于线搜索公式中步长部分的化简

关于精确搜索条件下步长 $α_{k} = - \frac{[ \nabla f ( x _{k} ) ] ^{T} d _{k}}{( d _{k} ) ^{T} Q d _{k}}$ ，可以将其化简为如下形式：
目的是为了将线搜索过程中变量 $\alpha_k,d_k$ 的表达式与目标函数梯度信息建立起直观联系。
$\alpha_k = \frac{[\nabla f(x_k)]^T \nabla f(x_k)}{(d_k)^T \mathcal Q d_k}$

化简描述：观察 $\alpha_k$ 分子部分的描述： $[\nabla f(x_k)]^T d_k$ ，由于共轭方向 $d_k$ 可表示为：
$d_k = - \nabla f(x_{k}) + \beta_{k-1} \cdot d_{k-1}$
对分子进行整理：
依然使用第一条重要特征： $[\nabla f(x_k)]^Td_{k-1} = 0$
$[\nabla f (x_{k})]^{T} d_{k} = [\nabla f (x_{k})]^{T} [- \nabla f (x_{k}) + β_{k - 1} \cdot d_{k - 1}] = - [\nabla f (x_{k})]^{T} \nabla f (x_{k}) + β_{k - 1} \cdot 0 [\nabla f (x_{k})]^{T} d_{k - 1} = - [\nabla f (x_{k})]^{T} \nabla f (x_{k})$
最终对分子部分进行替换即可。

关于线搜索公式中共轭方向系数的化简

精确搜索条件下关于共轭方向系数 $β_{k} = \frac{\nabla f ( x _{k + 1} ) Q d _{k}}{( d _{k} ) ^{T} Q d _{k}}$ ，可以将其化简为如下形式：
$\beta_k = \frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)}$

化简描述：观察分子 $[\nabla f(x_{k+1})]^T\mathcal Q d_k$ ，使用 $Q d_{k} = \frac{1}{α _{k}} [\nabla f (x_{k + 1}) - \nabla f (x_{k})]$ 进行替换，对于 $\beta_k$ 有如下表达：
$β_{k} = \frac{1}{α _{k}} \cdot \frac{[ \nabla f ( x _{k + 1} ) ] ^{T} [ \nabla f ( x _{k + 1} ) - \nabla f ( x _{k} )]}{( d _{k} ) ^{T} Q d _{k}} = \frac{[ \nabla f ( x _{k + 1} ) ] ^{T} [ \nabla f ( x _{k + 1} ) - \nabla f ( x _{k} )]}{α _{k} \cdot ( d _{k} ) ^{T} Q d _{k}}$
根据化简后的 $\alpha_k$ ，有：
$[\nabla f(x_k)]^T \nabla f(x_k) = \alpha_k \cdot (d_k)^T \mathcal Q d_k$
替换 $\beta_k$ 分母，有：
并将 $[\nabla f(x_{k+1})]^T \nabla f(x_k) = 0$ 带入
$β_{k} = \frac{[ \nabla f ( x _{k + 1} ) ] ^{T} [ \nabla f ( x _{k + 1} ) - \nabla f ( x _{k} )]}{[ \nabla f ( x _{k} ) ] ^{T} \nabla f ( x _{k} )} = \frac{[ \nabla f ( x _{k + 1} ) ] ^{T} \nabla f ( x _{k + 1} )}{[ \nabla f ( x _{k} ) ] ^{T} \nabla f ( x _{k} )}$

参数化简的目的

观察参数： $β_{k} = \frac{[ \nabla f ( x _{k + 1} ) ] ^{T} \nabla f ( x _{k + 1} )}{[ \nabla f ( x _{k} ) ] ^{T} \nabla f ( x _{k} )}$ 的化简结果，可以发现：共轭方向 $d_k$ 的迭代结果只与上一迭代步骤的共轭方向 $d_k$ 与 $x_k,x_{k+1}$ 位置的梯度相关。
$d_{k+1} = -\nabla f(x_{k+1}) + \frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)} \cdot d_k$
这意味着：关于共轭方向的迭代过程与正定矩阵 $\mathcal Q$ ，描述一次项系数矩阵 $\mathcal C$ 没有关联关系。从而可以将凸二次函数 $f (x)$ 的优化问题映射到其他复杂目标函数的优化问题中。

虽然上述的化简过程全部是取等操作，但这些取等操作是依赖于 $f (x) = \frac{1}{2} x^{T} Q x + C^{T} x$ 条件的基础上。如果是一般性的复杂目标函数：得到的化简结果 $\beta_k$ 可能只是是一个近似解。因为上述化简过程中可能存在：
当然，不仅仅是下面描述的迭代步骤中存在不相等的情况，在替换 $[\nabla f(x_k)]^T \nabla f(x_k) = \alpha_k \cdot (d_k)^T \mathcal Q d_k$ 时，无论是 $\text{FR}$ 方法还是 $\text{PRP}$ 方法，其得到的 $\beta_k$ 都不是精确解。因为 $\mathcal Q$ 是凸二次函数的特有信息，而一般性目标函数可能不存在该信息，或者说 $\mathcal Q$ 存在，但不作主导作用。
$\frac{[\nabla f(x_{k+1})]^T[\nabla f(x_{k+1}) - \nabla f(x_k)]}{[\nabla f(x_k)]^T \nabla f(x_k)} \neq \frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)}$

非线性共轭梯度法(FR,PRP方法)

关于 $\text{FR,PRP}$ 方法的区别在于 $\beta_k$ 的迭代方式。关于非线性共轭梯度法的迭代过程表示如下：

初始化操作：

给定初始点 $x_0$ ，记 $d_0 = -\nabla f(x_0)$ ；设置阈值 $\epsilon > 0$ ； $k = 0$

算法过程：

事先判断 $\|\nabla f(x_k)\| \leq \epsilon$ 是否成立 $?$ 是，则算法终止；
利用线性搜索方式计算步长 $\alpha_k$ ：
- 此时的目标函数可能已经不是形如 $f (x) = \frac{1}{2} x^{T} Q x + C^{T} x$ 的格式，因而不能使用公式进行求解;甚至此时的目标函数不一定是凸函数,从而求解的最优解可能仅是局部最优解,而不是全局最优解；
- 在迭代过程中并不一定需要求解精确解，我们的目的是让目标函数收敛至最小值详见线搜索方法——步长角度(精确搜索),因此完全可以使用非精确搜索如 $\text{Armijo,Wolfe}$ 准则等获取优质步长。
计算新位置点： $x_{k+1} = x_k + \alpha_k \cdot d_k$ ，并计算共轭方向 $d_{k+1}$ ：
$d_{k+1} = - \nabla f(x_{k+1}) + \beta_k d_k$
其中 $\text{FR}$ 方法使用的 $\beta_k$ 的计算方式为：
$\beta_k = \frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)}; \quad (\text{FR})$
而 $\text{PRP}$ 方法使用 $\beta_k$ 的计算方式为：
$\beta_k = \frac{[\nabla f(x_{k+1})]^T[\nabla f(x_{k+1}) - \nabla f(x_k)]}{[\nabla f(x_k)]^T \nabla f(x_k)}; \quad (\text{PRP})$
令 $k = k + 1$ 并转步骤 $1$ 重新判断。

关于非线性共轭梯度法的说明

根据线搜索公式的描述，在迭代过程中关于共轭方向 $d_k$ 的计算需要满足一个大前提： $d_k$ 是下降方向。相反，如果不是下降方向，需要对参数 $\beta_k$ 进行调整。
但这种调整同样存在风险： $d_k$ 与其他方向不是共轭关系。
根据线性共轭梯度法的描述，其必然会在最多 $n$ 次迭代内找到凸二次函数的全局最优解。这意味着：该算法具有二次终止性；
在算法实现过程中通常采用 $n$ 步重启策略，从而该算法的收敛速度可达到 $n$ 步二阶收敛。
关于 $n$ 步重启策略的描述：在执行 $n$ 次迭代后，此时当前位置点的所有分量均被更新一次。如果在 $x_n$ 位置处开始重新计算梯度： $d_{n} = - \nabla f(x_n)$ 此时和初始化点 $x_0$ 的计算方式是相同的。后续迭代与前面的迭代方式均相同。例如：
$d_{n+1} = - \nabla f(x_{n+1}) + \beta_{n} \cdot d_{n}$
和线性共轭梯度法的区别在于：此时由于复杂的目标函数，该算法无法实现 $n$ 步迭代/ $1$ 次线搜索过程完成收敛。也就是说：每 $n$ 次迭代后，迭代结果会在投影空间中描述一个全新的位置。这里的全新是指所有维度均被更新一次的结果。从而可能需要若干个 $n$ 次迭代才能达到最优解。

为什么要使用 $n$ 步重启策略:在迭代足够多次数的情况下，初始的一些共轭方向已经不会对当前迭代结果产生太大作用。但如果使用正常的迭代方式。初始共轭方向依然会以线性组合的形式留在当前迭代结果中，从而影响当前迭代的方向。例如关于 $d_{n+1}$ 的正常迭代:
$d_{n+1} = - \nabla f(x_0) + \sum_{i=0}^{n} \beta_i \cdot d_i$

$\text{Reference}$ ：
最优化理论与方法-第七讲-无约束优化问题（三）

相关阅读:
FPGA UDP RGMII 千兆以太网（2）IDDR
docker push image harbor http 镜像
Spring的依赖注入
Java开发者的Python快速进修指南：掌握T检验
【数据结构-oj】顺序表和链表的 oj 题（入门）
初级前端面试题之VUE基础
尤雨溪：Vue 3 将成为新的默认版本
人工智能知识图谱
一个完整的初学者指南Django-part2
AndroidStudio 运行报错：Invalid keystore format

原文地址：https://blog.csdn.net/qq_34758157/article/details/132836543