本节将介绍无约束优化问题,主要介绍无约束优化问题最优解的相关性质。
本节是关于以优化算法——无约束算法概述为首,优化算法——线搜索方法(二~九)的理论补充。
无约束优化问题的数学符号表示如下:
仅需要对目标函数进行最小化,没有可行域的条件限制。
min
f
(
x
)
\min f(x)
minf(x)
在实际问题中,很多问题可以被建模成无约束优化问题。例如:线性回归方法中的最小二乘估计问题。对应数学符号表示如下:
很明显,最小二乘函数
∥
A
x
−
b
∥
2
2
\|\mathcal A x - b\|_2^2
∥Ax−b∥22明显是一个凸函数:其二次型系数矩阵
A
T
A
\mathcal A^T\mathcal A
ATA必然是半正定矩阵。
f
(
x
)
=
∥
A
x
−
b
∥
2
2
=
(
A
x
−
b
)
T
(
A
x
−
b
)
=
x
T
[
A
T
A
]
x
+
b
T
A
x
−
x
T
A
T
b
+
b
T
b
f(x)=‖
f(x)=∥Ax−b∥22=(Ax−b)T(Ax−b)=xT[ATA]x+bTAx−xTATb+bTb
因而该问题可以更精确地描述为无约束凸优化问题。
min
∥
A
x
−
b
∥
2
2
\min \|\mathcal A x - b\|_2^2
min∥Ax−b∥22
可以采用适当方法将约束优化问题转换为无约束优化问题。例如最优化问题概述中提到的罚函数法。
其中
N
ϵ
(
x
ˉ
)
\mathcal N_{\epsilon}(\bar{x})
Nϵ(xˉ)表示包含点
x
ˉ
\bar{x}
xˉ,并且使用
ϵ
\epsilon
ϵ表示范围的邻域。例如:
(
x
ˉ
−
ϵ
,
x
ˉ
+
ϵ
)
(\bar{x} - \epsilon,\bar{x} + \epsilon)
(xˉ−ϵ,xˉ+ϵ)
针对无约束优化问题 ⇒ min f ( x ) \Rightarrow \min f(x) ⇒minf(x):
如果目标函数
f
(
x
)
f(x)
f(x)是凸函数,则存在如下等价条件:
关于无约束凸优化问题,详细解释见最优化理论与方法——凸优化问题(上),这里不再赘述。
x
∗
is Optimal
⇔
∇
f
(
x
∗
)
=
0
x^* \text{ is Optimal } \Leftrightarrow \nabla f(x^*) = 0
x∗ is Optimal ⇔∇f(x∗)=0
如果目标函数 f ( x ) f(x) f(x)不是凸函数,只是一般函数,上述的充要条件不一定成立,但一定满足如下必要条件:
如果
x
∗
x^*
x∗是最优解,那么它一定是平稳点;如果
f
(
⋅
)
f(\cdot)
f(⋅)在
x
∗
x^*
x∗位置的
Hessian Matrix
⇒
∇
2
f
(
x
∗
)
\text{Hessian Matrix} \Rightarrow \nabla^2 f(x^*)
Hessian Matrix⇒∇2f(x∗)存在,那么该矩阵至少是半正定矩阵;如果将
f
(
⋅
)
f(\cdot)
f(⋅)退化成一元函数,必然有:
f
′
′
(
x
∗
)
≥
0
f''(x^*) \geq 0
f′′(x∗)≥0。证明:
思路:前进一小段距离后,必然会导致目标函数值下降;从而
x
∗
x^*
x∗不是最优解了,产生矛盾。关于
λ
\lambda
λ范围后面不再赘述。与平稳点的证明相似,只不过需要二阶泰勒展开~相反,如果存在某点
x
∗
x^*
x∗,使得:
∇
f
(
x
∗
)
=
0
\nabla f(x^*) = 0
∇f(x∗)=0且
∇
2
f
(
x
∗
)
≽
0
\nabla^2 f(x^*) \succcurlyeq 0
∇2f(x∗)≽0,那么点
x
∗
x^*
x∗是否为最优解
?
?
?不一定。例如:
f
(
x
)
=
x
3
f(x) = x^3
f(x)=x3,其函数图像表示如下:

在
x
=
0
x = 0
x=0处的梯度
∇
f
(
x
)
∣
x
=
0
=
0
\nabla f(x)|_{x=0} = 0
∇f(x)∣x=0=0;二阶梯度
∇
2
f
(
x
)
∣
x
=
0
=
0
\nabla^2 f(x) |_{x = 0} = 0
∇2f(x)∣x=0=0,均满足条件;但该点是一个鞍点,而不是最优解点。
如果 f ( ⋅ ) f(\cdot) f(⋅)不是凸函数,只是一般函数,如果存在某点 x ∗ x^* x∗,满足: ∇ f ( x ∗ ) = 0 , ∇ 2 f ( x ∗ ) ≻ 0 \nabla f(x^*) =0,\nabla^2 f(x^*) \succ 0 ∇f(x∗)=0,∇2f(x∗)≻0,那么 x ∗ x^* x∗是严格最优解;
其中
∇
2
f
(
x
∗
)
≻
0
\nabla^2 f(x^*) \succ 0
∇2f(x∗)≻0表示函数
f
(
⋅
)
f(\cdot)
f(⋅)在
x
∗
x^*
x∗点处的
Hessian Matrix
\text{Hessian Matrix}
Hessian Matrix是正定矩阵。需要注意的是,这里的严格最优解可能是严格局部最优解或者严格全局最优解。证明:
要证上式,即证:
∀
x
∈
N
ϵ
(
x
∗
)
,
f
(
x
∗
)
<
f
(
x
)
\forall x \in \mathcal N_{\epsilon}(x^*),f(x^*) < f(x)
∀x∈Nϵ(x∗),f(x∗)<f(x)。
为了简单起见,仅关注
d
d
d的方向,而令
d
d
d大小
∥
d
∥
=
1
\|d\| = 1
∥d∥=1
Reference
\text{Reference}
Reference:
最优化理论与方法-第五讲-无约束优化问题(一)