为什么 W \mathbf{W} W是秩 1 1 1的可以等价于 Tr ( W ) − λ max ( W ) ≤ 0 \operatorname{Tr}(\mathbf{W})-\lambda_{\max }(\mathbf{W}) \leq 0 Tr(W)−λmax(W)≤0
这里我们考虑的是一个矩阵 W \mathbf{W} W 是否是秩1矩阵的问题,等价于判断矩阵 W \mathbf{W} W 的迹和最大特征值之间的关系。
首先,假设 W \mathbf{W} W 是秩1矩阵,可以表示为 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT,其中 u \mathbf{u} u 和 v \mathbf{v} v 是列向量。那么矩阵 W \mathbf{W} W 的迹是 Tr ( W ) = u T v \operatorname{Tr}(\mathbf{W}) = \mathbf{u}^T\mathbf{v} Tr(W)=uTv,最大特征值是 λ max ( W ) = ∥ W ∥ 2 = ∥ u v T ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \lambda_{\max}(\mathbf{W}) = \|\mathbf{W}\|_2 = \|\mathbf{uv}^T\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 λmax(W)=∥W∥2=∥uvT∥2=∥u∥2∥v∥2。由于矩阵的二范数等于其最大特征值,所以 ∥ W ∥ 2 = ∥ u v T ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \|\mathbf{W}\|_2 = \|\mathbf{uv}^T\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 ∥W∥2=∥uvT∥2=∥u∥2∥v∥2=∥u∥2∥v∥2。
根据柯西-施瓦茨不等式, u T v ≤ ∥ u ∥ 2 ∥ v ∥ 2 \mathbf{u}^T\mathbf{v} \leq \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 uTv≤∥u∥2∥v∥2,所以 Tr ( W ) = u T v ≤ ∥ u ∥ 2 ∥ v ∥ 2 = λ max ( W ) \operatorname{Tr}(\mathbf{W}) = \mathbf{u}^T\mathbf{v} \leq \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 = \lambda_{\max}(\mathbf{W}) Tr(W)=uTv≤∥u∥2∥v∥2=λmax(W),即 Tr ( W ) − λ max ( W ) ≤ 0 \operatorname{Tr}(\mathbf{W}) - \lambda_{\max}(\mathbf{W}) \leq 0 Tr(W)−λmax(W)≤0。
反过来,如果 Tr ( W ) − λ max ( W ) ≤ 0 \operatorname{Tr}(\mathbf{W}) - \lambda_{\max}(\mathbf{W}) \leq 0 Tr(W)−λmax(W)≤0则根据柯西-施瓦茨不等式,存在某个单位向量 u \mathbf{u} u 和向量 v \mathbf{v} v 使得 u T v = Tr ( W ) \mathbf{u}^T\mathbf{v} = \operatorname{Tr}(\mathbf{W}) uTv=Tr(W) 和 ∥ u ∥ 2 ∥ v ∥ 2 = λ max ( W ) \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 = \lambda_{\max}(\mathbf{W}) ∥u∥2∥v∥2=λmax(W) 成立。因此, W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT 是秩1矩阵。
综上所述, W \mathbf{W} W 是秩1矩阵的充要条件是 Tr ( W ) − λ max ( W ) ≤ 0 \operatorname{Tr}(\mathbf{W}) - \lambda_{\max}(\mathbf{W}) \leq 0 Tr(W)−λmax(W)≤0。
为什么秩 1 1 1矩阵 W \mathbf{W} W如果 W ⪰ 0 \mathbf{W} \succeq \mathbf{0} W⪰0, 必有 Tr ( W ) − λ max ( W ) ≥ 0 \operatorname{Tr}(\mathbf{W})-\lambda_{\max }(\mathbf{W}) \ge 0 Tr(W)−λmax(W)≥0
如果给定矩阵 W \mathbf{W} W 是由列向量 u \mathbf{u} u 和 v \mathbf{v} v 的外积形成的,即 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT,那么它的最大特征值可以通过以下方式求解:
由于 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT,所以 W \mathbf{W} W 的特征值中至少有一个是零,因为它是秩1矩阵。
另外, W \mathbf{W} W 的非零特征值可以通过求解方程 W x = λ x \mathbf{Wx} = \lambda \mathbf{x} Wx=λx 获得,其中 x \mathbf{x} x 是非零特征值对应的特征向量, λ \lambda λ 是非零特征值。
将 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT 代入上述方程,得到:
u v T x = λ x \mathbf{uv}^T\mathbf{x} = \lambda \mathbf{x} uvTx=λx
由于 v T x \mathbf{v}^T\mathbf{x} vTx 是一个标量,记为 c c c,那么上式可以重写为:
u c = λ x \mathbf{u}c = \lambda \mathbf{x} uc=λx
这表明非零特征向量 x \mathbf{x} x 与列向量 u \mathbf{u} u 共线。因此,非零特征向量可以取 u \mathbf{u} u 的任意倍数。考虑到特征向量的归一化要求,我们可以假设 ∥ x ∥ 2 = 1 \|\mathbf{x}\|_2 = 1 ∥x∥2=1,因此有 c = ∥ u ∥ 2 c = \|\mathbf{u}\|_2 c=∥u∥2。
因此,非零特征值 λ \lambda λ 就是 ∥ u ∥ 2 \|\mathbf{u}\|_2 ∥u∥2,并且对应的特征向量是 v \mathbf{v} v。所以最大的非零特征值是 λ max = ∥ u ∥ 2 \lambda_{\max} = \|\mathbf{u}\|_2 λmax=∥u∥2。
综上所述,对于矩阵 W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT,最大的非零特征值是列向量 u \mathbf{u} u 的二范数。
当我们说矩阵的二范数等于其最大特征值时,我们指的是矩阵的谱范数(或者叫二范数)等于其最大特征值的模。对于实对称矩阵,谱范数即为最大特征值的绝对值。
对于矩阵 ( W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT),我们可以按照以下步骤解释这个等式:
首先,( ∥ W ∥ 2 \|\mathbf{W}\|_2 ∥W∥2) 表示矩阵 ( W \mathbf{W} W) 的谱范数,即 ( ∥ W ∥ 2 = λ max ( W ) \|\mathbf{W}\|_2 = \lambda_{\max}(\mathbf{W}) ∥W∥2=λmax(W)),其中 ( λ max ( W ) \lambda_{\max}(\mathbf{W}) λmax(W)) 是矩阵 ( W \mathbf{W} W) 的最大特征值的模。
对于矩阵 ( u v T \mathbf{uv}^T uvT),我们知道它的特征值是 ( u \mathbf{u} u) 的二范数与 ( v \mathbf{v} v) 的二范数之积。这意味着 ( ∥ u v T ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \|\mathbf{uv}^T\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 ∥uvT∥2=∥u∥2∥v∥2)。
由于 ( W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT),所以 ( ∥ W ∥ 2 = ∥ u v T ∥ 2 \|\mathbf{W}\|_2 = \|\mathbf{uv}^T\|_2 ∥W∥2=∥uvT∥2)。
将第2步的结果代入第3步,我们得到 ( ∥ W ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \|\mathbf{W}\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 ∥W∥2=∥u∥2∥v∥2)。
因此,这个等式说明了矩阵 ( W \mathbf{W} W) 的谱范数等于列向量 ( u \mathbf{u} u) 的二范数与列向量 ( v \mathbf{v} v) 的二范数的乘积。
当我们考虑矩阵的二范数时,我们实际上在寻找一个矩阵变换后的向量的长度的最大值。
对于矩阵 ( W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT),我们要找到 ( W x \mathbf{Wx} Wx) 的最大范数,其中 ( x \mathbf{x} x) 是一个单位向量。
由于 ( W = u v T \mathbf{W} = \mathbf{uv}^T W=uvT),我们有
[ W x = ( u v T ) x = u ( v T x ) \mathbf{Wx} = (\mathbf{uv}^T)\mathbf{x} = \mathbf{u}(\mathbf{v}^T\mathbf{x}) Wx=(uvT)x=u(vTx)]
注意到 ( v T x \mathbf{v}^T\mathbf{x} vTx) 是一个标量,所以我们可以将其记为 ( c c c),这样我们有
[
W
x
=
u
c
\mathbf{Wx} = \mathbf{u}c
Wx=uc
]
现在,我们要找到使 ( ∥ W x ∥ 2 \|\mathbf{Wx}\|_2 ∥Wx∥2) 最大的单位向量 ( x \mathbf{x} x)。因为 ( ∥ W x ∥ 2 = ∥ u c ∥ 2 \|\mathbf{Wx}\|_2 = \|\mathbf{u}c\|_2 ∥Wx∥2=∥uc∥2),我们实际上在寻找使 ( ∥ u c ∥ 2 \|\mathbf{u}c\|_2 ∥uc∥2) 最大的单位向量 ( x \mathbf{x} x)。
注意到 ( ∥ u c ∥ 2 = ∣ c ∣ ∥ u ∥ 2 \|\mathbf{u}c\|_2 = |c|\|\mathbf{u}\|_2 ∥uc∥2=∣c∣∥u∥2),所以要使 ( ∥ W x ∥ 2 \|\mathbf{Wx}\|_2 ∥Wx∥2) 最大,只需最大化 ( ∥ u ∥ 2 \|\mathbf{u}\|_2 ∥u∥2)。
因此,当我们取单位向量 ( x \mathbf{x} x) 与向量 ( v \mathbf{v} v) 的方向一致时,矩阵 ( W x \mathbf{Wx} Wx) 的范数达到最大值,此时最大特征值就等于 ( ∥ u ∥ 2 \|\mathbf{u}\|_2 ∥u∥2),即 ( ∥ W ∥ 2 = ∥ u ∥ 2 ∥ v ∥ 2 \|\mathbf{W}\|_2 = \|\mathbf{u}\|_2 \|\mathbf{v}\|_2 ∥W∥2=∥u∥2∥v∥2)。
在凸优化中,当我们考虑一个非光滑凸函数的优化问题时,我们通常使用 subgradient 来描述该函数的次梯度。
对于一个凸函数 ( f : R n → R f: \mathbb{R}^n \rightarrow \mathbb{R} f:Rn→R),在点 ( x \mathbf{x} x) 处的 subgradient 是一个向量或向量集合 ( g \mathbf{g} g),满足对于任意点 ( y \mathbf{y} y) ,都有:
[ f ( y ) ≥ f ( x ) + g T ( y − x ) f(\mathbf{y}) \geq f(\mathbf{x}) + \mathbf{g}^T (\mathbf{y} - \mathbf{x}) f(y)≥f(x)+gT(y−x)]
换句话说,subgradient 是一个在给定点处使得函数值可以被一个一次函数下界的向量。对于光滑凸函数,它在每个点处都有唯一的梯度,但是对于非光滑凸函数,它在某些点可能没有梯度,或者有多个梯度,此时我们使用 subgradient 来扩展梯度的概念。
举例来说,对于绝对值函数 ( f ( x ) = ∣ x ∣ f(x) = |x| f(x)=∣x∣),在 ( x = 0 x = 0 x=0) 处没有定义梯度,但是存在 subgradient,即 ( − 1 ≤ g ≤ 1 -1 \leq g \leq 1 −1≤g≤1)。