l
p
l_p
lp范数:
∣
∣
v
∣
∣
p
=
(
∣
v
1
∣
p
+
∣
v
2
∣
p
+
.
.
.
+
∣
v
n
∣
p
)
1
p
||v||_p=(|v_1|^p+|v_2|^p+...+|v_n|^p)^{\frac{1}{p}}
∣∣v∣∣p=(∣v1∣p+∣v2∣p+...+∣vn∣p)p1
l
∞
范
数
l_{\infty}范数
l∞范数:
∣
∣
v
∣
∣
∞
=
m
a
x
(
∣
v
i
∣
)
||v||_{\infty}=max(|v_i|)
∣∣v∣∣∞=max(∣vi∣)
1.2 矩阵范数
l
2
范
数
,
F
范
数
l_2范数,F范数
l2范数,F范数:
∣
∣
A
∣
∣
F
=
T
r
(
A
A
T
)
=
∑
a
i
j
2
||A||_F=\sqrt{Tr(AA^T)}=\sqrt{\sum{a_{ij}^2}}
∣∣A∣∣F=Tr(AAT)=∑aij2
正交不变性:
∣
∣
U
A
V
∣
∣
F
2
=
T
r
(
U
A
V
V
T
A
T
U
T
)
=
T
r
(
U
A
A
T
U
T
)
=
T
r
(
A
A
T
U
T
U
)
=
T
r
(
A
A
T
)
=
∣
∣
A
∣
∣
F
2
||UAV||_F^2=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T)=Tr(AA^TU^TU)=Tr(AA^T)=||A||_F^2
∣∣UAV∣∣F2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2。
U
∈
R
m
×
m
、
V
∈
R
n
×
n
U\in R^{m×m}、V\in R^{n×n}
U∈Rm×m、V∈Rn×n是正交矩阵
T
r
(
X
)
=
∑
a
i
i
Tr(X)=\sum{a_{ii}}
Tr(X)=∑aii,矩阵的迹,对角线的和。
核范数:
A
∈
R
m
×
n
,
∣
∣
A
∣
∣
∗
=
∑
i
=
1
r
σ
i
A\in R^{m×n},||A||_*=\sum_{i=1}^{r}{\sigma_i}
A∈Rm×n,∣∣A∣∣∗=∑i=1rσi
σ
i
为
A
的
所
有
非
零
奇
异
值
,
r
=
r
a
n
k
(
A
)
\sigma_i 为A的所有非零奇异值,r=rank(A)
σi为A的所有非零奇异值,r=rank(A)
奇异值:设A为
m
∗
n
m*n
m∗n阶矩阵,
q
=
m
i
n
(
m
,
n
)
q=min(m,n)
q=min(m,n),
A
∗
A
A*A
A∗A的q个非负特征值的算术平方根叫作A的奇异值。
梯度:
lim
p
→
0
f
(
x
+
p
)
−
f
(
x
)
−
g
T
p
∣
∣
p
∣
∣
=
0
\underset{p\rightarrow 0}{\lim}\frac{f(x+p)-f(x)-g^Tp}{||p||}=0
p→0lim∣∣p∣∣f(x+p)−f(x)−gTp=0
∣
∣
⋅
∣
∣
||·||
∣∣⋅∣∣是任意向量范数,g为
f
f
f在x点处的梯度
海瑟矩阵:
f
(
x
)
:
R
n
→
R
f(x):R^n\rightarrow R
f(x):Rn→R
二阶可微:
∇
2
f
(
x
)
\nabla^2f(x)
∇2f(x)在区域D上的每个点x都存在
二阶连续可微:
∇
2
f
(
x
)
\nabla^2f(x)
∇2f(x)在D上还连续,可以证明此时海瑟矩阵还是对称矩阵。
雅克比矩阵
J
(
x
)
J(x)
J(x),
f
:
R
n
→
R
m
f:R^n\rightarrow R^m
f:Rn→Rm是向量值函数
梯度利普希茨连续:
可微函数
f
f
f,若存在
L
>
0
L>0
L>0,对任意
x
,
y
∈
d
o
m
f
x,y\in domf
x,y∈domf有
∣
∣
∇
f
(
x
)
−
∇
f
(
y
)
∣
∣
≤
L
∣
∣
x
−
y
∣
∣
||\nabla f(x)-\nabla f(y)||\leq L||x-y||
∣∣∇f(x)−∇f(y)∣∣≤L∣∣x−y∣∣,称
f
f
f是梯度利普希茨连续的,
L
L
L为相应的函数,称为
L
−
光
滑
L-光滑
L−光滑
二次上界:
f
(
x
)
可
微
,
且
为
L
−
光
滑
,
则
f
(
x
)
有
二
次
上
界
:
f
(
y
)
≤
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
+
L
2
∣
∣
y
−
x
∣
∣
2
f(x)可微,且为L-光滑,则f(x)有二次上界:f(y)\leq f(x)+\nabla f(x)^T(y-x)+\frac{L}{2}||y-x||^2
f(x)可微,且为L−光滑,则f(x)有二次上界:f(y)≤f(x)+∇f(x)T(y−x)+2L∣∣y−x∣∣2
f
(
x
)
可
微
,
存
在
全
局
极
小
点
x
∗
,
且
f
(
x
)
为
L
−
利
普
希
茨
连
续
f(x)可微,存在全局极小点x^*,且f(x)为L-利普希茨连续
f(x)可微,存在全局极小点x∗,且f(x)为L−利普希茨连续则:
1
2
L
∣
∣
∇
f
(
x
)
∣
∣
2
≤
f
(
x
)
−
f
(
x
∗
)
\frac{1}{2L}||\nabla f(x)||^2\leq f(x)-f(x^*)
2L1∣∣∇f(x)∣∣2≤f(x)−f(x∗)
2.2矩阵变量的导数
Gâteaux可微:
t
→
0
l
i
m
f
(
X
+
t
V
)
−
f
(
X
)
−
t
<
G
,
V
>
t
=
0
\overset{lim}{t\rightarrow0}\frac{f(X+tV)-f(X)-t}{t}=0
t→0limtf(X+tV)−f(X)−t<G,V>=0