本系列博客旨在为机器学习(深度学习)提供数学理论基础。因此内容更为精简,适合二次学习的读者快速学习或查阅。
定义1:设 D D D 是 R 2 R^{2} R2 的一个非空子集,称映射 f : D → R f:D\to R f:D→R 为定义在 D D D 上的二元函数,通常记为 z = f ( x , y ) , ( x , y ) ∈ D z=f(x,y),(x,y)\in D z=f(x,y),(x,y)∈D 或 z = f ( P ) , P ∈ D z=f(P),P\in D z=f(P),P∈D ,其中点集 D D D 称为该函数的定义域, x x x 和 y y y 称为自变量, z z z 称为因变量。
定义2:一般地,把定义1中的平面点集 D D D 换成 n n n 维空间 R n R^{n} Rn 内的点集 D D D ,映射 f : D → R f:D\to R f:D→R 就称为定义在 D D D 上的 n n n 元函数,通常记为: u = f ( x 1 , x 2 , … , x n ) , ( x 1 , x 2 , … , x n ) ∈ D u=f(x_{1},x_{2},\dots,x_{n}),(x_{1},x_{2},\dots,x_{n})\in D u=f(x1,x2,…,xn),(x1,x2,…,xn)∈D
定义:设二元函数 f ( P ) = f ( x , y ) f(P)=f(x,y) f(P)=f(x,y) 的定义域为 D D D , P 0 ( x 0 , y 0 ) P_{0}(x_{0},y_{0}) P0(x0,y0) 是 D D D 的聚点,如果存在常数 A A A ,对于任意给定的正数 ϵ \epsilon ϵ ,总存在正数 δ \delta δ ,使得当点 P ( x , y ) ∈ D ∩ U o ( P 0 , δ ) P(x,y)\in D\cap\overset{o}{U}(P_{0},\delta) P(x,y)∈D∩Uo(P0,δ) 时,都有 ∣ f ( P ) − A ∣ = ∣ f ( x , y ) − A ∣ < ϵ |f(P)-A|=|f(x,y)-A|<\epsilon ∣f(P)−A∣=∣f(x,y)−A∣<ϵ 成立,那么就称常数 A A A 为函数 f ( x , y ) f(x,y) f(x,y) 当 ( x , y ) → ( x 0 , y 0 ) (x,y)\to(x_{0},y_{0}) (x,y)→(x0,y0) 时的极限,记作 lim ( x , y ) → ( x 0 , y 0 ) f ( x , y ) = A \lim_{(x,y)\to(x_{0},y_{0})}f(x,y)=A (x,y)→(x0,y0)limf(x,y)=A
定义:设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y) 在点
(
x
0
,
y
0
)
(x_{0},y_{0})
(x0,y0) 的某一邻域内有定义,当
y
y
y 固定在
y
0
y_{0}
y0 而
x
x
x 在
x
0
x_{0}
x0 处有增量
Δ
x
\Delta x
Δx 时,相应的函数有增量
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})
f(x0+Δx,y0)−f(x0,y0) ,如果
lim
Δ
x
→
0
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
Δ
x
\lim_{\Delta x\to0}\frac{f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})}{\Delta x}
limΔx→0Δxf(x0+Δx,y0)−f(x0,y0) 存在,那么称此极限为函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y) 在点
(
x
0
,
y
0
)
(x_{0},y_{0})
(x0,y0) 处对
x
x
x 的偏导数,记作
∂
z
∂
x
∣
x
=
x
0
y
=
y
0
或
f
x
(
x
0
,
y
0
)
\left .\frac{\partial z}{\partial x}\right | _{
定义:设函数 z = f ( x , y ) z=f(x,y) z=f(x,y) 在点 ( x , y ) (x,y) (x,y) 的某邻域内有定义,如果函数在点 ( x , y ) (x,y) (x,y) 的全增量 Δ z = f ( x + Δ x , y + Δ y ) − f ( x , y ) \Delta z=f(x+\Delta x,y+\Delta y)-f(x,y) Δz=f(x+Δx,y+Δy)−f(x,y) 可表示为 Δ z = A Δ x + B Δ y + o ( ρ ) \Delta z=A\Delta x+B\Delta y+o(\rho) Δz=AΔx+BΔy+o(ρ) ,其中 A A A 和 B B B 不依赖于 Δ x \Delta x Δx 和 Δ y \Delta y Δy 而仅与 x x x 和 y y y 有关, ρ = ( Δ x ) 2 + ( Δ y ) 2 \rho=\sqrt{(\Delta x)^{2}+(\Delta y)^{2}} ρ=(Δx)2+(Δy)2 ,那么称函数 z = f ( x , y ) z=f(x,y) z=f(x,y) 在点 ( x , y ) (x,y) (x,y) 可微分,而 A Δ x + B Δ y A\Delta x+B\Delta y AΔx+BΔy 称为函数 z = f ( x , y ) z=f(x,y) z=f(x,y) 在点 ( x , y ) (x,y) (x,y) 的全微分,记作 d z dz dz ,即 d z = A Δ x + B Δ y dz=A\Delta x+B\Delta y dz=AΔx+BΔy 。
定理:
1)如果函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y) 在点
(
x
,
y
)
(x,y)
(x,y) 可微分,那么该函数在点
(
x
,
y
)
(x,y)
(x,y) 的偏导数
∂
z
∂
x
\frac{\partial z}{\partial x}
∂x∂z 与
∂
z
∂
y
\frac{\partial z}{\partial y}
∂y∂z 必定存在,且函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y) 在点
(
x
,
y
)
(x,y)
(x,y) 的全微分为
d
z
=
∂
z
∂
x
d
x
+
∂
z
∂
y
d
y
dz=\frac{\partial z}{\partial x}dx+\frac{\partial z}{\partial y}dy
dz=∂x∂zdx+∂y∂zdy
1)如果函数
u
=
φ
(
t
)
u=\varphi(t)
u=φ(t) 及
v
=
ψ
(
t
)
v=\psi(t)
v=ψ(t) 都在点
t
t
t 可导,函数
z
=
f
(
u
,
v
)
z=f(u,v)
z=f(u,v) 在对应点
(
u
,
v
)
(u,v)
(u,v) 具有连续偏导数,那么复合函数
z
=
f
[
φ
(
t
)
,
ψ
(
t
)
]
z=f[\varphi(t),\psi(t)]
z=f[φ(t),ψ(t)] 在点
t
t
t 可导,且有
d
z
d
t
=
∂
z
∂
u
d
u
d
t
+
∂
z
∂
v
d
v
d
t
\frac{dz}{dt}=\frac{\partial z}{\partial u}\frac{du}{dt}+\frac{\partial z}{\partial v}\frac{dv}{dt}
dtdz=∂u∂zdtdu+∂v∂zdtdv
2)如果函数
u
=
φ
(
x
,
y
)
u=\varphi(x,y)
u=φ(x,y) 及
v
=
ψ
(
x
,
y
)
v=\psi(x,y)
v=ψ(x,y) 都在点
(
x
,
y
)
(x,y)
(x,y) 具有对
x
x
x 及对
y
y
y 的偏导数,函数
z
=
f
(
u
,
v
)
z=f(u,v)
z=f(u,v) 在对应点
(
u
,
v
)
(u,v)
(u,v) 具有连续偏导数,那么复合函数
z
=
f
[
φ
(
x
,
y
)
,
ψ
(
x
,
y
)
]
z=f[\varphi(x,y),\psi(x,y)]
z=f[φ(x,y),ψ(x,y)] 在点
(
x
,
y
)
(x,y)
(x,y) 的两个偏导数都存在,且有
∂
z
∂
x
=
∂
z
∂
u
∂
u
∂
x
+
∂
z
∂
v
∂
v
∂
x
\frac{\partial z}{\partial x}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial x}+\frac{\partial z}{\partial v}\frac{\partial v}{\partial x}
∂x∂z=∂u∂z∂x∂u+∂v∂z∂x∂v
∂
z
∂
y
=
∂
z
∂
u
∂
u
∂
y
+
∂
z
∂
v
∂
v
∂
y
\frac{\partial z}{\partial y}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial y}+\frac{\partial z}{\partial v}\frac{\partial v}{\partial y}
∂y∂z=∂u∂z∂y∂u+∂v∂z∂y∂v
3)如果函数
u
=
φ
(
x
,
y
)
u=\varphi(x,y)
u=φ(x,y) 在点
(
x
,
y
)
(x,y)
(x,y) 具有对
x
x
x 及对
y
y
y 的偏导数,函数
v
=
ψ
(
y
)
v=\psi(y)
v=ψ(y) 在点
y
y
y 可导,函数
z
=
f
(
u
,
v
)
z=f(u,v)
z=f(u,v) 在对应点
(
u
,
v
)
(u,v)
(u,v) 具有连续偏导数,那么复合函数
z
=
f
[
φ
(
x
,
y
)
,
ψ
(
y
)
]
z=f[\varphi(x,y),\psi(y)]
z=f[φ(x,y),ψ(y)] 在点
(
x
,
y
)
(x,y)
(x,y) 的两个偏导数都存在,且有
∂
z
∂
x
=
∂
z
∂
u
∂
u
∂
x
\frac{\partial z}{\partial x}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial x}
∂x∂z=∂u∂z∂x∂u
∂
z
∂
y
=
∂
z
∂
u
∂
u
∂
y
+
∂
z
∂
v
d
v
d
y
\frac{\partial z}{\partial y}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial y}+\frac{\partial z}{\partial v}\frac{dv}{dy}
∂y∂z=∂u∂z∂y∂u+∂v∂zdydv
定义1:设函数 z = f ( x , y ) z=f(x,y) z=f(x,y) 在点 P 0 ( x 0 , y 0 ) P_{0}(x_{0},y_{0}) P0(x0,y0) 的某个邻域 U ( P 0 ) U(P_{0}) U(P0) 内有定义, P ( x 0 + t cos α , y 0 + t cos β ) P(x_{0}+t\cos\alpha,y_{0}+t\cos\beta) P(x0+tcosα,y0+tcosβ) 为 l l l 上另一点,且 P ∈ U ( P 0 ) P\in U(P_{0}) P∈U(P0) ,如果函数增量 f ( x 0 + t cos α , y 0 + t cos β ) − f ( x 0 , y 0 ) f(x_{0}+t\cos\alpha,y_{0}+t\cos\beta)-f(x_{0},y_{0}) f(x0+tcosα,y0+tcosβ)−f(x0,y0) 与 P P P 到 P 0 P_{0} P0 的距离 ∣ P P 0 ∣ = t |PP_{0}|=t ∣PP0∣=t 的比值 f ( x 0 + t cos α , y 0 + t cos β ) − f ( x 0 , y 0 ) t \frac{f(x_{0}+t\cos\alpha,y_{0}+t\cos\beta)-f(x_{0},y_{0})}{t} tf(x0+tcosα,y0+tcosβ)−f(x0,y0) 当 P P P 沿着 l l l 趋于 P 0 P_{0} P0 (即 t → 0 + t\to0^{+} t→0+ )时的极限存在,那么称此极限为函数 f ( x , y ) f(x,y) f(x,y) 在点 P 0 P_{0} P0 沿方向 l l l 的方向导数,记作 ∂ f ∂ l ∣ x 0 , y 0 \left.\frac{\partial f}{\partial l}\right|_{x_{0},y_{0}} ∂l∂f∣ ∣x0,y0 ,即 ∂ f ∂ l ∣ x 0 , y 0 = lim t → 0 + f ( x 0 + t cos α , y 0 + t cos β ) − f ( x 0 , y 0 ) t \left.\frac{\partial f}{\partial l}\right|_{x_{0},y_{0}}=\lim_{t\to0^{+}}\frac{f(x_{0}+t\cos\alpha,y_{0}+t\cos\beta)-f(x_{0},y_{0})}{t} ∂l∂f∣ ∣x0,y0=t→0+limtf(x0+tcosα,y0+tcosβ)−f(x0,y0)
定义2:设函数 f ( x , y ) f(x,y) f(x,y) 在平面区域 D D D 内具有一阶连续偏导数,则对于每一点 P 0 ( x 0 , y 0 ) ∈ D P_{0}(x_{0},y_{0})\in D P0(x0,y0)∈D ,都可定出一个向量 f x ( x 0 , y 0 ) i + f y ( x 0 , y 0 ) j f_{x}(x_{0},y_{0})i+f_{y}(x_{0},y_{0})j fx(x0,y0)i+fy(x0,y0)j ,其中 i = ( 1 , 0 ) , j = ( 0 , 1 ) i=(1,0),j=(0,1) i=(1,0),j=(0,1) ,这向量称为函数 f ( x , y ) f(x,y) f(x,y) 在点 P 0 ( x 0 , y 0 ) P_{0}(x_{0},y_{0}) P0(x0,y0) 的梯度,记作 g r a d f ( x 0 , y 0 ) grad\ f(x_{0},y_{0}) grad f(x0,y0) 或 ∇ f ( x 0 , y 0 ) \nabla f(x_{0},y_{0}) ∇f(x0,y0) ,即 g r a d f ( x 0 , y 0 ) = ∇ f ( x 0 , y 0 ) = f x ( x 0 , y 0 ) i + f y ( x 0 , y 0 ) j ,其中 i = ( 1 , 0 ) , j = ( 0 , 1 ) grad\ f(x_{0},y_{0})=\nabla f(x_{0},y_{0})=f_{x}(x_{0},y_{0})i+f_{y}(x_{0},y_{0})j,其中i=(1,0),j=(0,1) grad f(x0,y0)=∇f(x0,y0)=fx(x0,y0)i+fy(x0,y0)j,其中i=(1,0),j=(0,1) 其中 ∇ = ∂ ∂ x i + ∂ ∂ y j \nabla=\frac{\partial}{\partial x}i+\frac{\partial}{\partial y}j ∇=∂x∂i+∂y∂j 称为向量微分算子或Nabla算子, ∇ f = ∂ f ∂ x i + ∂ f ∂ y j \nabla f=\frac{\partial f}{\partial x}i+\frac{\partial f}{\partial y}j ∇f=∂x∂fi+∂y∂fj 。
定理:
1)如果函数
f
(
x
,
y
)
f(x,y)
f(x,y) 在点
P
0
(
x
0
,
y
0
)
P_{0}(x_{0},y_{0})
P0(x0,y0) 可微分,那么函数在该点沿任一方向
l
l
l 的方向导数存在,且有
∂
f
∂
l
∣
x
0
,
y
0
=
f
x
(
x
0
,
y
0
)
cos
α
+
f
y
(
x
0
,
y
0
)
cos
β
\left.\frac{\partial f}{\partial l}\right|_{x_{0},y_{0}}=f_{x}(x_{0},y_{0})\cos\alpha+f_{y}(x_{0},y_{0})\cos\beta
∂l∂f∣
∣x0,y0=fx(x0,y0)cosα+fy(x0,y0)cosβ 其中
cos
α
\cos\alpha
cosα 和
cos
β
\cos\beta
cosβ 是方向
l
l
l 的方向余弦。
1)设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y) 在点
(
x
0
,
y
0
)
(x_{0},y_{0})
(x0,y0) 具有偏导数,且在点
(
x
0
,
y
0
)
(x_{0},y_{0})
(x0,y0) 处有极值,则有
f
x
(
x
0
,
y
0
)
=
0
,
f
y
(
x
0
,
y
0
)
=
0
f_{x}(x_{0},y_{0})=0,f_{y}(x_{0},y_{0})=0
fx(x0,y0)=0,fy(x0,y0)=0 。
2)设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y) 在点
(
x
0
,
y
0
)
(x_{0},y_{0})
(x0,y0) 的某邻域内连续且有一阶及二阶连续偏导数,又
f
x
(
x
0
,
y
0
)
=
0
,
f
y
(
x
0
,
y
0
)
=
0
f_{x}(x_{0},y_{0})=0,f_{y}(x_{0},y_{0})=0
fx(x0,y0)=0,fy(x0,y0)=0 ,令
f
x
x
(
x
0
,
y
0
)
=
A
,
f
x
y
(
x
0
,
y
0
)
=
B
,
f
y
y
(
x
0
,
y
0
)
=
C
f_{xx}(x_{0},y_{0})=A,f_{xy}(x_{0},y_{0})=B,f_{yy}(x_{0},y_{0})=C
fxx(x0,y0)=A,fxy(x0,y0)=B,fyy(x0,y0)=C ,则
f
(
x
,
y
)
f(x,y)
f(x,y) 在
(
x
0
,
y
0
)
(x_{0},y_{0})
(x0,y0) 处是否取得极值的条件如下:
(1)
A
C
−
B
2
>
0
AC-B^{2}>0
AC−B2>0 时具有极值,且当
A
<
0
A<0
A<0 时有极大值,当
A
>
A>
A> 时有极小值;
(2)
A
C
−
B
2
<
0
AC-B^{2}<0
AC−B2<0 时没有极值;
(3)
A
C
−
B
2
=
0
AC-B^{2}=0
AC−B2=0 时可能有极值,也可能没有极值,需另作讨论。
3)拉格朗日乘数法。