记录第一遍没看懂的
记录觉得有用的
其他章节:
第一章
第三章
第五章
第六章
第七章
第八章
第九章
第十章
十一章
十二章
十三章
十四章
十五章
十六章
支持向量机的基本型:

他转换成对偶问题算一个标准问题(数学细节解释在附录)。
首先转换成数学的标准写法,即
1
−
y
i
(
w
T
x
i
+
b
)
≤
0
1-y_i(w^Tx_i+b)\le0
1−yi(wTxi+b)≤0;由于拉格朗日乘子法要求约束是等于0,而我们这里是小于等于0,因此只是利用类似的方式,给出一个拉格朗日函数。

同样求偏导,类似于之前的拉格朗日乘子法中的求偏导,并让偏导等于0(相当于一个中间结果)。

代入,注意
∑
\sum
∑里面的下标,改成j是为了便于区分,其实只要注意是一个
∑
\sum
∑的即可:
L
=
1
2
∣
∣
w
∣
∣
2
+
∑
i
=
1
m
a
i
(
1
−
y
i
(
w
T
x
i
+
b
)
)
=
1
2
(
∑
a
i
y
i
x
i
)
T
(
∑
a
i
y
i
x
i
)
+
∑
a
i
(
1
−
y
i
(
(
∑
a
j
y
j
x
j
)
T
x
i
+
b
)
)
=
1
2
(
∑
a
i
y
i
x
i
)
T
(
∑
a
i
y
i
x
i
)
+
∑
a
i
−
∑
a
i
y
i
(
∑
a
j
y
j
x
j
)
T
x
i
+
∑
a
i
y
i
b
=
1
2
(
∑
a
i
y
i
x
i
)
T
(
∑
a
i
y
i
x
i
)
+
∑
a
i
−
(
∑
a
i
y
i
x
i
)
T
(
∑
a
j
y
j
x
j
)
=
−
1
2
(
∑
a
i
y
i
x
i
)
T
(
∑
a
i
y
i
x
i
)
+
∑
a
i
=
∑
a
i
−
1
2
∑
i
∑
j
a
i
a
j
y
i
y
j
x
i
T
x
j
根据附录B.1拉格朗日乘子法,可以解释KKT条件和为什么之前都是求极小,到公式(6.11)变成max了。


核函数是用
ϕ
(
x
)
\phi(x)
ϕ(x)这样类似一个非线性变化替换
x
x
x;软间隔是允许某些样本不满足约束,引入损失函数;6.5节化分类为回归。
关于(6.59)到(6.64):


首先是核函数的参数
α
\alpha
α,我们可以写成列向量的形式,
α
=
[
α
1
,
α
2
,
.
.
.
,
α
m
]
T
\alpha=[\alpha_1,\alpha_2,...,\alpha_m]^T
α=[α1,α2,...,αm]T;核函数在书中写了是
ϕ
(
x
i
)
T
ϕ
(
x
)
\phi(x_i)^T\phi(x)
ϕ(xi)Tϕ(x)。把带有
x
i
x_i
xi的两项合起来,也就是书中公式(6.65),
w
=
∑
i
=
1
m
α
i
ϕ
(
x
i
)
w=\sum_{i=1}^m\alpha_i\phi(x_i)
w=∑i=1mαiϕ(xi)。若
Φ
=
[
ϕ
(
x
1
)
,
ϕ
(
x
2
)
,
.
.
.
,
ϕ
(
x
m
)
]
T
\Phi=[\phi(x_1),\phi(x_2),...,\phi(x_m)]^T
Φ=[ϕ(x1),ϕ(x2),...,ϕ(xm)]T,则
w
=
α
Φ
T
w=\alpha\Phi^T
w=αΦT。
α
\alpha
α组成的列向量每一个元素都是第
i
i
i个核函数的系数,因此是个
m
m
m行1列的列向量;而
Φ
\Phi
Φ里面的
ϕ
(
x
i
)
\phi(x_i)
ϕ(xi)对于每个样本点变换后特征不确定,可以先定为有
d
d
d个不同的特征。那么
w
w
w是
d
∗
1
d*1
d∗1的特征。那么(6.60)可以写为:
m
a
x
α
J
(
w
)
=
w
T
S
b
ϕ
w
w
T
S
w
ϕ
w
=
α
T
Φ
S
B
ϕ
Φ
T
α
α
T
Φ
S
w
ϕ
Φ
T
α
max_\alpha J(w)=\dfrac{w^TS_b^\phi w}{w^TS_w^\phi w}=\dfrac{\alpha^T\Phi S_B^\phi\Phi^T\alpha}{\alpha^T\Phi S_w^\phi\Phi^T\alpha}
maxαJ(w)=wTSwϕwwTSbϕw=αTΦSwϕΦTααTΦSBϕΦTα
我们希望公式最后写成跟
α
\alpha
α有关的形式,业技术公式(6.70)。推导详细过程如下:首先是分子
α
T
M
α
\alpha^TM\alpha
αTMα的来源,根据(6.60),分子应该是
w
T
S
b
ϕ
w
w^TS_b^\phi w
wTSbϕw,那么先代入展开:。
w
T
S
b
ϕ
w
=
α
T
Φ
(
μ
1
ϕ
−
μ
0
ϕ
)
(
μ
1
ϕ
−
μ
0
ϕ
)
T
Φ
T
α
w^TS_b^\phi w=\alpha^T \Phi(\mu_1^\phi-\mu_0^\phi)(\mu_1^\phi-\mu_0^\phi)^T \Phi^T \alpha\\
wTSbϕw=αTΦ(μ1ϕ−μ0ϕ)(μ1ϕ−μ0ϕ)TΦTα
把经过非线性变换后的中心点进行处理:
μ
1
ϕ
=
1
m
1
∑
x
∈
X
1
ϕ
(
x
)
=
1
m
1
(
∑
x
∈
X
1
ϕ
(
x
)
∗
1
+
∑
x
∈
X
0
ϕ
(
x
)
∗
0
)
=
1
m
1
∑
x
∈
A
l
l
ϕ
(
x
i
)
∗
l
l
i
=
1
m
1
Φ
T
l
1
因此,结合公式(6.66)和公式(6.68),可得:
w
T
S
b
ϕ
w
=
α
T
Φ
(
μ
1
ϕ
−
μ
0
ϕ
)
(
μ
1
ϕ
−
μ
0
ϕ
)
T
Φ
T
α
=
α
T
Φ
Φ
T
(
l
1
m
1
−
l
0
m
0
)
(
l
1
m
1
−
l
0
m
0
)
T
(
Φ
Φ
T
)
T
α
=
α
T
K
(
l
1
m
1
−
l
0
m
0
)
(
l
1
m
1
−
l
0
m
0
)
T
K
T
α
=
α
T
(
μ
0
ˉ
−
μ
1
ˉ
)
(
μ
0
ˉ
−
μ
1
ˉ
)
T
α
=
α
T
M
α