记录第一遍没看懂的
记录觉得有用的
其他章节:
第一章
第三章
第五章
第六章
第七章
第八章
第九章
第十章
十一章
十二章
十三章
十四章
十五章
十六章
第二章主要是一些基础的介绍,实际做一次项目以后,都很好理解;并且,个人感觉,在实际应用中,很多东西是需要现查的(超小声)
三个不同思路使用线性模型:
3.2是让线性模型尽可能误差小的通过所有数据点
3.3用非线性变化后的线性模型代表标签的后验概率
3.4通过数据点映射到线性模型代表的子空间,使得数据更容易被分类
超重要的式子:
找一个合适的w和b,使得误差平方和极小->平方损失
在计算误差的时候,(3.4)中的x,y其实是常数,而w和b反而成为了未知量。那么可以以先展开E(w,b)如下:
E
(
w
,
b
)
=
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
=
∑
i
=
1
m
(
x
i
2
w
2
+
y
i
2
+
b
2
−
2
y
i
x
i
w
−
2
y
i
b
−
2
w
b
x
i
)
=
∑
(
x
i
2
)
w
2
+
m
b
2
+
(
−
2
∑
(
x
i
y
i
)
)
w
+
(
−
2
∑
y
i
)
b
+
∑
y
i
2
E(w,b)=m∑i=1(yi−wxi−b)2=m∑i=1(x2iw2+y2i+b2−2yixiw−2yib−2wbxi)=∑(x2i)w2+mb2+(−2∑(xiyi))w+(−2∑yi)b+∑y2i
E(w,b)=i=1∑m(yi−wxi−b)2=i=1∑m(xi2w2+yi2+b2−2yixiw−2yib−2wbxi)=∑(xi2)w2+mb2+(−2∑(xiyi))w+(−2∑yi)b+∑yi2
以w和b为未知项,可以看出,这是一个关于w和b的二次曲面。Ei为了求二次曲面的极小点,对w和b分别求导:
得到:
扩展到整个数据集
再求导得到:(完整的求梯度的过程在附录A中)
求解得到:(重要公式)
对数几率回归:
概率替换重写为:
由于连乘项不方便求导,一般方法就是对连乘项取对数变成累加。且取对数以后,并不影响w的大小判断。
(3.27-3.31)这几个式子,没咋看太懂,且没太想清楚,有啥用QWQ
样本协方差写全为(里面的协方差矩阵的展开可以参考公式(3.33))
Σ
0
=
∑
(
x
−
μ
0
)
(
x
−
μ
0
)
T
w
T
Σ
0
w
=
∑
w
T
(
x
−
μ
0
)
(
x
−
μ
0
)
T
w
\Sigma_0=\sum(x-\mu_0)(x-\mu_0)^T \\ w^T\Sigma_0w=\sum w^T(x-\mu_0)(x-\mu_0)^Tw
Σ0=∑(x−μ0)(x−μ0)TwTΣ0w=∑wT(x−μ0)(x−μ0)Tw
那么最大化目标就是希望,分子(类中心之间的距离)尽可能大,其分母(同类投影点的协方差)尽可能小,也就是最大化目标整体尽可能大。
关于这里的拉格朗日乘子法的计算,(3.36)可以写成目标函数+限制的形式
m
i
n
(
−
w
T
S
b
w
+
λ
(
w
T
S
w
w
−
1
)
)
min(-w^TS_bw+\lambda(w^TS_ww-1))
min(−wTSbw+λ(wTSww−1))
可以看出,这是一个关于w的二次曲面。那么要求最优的w,可以求梯度(和3.2一样的原理,同样也需要附录公式)
也就是(两个分别代入,同时除以-2),得到(3.37)
∂
[
−
w
T
S
b
w
+
λ
(
w
T
S
w
w
−
1
)
]
/
∂
w
=
S
b
−
λ
S
w
w
=
0
\partial[-w^TS_bw+\lambda(w^TS_ww-1)]/\partial w=S_b-\lambda S_ww=0
∂[−wTSbw+λ(wTSww−1)]/∂w=Sb−λSww=0
参考(3.32)式
S
b
w
=
(
μ
0
−
μ
1
)
(
μ
0
−
μ
1
)
T
w
→
(
μ
0
−
μ
1
)
S_bw=(\mu_0-\mu1)(\mu_0-\mu1)^Tw \rightarrow(\mu_0-\mu1)
Sbw=(μ0−μ1)(μ0−μ1)Tw→(μ0−μ1)
而(μ0-μ1)T w是个标量,所以方向完全由(μ0-μ1)决定,大小乘以任意一个常数对方向没有影响。