【李航统计学习笔记】第七章：支持向量机

7.1支持向量机

线性可分支持向量机与间隔最大化

如何去找到一个最优的超平面？

找到一个超平面，这个超平面可以使得与它最近的样本点的距离必须大于其他所有超平面划分时与最近的样本点的距离。在SVM中，这叫间隔最大化。

基本思路：如果我们的样本点，是它在高维空间到低维空间的一个投影，总会从某一个维度开始，它变得线性可分了。

我们发现，高维中的超平面，映射到低维空间中时，可能会变成曲线或其他形式的划分形式。这也就是为什么，在svm中我们同样使用超平面来划分，但SVM可以划分非线形的数据集。它本质上仍然是线形超平面，不过是高维中的线形超平面。

那么升维一定线性可分吗？会不会升到无穷维了仍然线性不可分？不会！首先因为，我们的数据集一定是基于真实的某种分布，分为A类的样本和B类的样本一定在本质上有区别。只要有区别，就一定可以区分开来，一定在某个高维度上线性可分。

支持向量机

函数间隔：
$\widetilde{\gamma_{i}}=y_{i}\left(w x_{i}+b\right)$
几何间隔：
$\gamma_{i}=y_{i}\left(\frac{w}{\|w\|} x_{i}+\frac{b}{\|w\|}\right)=\frac{\widetilde{\gamma_{i}}}{\|w\|}$
最大间隔分离超平面：
$$
\max _{w, b} \gamma\

\text { s.t. } \quad y_{i}\left(\frac{w}{|w|} \cdot x_{i}+\frac{b}{|w|}\right) \geqslant \gamma, \quad i=1,2, \cdots, N
$$

$\max _{w, b} \frac{\hat{\gamma}}{\|w\|}\\ \text{s.t.}\quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant \hat{\gamma}, \quad i=1,2, \cdots, N$

由于函数间隔可以任意缩放，我们令其为1：
$\max _{w, b} \frac{1}{\|w\|}\\ \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1, \quad i=1,2, \cdots, N$
因为最大化 $\dfrac{1}{\|w\|}$ 等价于最小化 $\frac{1}{2}\|w\|^{2}$ ,式子可以改写为
$\min _{w, b} \frac{1}{2}\|w\|^{2}\\ \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N$
导入拉格朗日
$\min _{w, b} \frac{1}{2}\|w\|^{2}\\ \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N\\ L(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(w \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i}$
目标从：
$\min _{w, b} \max _{\alpha} L(w, b, \alpha)$
转化为
$\max _{\alpha} \min _{w, b} L(w, b, \alpha)$

先求 $min _{w, b} L(w, b, a)$

将拉格朗日函数 $\alpha)$ 分别对 $w, b$ 求偏导数并令其等于0.

\begin{aligned} \nabla_{w} L (w, b, α) = w - \sum_{i = 1}^{N} α_{i} y_{i} x_{i} = 0 \\ \nabla_{b} L (w, b, α) = \sum_{i = 1}^{N} α_{i} y_{i} = 0 \end{aligned}

\nabla_{w} L (w, b, α) = w - i = 1 \sum N α_{i} y_{i} x_{i} = 0 \nabla_{b} L (w, b, α) = i = 1 \sum N α_{i} y_{i} = 0

得

\begin{matrix} w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i} \\ \sum_{i = 1}^{N} α_{i} y_{i} = 0 \end{matrix}

将

w

代入拉格朗日函数并利用

\sum_{i=1}^{N} \alpha_{i} y_{i}=0

, 得到

\begin{aligned} L (w, b, α) & = \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{N} α_{i} y_{i} ((\sum_{j = 1}^{N} α_{j} y_{j} x_{j}) \cdot x_{i} + b) + \sum_{i = 1}^{N} α_{i} \\ = - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) + \sum_{i = 1}^{N} α_{i} \end{aligned}

即

\min _{w, b} L(w, b, \alpha)=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}

再求 $\max _{\alpha} L(w, b, \alpha)$

求 $\min _{w, b} L(w, b, \alpha)$ 对 $\alpha$ 的极大，即是对偶问题
$\max _{\alpha}-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i}\\ \text{s.t.} \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N$
然后将max转化为min
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}\\ \text{s.t.} \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N$

接下来求解 $\alpha$

软间隔最大化(maximum soft interval)

引入松弛变量
$y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}$
约束和目标也要修改
$\min _{w, b, \xi} \frac{1}{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}\\ \text { s.t. } \quad y_{i}\left(w \cdot x_{i}+b\right) \geqslant 1-\xi_{i}, \quad i=1,2, \cdots, N\\ \xi_{i} \geqslant 0, \quad i=1,2, \cdots, N$
最终结果为
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}\\ \text { s.t. } \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$
和上一个section不使用软间隔的情况一样一样，我们这里也面临求解 $\alpha$ 的问题。

核函数

目前的问题：式子中间有 $x_{i}$ 和 $x_{j}$ 的点积，这个让人难受。例如在手写数字数据集Mnist中，训练集有6万个样本，6万乘6万勉强能接受。但每个样本时784维的，6万个样本两两做点积，是非常慢的。如果x是更高维度的呢?

由于公式的需要，我们需要计算 $x_{i}$ 和 $x_{j}$ 的点积。
此外，我们需要将样本映射到高维去，加入映射函数为 $\phi(x)$ ，那么 $\phi\left(x_{i}\right)$ 和 $\phi\left(x_{j}\right)$ 的维度数目进一步扩大，它们的点积会让运算变得及其复杂。 (因为维度太高了)
我们希望存在一个函数 $K\left(x_{i}, x_{j}\right)=\phi\left(x_{i}\right) \cdot \phi\left(x_{j}\right)$ ，但函数 $K$ 的计算方式更简单。也就是说，我将样本通过函数升维得到 $\phi\left(x_{i}\right)$ 和 $\phi\left(x_{j}\right)$ ，接下来要计算它们的点积，能不能有个很简单的计算公式，计算出来的结果和 $\phi\left(x_{i}\right)$ . $\phi\left(x_{j}\right)$ 一样? 那样我就不用再去算 $\phi\left(x_{i}\right) \cdot \phi\left(x_{j}\right)$ 的结果了，直接用简单方式计算不是更好吗?

这个简便方式，就是核函数

在SVM中，我们通常使用高斯核
$z)=\exp \left(-\frac{\|x-z\|^{2}}{2 \sigma^{2}}\right)$
在计算 $x$ 和 $z$ 的点积时，直接用这个公式替代就行了。

所以我们有
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}\\ \text{s.t.} \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$

序列最小最优化算法

现在我们只剩下 $\alpha$ 需要求解。而且我们求解出来的 $\alpha$ 一定要让整个结果满足KKT条件。如果不满足，那一定不是最优解。所以我们可以每次不断调整 $\alpha$ 的值，直到所有 $\alpha$ 都满足KKT条件，这时候我们一定得到了最优解。如何调整呢？可以用序列最小最优化算法，也就是SMO。

假设整个式子有N个 $\alpha = (\alpha_1, \alpha_2, \alpha_3, \cdots, \alpha_N)$ ,先固定了其他 $\alpha_i$ ，找 $\alpha_1$ 。先让 $\alpha_1$ 满足KKT条件。但是如果固定除 $\alpha_1$ 以外的所有 $\alpha_i$ ,等于也固定了 $\alpha_1$ 。
$\alpha_{1}=-y_{1} \sum_{i=2}^{N} \alpha_{i} y_{i}$
所以我们每次选择优化两个 $\alpha_i$
$\alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} y_{i} \alpha_{i}$
进一步，因为原式中目前只有 $\alpha_1$ 和 $\alpha_2$ 两个变量，我们将其他作为常数去除。
$\min _{\alpha} \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j} K\left(x_{i}, x_{j}\right)-\sum_{i=1}^{N} \alpha_{i}\\ \text { s.t. } \quad \sum_{i=1}^{N} \alpha_{i} y_{i}=0\\ 0 \leqslant \alpha_{i} \leqslant C, \quad i=1,2, \cdots, N$

整理一下

\begin{aligned} min_{α_{1}, α_{2}} W (α_{1}, α_{2}) = & \frac{1}{2} K_{11} α_{1}^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{1} y_{2} K_{12} α_{1} α_{2} \\ - (α_{1} + α_{2}) + y_{1} α_{1} \sum_{i = 3}^{N} y_{i} α_{i} K_{i 1} + y_{2} α_{2} \sum_{i = 3}^{N} y_{i} α_{i} K_{i 2} \\ s.t. α_{1} y_{1} + α_{2} y_{2} = - \sum_{i = 3}^{N} y_{i} α_{i} = ζ \\ 0 ⩽ α_{i} ⩽ C, i = 1, 2 \end{aligned}

α_{1}, α_{2} min W (α_{1}, α_{2}) = \frac{1}{2} K_{11} α_{1}^{2} + \frac{1}{2} K_{22} α_{2}^{2} + y_{1} y_{2} K_{12} α_{1} α_{2} - (α_{1} + α_{2}) + y_{1} α_{1} i = 3 \sum N y_{i} α_{i} K_{i 1} + y_{2} α_{2} i = 3 \sum N y_{i} α_{i} K_{i 2} s.t. α_{1} y_{1} + α_{2} y_{2} = - i = 3 \sum N y_{i} α_{i} = ζ 0 ⩽ α_{i} ⩽ C, i = 1, 2

目前可知，

\alpha_i

一定在0到C之间。我们已知：

\sum \alpha_{i} y_{i}=0

有

\alpha_{1} y_{1}+\alpha_{1} y_{2}=-\sum_{i=3}^{m} \alpha_{i} y_{i}= \zeta

(to be continued)

总结

SVM让人头秀。
SVM首先从最大间隔出发，设计了可构造最优超平面的线形模型。
考虑到存在噪音或有部分点让人很为难，添加了软间隔。变成了具有软间隔功能的线形模型。
通过对数据的升维，使得模型变成了非线形。可以用于非线形数据集。
升维后无穷维的点积运算难以实现，引入了核函数简化运算。

7.2 间隔分离最大化的存在唯一性

证明存在性

由于训练数据集线性可分，所以算法一定存在可行解。又由于目标函数又下界，所以最优化问题必有解。吕于训练数据中既有正类点又有负类点，所以 $(w, b) = (0, b)$ 不是最优化的可行解，因此最优解必定满足w不等于 0 ，由此可知分离超平面的存在性。

证明唯一性

(To be continued)

相关阅读:
使用std:promise std::future 实现HTTP接口耗时操作的的同步返回
机器学习笔记之贝叶斯线性回归(二)推断任务推导过程
一、综合——通信职业道德
PPO算法经典论文阅读
Android的FragmentManager介绍以及它管理Fragment的流程
【10】使用Test类测试&ImGUI
Keras深度学习框架实战（5）：KerasNLP使用GPT2进行文本生成
SOLIDWORKS软件提供了哪些特征造型方法？硕迪科技
Hive常用DDL操作
x64dbg 基本使用技巧

原文地址：https://blog.csdn.net/weixin_39236489/article/details/126289137