机器学习【二】支持向量机

线性可分定义

支持向量机如何解决线性可分问题

支持向量机的优化问题

线性不可分情况

核函数

原问题和对偶问题

如何转化为对偶问题

线性可分定义

线性可分（Linear Separable）：存在一条直线，可以分开⚪和×；

线性不可分（Nonlinear Separable）：不存在一条直线，可以分开⚪和×；

放在三位空间中就变成了一个平面：

由于人眼仅限于三维空间，所以我们需要借助数学来对线性可分和线性不可分给出一个精确的定义。

同样先以二维做例子：

需要注意的是，这个w1和w2是人为设定的，如果反一下的话，符号也要反一下。

我们可以假设有N个训练样本和标签，{（x1,y1）,（x2,y2），……，（xn,yn）}，其中，若xi属于c1,则yi = + 1，否则yi = -1.

线性可分的严格定义：

        一个训练样本集{（x1,y1）,（x2,y2），……，（xn,yn）}，在 i = 1~N线性可分，是指存在（w1，w2，b）使得对 i = 1~N，有：

（1）若 yi = +1，则w1·xi1 + w2·xi2 + b > 0

        （2）若 yi = - 1，则w1·xi1 + w2·xi2 + b < 0

用向量形式作简化：

                                 $x_{i} = [(\begin{matrix} x_{i 1} \\ x_{i 2} \end{matrix})]^{T}$    $ω_{i} = [(\begin{matrix} ω_{1} \\ ω_{2} \end{matrix})]^{T}$

（1）若 $y_{i}$ = + 1，则 $ω^{T} \cdot x_{i} + b > 0$

（2）若 $y_{i}$ = - 1，则 $ω^{T} \cdot x_{i} + b < 0$

支持向量机如何解决线性可分问题

从前面可以引出一个问题：在无数多个分开各个类别的超平面中，到底哪一个最好呢？

例如下面三条线，哪一条更好？

大多人应该都会选择2号线，根据没有免费午餐定理，每一条线的表现应该是一样的。这里就需要考虑训练样本的位置在特征空间上有测量的误差，而2号线对误差的容忍程度最高，也就是容错最大。

那么接下来就是考虑怎么寻找2号线？

VAPNIK给出的回答是：

对于任意一条符合条件的线，尽可能地向两侧移动，即移动到上图中的两条虚线位置。此时我们定义这两条虚线碰到的训练样本叫做这个数据集的支持向量，把两条线之间的距离称为间隔（margin），我们所要求的2号线就是间隔最大的两条线的正中间位置的那条。

支持向量机的优化问题

这里主要讲如何用严格的数学，寻找最优分类超平面的过程，写成一个最优化问题。

我们假设训练样本集是线性可分的，支持向量机需要寻找的是最大化间隔（margin）的超平面，可以写成如下的形式：

最小化（Minimize）： $\frac{1}{2} \cdot {| \begin{matrix} | \begin{matrix} ω \end{matrix} | \end{matrix} |}^{2}$

限制条件： $y_{i} (ω^{T} x_{i} + b) \geq 1, (i = 1 \sim N)$

其中， $(x_{i}, y_{i}), i = 1 \sim N$ 是已知的， $(ω, b)$ 是待求得，这显然是凸优化（Convex Optimization）问题中的二次规划问题。

下面重点开始解释：

先要讲两个事实：

事实一：

                 $ω^{T} x + b = 0$ 与 $(α ω^{T}) x + (α b) = 0$ 是同一个超平面。 $(α \neq 0)$

事实二：

一个点 $X_{0}$ 到超平面 $ω^{T} x + b = 0$ 的距离     $d = \frac{| ω^{T} x_{0} + b |}{‖ ω ‖}$ .

最小化（Minimize）： $\frac{1}{2} \cdot {| \begin{matrix} | \begin{matrix} ω \end{matrix} | \end{matrix} |}^{2}$

           $ω = [\begin{matrix} ω_{1} \\ ω_{2} \\ ⋮ \\ ω_{m} \end{matrix}]$ ,         ${| \begin{matrix} | \begin{matrix} ω \end{matrix} | \end{matrix} |}^{2} = ω_{1}^{2} + ω_{2}^{2} + . . . + ω_{m}^{2} = \sum_{i = 1}^{m} ω_{i}^{2}$

        基于上面两个事实，我们可以找到一个 $α$ 进行缩放 $(ω, b) \to (α ω, α b)$ ，最终使得：

          在支持向量 $x_{0}$ 上有 $| ω^{T} x_{0} + b | = 1$

          而在非支持向量上 $| ω^{T} x_{0} + b | > 1$

                此时 $d = \frac{1}{‖ ω ‖}$ ，要最大化d，就是要最小化 $‖ ω ‖$

限制条件： $y_{i} (ω^{T} x_{i} + b) \geq 1, (i = 1 \sim N)$

其中 $y_{i}$ 的作用是协调超平面的作用，使得一边的   $(ω^{T} x + b) > 1$ ,另一边的 $(ω^{T} x + b) < 1$

二次规划的定义是：

（1）目标函数（Objective Function）是二次项。

（2）限制条件是一次项。

要么无解，要么只有唯一的最小值。

线性不可分情况

如果线性不可分，那么上面是无解的，即不存在 $ω$ 和 b 满足上面的所有N个限制条件。所以我们需要放松限制条件：

限制条件改写为： $y_{i} (ω^{T} φ (X_{i}) + b) \geq 1 - δ_{i}, (i = 1 \sim N)$ ，其中 $δ_{i}$ 为松弛变量。

改造后的支持向量机优化版本：

最小化： $\frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{N} δ_{i}$ 或 $\frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{N} δ_{i}^{2}$

限制条件：（1） $δ \geq 0. (i = 1 \sim N)$

（2） $y_{i} (ω^{T} φ (X_{i}) + b) \geq 1 - δ_{i}, (i = 1 \sim N)$

比例因子C 起到了平衡两项的关键作用，是由人为设定的。

我们把人为事先设定的参数叫做算法的超参数。

通常会不断变化C的值 => 同时测试算法的识别率 => 选取合适的超参数C ~~（调参侠出现啦！！）~~

支持向量机采用的是将特征空间由低维映射到高维，然后再用线性超平面对数据进行分类。

一个定理：

假设在一个M维空间上随机取N个训练样本，随机得对每个训练样本赋予标签+1 或 -1，若这些训练样本线性可分得概率为P(M)，

则有：当M趋于无穷大时，P(M) = 1.

直观上地感受一下：当特征空间得维度M增加的时候，带估计参数 $(ω, b)$ 的维度也会增加，也就是说整个算法模型的自由度会增加，当然更容易分开低维的时候无法分开的数据集。

核函数

这里以具体研究 $φ (X_{i})$ 的形式，来引入核函数的概念。

Vladimir Naumovich Vapnik：我们可以不用知道 $φ (X)$ 的具体形式。

我们定义 $K (X_{1}, X_{2})$ 为核函数。

核函数K和映射 $φ$ 是一一对应的关系。

$K (X_{1}, X_{2})$ 能写成 $φ (X_{1})^{T} \cdot φ (X_{2})$ 的充要条件：

（1） $K (X_{1}, X_{2}) = K (X_{2}, X_{1})$ （交换性）

（2） $\forall C_{i} (i = 1 \sim N), \forall N \sum_{i = 1}^{N} \sum_{j = 1}^{N} C_{i} C_{j} K (X_{i}, X_{j}) >= 0$ （半正定性）

原问题和对偶问题

原问题的定义：

最小化： $f (ω)$

限制条件： $g_{i} (ω) <= 0 i = 1 \sim K$ ,

$h_{i} (ω) = 0 i = 1 \sim m$

定义该原问题的对偶问题如下：

定义函数： $L (ω, α, β) = f (ω) + \sum_{i = 1}^{K} α_{i} g_{i} (ω) + \sum_{i = 1}^{K} β_{i} h_{i} (ω) = f (ω) + α^{T} g (ω) + β^{T} h (ω)$

其中， $α = [α_{1}, α_{2}, . . ., α_{K}]^{T}$ ,

$β = [β_{1}, β_{2}, . . ., β_{M}]^{T}$ ,

$g (ω) = [g_{1} (ω), g_{2} (ω), . . ., g_{K} (ω)]^{T}$ ,

$h (ω) = [h_{1} (ω), h_{2} (ω), . . ., h_{M} (ω)]^{T}$ ,

在此基础上，定义对偶问题如下：

最大化： $θ (α, β) = i n f L (ω, α, β)$ ,

限制条件： $α_{i} \geq 0, i = 1 \sim K$

综合原问题和对偶问题的定义得到：

定理一：

如果 $ω^{*}$ 是原问题的解， $(α^{*}, β^{*})$ 是对偶问题的解，则有：

$f (ω^{*}) \geq θ (α^{*}, β^{*})$

我们定义 $f (ω^{*}) - θ (α^{*}, β^{*})$ 为对偶差距，显然 ≥ 0.

强对偶定理：

如果 $g (ω) = A ω + b, h (ω) = C ω + d, f (ω)$ 为凸函数，则有 $f (ω^{*}) = θ (α^{*}, β^{*})$ ，即对偶差距为0.

（也就是说，如果原问题的目标函数是凸函数，限制条件是线性函数，那么对偶差距等于0）

根据定理一推出的不等式：

若 $f (ω^{*}) = θ (α^{*}, β^{*})$ ，则定理一中必然能够推出，对于所有的 $i = 1 \sim K$ ,要么 $α_{i} = 0$ ，要么 $g_{i} (ω^{*}) = 0$ 。这个条件成为KKT条件。

如何转化为对偶问题

回顾一下。

首先： $δ_{i} \geq 0, (i = 1 \sim N)$ 转换成 $δ_{i} \leq 0, (i = 1 \sim N)$

得到：最小化： $\frac{1}{2} {‖ ω ‖}^{2} - C \sum_{i = 1}^{N} δ_{i}$ 或 $\frac{1}{2} {‖ ω ‖}^{2} + C \sum_{i = 1}^{N} δ_{i}^{2}$

限制条件：（1） $δ_{i} \leq 0, (i = 1 \sim N)$

（2） $1 + δ_{i} - y_{i} ω^{T} φ (X_{i}) - y_{i} b \leq 0 (i = 1 \sim N)$

将对偶问题写成如下形式：

最大化： $θ (α, β) = \underset{ω, δ_{i}, b}{i n f} {\frac{1}{2} {‖ ω ‖}^{T} - C \sum_{i = 1}^{N} β_{i} δ_{i} + \sum_{i = 1}^{N} α_{i} [1 + δ_{i} - y_{i} ω^{T} φ (X_{i}) - y_{i} b]}$

限制条件：（1） $α_{i} \geq 0$

（2） $β_{i} \geq 0$

相关阅读:
阻止事件冒泡
Jmeter 使用详解、性能压测分析与性能优化思路
java程序员必会-远程debug
Bellman-Ford算法
探索Lighthouse性能分数计算背后的奥秘
Intel base instruction -- cpuid
基于SSM的美食网站设计设计与实现-计算机毕业设计源码+LW文档
Elasticsearch 和 Arduino：一起变得更好！
HTML5期末考核大作业——学生网页设计作业源码HTML+CSS+JavaScript 中华美德6页面带音乐文化
【狂神】SpringMVC笔记（一）之详细版

原文地址：https://blog.csdn.net/Isaac_gk/article/details/127374427

机器学习【二】 支持向量机

线性可分定义

支持向量机如何解决线性可分问题

支持向量机的优化问题

线性不可分情况

核函数

原问题和对偶问题

如何转化为对偶问题

机器学习【二】支持向量机