支持向量机（二）

文章目录

前言
具体内容

前言

总算要对稍微有点难度的地方动手了，前面介绍的线性可分或者线性不可分的情况，都是使用平面作为分割面的，现在我们采用另一种分割面的设计方法，也就是核方法。
核方法涉及的分割面不再是 $w x + b = 0$ ，而是 $f (x) = 0$ 了。

具体内容

核方法其实就是坐标映射方法，类似于我们进行回归的时候对于反函数曲线采用 $y=\frac{w}{x}+b$ 的形式来对数据进行拟合。
我们常用的标准做法都是先将原始数据 $x$ 映射为 $\frac{1}{x}$ ，然后对于数据 $(\frac{1}{x},y)$ 寻找线性函数 $y = k t + b$ 来拟合。

在非线性支持向量机中，我们需要把原始特征x通过映射函数变换为 $\phi(x)$ ，对于这个映射函数没有什么要求，只不过什么样的映射函数映射以后分类效果最佳是未知的，是需要通过比较才能发现的。
映射函数一般都是把原始特征 $x$ 变为另一个向量 $[1,x_1,\cdots,x_n,x_1^2,\cdots,x_ix_j,\cdots,x_n^2,\cdots]$ 其中的一项或者几项，具体是几项视具体情况确定，这个的目标是保留原始信息同时要增加尽可能多的生成信息，所以一般往高维方向映射。
当然这个函数设计好以后，我们在支持向量机的对偶函数中其实计算的是 $K(x_i,x_j)$ ，这个函数是上面映射函数的乘积，可能计算更加复杂，所以从方便对偶函数的计算角度出发，设计了专门的对偶核函数，不过对偶核函数是有要求的，需要对所有特征 $x$ 所构成的gram矩阵是半正定的。
而这种情况下我们可以设计方便计算的核函数，比如：
多项式核函数： $K(x,z)=(x\cdot z+1)^p$ ，计算难度大大减小，而且这个多项式核函数对应的映射函数也比较好求：

\begin{aligned} K (x, z) & = (x \cdot z + 1)^{2} \\ = (x_{1} z_{1} + x_{2} z_{2} + 1)^{2} \\ = x_{1}^{2} z_{1}^{2} + 2 x_{1} x_{2} z_{1} z_{2} + 2 x_{1} z_{1} + x_{2}^{2} z_{2}^{2} + 2 x_{2} z_{2} + 1 \\ = [x_{1}^{2}, \sqrt{2} x_{1} x_{2}, \sqrt{2} x_{1}, x_{2}^{2}, \sqrt{2} x_{2}, 1] * [z_{1}^{2}, \sqrt{2} z_{1} z_{2}, \sqrt{2} z_{1}, z_{2}^{2}, \sqrt{2} z_{2}, 1]^{T} \end{aligned}

K (x, z) = (x \cdot z + 1)^{2} = (x_{1} z_{1} + x_{2} z_{2} + 1)^{2} = x_{1}^{2} z_{1}^{2} + 2 x_{1} x_{2} z_{1} z_{2} + 2 x_{1} z_{1} + x_{2}^{2} z_{2}^{2} + 2 x_{2} z_{2} + 1 = [x_{1}^{2}, 2 x_{1} x_{2}, 2 x_{1}, x_{2}^{2}, 2 x_{2}, 1] * [z_{1}^{2}, 2 z_{1} z_{2}, 2 z_{1}, z_{2}^{2}, 2 z_{2}, 1]^{T}

相当于截取了泰勒展开式中的前几项。
换句话说，如果我们想将坐标映射为 $1,x_1,x_2,x_1^2,x_1x_2,x_2^2]$ ，然后利用映射后的坐标来计算 $w[1,x_1,x_2,x_1^2,x_1x_2,x_2^2]^T+b$ 来作为判别函数，那么这个分界面问题的对偶函数中 $\phi(x_i)\phi(x_j)$ 就是上面的 $(x\cdot z+1)^p$ 的形式，也就是我们不用知道中间映射后的坐标，而可以直接计算 $(x_i\cdot x_j+1)^p$ 。

高斯核函数; $K(x,z)=\exp(-\frac{{\|x-z\|}^2}{2\sigma^2})$ ，计算难度大大减小，但是这个核函数对应的映射函数不容易求出来。

\begin{aligned} K (x, z) = & \exp (- \frac{(x_{1} - z_{1})^{2} + (x_{2} - z_{2})^{2}}{2 σ^{2}}) \\ = & \exp (- \frac{x_{1}^{2} + z_{1}^{2} - 2 x_{1} z_{1} + x_{2}^{2} + z_{2}^{2} - 2 x_{2} z_{2}}{2 σ^{2}}) \\ = & \exp (- \frac{x_{1}^{2}}{2 σ^{2}}) \exp (- \frac{z_{1}^{2}}{2 σ^{2}}) \exp (- \frac{x_{2}^{2}}{2 σ^{2}}) \exp (- \frac{z_{2}^{2}}{2 σ^{2}}) \exp (\frac{2 x_{1} z_{1}}{2 σ^{2}}) \exp (\frac{2 x_{2} z_{2}}{2 σ^{2}}) \\ = & \exp (- \frac{x_{1}^{2}}{2 σ^{2}}) \exp (- \frac{z_{1}^{2}}{2 σ^{2}}) \exp (- \frac{x_{2}^{2}}{2 σ^{2}}) \exp (- \frac{z_{2}^{2}}{2 σ^{2}}) [1 + \frac{2 x_{1} z_{1}}{2 σ^{2}} + \dots + \frac{1}{n!} (\frac{2 x_{1} z_{1}}{2 σ^{2}})^{n} + \dots] [1 + \frac{2 x_{2} z_{2}}{2 σ^{2}} + \dots + \frac{1}{n!} (\frac{2 x_{2} z_{2}}{2 σ^{2}})^{n} + \dots] \\ = & \exp (- \frac{x_{1}^{2}}{2 σ^{2}}) \exp (- \frac{z_{1}^{2}}{2 σ^{2}}) \exp (- \frac{x_{2}^{2}}{2 σ^{2}}) \exp (- \frac{z_{2}^{2}}{2 σ^{2}}) [\sum_{t = 0}^{+ \infty} \sum_{k = 0}^{+ \infty} \frac{1}{t!} (\frac{2 x_{1} z_{1}}{2 σ^{2}})^{t} \frac{1}{k!} (\frac{2 x_{2} z_{2}}{2 σ^{2}})^{k}] \\ = & \exp (- \frac{x_{1}^{2}}{2 σ^{2}}) \exp (- \frac{x_{2}^{2}}{2 σ^{2}}) [1, \frac{x_{1}}{σ}, \dots, \sqrt{\frac{1}{n!}} (\frac{x_{1}}{σ})^{n}, \dots, \frac{x_{2}}{σ}, \frac{x_{1} x_{2}}{σ^{2}}, \dots, \sqrt{\frac{1}{n!}} (\frac{x_{1}^{n} x_{2}}{σ^{n + 1}}), \dots, \sqrt{\frac{1}{t! n!}} \frac{x_{1}^{t} x_{2}^{n}}{σ^{t + n}}, \dots] * \\ \exp (- \frac{z_{1}^{2}}{2 σ^{2}}) \exp (- \frac{z_{2}^{2}}{2 σ^{2}}) [1, \frac{z_{1}}{σ}, \dots, \sqrt{\frac{1}{n!}} (\frac{z_{1}}{σ})^{n}, \dots, \frac{z_{2}}{σ}, \frac{z_{1} z_{2}}{σ^{2}}, \dots, \sqrt{\frac{1}{n!}} (\frac{z_{1}^{n} z_{2}}{σ^{n + 1}}), \dots, \sqrt{\frac{1}{t! n!}} \frac{z_{1}^{t} z_{2}^{n}}{σ^{t + n}}, \dots] \end{aligned}

K (x, z) = = = = = = exp (- \frac{( x _{1} - z _{1} ) ^{2} + ( x _{2} - z _{2} ) ^{2}}{2 σ ^{2}}) exp (- \frac{x _{1}^{2} + z _{1}^{2} - 2 x _{1} z _{1} + x _{2}^{2} + z _{2}^{2} - 2 x _{2} z _{2}}{2 σ ^{2}}) exp (- \frac{x _{1}^{2}}{2 σ ^{2}}) exp (- \frac{z _{1}^{2}}{2 σ ^{2}}) exp (- \frac{x _{2}^{2}}{2 σ ^{2}}) exp (- \frac{z _{2}^{2}}{2 σ ^{2}}) exp (\frac{2 x _{1} z _{1}}{2 σ ^{2}}) exp (\frac{2 x _{2} z _{2}}{2 σ ^{2}}) exp (- \frac{x _{1}^{2}}{2 σ ^{2}}) exp (- \frac{z _{1}^{2}}{2 σ ^{2}}) exp (- \frac{x _{2}^{2}}{2 σ ^{2}}) exp (- \frac{z _{2}^{2}}{2 σ ^{2}}) [1 + \frac{2 x _{1} z _{1}}{2 σ ^{2}} + \dots + \frac{1}{n !} (\frac{2 x _{1} z _{1}}{2 σ ^{2}})^{n} + \dots] [1 + \frac{2 x _{2} z _{2}}{2 σ ^{2}} + \dots + \frac{1}{n !} (\frac{2 x _{2} z _{2}}{2 σ ^{2}})^{n} + \dots] exp (- \frac{x _{1}^{2}}{2 σ ^{2}}) exp (- \frac{z _{1}^{2}}{2 σ ^{2}}) exp (- \frac{x _{2}^{2}}{2 σ ^{2}}) exp (- \frac{z _{2}^{2}}{2 σ ^{2}}) [t = 0 \sum + \infty k = 0 \sum + \infty \frac{1}{t !} (\frac{2 x _{1} z _{1}}{2 σ ^{2}})^{t} \frac{1}{k !} (\frac{2 x _{2} z _{2}}{2 σ ^{2}})^{k}] exp (- \frac{x _{1}^{2}}{2 σ ^{2}}) exp (- \frac{x _{2}^{2}}{2 σ ^{2}}) [1, \frac{x _{1}}{σ}, \dots, \frac{1}{n !} (\frac{x _{1}}{σ})^{n}, \dots, \frac{x _{2}}{σ}, \frac{x _{1} x _{2}}{σ ^{2}}, \dots, \frac{1}{n !} (\frac{x _{1}^{n} x _{2}}{σ ^{n + 1}}), \dots, \frac{1}{t ! n !} \frac{x _{1}^{t} x _{2}^{n}}{σ ^{t + n}}, \dots] * exp (- \frac{z _{1}^{2}}{2 σ ^{2}}) exp (- \frac{z _{2}^{2}}{2 σ ^{2}}) [1, \frac{z _{1}}{σ}, \dots, \frac{1}{n !} (\frac{z _{1}}{σ})^{n}, \dots, \frac{z _{2}}{σ}, \frac{z _{1} z _{2}}{σ ^{2}}, \dots, \frac{1}{n !} (\frac{z _{1}^{n} z _{2}}{σ ^{n + 1}}), \dots, \frac{1}{t ! n !} \frac{z _{1}^{t} z _{2}^{n}}{σ ^{t + n}}, \dots]

所以两个映射函数分别如上所示：
$\phi(x)=\exp(-\frac{x_1^2}{2\sigma^2})\exp(-\frac{x_2^2}{2\sigma^2})[1,\frac{x_1}{\sigma},\cdots,\sqrt{\frac{1}{n!}}(\frac{x_1}{\sigma})^n,\cdots,\frac{x_2}{\sigma},\frac{x_1x_2}{\sigma^2},\cdots,\sqrt{\frac{1}{n!}}(\frac{x_1^nx_2}{\sigma^{n+1}}),\cdots,\sqrt{\frac{1}{t!n!}}\frac{x_1^tx_2^n}{\sigma^{t+n}},\cdots]$

如果只看后面的向量的话，他就是泰勒展开式中各个项，但是它前面还乘上了系数 $\exp(-\frac{x_1^2}{2\sigma^2})\exp(-\frac{x_2^2}{2\sigma^2})$ 缩放了一下。
换句话说，这个映射函数把原始特征映射为了一个无穷维的坐标，我们实际上做的是用这个映射后的坐标 $\exp(-\frac{x_1^2}{2\sigma^2})\exp(-\frac{x_2^2}{2\sigma^2})[1,\frac{x_1}{\sigma},\cdots,\sqrt{\frac{1}{n!}}(\frac{x_1}{\sigma})^n,\cdots,\frac{x_2}{\sigma},\frac{x_1x_2}{\sigma^2},\cdots,\sqrt{\frac{1}{n!}}(\frac{x_1^nx_2}{\sigma^{n+1}}),\cdots,\sqrt{\frac{1}{t!n!}}\frac{x_1^tx_2^n}{\sigma^{t+n}},\cdots]$ 去构成分界面 $w\exp(-\frac{x_1^2}{2\sigma^2})\exp(-\frac{x_2^2}{2\sigma^2})[1,\frac{x_1}{\sigma},\cdots,\sqrt{\frac{1}{n!}}(\frac{x_1}{\sigma})^n,\cdots,\frac{x_2}{\sigma},\frac{x_1x_2}{\sigma^2},\cdots,\sqrt{\frac{1}{n!}}(\frac{x_1^nx_2}{\sigma^{n+1}}),\cdots,\sqrt{\frac{1}{t!n!}}\frac{x_1^tx_2^n}{\sigma^{t+n}},\cdots]+b$ 作为分界面，其中 $w$ 为无穷维向量，那么这个分界面问题的对偶函数中 $\phi(x_i)\phi(x_j)$ 就是上面的 $\exp(-\frac{(x_1-z_1)^2+(x_2-z_2)^2}{2\sigma^2})$ 的形式，也就是我们不用知道中间映射后的坐标，而可以直接计算 $\exp(-\frac{(x_1-z_1)^2+(x_2-z_2)^2}{2\sigma^2})$ 。

相关阅读:
Mycat实现分库分表
shopee知虾数据：提升Shopee店铺运营效果必备工具—知虾数据工具
一文教你Linux 磁盘管理
我的创作纪念日
特斯拉第三方应用开发指南（一）
Java常量池理解
在前后端分离项目中如何设置统一返回格式
Typescript基本类型---上篇
micro-ros arduino esp32 ros2 笔记
python使用Augmentor对图像分割数据集中原图和标签mask同时进行变换

原文地址：https://blog.csdn.net/weixin_45477628/article/details/132611749