数据挖掘与分析课程笔记（Chapter 21）

数据挖掘与分析课程笔记

Set up： $\mathbf{D}=\{(\mathbf{x}_i,y_i) \}_{i=1}^n,\mathbf{x}_i \in \mathbb{R}^d,y_i \in \{-1,1 \}$ ，仅两类数据。

超平面 (hyperplanes， $d - 1$ 维)： $h(\mathbf{x}):=\mathbf{w}^T\mathbf{x}+b=w_1x_1+ \cdots +w_dx_d+b$

其中， $\mathbf{w}$ 是法向量， $-{b\over w_i}$ 是 $x_i$ 轴上的截距。
$\mathbf{D}$ 称为是线性可分的，如果存在 $h(\mathbf{x})$ 使得对所有 $y_i=1$ 的点 $\mathbf{x}_i$ 有 $h(\mathbf{x}_i)>0$ ，且对所有 $y_i=-1$ 的点 $\mathbf{x}_i$ 有 $h(\mathbf{x}_i)<0$ ，并将此 $h(\mathbf{x})$ 称为分离超平面。

Remark：对于线性可分的 $\mathbf{D}$ ，分离超平面有无穷多个。
点到超平面的距离：
$\mathbf{x}=\mathbf{x}_p+\mathbf{x}_r=\mathbf{x}_p+r\cdot\frac{\mathbf{w}}{||\mathbf{w}||}\\$
$\begin{aligned} h (x) & = h (x_{p} + r \frac{w}{‖ w ‖}) \\ = w^{T} (x_{p} + r \frac{w}{‖ w ‖}) + b \\ = \underset{h (x_{p})}{\underset{⏟}{w^{T} x_{p} + b}} + r \frac{w^{T} w}{‖ w ‖} \\ = \underset{0}{\underset{⏟}{h (x_{p})}} + r ‖ w ‖ \\ = r ‖ w ‖ \end{aligned}$ $x = x_{p} + x_{r} = x_{p} + r \cdot \frac{w}{∣∣ w ∣∣} h (x) = h (x_{p} + r \frac{w}{∥ w ∥}) = w^{T} (x_{p} + r \frac{w}{∥ w ∥}) + b = h (x_{p}) w^{T} x_{p} + b + r \frac{w ^{T} w}{∥ w ∥} = 0 h (x_{p}) + r ∥ w ∥ = r ∥ w ∥$

$\therefore r=\frac{h(\mathbf{x})}{\|\mathbf{w}\|},|r|=\frac{|h(\mathbf{x}|)}{\|\mathbf{w}\|}$

故 $\forall \mathbf{x}_i \in \mathbf{D}$ 到 $h(\mathbf{x})$ 的距离是 $y_i\frac{h(\mathbf{x}_i)}{\|\mathbf{w}\|}$

在这里插入图片描述

给定线性可分的 $\mathbf{D}$ ，及分离超平面 $h(\mathbf{x})$ ，定义余量：
$\delta^*=\min\limits_{\mathbf{x}_i}\{\frac{y_i(\mathbf{w}^T\mathbf{x}_i+b)}{\|\mathbf{w}\|} \}$
即 $\mathbf{D}$ 中点到 $h(\mathbf{x})$ 距离的最小值，使得该 $\delta^*$ 取到的数据点 $\mathbf{x}_i$ 被称为支撑向量（可能不唯一）。
标准超平面：对 $\forall h(\mathbf{x})=\mathbf{w}^T\mathbf{x}+b$ ，以及任意 $s\in \mathbb{R}\setminus \{0\}$ ， $s(\mathbf{w}^T\mathbf{x}+b)=0$ 与 $h(\mathbf{x})=0$ 是同一超平面。

设 $\mathbf{x}^*$ 是支撑向量，若 $sy^*(\mathbf{w}^T\mathbf{x}^*+b)=1\ (1)$ ，则称 $sh(\mathbf{x})=0$ 是标准超平面。

由 $(1)$ 可得： $s=\frac{1}{y^*(\mathbf{w}^T\mathbf{x}^*+b)}=\frac{1}{y^*h(\mathbf{x}^*)}$

此时，对于 $sh(\mathbf{x})=0$ ，余量 $\delta^*=\frac{y^*h(\mathbf{x}^*)}{\|\mathbf{w}\|}=\frac{1}{\|\mathbf{w}\|}$

事实：如果 $\mathbf{w}^T\mathbf{x}+b=0$ 是标准超平面，对 $\forall \mathbf{x}_i$ ，一定有 $y_i(\mathbf{w}^T\mathbf{x}_i+b)\ge1$

目标：寻找标准分离超平面使得其余量最大，即 $h^*=\arg\max\limits_{\mathbf{w},b}\{\frac{1}{\mathbf{w}} \}$

转为优化问题：

\begin{aligned} min_{w, b} {\frac{‖ w ‖^{2}}{2}} \\ s.t. y_{i} (w^{T} x_{i} + b) \geq 1, \forall (x_{i}, y_{i}) \in D \end{aligned}

w, b min {\frac{∥ w ∥ ^{2}}{2}} s.t. y_{i} (w^{T} x_{i} + b) \geq 1, \forall (x_{i}, y_{i}) \in D

引入 Lagrange 乘子

\alpha_i\ge0

与 KKT 条件：

\alpha_i(y_i(\mathbf{w}^T\mathbf{x}_i+b)-1)=0

定义：

L(\mathbf{w})=\frac{1}{2}\|\mathbf{w}\|^2-\sum\limits_{i=1}^{n}\alpha_i(y_i(\mathbf{w}^T\mathbf{x}_i+b)-1)\ (2)

\begin{array}{l} \frac{\partial}{\partial w} L = w - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} = 0 (3) \\ \frac{\partial}{\partial b} L = \sum_{i = 1}^{n} α_{i} y_{i} = 0 (4) \end{array}

\frac{\partial}{\partial w} L = w - i = 1 \sum n α_{i} y_{i} x_{i} = 0 (3) \frac{\partial}{\partial b} L = i = 1 \sum n α_{i} y_{i} = 0 (4)

将 (3)(4) 代入 (2) 得：

\begin{aligned} L_{d u a l} & = \frac{1}{2} w^{T} w - w^{T} (\underset{w}{\underset{⏟}{\sum_{i = 1}^{n} α_{i} y_{i} x_{i}}}) - b \underset{0}{\underset{⏟}{\sum_{i = 1}^{n} α_{i} y_{i}}} + \sum_{i = 1}^{n} α_{i} \\ = - \frac{1}{2} w^{T} w + \sum_{i = 1}^{n} α_{i} \\ = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned}

L_{d u a l} = \frac{1}{2} w^{T} w - w^{T} (w i = 1 \sum n α_{i} y_{i} x_{i}) - b 0 i = 1 \sum n α_{i} y_{i} + i = 1 \sum n α_{i} = - \frac{1}{2} w^{T} w + i = 1 \sum n α_{i} = i = 1 \sum n α_{i} - \frac{1}{2} i = 1 \sum n j = 1 \sum n α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}

故对偶问题为：

\begin{aligned} max_{α} L_{d u a l} = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ s.t. \sum_{i = 1}^{n} α_{i} y_{i} = 0, α_{i} \geq 0, \forall i \end{aligned}

利用二次规划解出 Dual：

\alpha_1,\cdots,\alpha_n

代入 (3) 可得： $\mathbf{w}=\sum\limits_{i=1}^{n} \alpha_{i} y_{i} \mathbf{x}_{i}$

使得 $\alpha_i>0$ 的数据 $\mathbf{x}_i$ 给出支撑向量。

对于每一个支撑向量： $y_i(\mathbf{w}^T\mathbf{x}_i+b)-1\Rightarrow b=\frac{1}{y_i}-\mathbf{w}^T\mathbf{x}_i$

取 $b=\mathop{avg}_{\alpha_i>0}\{b_i\}$

相关阅读:
600. 不含连续1的非负整数动态规划
Linux awk命令
Nginx的概述和配置
电脑提示msvcr120.dll丢失怎样修复
前端vue异形轮播图案例(带源码)
手机如何免费设置PDF区域高亮？
win11取消文件夹分组
聊聊logback的DynamicThresholdFilter
简述JVM
Jenkins持续集成

原文地址：https://blog.csdn.net/yyywxk/article/details/127671966