数据挖掘与分析课程笔记（Chapter 20）

数据挖掘与分析课程笔记

参考教材：Data Mining and Analysis : MOHAMMED J.ZAKI, WAGNER MEIRA JR.

文章目录

笔记目录

数据挖掘与分析课程笔记
文章目录
Chapter 20: Linear Discriminant Analysis
- 20.1 Normal LDA
- 20.2 Kernel LDA：

Chapter 20: Linear Discriminant Analysis

Set up： $\mathbf{D}=\{(\mathbf{x}_i,y_i) \}_{i=1}^n$ ，其中 $y_i=1,2$ （或 $\pm 1$ 等）， $\mathbf{D}_1=\{\mathbf{x}_i|y_i=1 \}$ ， $\mathbf{D}_2=\{\mathbf{x}_i|y_i=2 \}$

Goal：寻找向量 $\mathbf{w}\in \mathbb{R}^d$ （代表直线方向）使得 $\mathbf{D}_1,\mathbf{D}_2$ 的“平均值”距离最大且“总方差”最小。

20.1 Normal LDA

设 $\mathbf{w} \in \mathbb{R}^d,\mathbf{w}^T\mathbf{w}=1$ ，则 $\mathbf{x}_i$ 在 $\mathbf{w}$ 方向上的投影为 $\mathbf{x}_{i}^{\prime}=\left(\frac{\mathbf{w}^{T} \mathbf{x}_{i}}{\mathbf{w}^{T} \mathbf{u}}\right) \mathbf{w}=a_{i} \mathbf{w},a_{i}=\mathbf{w}^{T} \mathbf{x}_{i}$

则 $\mathbf{D}_1$ 中数据在 $\mathbf{w}$ 上的投影平均值为：（ $|\mathbf{D}_1|=n_1$ ）
$m_1:=\frac{1}{n_1}\sum\limits_{\mathbf{x}_i\in \mathbf{D}_1}a_i=\boldsymbol{\mu}_1^T\mathbf{w}$
投影平均值等于平均值的投影。

类似地： $\mathbf{D}_2$ 中数据在 $\mathbf{w}$ 上的投影平均值为：
$m_2:=\frac{1}{n_2}\sum\limits_{\mathbf{x}_i\in \mathbf{D}_2}a_i=\boldsymbol{\mu}_2^T\mathbf{w}$
目标之一：寻找 $\mathbf{w}$ 使得 $m_1-m_2)^2$ 最大。

对于 $\mathbf{D}_i$ ，定义：
$s_i^2=\sum\limits_{\mathbf{x}_k\in \mathbf{D}_i}(a_k-m_i)^2$
注意： $s_i^2=n_i\sigma^2_i\ (|D_i|=n_i)$

Goal：Fisher LDA目标函数：
$\max\limits_{\mathbf{w}}J(\mathbf{w})=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}$
注意： $J(\mathbf{w})=J(w_1,w_2,\cdots,w_d)$

\begin{aligned} {(m_{1} - m_{2})}^{2} & = {(w^{T} (μ_{1} - μ_{2}))}^{2} \\ = w^{T} ((μ_{1} - μ_{2}) {(μ_{1} - μ_{2})}^{T}) w \\ = w^{T} B w \end{aligned}

(m_{1} - m_{2})^{2} = (w^{T} (μ_{1} - μ_{2}))^{2} = w^{T} ((μ_{1} - μ_{2}) (μ_{1} - μ_{2})^{T}) w = w^{T} Bw

$\mathbf{B}$ 被称为类间扩散矩阵

\begin{aligned} s_{1}^{2} & = \sum_{x_{i} \in D_{1}} {(a_{i} - m_{1})}^{2} \\ = \sum_{x_{i} \in D_{1}} {(w^{T} x_{i} - w^{T} μ_{1})}^{2} \\ = \sum_{x_{i} \in D_{1}} {(w^{T} (x_{i} - μ_{1}))}^{2} \\ = w^{T} (\sum_{x_{i} \in D_{1}} (x_{i} - μ_{1}) {(x_{i} - μ_{1})}^{T}) w \\ = w^{T} S_{1} w \end{aligned}

s_{1}^{2} = x_{i} \in D_{1} \sum (a_{i} - m_{1})^{2} = x_{i} \in D_{1} \sum (w^{T} x_{i} - w^{T} μ_{1})^{2} = x_{i} \in D_{1} \sum (w^{T} (x_{i} - μ_{1}))^{2} = w^{T} (x_{i} \in D_{1} \sum (x_{i} - μ_{1}) (x_{i} - μ_{1})^{T}) w = w^{T} S_{1} w

$\mathbf{S}_{1}$ 被称为 $\mathbf{D}_1$ 的扩散矩阵 $\mathbf{S}_{1}=n_1\Sigma_1$

类似地， $s_{2}^{2}=\mathbf{w}^{T} \mathbf{S}_{2} \mathbf{w}$

令 $\mathbf{S}=\mathbf{S}_{1}+\mathbf{S}_{2}$ ，则
$\max\limits_{\mathbf{w}}J(\mathbf{w})=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}=\frac{\mathbf{w}^{T} \mathbf{B} \mathbf{w}}{\mathbf{w}^{T} \mathbf{S} \mathbf{w}}$

注意：
$\frac{d}{d\mathbf{w}}J(\mathbf{w})=\frac{2\mathbf{B}\mathbf{w}(\mathbf{w}^T\mathbf{S}\mathbf{w})-2\mathbf{S}\mathbf{w}(\mathbf{w}^T\mathbf{B}\mathbf{w})}{(\mathbf{w}^T\mathbf{S}\mathbf{w})^2}=\mathbf{0}$
即有：

\begin{aligned} B w (w^{T} S w) & = S w (w^{T} B w) \\ B w & = S w \cdot \frac{w^{T} B w}{w^{T} S w} \\ B w & = J (w) \cdot S w (*) \end{aligned}

Bw (w^{T} Sw) Bw Bw = Sw (w^{T} Bw) = Sw \cdot \frac{w ^{T} Bw}{w ^{T} Sw} = J (w) \cdot Sw (*)

若

\mathbf{S}^{-1}

存在，则

\mathbf{S}^{-1}\mathbf{B}\mathbf{w}=J(\mathbf{w})\cdot\mathbf{w}

故要求最大

J(\mathbf{w})

，只需

\mathbf{S}^{-1}\mathbf{B}

的最大特征值，

\mathbf{w}

为其特征向量。

☆ 不求特征向量求出 $\mathbf{w}$ 的方法

将 $\mathbf{B}=(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})^{T}$ 代入 $(*)$ 得

\begin{aligned} (μ_{1} - μ_{2}) (μ_{1} - μ_{2})^{T} w & = J (w) \cdot S w \\ S^{- 1} (μ_{1} - μ_{2}) [\frac{(μ_{1} - μ_{2})^{T} w}{J (w)}] & = w \end{aligned}

(μ_{1} - μ_{2}) (μ_{1} - μ_{2})^{T} w S^{- 1} (μ_{1} - μ_{2}) [\frac{( μ _{1} - μ _{2} ) ^{T} w}{J ( w )}] = J (w) \cdot Sw = w

故只需计算

\mathbf{S}^{-1}(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})

，再单位化。

20.2 Kernel LDA：

事实1：如果 $\left(\mathbf{S}_{\phi}^{-1} \mathbf{B}_{\phi}\right) \mathbf{w}=\lambda \mathbf{w}$ ，那么 $\mathbf{w}=\sum\limits_{j=1}^na_j\phi(\mathbf{x}_j)$ ，证明见讲稿最后两页。

令 $\mathbf{a}=(a_1,\cdots,a_n)^T$ 是“事实1”中的向量。

下面将 $\max\limits_{\mathbf{w}}J(\mathbf{w})=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}=\frac{\mathbf{w}^{T} \mathbf{B}_{\phi} \mathbf{w}}{\mathbf{w}^{T} \mathbf{S}_{\phi} \mathbf{w}}$ 的问题转化为 $\max G(\mathbf{a})$ s.t. 使用 $\mathbf{K}$ 能求解。

注意到：

\begin{aligned} m_{i} = w^{T} μ_{i}^{ϕ} & = {(\sum_{j = 1}^{n} a_{j} ϕ (x_{j}))}^{T} (\frac{1}{n_{i}} \sum_{x_{i} \in D_{i}} ϕ (x_{k})) \\ = \frac{1}{n_{i}} \sum_{j = 1}^{n} \sum_{x_{k} \in D_{i}} a_{j} ϕ {(x_{j})}^{T} ϕ (x_{k}) \\ = \frac{1}{n_{i}} \sum_{j = 1}^{n} \sum_{x_{k} \in D_{i}} a_{j} K (x_{j}, x_{k}) \\ = a^{T} m_{i} \end{aligned}

m_{i} = w^{T} μ_{i}^{ϕ} = (j = 1 \sum n a_{j} ϕ (x_{j}))^{T} (\frac{1}{n _{i}} x_{i} \in D_{i} \sum ϕ (x_{k})) = \frac{1}{n _{i}} j = 1 \sum n x_{k} \in D_{i} \sum a_{j} ϕ (x_{j})^{T} ϕ (x_{k}) = \frac{1}{n _{i}} j = 1 \sum n x_{k} \in D_{i} \sum a_{j} K (x_{j}, x_{k}) = a^{T} m_{i}

其中，

\begin{matrix} \sum_{x_{k} \in D_{i}} K (x_{1}, x_{k}) \\ \sum_{x_{k} \in D_{i}} K (x_{2}, x_{k}) \\ ⋮ \\ \sum_{x_{k} \in D_{i}} K (x_{n}, x_{k}) \end{matrix}

故

\begin{aligned} {(m_{1} - m_{2})}^{2} & = {(w^{T} μ_{1}^{ϕ} - w^{T} μ_{2}^{ϕ})}^{2} \\ = {(a^{T} m_{1} - a^{T} m_{2})}^{2} \\ = a^{T} (m_{1} - m_{2}) {(m_{1} - m_{2})}^{T} a \\ = a^{T} M a \end{aligned}

（

\mathbf{M}

被称为核类间扩散矩阵）

\begin{aligned} s_{1}^{2} & = \sum_{x_{i} \in D_{1}} {‖ w^{T} ϕ (x_{i}) - w^{T} μ_{1}^{ϕ} ‖}^{2} \\ = \sum_{x_{i} \in D_{1}} {‖ w^{T} ϕ (x_{i}) ‖}^{2} - 2 \sum_{x_{i} \in D_{1}} w^{T} ϕ (x_{i}) \cdot w^{T} μ_{1}^{ϕ} + \sum_{x_{i} \in D_{1}} {‖ w^{T} μ_{1}^{ϕ} ‖}^{2} \\ = (\sum_{x_{i} \in D_{1}} {‖ \sum_{j = 1}^{n} a_{j} ϕ {(x_{j})}^{T} ϕ (x_{i}) ‖}^{2}) - 2 \cdot n_{1} \cdot {‖ w^{T} μ_{1}^{ϕ} ‖}^{2} + n_{1} \cdot {‖ w^{T} μ_{1}^{ϕ} ‖}^{2} \\ = (\sum_{x_{i} \in D_{1}} a^{T} K_{i} K_{i}^{T} a) - n_{1} \cdot a^{T} m_{1} m_{1}^{T} a \\ = a^{T} ((\sum_{x_{i} \in D_{1}} K_{i} K_{i}^{T}) - n_{1} m_{1} m_{1}^{T}) a \\ = a^{T} N_{1} a \end{aligned}

类似地，令

\mathbf{N}_2=\left(\sum\limits_{\mathbf{x}_{i} \in \mathbf{D}_{2}} \mathbf{K}_{i} \mathbf{K}_{i}^{T}-n_{2} \mathbf{m}_{2} \mathbf{m}_{2}^{T}\right)

则 $s_1^2+s_2^2=\mathbf{a}^{T} (\mathbf{N}_{1}+\mathbf{N}_{2}) \mathbf{a}=\mathbf{a}^{T}\mathbf{N} \mathbf{a}$

故： $J(\mathbf{w})=\frac{\mathbf{a}^{T}\mathbf{M} \mathbf{a}}{\mathbf{a}^{T}\mathbf{N} \mathbf{a}}:=G(\mathbf{a})$

类似 20.1， $\mathbf{M} \mathbf{a}=\lambda\mathbf{N} \mathbf{a}$

若 $\mathbf{N} ^{-1}$ 存在， $\mathbf{N}^{-1} \mathbf{M} \mathbf{a}=\lambda \mathbf{a}$ ， $\lambda$ 取 $\mathbf{N}^{-1} \mathbf{M}$ 的最大特征值， $\mathbf{a}$ 是相应的特征向量。
若 $\mathbf{N} ^{-1}$ 不存在，MATLAB 求广义逆

最后考查 $\mathbf{w}^T\mathbf{w}=1$ ，即

\begin{aligned} (\sum_{j = 1}^{n} a_{j} ϕ (x_{j}))^{T} (\sum_{i = 1}^{n} a_{i} ϕ (x_{i})) & = 1 \\ \sum_{j = 1}^{n} \sum_{i = 1}^{n} a_{j} a_{i} ϕ (x_{j})^{T} ϕ (x_{i}) & = 1 \\ \sum_{j = 1}^{n} \sum_{i = 1}^{n} a_{j} a_{i} K (x_{i}, x_{j}) & = 1 \\ a^{T} K a & = 1 \end{aligned}

(j = 1 \sum n a_{j} ϕ (x_{j}))^{T} (i = 1 \sum n a_{i} ϕ (x_{i})) j = 1 \sum n i = 1 \sum n a_{j} a_{i} ϕ (x_{j})^{T} ϕ (x_{i}) j = 1 \sum n i = 1 \sum n a_{j} a_{i} K (x_{i}, x_{j}) a^{T} Ka = 1 = 1 = 1 = 1

求出

\mathbf{N}^{-1} \mathbf{M}

的特征向量

\mathbf{a}

后，

\mathbf{a}\leftarrow \frac{\mathbf{a}}{\sqrt{\mathbf{a}^T\mathbf{K}\mathbf{a}}}

以保证

\mathbf{w}^T\mathbf{w}=1

相关阅读:
Kubernetes：健康检查
Appium在小米11真机上进行微信自动化
马斯克440亿美元收购Twitter一年后：全力“下云”，成本速降60%，功能代码从70万行减少至7万！...
MySQL8.0 导入Scott数据库
什么是剥头皮？为什么很多交易商会禁止？
【C语言刷LeetCode】687. 最长同值路径(M)
MAXScript实现简单的碰撞检测教程
pulsar起client客户端时(client,producer,consumer)各个配置
【JavaSE】-4-单层循环结构
uniapp--点击上传图片到oss再保存数据给后端接口

原文地址：https://blog.csdn.net/yyywxk/article/details/127671900