机器学习笔记之高斯过程(二)高斯过程回归——权重空间角度

机器学习笔记之高斯过程——高斯过程回归[权重空间角度]

引言

引言

上一节简单介绍了高斯过程，本节将从权重空间角度(Weight-Space)介绍高斯过程回归

回顾

高斯过程

高斯过程(Gaussian Process)本质上是一组随机变量的集合，该集合中任意有限个随机变量均服从高斯分布。
定义基于时间/空间的连续域 为 $\mathcal T$ ，对应高斯过程表示为： $\{\xi_{t}\}_{t \in \mathcal T}$ 。

该随机过程中任意时刻 $\in \mathcal T$ 对应的随机变量 $\xi_t \in \{\xi_t\}_{t \in \mathcal T}$ 均服从高斯分布 $\mathcal N(\mu_t,\Sigma_t)$ 。
并且，从高斯过程 $\{\xi_t\}_{t \in \mathcal T}$ 中任意选出 $n$ 个时刻对应的随机变量： $\{\xi_{t_1},\xi_{t_2},\cdots,\xi_{t_n}\} \in \{\xi_t\}_{t \in \mathcal T}$ 同样服从高斯分布 $\mathcal N(\mu_{t_1 \to t_n},\Sigma_{t_1 \to t_n})$ 。

贝叶斯线性回归

贝叶斯线性回归(Bayesian Linear Regression)本质上是利用贝叶斯方法处理线性回归任务。不同于频率派的点估计(Point Estimation)，贝叶斯派将模型参数 $\mathcal W$ 视作随机变量，它针对线性回归问题主要分为两个步骤：

关于随机变量 $\mathcal W$ 的推断任务(Inference)：基于数据集合 $D a t a$ ，求解 $\mathcal W$ 的后验概率。
后验概率的高斯分布是基于’高斯分布的自共轭性质’。
$\mathcal N(\mathcal W \mid \mu_{\mathcal W},\Sigma_{\mathcal W})$ 这种表示描述的是‘关于 $\mathcal W$ 作为后验的条件高斯分布’。
$\mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mathcal W \mid \mu_{\mathcal W},\Sigma_{\mathcal W})$
根据贝叶斯定理，将 $\mathcal P(\mathcal W \mid Data)$ 表示为如下形式。其中似然 $\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)$ 根据线性回归模型可表示为 包含0均值高斯噪声的线性关系；关于先验分布 $\mathcal P(\mathcal W)$ ，将其假设为一个0均值的高斯分布；

$P (W ∣ D a t a) = \frac{P ( Y ∣ W , X ) \cdot P ( W )}{P ( Y ∣ X )} \propto P (Y ∣ W, X) \cdot P (W) = N (W^{T} X, σ^{2}) \cdot N (0, Σ_{p r i or})$
对上式进行求解，可以得到后验概率 $\mathcal P(\mathcal W \mid Data)$ 的高斯分布形式：
贝叶斯线性回归推断任务推导过程传送门
$\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \to {μW=A−1XTYσ2ΣW=A−1A=XTXσ2+Σ−1prior$
基于推断得到的关于 $\mathcal W$ 的后验概率，对给定样本 $\hat x$ 的标签 $\hat y$ 进行预测(Prediction)。
首先是无高斯噪声估计(Noise-Free)：
- 这里需要使用‘基于随机变量之间存在线性关系，高斯分布的表达’传送门
- 公式中的 $\mathcal W$ 表示已经通过 $D a t a$ 学习的后验概率。
${ f ( x ^ ) = W T x ^ = x ^ T W P [ f ( x ^ ) ∣ D a t a , x ^ ] ∼ N ( x ^ T μ W , x ^ T ⋅ Σ W ⋅ x ^ ) {f(ˆx)=WTˆx=ˆxTWP[f(ˆx)∣Data,ˆx]∼N(ˆxTμW,ˆxT⋅ΣW⋅ˆx)$
{f(x^)=WTx^=x^TWP[f(x^)∣Data,x^]∼N(x^TμW,x^T⋅ΣW⋅x^) 其次是高斯噪声估计(Noise)：
${ y ^ = f ( x ^ ) + ϵ P ( y ^ ∣ D a t a , x ^ ) ∼ N ( x ^ T μ W , x ^ T ⋅ Σ W ⋅ x ^ + σ 2 ) {ˆy=f(ˆx)+ϵP(ˆy∣Data,ˆx)∼N(ˆxTμW,ˆxT⋅ΣW⋅ˆx+σ2)$

引子：贝叶斯方法求解非线性回归任务

假设此时的回归任务不是线性回归，而是非线性回归(Non-Linear)，如何处理该问题：
在核方法与核函数介绍一节中针对样本无法线性可分 的问题，介绍了一种非线性转换(Non-Linear Transformation)函数： $\phi(\cdot)$ 。
该函数的作用是将当前样本 $x^{(i)} \in \mathcal X$ 的特征转化为高维特征：
$x^{(i)} \to \phi(x^{(i)}) = z^{(i)} \quad x^{(i)} \in \mathbb R^p;z^{(i)} \in \mathbb R^q;q>p$
根据Cover定理思想，就是找到一个合适的 $\phi$ ，其目的是为了让 非线性 $\to$ 高维线性。
由于 $\phi$ 函数从低维向高维映射的过程中，可能存在映射结果 $z^{(i)}$ 维度远远高于 $x^{(i)}$ ，首先，计算这个高维映射 $\phi(x^{(i)})$ 的计算代价就很高；其次，求解内积 $[\phi(x^{(i)})]^T\phi(x^{(j)})$ 过程中计算代价更高。，实际上，找非线性转换函数的本质是找合适的核函数(Kernal Function)：
$\kappa(x^{(i)},x^{(j)}) = \left\langle\phi(x^{(i)}),\phi(x^{(j)})\right\rangle = [\phi(x^{(i)})]^T \cdot \phi(x^{(j)})$

需要知道：内积是从哪里出现的？
观察无高斯噪声估计(Noise-Free)：

P [f (\overset{x}{^}) ∣ D a t a, \overset{x}{^}] \sim N (\overset{x}{^}^{T} μ_{W}, \overset{x}{^}^{T} \cdot Σ_{W} \cdot \overset{x}{^}) = N [\overset{x}{^}^{T} (\frac{A ^{- 1} X ^{T} Y}{σ ^{2}}), \overset{x}{^}^{T} \cdot A^{- 1} \cdot \overset{x}{^}] A^{- 1} = \frac{X ^{T} X}{σ ^{2}} + Σ_{p r i or}^{- 1}

随机变量集合

\mathcal X =\{x_1,\cdots,x_p\}

是一个非线性回归任务，根据上面描述，需要对样本

x^{(i)}

进行非线性转换。假设关于 $\mathcal X_{N \times p}$ 的非线性转换结果为：

\phi(\mathcal X) = \left[\phi(x^{(1)}),\phi(x^{(2)}),\cdots,\phi(x^{(\mathcal N)})\right]^T_{N \times q}

对应的无噪声模型表示为：

\left[\phi(x)\right]_{1 \times q}^T \mathcal W_{q \times 1} \quad x \in \mathcal X

从而关于

\hat x

的预测任务表示为：
实际上就是将所有

\hat x,\mathcal X

替换为

\phi(\hat x),\phi(\mathcal X)

.

\mathcal P[f(\hat x) \mid Data,\hat x] \sim \mathcal N \left[[\phi(\hat x)]^T \left(\frac{\mathcal A^{-1}[\phi(\mathcal X)]^T\mathcal Y}{\sigma^2}\right) ,[\phi(\hat x)]^T \cdot \mathcal A^{-1} \cdot \phi(\hat x)\right] \quad \mathcal A = \frac{[\phi(\mathcal X)]^T\phi(\mathcal X)}{\sigma^2} + \Sigma_{prior}^{-1}

至此，发现了：内积部分 $[\phi(\mathcal X)]^T\phi(\mathcal X)$ 出现在矩阵 $\mathcal A$ 中。如何求解 $\mathcal A^{-1}$ ?
最终的目的是将均值、方差 $\mu_{\mathcal W},\Sigma_{\mathcal W}$ 写成关于‘核函数’ $\kappa(\cdot,\cdot)$ 的方式,而 $\mu_{\mathcal W},\Sigma_{\mathcal W}$ 中均是以 $\mathcal A^{-1}$ 出现的。
这里引入一个关于求解矩阵逆 的定理： $\text{Woodbury Formula}$ 。
仅需要了解如何使用即可。
$(\mathcal A + \mathcal U \mathcal C \mathcal V)^{-1} = \mathcal A^{-1} - \mathcal A^{-1} \mathcal U (\mathcal C^{-1} + \mathcal V \mathcal A^{-1}\mathcal U)^{-1} \mathcal V\mathcal A^{-1}$

观察 $\mathcal A = \left[\frac{[\phi(\mathcal X)]^T\phi(\mathcal X)}{\sigma^2}\right]_{q \times q} + \left[\Sigma_{prior}^{-1}\right]_{q \times q}$ ：
$\mathcal A$ 自身是 $\times q$ 的矩阵。下面的步骤是为了直接凑均值项 $\frac{\mathcal A^{-1}\mathcal X \mathcal Y}{\sigma^2}$ .

均值表示的推导过程

首先，等式左侧 $\mathcal A$ 右乘一个 $\Sigma_{prior}$ ：
其中， $\mathcal I$ 表示单位矩阵； $\times q$
$A Σ_{p r i or} = \frac{[ ϕ ( X ) ] ^{T} ϕ ( X )}{σ ^{2}} Σ_{p r i or} + Σ_{p r i or}^{- 1} Σ_{p r i or} = \frac{[ ϕ ( X ) ] ^{T} ϕ ( X )}{σ ^{2}} Σ_{p r i or} + I_{q \times q}$
在上步基础上，继续右乘一个 $[\phi(\mathcal X)]^T$ ：
提出一个公因式 $\frac{[\phi(\mathcal X)]^T}{\sigma^2}$ ,将两项合并，将 $\phi(\mathcal X)\Sigma_{prior} [\phi(\mathcal X)]^T$ 用核函数 $\mathcal K(\mathcal X,\mathcal X)$ 这个记号进行表示。
$AΣprior[ϕ(X)]T=[ϕ(X)]Tϕ(X)Σprior[ϕ(X)]Tσ2+[ϕ(X)]T=[ϕ(X)]Tσ2{ϕ(X)Σprior[ϕ(X)]T+σ2I}=[ϕ(X)]Tσ2[K(X,X)+σ2I]$
在上步基础上，左乘一个 $\mathcal A^{-1}$ ：
此时，等式左侧变成了 $\sigma_{prior}[\phi(\mathcal X)]^T$ ;
$Σ_{p r i or} [ϕ (X)]^{T} = \frac{A ^{- 1} [ ϕ ( X ) ] ^{T}}{σ ^{2}} [K (X, X) + σ^{2} I]$
从而有：
相当于等式两边同乘 $[\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1}$
$\frac{\mathcal A^{-1} [\phi(\mathcal X)]^T}{\sigma^2} = \Sigma_{prior} [\phi(\mathcal X)]^T [\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1}$

至此，均值部分相当于上式基础上，左乘一个 $[\phi(\hat x)]^T$ ，再右乘一个 $\mathcal Y$ ：
这里面已知项有： $\Sigma_{prior}$ 是先验分布 $\mathcal P(\mathcal W)$ 的协方差矩阵； $\sigma^2$ 是回归模型的高斯噪声； $\mathcal K(\mathcal X,\mathcal X)$ 是 $\phi(\mathcal X)\Sigma_{prior} [\phi(\mathcal X)]^T$ 的表示；

μ_{\overset{x}{^}} = [ϕ (x)]^{T} \cdot μ_{W} = [ϕ (x)]^{T} [\frac{A ^{- 1} [ ϕ ( X ) ] ^{T}}{σ ^{2}}] \cdot Y = [ϕ (x)]^{T} Σ_{p r i or} [ϕ (X)]^{T} [K (X, X) + σ^{2} I]^{- 1} Y

小结：实际上上述的均值求解仅是将

\mathcal A

带入到均值表达式中的求解过程，并没有使用

\text{Woodbury Formula}

定理。

方差表示的推导过程

继续求解高维转换后的方差表示。方差部分表示如下：
$[\phi(\hat x)]^T \cdot \mathcal A^{-1} \cdot \phi(\hat x) \quad \mathcal A =\frac{[\phi(\mathcal X)]^T\phi(\mathcal X)}{\sigma^2} + \Sigma_{prior}^{-1}$
这里需要使用 $\text{Woodbury Formula}$ 对 $\mathcal A^{-1}$ 进行求解，或者使用上述拼凑的方式求解：
就是套公式~这里就不写过程了~

A^{- 1} = (Σ_{p r i or}^{- 1} + \frac{1}{σ ^{2}} [ϕ (X)]^{T} ϕ (X))^{- 1} = Σ_{p r i or} - Σ_{p r i or} [ϕ (X)]^{T} [K (X, X) + σ^{2} I]^{- 1} ϕ (X) Σ_{p r i or}

最终，经过非线性转换后的关于样本 $\hat x$ 的后验分布表示为：
注意：这个是‘无高斯噪声’(Noise-Free)的分布。
$P [ f ( x ^ ) ∣ D a t a , x ^ ] ∼ N [ [ ϕ ( x ^ ) ] T ( A − 1 [ ϕ ( X ) ] T Y σ 2 ) , [ ϕ ( x ^ ) ] T ⋅ A − 1 ⋅ ϕ ( x ^ ) ] = N ( μ x ^ , Σ x ^ ) { μ x ^ = [ ϕ ( x ) ] T Σ p r i o r [ ϕ ( X ) ] T [ K ( X , X ) + σ 2 I ] − 1 Σ x ^ = [ ϕ ( x ^ ) ] T ⋅ { Σ p r i o r − Σ p r i o r [ ϕ ( X ) ] T [ K ( X , X ) + σ 2 I ] − 1 ϕ ( X ) Σ p r i o r } ⋅ ϕ ( x ^ ) P[f(ˆx)∣Data,ˆx]∼N[[ϕ(ˆx)]T(A−1[ϕ(X)]TYσ2),[ϕ(ˆx)]T⋅A−1⋅ϕ(ˆx)]=N(μˆx,Σˆx){μˆx=[ϕ(x)]TΣprior[ϕ(X)]T[K(X,X)+σ2I]−1Σˆx=[ϕ(ˆx)]T⋅{Σprior−Σprior[ϕ(X)]T[K(X,X)+σ2I]−1ϕ(X)Σprior}⋅ϕ(ˆx)$

P[f(x^)∣Data,x^]​∼N[[ϕ(x^)]T(σ2A−1[ϕ(X)]TY​),[ϕ(x^)]T⋅A−1⋅ϕ(x^)]=N(μx^​,Σx^​){μx^​=[ϕ(x)]TΣprior​[ϕ(X)]T[K(X,X)+σ2I]−1Σx^​=[ϕ(x^)]T⋅{Σprior​−Σprior​[ϕ(X)]T[K(X,X)+σ2I]−1ϕ(X)Σprior​}⋅ϕ(x^)​​

从简化运算的角度，在从几何角度观察多维高斯分布一节中介绍关于协方差矩阵的定义，可以将其定义为一个对角矩阵，甚至是各向同性。

协方差函数(核函数)

回顾上述公式：
就是上述公式的展开式~
$\mathcal N \left[\underbrace{[\phi(\hat x)]^T \Sigma_{prior}[\phi(\mathcal X)]^T [\mathcal K(\mathcal X,\mathcal X) + \sigma^2\mathcal I]^{-1} \mathcal Y}_{\mu_{\hat x}},\underbrace{[\phi(\hat x)]^T \Sigma_{prior} \phi(\hat x) - [\phi(\hat x)]^T \Sigma_{prior}[\phi(\mathcal X)]^T(\mathcal K(\mathcal X,\mathcal X) + \sigma^2\mathcal I)^{-1} \phi(\mathcal X) \Sigma_{prior}\phi(\hat x)}_{\Sigma_{\hat x}} \right]$
观察之前定义的符号 $\mathcal K(\mathcal X,\mathcal X)$ ：
$\mathcal K(\mathcal X,\mathcal X) = \phi(\mathcal X) \cdot \Sigma_{prior} \cdot [\phi(\mathcal X)]^T$
这个格式在上述公式中比比皆是：
$μ part : { [ ϕ ( x ^ ) ] T Σ p r i o r [ ϕ ( X ) ] T K ( X , X ) Σ part : { [ ϕ ( x ^ ) ] T Σ p r i o r ϕ ( x ^ ) [ ϕ ( x ^ ) ] T Σ p r i o r [ ϕ ( X ) ] T K ( X , X ) ϕ ( X ) Σ p r i o r ϕ ( x ^ ) ϕ ( X ) = [ ϕ ( x ( 1 ) ) , ϕ ( x ( 2 ) ) , ⋯ , ϕ ( x ( N ) ) ] N × q T μ part:{[ϕ(ˆx)]TΣprior[ϕ(X)]TK(X,X)Σ part:{[ϕ(ˆx)]TΣpriorϕ(ˆx)[ϕ(ˆx)]TΣprior[ϕ(X)]TK(X,X)ϕ(X)Σpriorϕ(ˆx)$

\quad \phi(\mathcal X) = [\phi(x^{(1)}),\phi(x^{(2)}),\cdots,\phi(x^{(N)})]_{N \times q}^T

​μ part:{[ϕ(x^)]TΣprior​[ϕ(X)]TK(X,X)​Σ part:⎩ ⎨ ⎧​[ϕ(x^)]TΣprior​ϕ(x^)[ϕ(x^)]TΣprior​[ϕ(X)]TK(X,X)ϕ(X)Σprior​ϕ(x^)​​ϕ(X)=[ϕ(x(1)),ϕ(x(2)),⋯,ϕ(x(N))]N×qT​

上述的所有格式，都可以用记号 $\mathcal K(\cdot ,\cdot)$ 进行表示。这个记号函数 $\mathcal K(\cdot ,\cdot)$ 到底是不是核函数？
这个高维转换函数 $\phi$ 中有可能是一个向量：某一个原始 $x_{p \times 1}$ ；也有可能是一个'数据集合' $\mathcal X_{N \times p}$
观察：由于先验分布的协方差矩阵 $\Sigma_{prior}$ 至少是半正定的，这里假设它的正定的，因而有：
$\Sigma_{prior} = \left[\sqrt{\Sigma_{prior}}\right]^2 = \left[\sqrt{\Sigma_{prior}}\right]^T\sqrt{\Sigma_{prior}}$
因此， $\mathcal K(x,x')$ 可表示为：
这里的 $x, x^{'}$ 只是两个宏观的量，它可以表示上述任意一组格式。

K (x, x^{'}) = [ϕ (x)]^{T} Σ_{p r i or} ϕ (x^{'}) = [ϕ (x)]^{T} [Σ_{p r i or}]^{T} Σ_{p r i or} ϕ (x^{'}) = [Σ_{p r i or} ϕ (x)]^{T} Σ_{p r i or} ϕ (x^{'})

这里令

\psi(x) = \sqrt{\Sigma_{prior}} \text{ }\phi(x),\psi(x') = \sqrt{\Sigma_{prior}} \text{ }\phi(x')

，则有：

\mathcal K(x,x') = \left\langle\psi(x),\psi(x')\right\rangle

至此，可以使用核技巧(Kernal trick)将上述格式全部使用核函数 进行表示，从而跳过高维转换函数

\psi(\cdot)

的复杂计算问题。

至此，将 贝叶斯线性回归 + 高维非线性转换 处理非线性回归问题 转换成基于核函数的贝叶斯线性回归问题(Kernal Bayesian Linear Regression,Kernal BLR)

高斯过程回归与线性贝叶斯回归的关系

实际上，贝叶斯线性回归(Bayesian Linear Regression)和核技巧相结合，构成了 高斯线性回归(Gaussian Linear Regression)。

核技巧部分包括：非线性转换(Non-Linear Transformation) $\phi(\cdot)$ 部分以及内积(Inner Product) $\left\langle\phi(\cdot),\phi(\cdot)\right\rangle$ 部分。
这个关系就是‘权重空间视角’(Weight-Space)的结论。

高斯过程回归一般从两个视角进行描述：

(本节介绍的) 权重空间(Weight-Space)视角：即对模型参数 $\mathcal W$ 在非线性转换后，由 $\times 1$ 转换至 $\times 1$ 的过程。
关于先验概率分布 $\mathcal P(\mathcal W)$ 的分布也是随着‘非线性转换’维度的变化而变化。

\quad \Leftrightarrow ${f (X) = [X]_{N \times p}^{T} W_{p \times 1} Y = f (X) + ϵ ϵ \sim N (0, σ^{2}) \Leftrightarrow {f (X) = [ϕ (X)]_{N \times q}^{T} W_{q \times 1} Y = f (X) + ϵ ϵ \sim N (0, σ^{2})$
从贝叶斯线性回归的两个阶段思路也可以理解：先求 $\mathcal W$ 的后验，再预测样本标签。
函数空间(Function-Space)视角：相比于权重空间视角，它不关注模型参数 $\mathcal W$ ，而是关注 $f(\mathcal X)$ 空间本身。
这两种视角没有区别，结果相同。

它将 $f(\mathcal X)$ 本身看做随机变量，并且 $f(\mathcal X)$ 本身是一个高斯过程(Gaussian Process)：
$f(\mathcal X) \sim GP[m(\mathcal X),\kappa(\mathcal X,x')]$
从高斯过程回归的角度，可以将其看做：贝叶斯线性回归 + 核函数的延伸。

下一节将介绍从函数空间视角观察高斯过程回归。

相关参考：
机器学习-高斯过程回归-权重空间角度

相关阅读:
记第一次写groovy脚本cookie排坑，附登录验证码的解决方案（纯原创整理笔记）
数字藏品NFT“无聊猿”BAYC的内忧与外患
以太坊--2.账户是什么---以太坊的指南针学习记录
Node.js 入门教程 18 package.json 指南
Jenkins 和 GitLab CI/CD比较
【仿牛客网笔记】Elasticsearch，分布式搜索引擎——Spring整合Elasticsearch
ES6新特性之箭头函数
基于Springboot实现商品进销存管理系统
BGRL pyg环境安装
CentOS 7迁移Tencent OS 2.4 tk

原文地址：https://blog.csdn.net/qq_34758157/article/details/128068746