神经网络（二）回归与线性模型

神经网络（二）回归与线性模型

一、线性回归

需要通过训练集 $x^{(n)}$ 和 $y^{(n)}$ 求解x,y之间的映射关系 $y=f(x,\theta )$

1.线性回归

①模型

                         $f(x;\omega ,b)=\omega^Tx+b$

        增广权重向量&增广特征向量：在x和 $\omega$ 上添加一个b，可将模型中原有的b消除。

模型转换为： $f(x;\omega ,b)=\omega^Tx+b ->f(x;\omega)=\omega^Tx$

②训练集D上的经验风险

                         $R(\omega)=\sum_{n=1}^{N}L(y^{(n)},f(x^{(n)};\omega))=\frac{1}{2}\sum_{n=1}^{N}(y^{(n)}-\omega^Tx^{(n)})^2=\frac{1}{2}||y-X^T\omega||^2$

X矩阵：其中每行为一个样本

Y向量：列向量，每一列为一个结果

                         $\left| \begin{array} {ccc} x_1^{(1)},x_1^{(2)},...x_1^{(n)}\\ x_2^{(1)},x_2^{(2)},...x_2^{(n)}\\ ...\\ \end{array} \right|$          $\left| \begin{array} {ccc} y^1\\ y^2\\ ... \end{array} \right|$          $x^Tw=\left| \begin{array} {ccc} w^Tx_1^{(1)},w^Tx_1^{(2)},...w^Tx_1^{(n)}\\ w^Tx_2^{(1)},w^Tx_2^{(2)},...w^Tx_2^{(n)}\\ ...\\ \end{array} \right|$

③经验风险最小化

                         $\frac{\partial}{\partial w} R(w)=0$ 以此公式求解w

推导： $\frac{\partial}{\partial w} R(w)=\frac{\partial \frac{1}{2}||y-x^Tw||^2 }{\partial w}=\frac{1}{2}*-x*2(y-x^Tw)=0$





                         $->w=(xx^T)^{-1}xy$ 条件： $(xx^T)^{(-1))}$ 必须存在

若 $(xx^T)^{(-1))}$ 不存在（特征之间存在共线性），可以采用以下两种方法求解

①SGD(随机数下降)  ②降维

结构风险： $R(w)=\frac{1}{2}||y-X^Tw||^2+\frac{1}{2}\lambda ||w||^2$ ，其中 $\frac{1}{2}\lambda ||w||^2$ 被称为正则化项， $\lambda$ 为正则化参数。

使其最小化： $w^*=(XX^T+\lambda I)^{-1}Xy$

！！！Attention矩阵微积分

2.多项式回归

①模型

                          多项式曲线拟合

②损失函数

                         $R(w)=\frac{1}{2}\sum_{n=1}^{N}(y^{(n)}-w^T\phi (x^{(n)}))^2$

③经验风险最小化

求解过程与线性回归类似

④选择合适的多项式次数

控制过拟合：正则化

惩罚大的系数： $R(w)=\frac{1}{2}\sum_{n=1}^N(y^{(n)}-w^T\phi (x^{(n)}))^2+\frac{\lambda}{2}w^Tw$

其中 $\frac{\lambda}{2}w^Tw$ 为正则化项， $\lambda$ 为正则化系数

控制过拟合：增加训练样本数量

3.从概率视角来看线性回归

①似然函数

参数w固定时，描述随机变量x的分布情况，称p(x;w)为概率

已知随机变量x时，不同参数w对其分布的影响，称p(x;w)为似然

线性回归中的似然函数： $p(y|X;w,\sigma )=\prod_{n=1}^{N}p(y^{(n)}|x^{(n)};w,\sigma)$

    $=\prod_{n=1}^{N}N(y^{(n)};w^Tx^{(n)},\sigma)$

②最大似然估计

求一组参数w，使 $p(y|X;w,\sigma )$ 取最大值（求导）

                                 $w^{ML}=(XX^T)^{-1}Xy$

③贝叶斯学习

将参数w也视为随机变量；给定一组数据X，求参数w的分布p(w|X)，也称后验分布

贝叶斯公式： $p(y|x)=\frac{p(x|y)p(y)}{p(x)}$

先验： $p(w|x)\propto p(x|w)p(w)$ 后验正比于似然 X 先验

最大后验估计： $w^{MAP}=arg max p(y|X,w;\sigma)p(w;v)$

   $=-\frac{1}{2\sigma}||y-X^T||^2-\frac{1}{2v^2}w^Tw$ 正则化系数 $\lambda=\frac{\sigma^2}{v^2}$

⑤四种准则

平方误差经验风险最小化 $(XX^T)^{-1}Xy$
结构风险最小化 $(XX^T+\lambda I)^{-1}Xy$
概率最大似然估计 (XX^T)^{-1}Xy
最大后验估计 $(XX^T+\lambda I)^{-1}Xy$

4.模型选择

          模型越复杂，训练错误越低；

                        但不能以训练错误高低来选择模型；

                        选择模型时，测试集不可见。

①引入验证集

                可将训练集分为两部分训练集和验证集，在验证集上挑选一个错误最小的模型。

解决数据稀疏问题（样本过少）：交叉验证，将训练集分为S组，每次使用S-1组作为训练集，剩下一组作验证集；取验证集平均性能最好的一组。

②使用准则

赤池信息量准则、贝叶斯信息准则

③偏差-方差分解

平衡模型复杂度和期望风险

期望风险： $R(f)=E_{(x,y)~p_r(x,y)}[(y-f(x))^2]=E_{x~p(x)}[E_{y~p(y|x)}[(y-f(x))^2]]$

最优模型： $f^*(x)=E_{y~p_r(y|x)}[y]$

期望风险可以分解为： $R(f)=E_{(x,y)~p_y(x,y)}[(y-f*(x)-f(x))^2]$

                                                         $=E_{x~p_r(x)}[(f(x)-f^*(x))^2]+\varepsilon$

                                 $\varepsilon =E_{(x,y~p_r(x,y))}[(y-f^*(x))^2]$ 通常由样本分布及噪声引起，无法通过优化模型消除。

目的：模型与最优模型尽可能贴近

由偏差与方差进行模型选择

随着模型复杂度↑，方差↑，偏差↓

5.常用定理

①没有免费午餐定理

不存在某种算法对所有问题都有效

②丑小鸭定理

丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大（未给定具体条件的情况下）

③奥卡姆剃刀定理

若无必要，勿增实体

④归纳偏置

做出的假设称为归纳偏置，在贝叶斯学习中称为先验

⑤PAC学习

由大数定律，训练集趋于无穷大时，泛化误差趋近于0

                         $\lim_{|D|-> \infty}R(f)-R^{emp}(f)=0$

                         $P((R(f)-R^{emp}_D(f))<\epsilon )\geqslant 1-\delta$
相关阅读:
Gzip压缩
 Go语言笔记-基础篇
 以报时机器人为例详细介绍tracker_store和event_broker
Numpy学习笔记
 【C++】类型转换（dynamic_cast,const_cast,static_cast,reinterpret_cast）
实验四、零比特插入《计算机网络》
基础课24——开放域QA问答
 为什么ArcGIS添加的TIFF栅格数据是一片纯色
 【SpringBoot实战】数据访问整合Mybatis和Redis
linux上部署python环境
原文地址：https://blog.csdn.net/weixin_37878740/article/details/126358514

平方误差	经验风险最小化	$(XX^T)^{-1}Xy$
平方误差	结构风险最小化	$(XX^T+\lambda I)^{-1}Xy$
概率	最大似然估计	(XX^T)^{-1}Xy
概率	最大后验估计	$(XX^T+\lambda I)^{-1}Xy$

一、线性回归

1.线性回归

①模型

②训练集D上的经验风险

③经验风险最小化

2.多项式回归

①模型

②损失函数

③经验风险最小化

④选择合适的多项式次数

3.从概率视角来看线性回归

①似然函数

②最大似然估计

③贝叶斯学习

⑤四种准则

4.模型选择

①引入验证集

②使用准则

③偏差-方差分解

5.常用定理

①没有免费午餐定理

②丑小鸭定理

③奥卡姆剃刀定理

④归纳偏置

⑤PAC学习