1.3 统计学习方法的三要素

监督学习的三要素
- 模型
- 策略
无监督学习

统计学习方法的三要素为模型+策略+算法

监督学习的三要素

模型

假设空间(Hypothesis Space）：所有可能的条件概率分布或决策函数，用 $\mathcal{F}$ 表示。

若定义为决策函数的集合： $\mathcal{F}=\{f \mid Y=f(X)\}$
$\mathcal{F}$ 由一个参数向量决定的函数族构成： $\mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}$
参数空间： $\Theta=\left\{\theta \mid \theta \in \mathbf{R}^{n}\right\}$

例如，线性回归：

实例： $x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T}$
决策函数： $f(x)=w^{(1)} x^{(1)}+w^{(2)} x^{(2)}+\cdots+w^{(n)} x^{(n)}+b$
向量形式： $\cdot x+b$ ，其中， $w=\left(w^{(1)}, w^{(2)}, \cdots, w^{(n)}\right)$
参数空间：所有可能的w和b组合的一个空间

若定义为条件概率的集合： $\mathcal{F}=\{P \mid P(Y \mid X)\}$
$\mathcal{F}$ 由一个参数向量决定的条件概率分布族构成： $\mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\}$

例如，逻辑回归：

实例： $x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T}$
条件概率分布： $\begin{array}{l} P (Y = 1 ∣ x) = \frac{\exp (w \cdot x + b)}{1 + \exp (w \cdot x + b)} \\ P (Y = 0 ∣ x) = \frac{1}{1 + \exp (w \cdot x + b)} \end{array}$

策略

损失函数：度量模型一次预测的好坏，记作 $L (Y, f (X))$

0-1损失函数： $\begin{array}{ll} 1, & Y \neq f (X) \\ 0, & Y = f (X) \end{array}$
平方损失函数： $L(Y, f(X))=(Y-f(X))^{2}$
绝对损失函数： $L (Y, f (X)) = ∣ Y - f (X) ∣$
对数损失函数： $\mid X))=-\log P(Y \mid X)$

风险函数：度量平均意义下模型预测的好坏

\begin{aligned} R_{\exp} (f) & = E_{P} [L (Y, f (X))] \\ = \int_{X \times Y} L (y, f (x)) P (x, y) d x d y \end{aligned}

R_{exp} (f) = E_{P} [L (Y, f (X))] = \int_{X \times Y} L (y, f (x)) P (x, y) d x d y

经验风险：模型f(X)关于训练集的平均损失

R_{e m p}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)

其中训练集

T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\}

当 $\rightarrow \infty$ 时，根据大数定律，经验损失就会趋于风险函数，所以在一定程度上，用经验损失作为风险函数的估计是合理的

$R_{\text {emp }}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \longrightarrow R_{\exp }(f)=E_{P}[L(Y, f(X))], \quad N \rightarrow \infty$ $\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
但在现实生活中，样本容量N一般是有限的，甚至会很小，所以仅仅用经验风险来估计风险函数，效果并不理想，所以需要对其进行矫正

结构风险：
$R_{s r m}=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
结构风险最小化：
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$

无监督学习

模型：函数 $z=g_{\theta}(x)$ ，条件概率分布 $P_{\theta}(z \mid x)$ 或条件概率分布 $P_{\theta}(x \mid z)$
策略：优化目标函数
算法：通常是迭代算法

注：以上笔记素材来自于 [B站_简博士_十分钟机器学习系列视频《统计学习方法》]

相关阅读:
Python之字符串格式化
9.21
web：[SUCTF 2019]EasySQL
软技能2阅读有感--给生活一个更好的支点
HDFS学习笔记（五）：Yarn架构原理
Python正则表达式
MES系统会采集哪些数据？数据采集方式有哪些？
postgresql主从复制、主从切换
【连载】囚生CYの备忘录（20220906-）
Win Docker Desktop + WSL2 部署PyTorch-CUDA服务至k8s算力集群

原文地址：https://blog.csdn.net/qq_43495411/article/details/128142068