【李航统计学习】第 1 章统计学习方法概论笔记

文章目录

1. 监督学习（Supervised learning）
2. 统计学习三要素（Element of statistical learning）
3. 模型评估与选择
4. 多项式拟合问题
5. 正则化与交叉验证
6. 泛化能力（Generalization ability）
7. 生成模型与判别模型（Generative model and discriminant model）
8. 分类问题（Classification）
9. 标注问题（Tagging）
10. 回归问题（Regression）
总结（Summarization）：

1. 监督学习（Supervised learning）

1.1 监督学习的实现步骤：

得到一个有限的训练数据集合
确定模型的假设空间，也就是所有的备选模型
确定模型选择的准则，即学习的策略
实现求解最优模型的算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

在这里插入图片描述

1.2 训练集

$T=\lbrace (x_1,y_1),(x_2,y_2),(x_N,y_N) \rbrace$

1.3 实例 $x$ 的特征向量

$x=(x^{(1)},x^{(2)},...,x^{(n)})^T$

1.4 模型

决策函数 $\quad Y=f(X)$
预测形式 $\quad y=f(x)$
条件概率分布 $\quad P(Y|X)$
预测形式 $\quad argmaxP(y|x)$

2. 统计学习三要素（Element of statistical learning）

模型（假设空间）：
- 决策函数
  $F=\lbrace f|Y=f_\theta(X),\theta\in R^n \rbrace$
- 条件概率分布
  $F=\lbrace P|P_\theta(Y|X),\theta\in R^n \rbrace$
策略：
- 0 - 1 损失函数
  $L(Y,f(X))=\begin{cases} 1,Y\neq f(X)\\ 0,Y= f(X)\end{cases}$
- 平方损失函数
  $L(Y,f(X))=(Y-f(X))^2$
- 绝对损失函数
  $L (Y, f (X)) = ∣ Y - f (X) ∣$
- 对数损失函数
  $L (Y, P (Y ∣ X)) = - l o g P (Y ∣ X)$
- 经验风险最小化
  $\underset {f \in F}{min} \frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))$
- 结构风险最小化
  $\underset {f \in F}{min} \frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda J(f)$
算法：
挑选一个合适的算法，使得可以求解最优模型

3. 模型评估与选择

训练误差： $\frac{1}{N}\sum_{i=1}^NL(y_i,\widehat f(x_i))$
测试误差： $\frac{1}{N'}\sum_{i=1}^{N'}L(y_i,\widehat f(x_i))$

4. 多项式拟合问题

在这里插入图片描述

5. 正则化与交叉验证

最小化结构风险：
$\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)$
交叉验证：
数据集随机划分为以下三部分，
训练集：模型的训练
测试集：模型的选择
验证集：模型的评估

6. 泛化能力（Generalization ability）

定理 1.1 泛化误差上界
对于二分类问题，当假设空间是有限个函数的集合 $F=\lbrace f_1,f_2,...,f_d \rbrace$ 时，对任意一个函数 $f\in F$ ，至少以概率 $1-\delta$ ，以下不等式成立：
$R(f)\leq \widehat R(f)+\epsilon(d,N,\delta)$
其中， $\epsilon(d,N,\delta)=\sqrt {\frac{1}{2N}(logd+log\frac{1}{\delta})}$

7. 生成模型与判别模型（Generative model and discriminant model）

生成方法:
$P(Y|X)=\frac{P(X,Y)}{P(X)}$
判别方法：
$f (X) 或 P (Y ∣ X)$

8. 分类问题（Classification）

TP - 将正类预测为正类数
FN - 将负类预测为负类数
FP - 将负类预测为正类数
TN - 将负类预测为负类数

精确率：预测为正类的样本中有多少被分对了
$P=\frac{TP}{TP+FP}$
召回率：在实际正类中，有多少正类被模型发现了
$R=\frac{TP}{TP+FN}$
F1 值：
$\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}$

$F_1=\frac{2TP}{2TP+FP+FN}$

9. 标注问题（Tagging）

输入：
$x=(x^{(1)},x^{(2)},...,x^{(n)})^T$
输出：
$y=(y^{(1)},y^{(2)},...,y^{(n)})^T$

10. 回归问题（Regression）

总结（Summarization）：

统计学习路线：设计模型 -> 训练 -> 预测
监督学习与非监督学习的联系区别
统计学习三要素：模型、策略、算法
模型的评估：训练误差、验证误差、测试误差
正则化与交叉验证
泛化能力：泛化误差上界
生成模型与判别模型的联系与区别
分类问题：准确率、精确率、召回率、F1 值
标注问题：序列标注
回归问题：输出为连续值

相关阅读:
技术应用：利用Lua脚本提升Redis操作效率与功能
Codeforces Round 952 (Div. 4)（实时更新）
【C++ 学习㉒】- 超详解 AVL 树的插入、平衡调整以及删除（含源代码）
Web自动化之Selenium常用操作
转守为攻，亚马逊云换帅背后的战略转向
你不知道的JavaScript-----强制类型转换
数字化校园包括哪些内容呢，应该从何入手？_光点科技
fgetc/fputc 和 fgets/fputs 的详细用法
MySQL使用教程（基础篇03）
使用Nginx和uwsgi在自己的服务器上部署python的flask项目

原文地址：https://blog.csdn.net/lele_ne/article/details/126389779

【李航统计学习】第 1 章 统计学习方法概论 笔记