统计学习---第一章

统计学习---第一章
文章目录
- 第一章统计学习及监督学习概论
- 1.1统计学习
  1.2基本分类
  1.3统计学习方法三要素
  1.3.1 模型
  1.3.2策略
  1.3.3 算法
  
  1.4 模型评估与模型选择
  1.4.1训练误差与测试误差
  1.4.2过拟合与模型选择
  
  1.5正则化与交叉验证
  1.5.1正则化
  1.5.2交叉验证
  
  1.6泛化能力
  1.7生成模型和判别模型
  1.8监督学习应用
  1.8.1分类问题
  1.8.2标注问题
  1.8.3回归问题
第一章统计学习及监督学习概论

监督学习：从标注数据中学习模型的机器学习问题

 1.1统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型进行对数据进行预测与分析的一门学科

 1.2基本分类

监督学习、无监督学习、强化学习、半监督学习与主动学习

 1.3统计学习方法三要素

方法=模型+策略+算法

1.3.1 模型

学习的条件概率分布或决策函数参数空间

1.3.2策略

选择最优的模型

1.损失函数和风险函数

用一个损失函数或代价函数来度量错误的程度风险函数。预测值f(X)与真实值Y。损失函数是f(X)和Y的非负值函数，记作L（Y, f(X)）

0-1损失函数

平方损失函数

绝对损失函数

对数损失函数 L(Y, P(Y|X)) = -logP(Y|X)

损失函数越小，模型就越好

损失函数的期望，平均意义下的损失，称为风险函数或期望损失

学习的目标就是选择期望封校最小的模型

2.经验风险最小化和结构风险最小化

ERM（empirical risk minimization）

$\underset{f\in F}{min}{\frac{1}{N}}{\sum_{i=1}^{N}}{L(y_i, f(x_i))}$

SRM（structural risk minimization）为了防止过拟合而提供的策略，等价与正则化

$R_{srm}(f) = \frac{1}{N}{\sum_{i=1}^{N}}L(y_i, f(x_i))+\lambda{J(f)}$

J(f)是模型的复杂度，定义在假设空间F的泛函。

1.3.3 算法

算法是指学习模型的具体计算法方法

 1.4 模型评估与模型选择

1.4.1训练误差与测试误差

训练误差的大小对判断给定的问题是不是一个容易学习的问题是有意义的，测试误差反映了学习方法对未知数据集的预测能力。

将学习方法对未知数据的预测能力称为泛化能力

1.4.2过拟合与模型选择

过拟合是指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测很好，但对未知的数据预测得很差的现象

1.5正则化与交叉验证

1.5.1正则化

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项

$R_{srm}(f) = \frac{1}{N}{\sum_{i=1}^{N}}L(y_i, f(x_i))+\lambda{J(f)}$

L1范数

$\frac{1}{N}{\sum_{i=1}^{N}}(f(y_i:w)-y_i)^2+\lambda{|w_1|}$

L2范数

$\frac{1}{N}{\sum_{i=1}^{N}}(f(y_i:w)-y_i)^2+\frac{1}{2}\lambda{|w_2|^2}$

正则化对应于模型的先验概率，复杂的模型有较小的先验概率，简单有较大的

1.5.2交叉验证

训练集、验证集、测试集。训练集用来训练模型，验证集用于模型的选择，测试集用于模型的评估

交叉验证的思想是重复地使用数据，把给定的数据进行切分，将切分的数据集组合为训练集和测试集，在此基础上反复的训练，测试，以及模型的选择。

1.简单交叉验证

2.S折交叉验证

S-fold cross validation

将数据分为S个互不相交、大小相同的子集，利用S-1个子集数据训练模型

3.留一交叉验证

S=N

1.6泛化能力

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力

泛化误差就是所学的模型的期望风险

泛化误差上限

 1.7生成模型和判别模型

决策函数 Y=f(X) 条件分布 P(Y|X)

监督学习方法分为生成方法和判别方法

$$
生成模型：P(Y|X)=\frac{P(X,Y)}{P(X)}

$$

1.8监督学习应用

分类问题、标注问题和回归问题

1.8.1分类问题

监督学习从数据中学习一个分类模型或分类决策函数，称为分类器。分类器对新的输入进行输出的预测，称为分类

1.8.2标注问题

标注问题分为学习和标注两个过程

评价标注模型：标注准确率、精确率和召回率

标注常见的统计学习方法：隐马尔可夫模型、条件随机场模型

1.8.3回归问题

回归问题分为回归和预测两个过程

一元回归和多元回归线性回归和非线性回归

损失函数是平方损失函数
相关阅读:
如何将u盘两个分区合并？u盘怎么合并一个区
 Node.js学习一 —— 模块化
 维格云Q-Linker入门教程
 AI+前端技术的结合（实现图片识别功能）
JavaScript双for循环，判断对象数组的阈值重合。
react----hooks
2022年最新宁夏建筑施工物料提升（建筑特种作业）模拟题库及答案
 RAID磁盘阵列简单介绍
 Mysql的B+树高度计算
 java-php-net-python-简历网站计算机毕业设计程序
原文地址：https://blog.csdn.net/Sinlair/article/details/126306816

文章目录

第一章 统计学习及监督学习概论

1.1统计学习

1.2基本分类

1.3统计学习方法三要素

1.3.1 模型

1.3.2策略

1.3.3 算法

1.4 模型评估与模型选择

1.4.1训练误差与测试误差

1.4.2过拟合与模型选择

1.5正则化与交叉验证

1.5.1正则化

1.5.2交叉验证

1.6泛化能力

1.7生成模型和判别模型

1.8监督学习应用

1.8.1分类问题

1.8.2标注问题

1.8.3回归问题

第一章统计学习及监督学习概论