• 统计学习---第一章



    第一章 统计学习及监督学习概论

    监督学习:从标注数据中学习模型的机器学习问题

    1.1统计学习

    统计学习是关于计算机基于数据构建概率统计模型并运用模型进行对数据进行预测与分析的一门学科

    1.2基本分类

    监督学习、无监督学习、强化学习、半监督学习与主动学习

    1.3统计学习方法三要素

    方法=模型+策略+算法

    1.3.1 模型

    学习的条件概率分布或决策函数 参数空间

    1.3.2策略

    选择最优的模型

    1.损失函数和风险函数

    用一个损失函数或代价函数来度量错误的程度风险函数。预测值f(X)与真实值Y。损失函数是f(X)和Y的非负值函数,记作L(Y, f(X))

    0-1损失函数

    平方损失函数

    绝对损失函数

    对数损失函数 L(Y, P(Y|X)) = -logP(Y|X)

    损失函数越小,模型就越好

    损失函数的期望,平均意义下的损失,称为风险函数或期望损失

    学习的目标就是选择期望封校最小的模型

    2.经验风险最小化和结构风险最小化

    ERM(empirical risk minimization)

    m i n f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \underset{f\in F}{min}{\frac{1}{N}}{\sum_{i=1}^{N}}{L(y_i, f(x_i))} fFminN1i=1NL(yi,f(xi))

    SRM(structural risk minimization)为了防止过拟合而提供的策略,等价与正则化

    R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f) = \frac{1}{N}{\sum_{i=1}^{N}}L(y_i, f(x_i))+\lambda{J(f)} Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)

    J(f)是模型的复杂度,定义在假设空间F的泛函。

    1.3.3 算法

    算法是指学习模型的具体计算法方法

    1.4 模型评估与模型选择

    1.4.1训练误差与测试误差

    训练误差的大小对判断给定的问题是不是一个容易学习的问题是有意义的,测试误差反映了学习方法对未知数据集的预测能力。

    将学习方法对未知数据的预测能力称为泛化能力

    1.4.2过拟合与模型选择

    过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测很好,但对未知的数据预测得很差的现象

    1.5正则化与交叉验证

    1.5.1正则化

    正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项

    R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f) = \frac{1}{N}{\sum_{i=1}^{N}}L(y_i, f(x_i))+\lambda{J(f)} Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)

    L1范数

    L ( w ) = 1 N ∑ i = 1 N ( f ( y i : w ) − y i ) 2 + λ ∣ w 1 ∣ L(w) = \frac{1}{N}{\sum_{i=1}^{N}}(f(y_i:w)-y_i)^2+\lambda{|w_1|} L(w)=N1i=1N(f(yi:w)yi)2+λw1

    L2范数

    L ( w ) = 1 N ∑ i = 1 N ( f ( y i : w ) − y i ) 2 + 1 2 λ ∣ w 2 ∣ 2 L(w) = \frac{1}{N}{\sum_{i=1}^{N}}(f(y_i:w)-y_i)^2+\frac{1}{2}\lambda{|w_2|^2} L(w)=N1i=1N(f(yi:w)yi)2+21λw22

    正则化对应于模型的先验概率,复杂的模型有较小的先验概率,简单有较大的

    1.5.2交叉验证

    训练集、验证集、测试集。训练集用来训练模型,验证集用于模型的选择,测试集用于模型的评估

    交叉验证的思想是重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复的训练,测试,以及模型的选择。

    1.简单交叉验证

    2.S折交叉验证

    S-fold cross validation

    将数据分为S个互不相交、大小相同的子集,利用S-1个子集数据训练模型

    3.留一交叉验证

    S=N

    1.6泛化能力

    学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力

    泛化误差就是所学的模型的期望风险

    泛化误差上限

    1.7生成模型和判别模型

    决策函数 Y=f(X) 条件分布 P(Y|X)

    监督学习方法分为生成方法和判别方法

    $$
    生成模型:P(Y|X)=\frac{P(X,Y)}{P(X)}

    $$

    1.8监督学习应用

    分类问题、标注问题和回归问题

    1.8.1分类问题

    监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出的预测,称为分类

    1.8.2标注问题

    标注问题分为学习和标注两个过程

    评价标注模型:标注准确率、精确率和召回率

    标注常见的统计学习方法:隐马尔可夫模型、条件随机场模型

    1.8.3回归问题

    回归问题分为回归和预测两个过程

    一元回归和多元回归 线性回归和非线性回归

    损失函数是平方损失函数

  • 相关阅读:
    leetcode.62. 不同路径
    buuctf(探险1)
    力扣linkedlist
    jira+confluence安装
    第一篇-专题说明及当前进度
    【异常----finally和自定义异常】
    Python算法练习 9.18
    log4j 基础使用入门教程
    SpringBoot集成Swagger的使用
    【Tensorflow 2.12 电影推荐项目搭建】
  • 原文地址:https://blog.csdn.net/Sinlair/article/details/126306816