• 【李航统计学习笔记】第一章:统计学习及监督学习概论


    1.1 导论

    统计学习

    监督学习的实现步骤:

    1. 得到一个有限的训练数据集合

    2. 确定模型的假设空间,也就是所有的备选模型

    3. 确定模型选择的准则,即学习的策略

    4. 实现求解最优模型的算法

    5. 通过学习方法选择最优模型

    6. 利用学习的最优模型对新数据进行预测或分析

    监督学习

    训练集: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),,(xN,yN)}

    实例 x x x的特征向量: x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),,x(n))T

    模型:

    1. 决策函数: Y = f ( X ) Y=f(X) Y=f(X). 预测形式: y = f ( x ) y=f(x) y=f(x).
    2. 条件概率分布: P ( Y ∣ X ) P(Y | X) P(YX). 预测形式: argmax y ( y ∣ x ) \underset{y}{\text{argmax}} (y | x) yargmax(yx)

    统计学习三要素

    要素一:模型(假设空间)

    决策函数: F = { f ∣ Y = f θ ( X ) , θ ∈ R n } F=\left\{f | Y=f_{\theta}(X), \theta \in R^{n}\right\} F={fY=fθ(X),θRn}

    条件概率分布: F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } F=\left\{P\left|P_{\theta}(Y | X), \theta \in R^{n}\right\}\right. F={PPθ(YX),θRn}

    要素二:策略:

    损失函数

    1. 0-1损失函数

    L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{

    1,Yf(X)0,Y=f(X)" role="presentation" style="position: relative;">1,Yf(X)0,Y=f(X)
    \right. L(Y,f(X))={1,Y=f(X)0,Y=f(X)

    1. 平方损失函数

    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L(Y,f(X))=(Yf(X))2

    1. 绝对损失函数

    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)

    1. 对数损失函数

    L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y, P(Y \mid X))=-\log P(Y \mid X) L(Y,P(YX))=logP(YX)

    经验风险最小化:
    min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) fFminN1i=1NL(yi,f(xi))
    结构风险最小化
    min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min _{f \in F} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) fFminN1i=1NL(yi,f(xi))+λJ(f)

    要素三:算法

    挑选一个最合适的算法,使得可以求解最优模型

    模型评估与模型选择

    训练误差:
    1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \widehat{f}\left(x_{i}\right)\right) N1i=1NL(yi,f (xi))
    测试误差:
    1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) \frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \widehat{f}\left(x_{i}\right)\right) N1i=1NL(yi,f (xi))

    多项式拟合问题

    正则化与交叉验证

    最小化结构风险:
    1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) N1i=1NL(yi,f(xi))+λJ(f)
    交叉验证:数据集随机划分为以下三部分,训练集(模型的训练),验证集(模型的选择),测试集(模型的评估)。

    泛化能力

    定理1.1 泛化误差上界

    对于二分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , ⋯   , f d } F=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F={f1,f2,,fd}时, 对任意一个函数 f ∈ F f\in F fF, 至少以概率 1 − δ 1-\delta 1δ,以下不等式成立:
    R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) R(f) \leq \widehat{R}(f)+\varepsilon(d, N, \delta) R(f)R (f)+ε(d,N,δ)
    其中:
    ε ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} ε(d,N,δ)=2N1(logd+logδ1)

    生成模型与判别模型

    生成方法: P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y | X)=\dfrac{P(X, Y)}{P(X)} P(YX)=P(X)P(X,Y) 。比如说,如何知道女孩子的姓名呢?生成方法就是:我要是把她爸妈建模出来,直接问她 爸妈不就行了吗?

    判别方法: f ( x ) f(x) f(x) P ( Y ∣ X ) P(Y|X) P(YX). 沿用上面例子,判别方法就是:她叫小红的概率是多少?她叫小刘的概率时多少?。。。

    分类问题

    精确率:
    P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
    召回率:
    R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

    F1值:
    2 F 1 = 1 P + 1 R F 1 = 2 T P 2 T P + F P + F N

    2F1=1P+1RF1=2TP2TP+FP+FN" role="presentation" style="position: relative;">2F1=1P+1RF1=2TP2TP+FP+FN
    F12F1=P1+R1=2TP+FP+FN2TP

    1.2 极大似然估计

    在掷硬币实验中估计出现正面向上的概率 θ \theta θ

    极大似然估计:
    x i = { 1 ,  正  0 ,  负  x i ∼ B ( 1 , θ ) x_{i}=\left\{

    1, 正 0, 负 " role="presentation" style="position: relative;">1, 正 0, 负 
    \quad x_{i} \sim \mathrm{B}(1, \theta)\right. xi={1,  0,  xiB(1,θ)
    概率函数:
    P ( X = x ) = θ x ( 1 − θ ) 1 − x P(X=x)=\theta^{x}(1-\theta)^{1-x} P(X=x)=θx(1θ)1x
    似然函数:
    L ( θ ) = P ( X 1 = x 1 ∣ θ ) ⋯ P ( X n = x n ∣ θ ) = ∏ i = 1 n θ x i ( 1 − θ ) 1 − x i
    L(θ)=P(X1=x1θ)P(Xn=xnθ)=i=1nθxi(1θ)1xi" role="presentation" style="position: relative;">L(θ)=P(X1=x1θ)P(Xn=xnθ)=i=1nθxi(1θ)1xi
    L(θ)=P(X1=x1θ)P(Xn=xnθ)=i=1nθxi(1θ)1xi

    max ⁡ ln ⁡ L ( θ ) = ∑ i = 1 n [ ln ⁡ θ x i + ln ⁡ ( 1 − θ ) 1 − x i ] = ∑ i = 1 n x i ln ⁡ θ + ( n − ∑ i = 1 n x i ) ln ⁡ ( 1 − θ ) ∂ ln ⁡ L ( θ ) ∂ θ = ∑ i = 1 n x i θ − n − ∑ j = 1 n x i 1 − θ = 0

    maxlnL(θ)=i=1n[lnθxi+ln(1θ)1xi]=i=1nxilnθ+(ni=1nxi)ln(1θ)lnL(θ)θ=i=1nxiθnj=1nxi1θ=0" role="presentation" style="position: relative;">maxlnL(θ)=i=1n[lnθxi+ln(1θ)1xi]=i=1nxilnθ+(ni=1nxi)ln(1θ)lnL(θ)θ=i=1nxiθnj=1nxi1θ=0
    maxlnL(θ)θlnL(θ)==i=1n[lnθxi+ln(1θ)1xi]=i=1nxilnθ+(ni=1nxi)ln(1θ)θi=1nxi1θnj=1nxi=0

    估计值:
    θ ^ = ∑ i = 1 n x i n \hat{\theta}=\frac{\sum_{\mathrm{i}=1}^{n} x_{i}}{n} θ^=ni=1nxi

    1.3 梯度下降法

    输入:目标函数 f ( x ) f(x) f(x), 梯度函数 g ( x ) = Δ f ( x ) g(x)=\Delta f(x) g(x)=Δf(x),计算精度 ϵ \epsilon ϵ, 步长 η \eta η

    输出: f ( x ) f(x) f(x)的极小值点 x ∗ x^{*} x

    步骤:

    1. 取初始值 x 0 ∈ R n x^{0} \in R^{n} x0Rn,置 k = 0 k=0 k=0
    2. 计算 f ( x k ) f\left(x^{k}\right) f(xk)
    3. 计算梯度 g k = g ( x ( k ) ) g_{k}=g\left(x^{(k)}\right) gk=g(x(k)),当 ∣ ∣ g k ∣ ∣ < ϵ || g_{k}||<\epsilon ∣∣gk∣∣<ϵ时,停止迭代。否则, x k + 1 = x k − η ∗ g k x^{k+1}=x^{k}-\eta * g_{k} xk+1=xkηgk,重新转至步骤2
  • 相关阅读:
    哪些测试项目可以使用自动化测试?
    java8基础语法
    vue3+element-plus props中的变量使用 v-model 报错
    servlet和vue的增删改查
    在哪些场景下不建议自增数据库主键
    “开放SDK,创造无限可能”,「四维轻云」又有新功能上线!攻略来了
    学编程少走弯路
    酷开科技,让家庭娱乐生活充满激情
    1024程序员节|基于Springboot实现运动场馆预约信息管理系统
    爱玛电动车:不止有时尚设计,更有领先的引擎动力科技
  • 原文地址:https://blog.csdn.net/weixin_39236489/article/details/125901947