码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 机器学习泛化误差


    泛化误差

    定义

    机器学习算法的最终目标是最小化期望损失风险,由于数据的真实分布通常是不知道的,因此,将学习目标转换为最小化经验风险:
    m i n g ∈ G l ^ n ( g ) = 1 n ∑ i = 1 n l ( g ; x i , y i ) min_{g\in\mathcal{G}}\hat{l}_n(g)=\frac{1}{n}\sum_{i=1}^{n}l(g;x_i,y_i) ming∈G​l^n​(g)=n1​∑i=1n​l(g;xi​,yi​)

    优化算法对最小化经验风险函数求解,并在算法结束的第 T T T次迭代中输出模型 g ^ T \hat{g}_T g^​T​。我们希望学习到的模型 g ^ T \hat{g}_T g^​T​的期望风险 L ( g ^ T ) L(\hat{g}_T) L(g^​T​)尽可能小,并将其定义为机器学习算法的泛化误差。

    泛化误差分解

    机器学习中,我们希望学习算法的泛化误差 L ( g ^ T ) L(\hat{g}_T) L(g^​T​)尽可能小,尽可能接近最优模型的期望风险。也就是说,优化算法输出的模型 g ^ T \hat{g}_T g^​T​与最优模型 g ∗ g^* g∗所对应的期望风险之差 L ( g ^ T ) − L ( g ∗ ) L(\hat{g}_T)-L(g^*) L(g^​T​)−L(g∗) 尽可能小,这个差距通常也被称为泛化误差。
    我们对泛化误差进行如下分解:
    L ( g ^ T ) − L ( g ∗ ) = L ( g ^ T ) − L ( g ^ n ) + L ( g ^ n ) − L ( g G ∗ ) + L ( g G ∗ ) − L ( g ∗ ) L(\hat{g}_T)-L(g^*)=L(\hat{g}_T)-L(\hat{g}_n)+L(\hat{g}_n)-L(g_\mathcal{G}^*)+L(g_\mathcal{G}^*)-L(g^*) L(g^​T​)−L(g∗)=L(g^​T​)−L(g^​n​)+L(g^​n​)−L(gG∗​)+L(gG∗​)−L(g∗)

    其中,每个部分的含义如下:

    符号含义
    g ^ T \hat{g}_T g^​T​机器学习学得模型 g ^ T \hat{g}_T g^​T​
    g ^ n \hat{g}_n g^​n​函数族 G \mathcal{G} G中使得经验风险最小的模型
    g G ∗ g_\mathcal{G}^* gG∗​函数族 G \mathcal{G} G中使得期望风险最小的模型

    上述可以进一步分解为以下三项:

    • L ( g ^ T ) − L ( g ^ n ) L(\hat{g}_T)-L(\hat{g}_n) L(g^​T​)−L(g^​n​)为优化误差,表示的是优化算法迭代 T T T轮后输出的模型与经验风险最小的模型所对应的期望风险的差别。这项误差是由于优化算法的局限性带来的,与选用的优化算法、数据量大小、迭代轮数以及函数空间有关
    • L ( g ^ n ) − L ( g G ∗ ) L(\hat{g}_n)-L(g_\mathcal{G}^*) L(g^​n​)−L(gG∗​)为估计误差,表示的是经验风险最小的模型和期望风险最小的模型所对应的期望风险的差别。这项误差主要是由训练数据集的局限性带来的,与数据量的大小和函数空间的复杂程度都有关系
    • L ( g G ∗ ) − L ( g ∗ ) L(g_\mathcal{G}^*)-L(g^*) L(gG∗​)−L(g∗)为近似误差,表示的是函数集合 G \mathcal{G} G中的最优期望风险与全局最优期望风险的差别。这项误差与函数空间的表达力有关

    定性地讲,当函数空间增大时,近似误差减小,估计误差增大;当数据量增大时,估计误差减小;当迭代轮数 T T T增大时,优化误差减小 。

  • 相关阅读:
    java计算机毕业设计微留学学生管理系统源程序+mysql+系统+lw文档+远程调试
    在 ABAP 开发工具运行时错误显示界面里植入思否猫
    Java容器之set
    67基于matlab图像处理,包括颜色和亮度调整、翻转功能、空间滤波和去噪、频域滤波和去噪、噪声添加,形态学操作、边缘检测及示波器集成的GUI图像处理。
    机器学习强基计划5-4:图文详解影响流动与有向分离(D-分离)(附Python实现)
    Java【算法 05】通过时间获取8位验证码(每两个小时生成一个)源码分享
    CentOS7 root用户和普通用户登陆密码修改(忘记找回)
    Redis 键过期与内存淘汰
    C语言学习笔记 —— 内存管理
    安卓开发实例:方向传感器
  • 原文地址:https://blog.csdn.net/sfakh/article/details/126604089
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号