码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 学习记录683@类别不平衡问题解决的基本策略之再缩放的数学解释


    什么是类别不平衡问题

    分类学习方法都有一个共同的基本假设,即不同类别的训练样例数目相当。如果不同类别的训练样例数目稍有差别,通常影响不大,但若差别很大,则会对学习过程造成困扰。例如有998个反例,但正例只有2个,那么学习方法只需返回一个永远将新样本预测为反例的学习器,就能达到99.8%的精度;然而这样的学习器往往没有价值,因为它不能预测出任何正例。

    数学解释

    以下是分类策略:
    在这里插入图片描述
    然而,当训练集中正、反例的数目不同时,令m+表示正例数目,m-表示反例数目,此时分类策略应该是:
    在这里插入图片描述
    如何解释呢?可以反方向解释,如果m+大于m-,那么学习到的模型就会偏向于预测正例,这对反例不公平,因此,只有当以上左边式子大于右边式子也就是大于1时,预测为正例才公平,这就是对训练集正例较多的惩罚。

    然后可以稍作调整,这就是再平衡,也就是再缩放策略:
    在这里插入图片描述
    如何解释呢?和上面的解释类似,如果m+大于m-,那么学习到的模型就会偏向于预测正例,这对反例不公平,因此右式乘以了m-/m+,相当于将 y/1-y缩放了,这样要大于1就更加困难了,也相当于对正例的惩罚。

    最后看一下人工智能的回答:
    在这里插入图片描述

  • 相关阅读:
    R语言并行计算提高速度丨parallel包和foreach包
    第42讲:MySQL数据库索引的基本使用规则以及在正确使用索引的方式
    【教程】fastjson升级,spring boot设置fastjson2做序列化反序列化
    vivado时序分析-2时序分析关键概念
    常用md语法
    git 基础之分支操作(三)
    Parallels 将扩展桌面平台产品,以进一步改善在 Mac 上运行 Windows 的用户体验和工作效率
    安卓Kotlin面试题 41-50
    Linux驱动开发(十七)---树莓派PWM驱动
    JetBrains 使用邮箱进行学生认证
  • 原文地址:https://blog.csdn.net/weixin_44663675/article/details/133946112
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号