• 逻辑回归-关于WOE和IV的一些理解


    本文主要解决为什么WOE能用于逻辑回归建模

    写到最后才发现出问题了
    这里认为少数类为good,就是正类

    理解WOE和IV

    IV的定义公式
    IV = ∑ i = 1 N ( g o o d % − b a d % ) × WOE i \text{IV}=\sum\limits_{i=1}^{N}(good\%-bad\%)\times \text{WOE}_{i} IV=i=1N(good%bad%)×WOEi
    这里的 i i i是同一个特征下不同的分箱,good%表示该特征该分箱的样本中正类所占所有正类的比例,bad%同理

    WOE的定义公式
    WOE = ln ⁡ ( g o o d % b a d % ) \text{WOE}=\ln \left(\frac{good\%}{bad\%}\right) WOE=ln(bad%good%)

    根据定义,我们可以得到WOE的取值范围是全体实数。
    我们进一步理解一下WOE,会发现,WOE其实描述了变量当前这个分组,对判断个体是否属于正类所起到影响方向和大小。当WOE为正时,变量当前取值对判断个体是否为正类起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。

    也就说,如果我们有一个新的样本,选中一个特征,该样本该特征上的取值对应分箱的WOE为正,那么我们就认为其属于正类的可能性更大,在上述条件下,WOE的值越大,那么其属于正类的可能性就进一步增大

    实际上,这个我们可以从公式的角度理解
    W O E = ln ⁡ ( g o o d % b a d % ) = ln ⁡ ( g o o d G o o d ⋅ b a d B a d ) = ln ⁡ ( g o o d b a d ) − ln ⁡ ( G o o d B a d )

    WOE=ln(good%bad%)=ln(goodGoodbadBad)=ln(goodbad)ln(GoodBad)" role="presentation">WOE=ln(good%bad%)=ln(goodGoodbadBad)=ln(goodbad)ln(GoodBad)
    WOE=ln(bad%good%)=ln(GoodgoodBadbad)=ln(badgood)ln(BadGood)
    good为这个分箱里正类样本的个数,Good为整个数据集中正类样本的个数。bad,Bad同理
    对比贝叶斯公式
    { P ( Y = + ∣ X ) = P ( X ∣ Y = + ) P ( Y = + ) P ( X ) P ( Y = − ∣ X ) = P ( X ∣ Y = − ) P ( Y = − ) P ( X )
    \begin{aligned} \left\{\begin{aligned}&P(Y=+|X)=\frac{P(X|Y=+)P(Y=+)}{P(X)}\\ &P(Y=-|X)=\frac{P(X|Y=-)P(Y=-)}{P(X)}\end{aligned}" role="presentation">\begin{aligned} \left\{\begin{aligned}&P(Y=+|X)=\frac{P(X|Y=+)P(Y=+)}{P(X)}\\ &P(Y=-|X)=\frac{P(X|Y=-)P(Y=-)}{P(X)}\end{aligned}
    \right. \end{aligned}
    P(Y=+X)=P(X)

  • 相关阅读:
    Bean的生命周期
    [附源码]Python计算机毕业设计SSM酒店客户管理系统(程序+LW)
    为什么要选择期权?开通期权有何益处?
    【苹果iMessage家庭推送】软件安装群发推送通过HealthKit API访问NikeFuel
    剑指Offer 第53题:数字在升序数组中出现的次数
    HTTP协议格式、URL格式及URL encode
    记录一次紧急的版本切换
    初探富文本之富文本概述
    LightFM推荐系统框架学习笔记(二)
    18 张图带你彻底认识这些数据结构
  • 原文地址:https://blog.csdn.net/liu20020918zz/article/details/128087803