本文主要解决为什么WOE能用于逻辑回归建模
写到最后才发现出问题了
这里认为少数类为good,就是正类
IV的定义公式
IV = ∑ i = 1 N ( g o o d % − b a d % ) × WOE i \text{IV}=\sum\limits_{i=1}^{N}(good\%-bad\%)\times \text{WOE}_{i} IV=i=1∑N(good%−bad%)×WOEi
这里的 i i i是同一个特征下不同的分箱,good%表示该特征该分箱的样本中正类所占所有正类的比例,bad%同理
WOE的定义公式
WOE = ln ( g o o d % b a d % ) \text{WOE}=\ln \left(\frac{good\%}{bad\%}\right) WOE=ln(bad%good%)
根据定义,我们可以得到WOE的取值范围是全体实数。
我们进一步理解一下WOE,会发现,WOE其实描述了变量当前这个分组,对判断个体是否属于正类所起到影响方向和大小。当WOE为正时,变量当前取值对判断个体是否为正类起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。
也就说,如果我们有一个新的样本,选中一个特征,该样本该特征上的取值对应分箱的WOE为正,那么我们就认为其属于正类的可能性更大,在上述条件下,WOE的值越大,那么其属于正类的可能性就进一步增大
实际上,这个我们可以从公式的角度理解
W O E = ln ( g o o d % b a d % ) = ln ( g o o d G o o d ⋅ b a d B a d ) = ln ( g o o d b a d ) − ln ( G o o d B a d )
good为这个分箱里正类样本的个数,Good为整个数据集中正类样本的个数。bad,Bad同理
对比贝叶斯公式
{ P ( Y = + ∣ X ) = P ( X ∣ Y = + ) P ( Y = + ) P ( X ) P ( Y = − ∣ X ) = P ( X ∣ Y = − ) P ( Y = − ) P ( X )