解决二分类问题的利器
广告点击率
是否为垃圾邮件
是否患病
金融诈骗
虚假账号
逻辑回归中,其输入值是什么
如何判断逻辑回归的输出
sigmod函数
判断标准
通过属于某个类别的概率值来判断是否属于某个类别,并且这个类别默认标记为1(正例),另外的一个类别会标记为0(反例)
逻辑回归的损失,称之为对数似然损失
solver可选参数:{‘liblinear’, ‘sag’, ‘saga’,‘newton-cg’, ‘lbfgs’}
penalty:正则化的种类
C:正则化力度
SGDClassifier实现了一个普通的随机梯度下降学习。而使用LogisticRegression实现了SAG小批量梯度下降
癌症分类预测-良/恶性乳腺癌肿瘤预测
精确率
召回率
反映了模型的稳健型
sklearn.metrics.classification_report(y_true, y_pred, labels=[], target_names=None )
TPR与FPR
TPR = TP / (TP + FN)
FPR = FP / (FP + TN)
ROC曲线
AUC指标
AUC的概率意义是随机取一对正负样本,正样本得分大于负样本的概率
AUC的最小值为0.5,最大值为1,取值越高越好
AUC=1,完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器
0.5
AUC计算API
from sklearn.metrics import roc_auc_score
sklearn.metrics.roc_auc_score(y_true, y_score)
总结
总的ROC曲线绘制出来了,AUC就定了,分对的概率也能求出来了
很明显,不断地把可能分错的情况扣除掉,从概率最高往下取的点,每有一个是负样本,就会导致分错排在它下面的所有正样本,所以要把它下面的正样本数扣除掉
ROC曲线的积分,也是ROC曲线下面的面积