• 【scikit-learn基础】--『回归模型评估』之损失分析


    分类模型评估中,通过各类损失(loss)函数的分析,可以衡量模型预测结果与真实值之间的差异。
    不同的损失函数可用于不同类型的分类问题,以便更好地评估模型的性能。

    本篇将介绍分类模型评估中常用的几种损失计算方法。

    1. 汉明损失

    Hamming loss汉明损失)是一种衡量分类模型预测错误率的指标。
    它直接衡量了模型预测错误的样本比例,因此更直观地反映出模型的预测精度,
    而且,它对不平衡数据比较敏感,也适用于多分类的问题,不仅限于二分类问题。

    1.1. 计算公式

    \(L(y, \hat{y}) = \frac{1}{n * m} \sum_{i=0}^{n-1} \sum_{j=0}^{m - 1} 1(\hat{y}_{i,j} \not= y_{i,j})\)
    其中,\(n\)是样本数量,\(m\)是标签数量,\(y_{i,j}\)是样本\(i\)的第\(j\)个标签的真实值,\(\hat{y}_{i,j}\)是对应的预测值,
    \(1(x)\) 是指示函数。

    1.2. 使用示例

    from sklearn.metrics import hamming_loss
    import numpy as np
    
    n = 100
    y_true = np.random.randint(1, 10, n)
    y_pred = np.random.randint(1, 10, n)
    
    s = hamming_loss(y_true, y_pred)
    print("hamming loss:{}".format(s))
    
    # 运行结果
    hamming loss:0.8
    

    2. 铰链损失

    Hinge loss铰链损失)常用于“最大间隔”分类,其最著名的应用是作为支持向量机(SVM)的目标函数。
    Hinge loss主要用于二分类问题,并且通常与特定的算法(如SVM)结合使用。

    2.1. 计算公式

    \(L(y, w) = \frac{1}{n} \sum_{i=0}^{n-1} \max\left\{1 - w_i y_i, 0\right\}\)
    其中,\(n\)是样本数量,\(y_i\)是真实值, \(w_i\)是相应的预测决策(由 decision_function 方法输出)。

    2.2. 使用示例

    from sklearn.metrics import hinge_loss
    from sklearn.svm import LinearSVC
    from sklearn.model_selection import train_test_split
    import numpy as np
    
    n = 100
    X = np.random.randint(0, 2, size=(n, 1))
    y = np.random.randint(0, 2, n)
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)
    
    reg = LinearSVC(dual="auto")
    reg.fit(X_train, y_train)
    
    y_pred_decision = reg.decision_function(X_test)
    
    s = hinge_loss(y_test, y_pred_decision)
    print("hinge loss:{}".format(s))
    
    # 运行结果
    hinge loss:1.0136184446302712
    

    上面的示例中,首先构建一个支持向量机的训练模型和随机的样本数据。
    最后在测试集上计算hinge loss

    3. 对数损失

    对数损失log loss)通过考虑模型预测的概率与实际标签的对数误差来评估模型的性能。
    它特别关注模型对于每个样本的预测概率的准确性,对于错误的分类,Log loss会给予较大的惩罚。

    对数损失的值越小,表示模型的预测概率越接近实际标签,模型的性能越好。

    3.1. 计算公式

    \(LL = - \frac{1}{N} \sum_{i=0}^{N-1} \sum_{k=0}^{K-1} y_{i,k} \log p_{i,k}\)
    其中,\(N\)是样本数量,\(K\)是分类标签的数量,
    \(y_{i,k}\)是第\(i\)个样本在标签\(k\)上的真实值,\(p_{i,k}\)是对应的概率估计。

    3.2. 使用示例

    from sklearn.metrics import log_loss
    import numpy as np
    
    n = 100
    k = 10
    y_true = np.random.randint(0, k, n)
    y_prob = np.random.rand(n, k)
    
    # 这一步转换后,
    # y_prob 每一行的和都为1
    for i in range(len(y_prob)):
        y_prob[i, :] = y_prob[i, :] / np.sum(y_prob[i, :])
    
    
    s = log_loss(y_true, y_prob)
    print("log loss:{}".format(s))
    
    # 运行结果
    log loss:2.6982702715125466
    

    上面的示例中,\(n\)是样本数量,\(k\)是标签数量。

    4. 零一损失

    零一损失zero-one loss)非常直观,直接对应着分类判断错误的个数,能很清晰地反映出模型预测错误的比例。
    它计算简单,易于理解和实现,对于二分类问题特别直观,但是对于非凸性质不太适用。

    4.1. 计算公式

    \(L(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n-1} 1(\hat{y}_i \not= y_i)\)
    其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值,
    \(1(x)\) 是指示函数。

    4.2. 使用示例

    from sklearn.metrics import zero_one_loss
    import numpy as np
    
    n = 100
    y_true = np.random.randint(1, 10, n)
    y_pred = np.random.randint(1, 10, n)
    
    s1 = zero_one_loss(y_true, y_pred)
    s2 = zero_one_loss(y_true, y_pred, normalize=False)
    print("zero-one loss比率:{}\nzero-one loss数量:{}".format(s1, s2))
    
    # 运行结果
    zero-one loss比率:0.89
    zero-one loss数量:89
    

    5. Brier 分数损失

    Brier 分数损失Brier score loss)关注模型预测的概率与实际结果之间的差异。
    与只关注预测类别的其他指标不同,它衡量了预测概率的可靠性;
    与一些仅适用于二分类问题的评估指标相比,Brier score loss可以应用于多类别分类问题。

    它的数值越小,表示模型的概率预测越准确,具有很好的解释性。

    5.1. 计算公式

    \(BS = \frac{1}{n} \sum_{i=0}^{n - 1}(y_i - p_i)^2\)
    其中,\(n\)是样本数量,\(y_i\)是真实值,\(p_i\)是预测概率估计的均方误差。

    5.2. 使用示例

    from sklearn.metrics import brier_score_loss
    import numpy as np
    
    n = 100
    y_true = np.random.randint(0, 2, n)
    y_prob = np.random.rand(n)
    
    s = brier_score_loss(y_true, y_prob)
    print("brier score loss:{}".format(s))
    
    # 运行结果
    brier score loss:0.3141953858083935
    

    示例中计算损失用的模拟数据中,y_true表示真实值,y_prob表示预测概率的均方误差。

    6. 总结

    本篇归纳总结了分类模型中关于损失函数的一些使用方式:

    • 汉明损失,Hamming loss
    • 铰链损失,Hinge loss
    • 对数损失,log loss
    • 零一损失,zero one loss
    • Brier 分数损失,Brier score loss
  • 相关阅读:
    【Linux】- 一文秒懂shell编程
    【Go语言】Go语言中的指针
    mysql与msql2数据驱动
    智能振弦传感器:参数智能识别技术的重要科技创新
    附录3-jQuery插件
    达梦数据库,数据库重置主键id从1开始
    在Linux环境中分别使用手动和Shell自动脚本来部署SpringBoot项目
    2023-09-09力扣每日一题-补题
    Spring的读取和存储对象
    Java/Kotlin 使用Redis模拟发送验证码
  • 原文地址:https://www.cnblogs.com/wang_yb/p/17997343