• 【scikit-learn基础】--『回归模型评估』之偏差分析


    模型评估在统计学和机器学习中具有至关重要,它帮助我们主要目标是量化模型预测新数据的能力。

    本篇主要介绍模型评估时,如何利用scikit-learn帮助我们快速进行各种偏差的分析。

    1. **R² ** 分数

    R² 分数(也叫决定系数),用于衡量模型预测的拟合优度,它表示模型中因变量的变异中,可由自变量解释的部分所占的比例。
    接近1的话,表示模型能够很好地解释因变量的变异,接近0的话,则表示模型解释能力较差。

    需要注意的是,虽然R² 分数是一个很有用的指标,但它也有一些局限性。
    例如,当模型中自变量数量增加时,R² 分数可能会增加,即使这些自变量对因变量没有真正的解释力。
    因此,在使用R² 分数评估模型时,还需要结合其他诊断指标和领域知识进行综合判断。

    1.1. 计算公式

    \(R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}\)\(\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\)
    其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

    1.2. 使用示例

    from sklearn.metrics import r2_score
    
    y_true = [1, 2, 3, 4]
    
    y_pred = [0, 1, 3, 5]
    r2_score(y_true, y_pred)
    # 结果: 0.4
    
    y_pred = [0, 2, 3, 4]
    r2_score(y_true, y_pred)
    # 结果: 0.8
    

    r2_score就是scikit-learn中用来计算 **R² 分数 **的函数。

    2. 解释方差分数

    解释方差分数Explained Variance Score,简称EVS),它用于量化模型对目标变量的解释程度。
    解释方差分数比较高则表示模型能够较好地解释数据中的方差,即模型的预测与实际观测值较为接近。

    需要注意的是,解释方差分数仅关注模型对方差的解释程度,并不直接反映预测的准确度。

    2.1. 计算公式

    \(explained\_{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}\)
    其中,\(y\)是真实值,\(\hat{y}\)是预测值。
    \(Var\)表示计算方差,比如:\(Var{\{y\}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2\)

    2.2. 使用示例

    from sklearn.metrics import explained_variance_score
    
    y_true = [1, 2, 3, 4]
    
    y_pred = [0, 1, 3, 5]
    explained_variance_score(y_true, y_pred)
    # 结果: 0.45
    
    y_pred = [0, 2, 3, 4]
    explained_variance_score(y_true, y_pred)
    # 结果: 0.85
    

    explained_variance_score就是scikit-learn中用来计算 **解释方差分数 **的函数。

    3. Tweedie 偏差

    Tweedie 偏差是一种用于评估广义线性模型的指标,它衡量了预测值与实际观测值之间的差异,并考虑了模型的方差结构和分布假设。

    Tweedie 偏差根据Tweedie分布的定义而来,参数不同,表示不同的分布。
    Tweedie 偏差较小,表示模型的预测与实际观测值之间的差异较小,即模型能够更好地拟合数据。

    需要注意的是,在使用 Tweedie 偏差时,需要确保所选的 Tweedie 分布适合数据的特性,否则可能会导致不准确的评估结果。

    3.1. 计算公式

    \(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}- \frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right)\)
    其中,\(n\)是样本数量,\(y_i\)是真实值,\(\hat{y_i}\)是预测值。

    上面的公式中,\(p=0\)时,Tweedie 偏差相当于均方误差
    \(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} (y_i-\hat{y}_i)^2\)

    \(p=1\)时,Tweedie 偏差相当于平均泊松偏差
    \(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i)\)

    \(p=2\)时,Tweedie 偏差相当于平均Gamma偏差
    \(\text{D}(y, \hat{y}) = \frac{1}{n} \sum_{i=0}^{n - 1} 2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1)\)

    3.2. 使用示例

    from sklearn.metrics import mean_tweedie_deviance
    
    mean_tweedie_deviance([1], [2], power=0)
    # 运行结果: 1.0
    mean_tweedie_deviance([100], [200], power=0)
    # 运行结果: 10000.0
    
    mean_tweedie_deviance([1], [2], power=1)
    # 运行结果: 0.6137056388801092
    mean_tweedie_deviance([100], [200], power=1)
    # 运行结果: 61.370563888010906
    
    mean_tweedie_deviance([1], [2], power=2)
    # 运行结果: 0.3862943611198908
    mean_tweedie_deviance([100], [200], power=2)
    # 运行结果: 0.3862943611198908
    

    power参数不同,同样是预测值和实际值差两倍的情况下,不同分布,Tweedie 偏差的结果差别很大。

    4. 总结

    总之,scikit-learn中提供的回归模型偏差的计算方式,能够帮助我们了解模型的性能、选择适合的模型、优化模型以及辅助决策。
    对于回归问题的建模和预测具有重要的实际意义。

  • 相关阅读:
    Citus 分布式 PostgreSQL 集群 - SQL Reference(查询处理)
    【达摩院OpenVI】视频目标渐进式Transformer跟踪器ProContEXT
    VisionPro学习笔记(7)——FitLineTool
    java指令重排序
    Tarjan 求有向图的强连通分量
    Day7力扣打卡
    不仅仅是一种爱好:了解中国的电竞市场
    国家开放大学 模拟试题训练
    机械转码日记【14】C++运算符重载的应用——实现一个日期类计算器
    rabbitMQ 面试题
  • 原文地址:https://www.cnblogs.com/wang_yb/p/17984190