混淆矩阵(Confusion Matrix)是在机器学习和统计学中用于评估分类模型性能的一种常用工具。它以表格的形式显示了模型的预测结果与实际真值之间的关系,特别适用于二元分类问题。混淆矩阵通常包含以下四个重要的指标:
假设我们有一个二元分类问题,其中:
混淆矩阵的四个指标如下:
真正例(True Positives,TP):模型正确地将正类别样本分类为正类别的数量。
真负例(True Negatives,TN):模型正确地将负类别样本分类为负类别的数量。
假正例(False Positives,FP):模型错误地将负类别样本分类为正类别的数量(误报)。
假负例(False Negatives,FN):模型错误地将正类别样本分类为负类别的数量(漏报)。
混淆矩阵通常以如下形式呈现:
预测正例 预测负例
实际正例(真正例) TP FN
实际负例(真负例) FP TN
基于混淆矩阵,可以计算出多个分类性能指标,如准确率、召回率、精确度、F1分数等,这些指标有助于评估模型的性能和效果。
准确率(Accuracy):分类正确的样本数占总样本数的比例,即 (TP + TN) / (TP + TN + FP + FN)
。
召回率(Recall):正类别样本被正确分类为正类别的比例,即 TP / (TP + FN)
。
精确度(Precision):被分类为正类别的样本中,真正为正类别的比例,即 TP / (TP + FP)
。
F1分数(F1 Score):综合考虑了准确率和召回率,是一个平衡的度量指标,即 2 * (Precision * Recall) / (Precision + Recall)
。
混淆矩阵是评估二元分类模型性能的重要工具,它能够清晰地展示模型的分类情况,帮助分析模型的优点和不足,进而改进模型的性能。