写在前面
识别精度主要由召回率(recall)和精确率(precision)两个指标决定,在训练结束时可以通过re-pre曲线来表示模型的准确度,也可以根据二者之间的关系来调节实际情况中的需要,二者曲线围成的面积可以用来表示模型的精度,面积越大表示模型的精度越高,反之,模型的精度就越低,下面详细介绍一下个人的理解。
知识准备:
数据集在检测中会产生四种检测结果:TP、 FP 、TN 、FN;
T:True
P:Postive 积极的(正样本)
F:False
N:Native 消极的(负样本)
TP:是正样本,然后预测也是正样本,前边的T表示原本的样本属性(样本属性:正样本T还是负样本F),后面的P表示预测这个样本的结果。
TN:样本原有的属性事正样本T,预测结果是N,负样本。
FP:样本原有属性是负样本,预测结果是正样本。
FN:样本原有属性是负样本,预测结果是负样本。
TP+FP+TN+FN:代表的是样本的总数量
TP+FP:代表的是预测样本为正样本的总数量
TP+FN:代表的是实际正样本的总数量
FP+TN:实际负样本数。
TN+FN:预测结果为负样本的总数,包括预测正确的和错误的。
这里必须理解TP+FP和TP+FN所代表的意义,因为召回率和精确率是在此基础上计算的,明白了这两个所代表的意义也就明白了召回率和精确率的精髓所在。
召回率
先看召回率的计算公式:
TP/TP+FN
分子是预测为正的样本数量,分母是实际正样本的总分数量
这个公式表示的意思是:预测正确的正样本数量占总的正样本数量的比例。这就是召回率的定义。
这个比例可以表示出模型正确判断正样本数量在总数据集中所占的比例。比值越大,代表着漏检的越少。
精确率
先看计算公式:
TP/TP+FP
分子是预测为正的样本数量,分母是预测为正样本的总数量
表示的意义:在所有预测为正样本的结果中,正确预测的结果所占的比例,(FP是预错的)。
表示了模型预测正确的正样本的准确度,值越大表示误检的越少。
暂时先写这么多,以后有了新的感悟再补充。