-
混淆矩阵(Confusion Matrix)

蓝色点被标记为Positive
红色点被标记为Negative
线上方的点为预测为Positive
线下方点是预测为Negative
- 如果标记为Positive, 预测也为Positive称为True Positive(TP), 即线上方的蓝色点
- 如果标记为Negative, 预测也为Negative称为True Negative(TN), 即线下方的红色点
- 如果标记为Negative, 预测则为Positive称为False Positive(FP), 即线上方的红色点
- 如果标记为Positive, 预测则为Negative称为False Positive(FN), 即线下方的蓝色点
上图中, TP = 6, TN = 5; FP = 2, FN = 1
-
准确率(Accuracy)
回答类似" 在所有就诊者中, 正确分类的有多少?"的问题.

对于上图可以计算
accuracy = (TP + TN) / (ALL POINTS)
accuracy = (6 + 5) / (6+5+2+1) = 78.57%
-
精确率(Precision)
用于回答"所有预测为Positive的数据点, 这些数据点中有多少是真正的Positive

对于上图可以计算
precision = = TP/(TP+FP)
accuracy = 6 / (6+2)
-
召回率(Recall)
用于回答"所有的标记为Positive的数据点, 这些数据点有多少被预测为Positive"

对于上图可以计算
precision = = TP/(TP+FN)
accuracy = 6 / (6+1)
注意:
- 根据不同的场景判断precision重要还是recall重要,例如在癌症诊断场景下, 我们是否有本身患病但是没有诊断出来的人, 也即False Negative, 此时precision略低也ok, 重点在于recall
- 例如在垃圾邮件检测场景下, 预测为垃圾邮件的邮件是否真正属于垃圾邮件,也即是否属于False Positive, 此时precision 就很重要
网友评论