1. 混淆矩阵---确定截断点后，评价学习器性能

假设训练之初以及预测后，一个样本是正例还是反例是已经确定的，这个时候，样本应该有两个类别值，一个是真实的0/1，一个是预测的0/1

TP（实际为正预测为正），FP（实际为负但预测为正），TN（实际为负预测为负），FN（实际为正但预测为负）

通过混淆矩阵我们可以给出各指标的值：

查全率（召回率，recall，TPR）：样本中的正例有多少被预测准确了，衡量的是查全率，预测对的正例数占真正的正例数的比率：

查全率＝检索出的相关信息量 / 系统中的相关信息总量 = TP / (TP+FN)

查准率（精准率，Precision）：针对预测结果而言，预测为正的样本有多少是真正的正样本，衡量的是查准率，预测正确的正例数占预测为正例总量的比率：
查准率＝正确预测到的正例数/实际正例总数 = TP / (TP+FP)

准确率：反映分类器统对整个样本的判定能力，能将正的判定为正，负的判定为负的能力，计算公式：Accuracy=(TP+TN) / (TP+FP+TN+FN)

阴性预测值：可以理解为负样本的查准率，阴性预测值被预测准确的比例，计算公式：NPV=正确预测到的负例数/实际负例总数=TN / (TN+FN)

2. ROC曲线， AUC ----评价学习器性能，检验分类器对客户进行正确排序的能力

分类器产生的结果通常是一个概率值不是直接的0/1变量，通常数值越到，代表正例的可能性越大。
根据任务的不同也会采取不同的“截断点”，大于则为正例，小于则为反例。如重视查全率，则阈值可以设置低一些；而重视查准率，阈值可以设置高一些。

ROC曲线描绘的是不同的截断点时，并以FPR和TPR为横纵坐标轴，描述随着截断点的变小，TPR随着FPR的变化。
纵轴：TPR=正例分对的概率 = TP/(TP+FN)，其实就是查全率
横轴：FPR=负例分错的概率 = FP/(FP+TN)

KS曲线和ROC曲线都用到了TPR，FPR。KS曲线是把TPR和FPR（注意是累计）都作为纵坐标，而样本数作为横坐标。

作图步骤：

根据学习器的预测结果（注意，是正例的概率值，非0/1变量）对样本进行排序（从大到小）-----这就是截断点依次选取的顺序
按顺序选取截断点，并计算TPR和FPR ---也可以只选取n个截断点，分别在1/n，2/n，3/n等位置，一般分为20等份（在excel中借助ceiling(累计个数占比，0.05)以及数据透视表完成）
横轴为样本的占比百分比（最大100%），纵轴分别为TPR和FPR，可以得到KS曲线
TPR和FPR曲线分隔最开的位置就是最好的”截断点“，最大间隔距离就是KS值，通常>0.2即可认为模型有比较好偶的预测准确性

image

Lift图衡量的是，与不利用模型相比，模型的预测能力“变好”了多少，lift(提升指数)越大，模型的运行效果越好。
Gain图是描述整体精准度的指标。
在评分卡中是累计坏的占比与累计个数占比的比值
计算公式如下：

image

作图步骤：

根据学习器的预测结果（注意，是正例的概率值，非0/1变量）对样本进行排序（从大到小）-----这就是截断点依次选取的顺序
按顺序选取截断点，并计算Lift和Gain ---也可以只选取n个截断点，分别在1/n，2/n，3/n等位置，一般分为20等份（在excel中借助ceiling(累计个数占比，0.05)以及数据透视表完成）