美文网首页人工智能
【金融风控】信用评分卡模型

【金融风控】信用评分卡模型

作者: 不可能打工 | 来源:发表于2020-06-02 15:47 被阅读0次

本文转载自公众号:大数据风控与机器学习

一、简介

所谓信贷评分卡指的是,将违约概率映射成得分的模型。最传统、应用最广泛的算法是逻辑回归。但是理论上,所有能输出概率的模型均可以做为评分卡。比如这几年工业界常用的集成模型、深度神经网络等。像一些无监督、弱监督算法,则通常用来辅助监督学习。

评分映射的好处主要有这几点:

1)更灵活,不是简单的通过与否。可以动态的调整通过策略和额度策略;
2)更好的向客户展示信用额度的动态变化;
3)更好的向领导说明客户被拒绝的原因。

二、主要应用场景

风控模型其中包含了A/B/C卡。

申请评分卡 Application Card /A卡 ,主要发生在贷前

行为评分卡 Behaviour Card /B卡,主要发生在贷中

催收评分卡 Collection Card /C卡,主要发生在贷后

模型算法之间可以没有显著区别,而是根据其发生的时间点不同而进行划分的(贷前/贷中/贷后),也就是y产生的方式不一样。通常信贷领域都是用逾期天数来定义y。A卡可以用客户历史逾期天数最大的天数。B卡则可以多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法。比如你们公司有内催,有外催。外催肯定是回款率低,单价贵的。那么就可以根据是否被内催催回来定义y。

三、建模流程

1、确定样本,定义好坏
2、特征工程
3、单变量分析,woe处理
4、建模与评分映射
5、模型评估
6、模型监控

1)确定样本、定义好坏

时间窗口:样本按照贷款日期进行排序。选取的样本落在的时间段,称为时间窗口。

确定样本:通常情形,样本应尽可能的多。但考虑到我们建模的本质,是使用历史数据对未来用户进行预测,历史数据的效果,会从热数据变为温数据,再变为冷数据,逐级递减。所以时间跨度尽可能和产品周期相结合考虑。信用建模本质是二分类问题,假设样本服从二项分布。需要考虑建模数据的平衡问题。尤其在金融场景下,坏样本永远都比较少。所以会使用过采样、欠采样、smoke、拒绝演绎、半监督学习等方法,扩充我们的坏样本。

定义好坏:使用逾期天数作为定义好坏的标准。比如产品周期30天,逾期超过15天为1(坏),15天以内为0(好)。通常我们还会去掉一部分灰色用户。比如逾期5~15天的客户不参与建模。因为我们的客户群体通常都是服从长尾分布,而非二项分布,我们会人为的去掉一部分,让样本分布和假设分布更逼近。

2)特征工程

数据清洗:“缺失值处理”,“数据类型转换”,“去除逻辑错误”,“去除业务无关变量”。

基础特征:数据质量和特征构造其实基本上决定了一个传统机器学习模型的上限。我们平时常说的数据挖掘,其实就是对更有效特征的挖掘。在数据源稳定的前提下,这是很多机构提高模型效果的主要方法。这一步可以做几百、几千维特征。

特征衍生:主要以上一步的特征为基础,通过一系列变换,能达到几十万、几百万维特征。

特征筛选:IV、stepdisc、stepwise、cor、VIF等。但是更要结合业务来考虑,比如考虑跨时间稳定性的时候可以使用不同时间段单特征值的PSI衰减来衡 量特征的跨时间稳定性。

特征变化:标准化、分类特征映射成数值特征。

3)单变量分析,woe处理

分箱:先等频分箱,后将不成线性关系的特征,通过箱之间的合并,处理成线性的。并将不能归并成线性的特征删掉。这样的特征拥有更强的鲁棒性,并且能为模型引入业务逻辑。

WOE变换:WOE表示的实际上是“当前分组中坏客户占所有坏客户的比例”和“当前分组中好客户占所有好客户的比例”的差异。正负号代表特征对模型的影响方向。绝对值的大小代表影响程度。所以,逻辑回归的系数必须大于0.

image

4)建模与评分映射

逻辑回归代码示例:

from sklearn.linear_model import LogisticRegression  

逻辑回归方程:

image

基础分500分;

好的概率是坏的概率的2倍时,加50分;

好的概率是坏的概率的4倍时,加100分;

好的概率是坏的概率的8倍时,加150分;

...

以此类推,得到分数换算公式:

image

5)模型评估

作为样本极度不均衡的典型场景。直接使用准确率、召回率等是不合适的。业内大多使用KSAUC作为评价指标。但是具体情况具体分析。比如考虑成本的话,准确率也可以作为参考。

ROC曲线:roc曲线上每个点反映着对同一信号刺激的感受性。

KS值:好客户与坏客户之间的最大差异。

image

6)模型监控

常规监控:通过率、贷后表现、PSI、客群分布、等等。

image

相关文章

  • 【金融风控】信用评分卡模型

    本文转载自公众号:大数据风控与机器学习 一、简介 所谓信贷评分卡指的是,将违约概率映射成得分的模型。最传统、应用最...

  • 二元分类特征的选择:IV值

    IV值(Information Value),即信息价值指标,是评分卡模型中的一个常见指标,在金融风控领域得到了广...

  • 利用Logistic回归拟合信用评分卡模型

    一、关于互联网金融授信产品的风控建模 如何利用机器学习以及大数据技术来降低风险呢?如何建立信用评分的模型呢?本文将...

  • 金融风控AI—评分卡模型算法(1)

    一、概述 办理过信用卡的朋友知道,开卡需要先申请(筛选好坏用户),可能还会根据你的信用情况会有不同的额度。这就是银...

  • 金融风控AI—评分卡模型算法(3)

    上一篇 4、模型训练 a、WOE值替换 在上一篇文章我们已经获取了每个变量值的分箱数据和woe值,现在我们用woe...

  • 金融风控AI—评分卡模型算法(2)

    上一篇地址 2、探索分析 探索 数据 分析(Exploratory Data Analysis)是为了更好的了解数...

  • 经典案例

    信用卡评分模型手把手教你用R语言建立信用评分模型 Kaggle系列——Titanic 80%+精确度纪录摘要:模型...

  • 信用评分模型开发

    信用评分模型可用“四张卡”来表示,分别是 A卡(Application score card,申请评分卡)、B卡(...

  • 风控评分卡与机器学习

    在金融风控领域,无人不晓的应该是评分卡,美国fico公司算是评分卡的始祖,始于 20世纪六十年代, 评分卡大致20...

  • 逻辑回归优化技巧总结(全)

    逻辑回归由于其简单高效、易于解释,是工业应用最为广泛的模型之一,比如用于金融风控领域的评分卡、互联网的推荐系统。上...

网友评论

    本文标题:【金融风控】信用评分卡模型

    本文链接:https://www.haomeiwen.com/subject/ruwuzhtx.html