美文网首页
债务违约预测之三:利用sklearn进行预测

债务违约预测之三:利用sklearn进行预测

作者: 游遍星辰99 | 来源:发表于2017-07-24 17:52 被阅读429次
%matplotlib inline
import pandas as pd
import numpy as np 
from sklearn import cross_validation
from sklearn.metrics import confusion_matrix
from sklearn.linear_model.logistic import LogisticRegression  

import warnings
warnings.filterwarnings('ignore') #为了整洁,去除弹出的warnings
#读入数据,清洗数据
df=pd.read_csv( 'cs-training.csv')
df = df.drop(df.columns[0],axis=1)
df=df[df.age>=18]
#对空值进行填充
df['MonthlyIncome'].fillna(df['MonthlyIncome'].mean(), inplace=True)
df['NumberOfDependents'].fillna(df['NumberOfDependents'].mode()[0], inplace=True)
#把因变量和自变量分别提取出来,成为两个数据集
y_feature = df['SeriousDlqin2yrs']
x_features = df.drop('SeriousDlqin2yrs', axis=1)
#按照80%的比例,把两个数据集又分为训练集和测试集(X_1,Y_1是训练集,X_2, Y_2是测试集)
X_1, X_2, Y_1, Y_2 = cross_validation.train_test_split(
    x_features, y_feature, test_size=0.8, random_state=0)
logic_clf = LogisticRegression()  #生成一个逻辑回归模型
logic_clf.fit(X_1,Y_1)  #用训练集进行拟合,获得模型
LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)
predictions = logic_clf.predict(X_2) 
#用模型对X_2进行测试,即判断X_2里面每个记录的违约情况,并把结果储存在predictions中
matrix = confusion_matrix(predictions, Y_2) #显示混淆矩阵
score = logic_clf.score(X_2, Y_2) # 用模型对X_2进行测试,并与Y_2比较,获得准确率
print("accuracy:",score)
print(matrix)
accuracy: 0.933141666667
[[111803   7854]
 [   169    174]]
关于混淆矩阵,参考下图
TP(预测为真,实际也为真),TN(预测为假,实际也为假) 都是预测准确的,FN( 预测为假,实际为真),FP(预测为真,实际为假 ) 则是预测错误的。所以准确率=(TP+TN)/样本总数。
#换一个朴素贝叶斯 高斯模型来预测
from sklearn.naive_bayes import GaussianNB
gnb_clf = GaussianNB()  
gnb_clf.fit(X_1,Y_1)
GaussianNB(priors=None)
gnb_prediction = gnb_clf.predict(X_2)
gnb_matrix = confusion_matrix(gnb_prediction, Y_2)
gnb_score = gnb_clf.score(X_2, Y_2)
print("accuracy:",gnb_score)
print( gnb_matrix)
accuracy: 0.9314
[[111589   7849]
 [   383    179]]

  • 参考
    sklearn 文档中的1.1.10. 逻辑回归和1.9.1. 朴素贝叶斯 高斯模型 两部分。

scikit-learn 朴素贝叶斯类库使用小结

相关文章

网友评论

      本文标题:债务违约预测之三:利用sklearn进行预测

      本文链接:https://www.haomeiwen.com/subject/thmekxtx.html