美文网首页
贷款违约预测-数据探索

贷款违约预测-数据探索

作者: 58506fd3fbed | 来源:发表于2020-09-17 23:09 被阅读0次

1. 数据总体了解:

a. 读取数据集并了解数据集大小,原始特征维度;

1)data_test_a.shape

2)data_train.shape

3)data_train.columns

b. 通过info熟悉数据类型;

1)data_train.info()

c. 粗略查看数据集中各特征基本统计量;

1)data_train.describe()

2)data_train.head(3).append(data_train.tail(3))

2. 缺失值和唯一值:

a. 查看数据缺失值情况

1)print(f'There are {data_train.isnull().any().sum()} columns in train dataset with missing values.')

2)have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()

fea_null_moreThanHalf = {}

for key,value in have_null_fea_dict.items():

    if value > 0.5:

        fea_null_moreThanHalf[key] = value

3)fea_null_moreThanHalf

4)missing = data_train.isnull().sum()/len(data_train)

missing = missing[missing > 0]

missing.sort_values(inplace=True)

missing.plot.bar()

b. 查看唯一值特征情况

3. 深入数据-查看数据类型

a. 类别型数据

1)def get_numerical_serial_fea(data,feas):

numerical_serial_fea = []

numerical_noserial_fea = []

for fea in feas:

temp = data[fea].nunique()

if temp <= 10:

numerical_noserial_fea.append(fea)

continue

numerical_serial_fea.append(fea)

return numerical_serial_fea,numerical_noserial_fea

numerical_serial_fea,numerical_noserial_fea =

get_numerical_serial_fea(data_train,numerical_fea)

b. 数值型数据

离散数值型数据

1)data_train['term'].value_counts()

连续数值型数据

1)f = pd.melt(data_train, value_vars=numerical_serial_fea)

g = sns.FacetGrid(f, col="variable", col_wrap=2, sharex=False, sharey=False)

g = g.map(sns.distplot, "value")

4. 数据间相关关系

a. 特征和特征之间关系

b. 特征和目标变量之间关系

1)fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 8))

train_loan_fr.groupby('grade')['grade'].count().plot(kind='barh', ax=ax1, title='Count of

grade fraud')

train_loan_nofr.groupby('grade')['grade'].count().plot(kind='barh', ax=ax2, title='Count of

grade non-fraud')

train_loan_fr.groupby('employmentLength')['employmentLength'].count().plot(kind='barh',

ax=ax3, title='Count of employmentLength fraud')

train_loan_nofr.groupby('employmentLength')['employmentLength'].count().plot(kind='barh',

ax=ax4, title='Count of employmentLength non-fraud')

plt.show()

5. 用pandas_profiling生成数据报告

pfr = pandas_profiling.ProfileReport(data_train)

pfr.to_file("./example.html")

相关文章

  • 债务违约预测之二:图形探索

    在债务违约预测之一:数据探索中,按各个属性对借贷者分组,再分析其违约率。现在换一个角度,分为违约者和未违约两类,再...

  • 贷款客户违约预测模型

    背景:根据已有贷款客户的还款情况数据,以预测客户是否违约,提前预警。数据:某融资担保公司所拥有的数据,包括基本身份...

  • tianchi——贷款违约预测

    解决的问题是预测预测用户贷款是否违约为任务。提交的形式应该是一个二分类形式(2个字段,一个是id,一个是违约的可能...

  • Kaggle: Home Credit Default Risk

    项目背景: 1、目的:通过数据集提供的相关数据,预测客户贷款是否违约2、数据集介绍:一共有8个数据集,包括1个主训...

  • 金融风控赛一

    赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款...

  • 债务违约预测之一:数据探索

    本文是解密大数据社群一期课程的结业作业。项目分为数据探索,使用sklearn完成回归和预测,利用神经网络进行预测 ...

  • 信用贷款违约预测

    项目背景:依据客户的信用卡信息,分期付款信息,信用局信息等预测客户贷款是否会违约。分析流程:首先对数据进行可视化探...

  • 个人贷款违约预测模型

    案例背景 案例来源《python数据科学:技术详解与商业实践》数据下载地址该案例使用一套来自某银行真实数据集构建贷...

  • 贷款违约预测-Task2 数据分析

    Task2 数据分析 此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特...

  • 阿里云天池——金融风控-贷款违约预测(一)

    赛题理解 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通...

网友评论

      本文标题:贷款违约预测-数据探索

      本文链接:https://www.haomeiwen.com/subject/ducsyktx.html