教育部科技发展中心产学研创新基金-“智融兴教”基金结题报告-金渝琳

时间:2022-04-18 点击数量:

教育部科技发展中心产学研创新基金

-“智融兴教”基金

结题报告

课题名称:大数据环境下,基于P2P借贷平台leading Club 的个人财务风险评价及管理

课题编号:2018A06008

负责人:金渝琳

学校名称:重庆工业职业技术学院

填报日期:2020年8月10日

教育部科技发展中心
北京恒信源教育文化集团有限公司
2020年5月制

一、简表

项 目负责 人信息

姓名

金渝琳

U

出生日期

1975.07.09

技术职称

副教授

联系电话

18502385799

电子邮件

daisy.jin@qq.com

所在院系

财经学院

项目基本信息

项目名称

大数据环境下,基于P2P借贷平台leading Club的个 人财务风险评价及管理

执行时间

201951日至2020 430

资助经费

40万元

项目主要 参加人员

刘毅、赵宇枫、何潇伊、杨智慧、陈楠、谢伟

项目摘要(500字以内):

近年来,互联网与金融的结合更加广泛,P2P网络借贷在全球范围内快速发 展,形成了全新的金融交易体系。但是作为新生事物,发展与问题同在。P2P 络借贷中借款人信用风险对P2P网络借贷中的各方行为主体都危害极大,借款 人违约产生坏账直接危及投资人的利益,投资人无法收回投资本金,而投资人对 P2P网络借贷平台的负面评价,会累及P2P网络借贷平台的声誉,进而使其他 投资人对P2P网络借贷平台产生信任危机。因此,对借款者的不良借贷风险进 行分析就显得尤为重要。

在此背景下,本研究利用从全球最大的P2P网络借贷平台Lending Club 取的1455926个借款人2017年至2019年的数据,借助随机森林和梯度下降树 模型识别影响借款人发生不良借贷的主要因素,结果发现:影响借款人发生不良 借贷的主要特征可分为借贷发放特征和借贷人本身的特征,借贷发放特征主要 有:用户评级、月供、利率。借贷人本身的特征主要有:贷款金额、银行卡信用 额度比率、信用账户使用率、负债比、最大周转余额、循环信用额度比率。 基于上述特征,本研究使用随机森林、梯度下降树、多层感知机和传统的逻辑回 归模型构建了预测不良借贷的分类模型,结果发现,随机森林在对借款人进行信 用评级时效果要优于传统金融机构常用的Logistic模型,预测准确率最高可达到 83.87%


二、报告正文

1.研究计划要点及执行情况概述。 本研究的研究要点有如下两个方面:

1)从借款人的大量特征中,自动识别影响借款人产生不良借贷的主要因素, 并描述不良借贷用户的用户画像。本研究将借贷状态划分为良好和不良两类, 并对数据进行清洗,删除缺失率过高的数据、重复数据和无关特征后,对非数 值型数据进行哑变量编码,并对所有数据进行最大最小归一化的去量纲处理, 最后结合随机森林和梯度下降树模型,从数据集中150个数据特征中筛选出对 这两类状态的区分度最高的特征,作为影响借款人产生不良借贷的主要因素。 2)构建模型预测借款人的借贷状态,并分析其在预测借款人违约风险上与常用 经典模型的差异。本研究在研究1)的基础上,对良好借贷的用户样本进行了 下采样,在保证样本平衡的基础上,用随机森林、梯度下降树、多层感知机和 传统的逻辑回归模型构建借贷状态二分类模型,最后比较了其性能差异。 1.1研究背景

近年来,互联网与金融的结合更加广泛,互联网金融凭借其支付优势、流 程优势等优势逐渐深入人心,同时也对我国经济的发展起到了很大的促进作 用。其中,P2P网络借贷是互联网金融的一个分支。P2P(Peer to Peer)网络 借贷,通常是指个体和个体通过互联网平台进行的直接借贷活动。贷款发放的 决策过程被赋予到私人贷款人和借款人手中,P2P网贷平台上的借款人一般会 描述其贷款目的,并提供目前的财务状况如收入等,然后贷款人可根据这些信 息定位贷款的利率。对于借款人而言,P2P网贷是一种没有金融机构参与贷款 决策过程的贷款方式,也为比在传统银行系统获得更好的贷款条件提供了可 能。投资人也可把它看作是一种投资风险与贷款信用评级相联系的投资模式, P2P网贷平台本身通过提高成功交易的费用实现盈利的目的。

P2P网络借贷开始出现是在英国,因为其相较于传统银行更加方便,回报 率高,很快便快速蔓延至其他国家。艾瑞咨询统计结果显示,截至2017年, 我国网络借贷超过了 2万亿元,且年增长率高达40%,用户高达2亿人,相较 2016年增长23.1%,可见网络借贷发展之蓬勃。目前全球最大的P2P平台是成 立于美国的Lending Club。Lending Club 2014年在纽交所上市,是全球首家 上市的P2P平台。公司在运营初期仅提供个人贷款服务,至2012年平台贷款总 额达10亿美元规模。截至2015年年底,Lending Club共发放160亿美元贷 款,而他的另一大竞争对手P2P平台Prosper发放贷款总额仅为50亿美元。 即使国外的信用评估体系相当完备,信用风险仍然是P2P网贷平台的首要风 险。2016年上半年Lending Club爆出违规放贷丑闻,创始人离职,股价持续 下跌,全年亏损额达1.46亿美元。为降低借贷风险,Lending Club希望通过 有效的信用评估体系筛选优质借款人、保留一般借款人、拒绝风险较高借款 人,并根据不同信用等级划分,实现借款利率差异化定价。因此,Lending Club制定了严格、严谨、有效的信用评估系统,结合外部评分和内部评级,在 最大程度上规避坏账风险。总之,Lending Club作为业内最大的P2P平台,其 发展历史、信贷历史数据和对信用评估系统我国网贷行业发展有着重要的借鉴 意义。

相较于国外,我国的P2P行业市场尚不成熟。2007年6月,我国第一家 P2P网贷公司成立,从此网络借贷在我国拉开了序幕。在2013年前,我国 P2P网贷平台发展的很慢,属于萌芽期。2013年开始,我国P2P网贷行业在用 户和平台都开始爆发性增长。但是在爆发性增长的同时也伴随着很多风险,截 2017年,停业的P2P网贷平台已达1500家,网贷平台坏账率普遍达到了 10%以上,这显著高于传统金融机构。网贷平台的高风险,有一个主要原因是, 网贷不需要抵押,借款人违约成本较低,如果出现很多借款人违约,则会对平 台现金流产生影响,会影响平台的可持续发展。在此背景下,对借款者的违约 风险进行分析显得尤为重要。

近些年来,越来越多的新业态金融公司利用数据挖掘(Data Mining)模型 预测借款人的违约概率。数据挖掘技术的应用势必会对传统金融业的信用评估 体系带来巨大冲击,为探索如何向传统金融未覆盖的大量中小微企业和普通个 人提供金融服务创造了新的路径和解决方式。相较于传统的信用风险评估模 型,数据挖掘模型主要有三点优势。第一,传统的信用风险评估模型大多使用 参数模型或者回归分析,有较严格的前提假设,比如OLS回归要求样本服从正 态分布、无噪声且序列不相关,Logistic模型要求解释变量之间相关性较小, 而数据挖掘模型的样本则基本没有相关限制。第二,数据挖掘模型可以利用更

多的信息,只要计算机的性能允许,可以不考虑特征选择的问题。第三,不同 的数据挖掘模型分别针对的问题有所差异,所以可以选择在不同情况下表现最 优的数据挖掘模型进行预测,相应准确率也更高。比如,神经网络(Neural Network, NN)模型和支持向量机(Support Vector Machine, SVM)模型适 合构建非线性函数;决策树(Decision Tree,DT)模型效率高,可以被转换为 易于理解的规则;随机森林(Random Forest, RF)和梯度下降树(Gradient Boosting Decision Tree, GBDT)等树模型可以处理高维度数据并给出不同特 征的重要性。

网络借贷与传统金融的风控体系有着本质差别。一方面,网络借贷主要是 依靠互联网技术和数据挖掘算法对借款人的信用风险进行评估和定价,不像传 统金融机构那样依赖于人工的审核和授信;另一方面,网络借贷的数据来源更 加多元化,能够对借款人进行更生动的肖像刻画。因此,本文以网络借贷为 例,利用Lending Club平台1455926个借款人2017年至2019年的数据,利用 树模型识别能够影响借款人发生不良借贷的主要因素,并利用数据挖掘模型构 建不良借贷预测模型,为违约风险的识别和预测提供了新的思路。

1.2文献综述

现有关于研究借款人违约风险问题的文献,基本上可以概括为两类:一类 是研究借款人违约的可能性(Probability of Default),另一类是研究借款人 违约的影响因素。前者关注借款人还款的结果,而后者更关注借款人还款决策 的过程。经典的预测借款人违约的模型包括Logistic、线性概率模型、Probit 等,但是预测效果受到的限制较多。一方面,样本的分布基本有严格要求,否 则,预测效果的偏误较大;另一方面,适配度(goodness of fit)的检验不 适用于存在非线性关系的样本。

相较于经典模型,数据挖掘模型则没有太多限制。虽然针对不同的样本, 不同类型的数据挖掘模型的预测效果也略有不同,但大多数时候的表现要优于 经典模型。并且,数据挖掘模型一直在开发中,特别地,随机森林模型是2001 年才提出的。所以,国内的文献中使用数据挖掘模型的文章并不算太多,而且 应用领域也较为分散。范超等对比了 SVM、树类模型等非线性模型与 Logistics、Probit等经典模型预测P2P平台出现问题的概率,发现SVM、树 类模型等非线性模型的预测效果更好。方匡南等利用某商业银行信用卡部的数 据库,对比了不同模型预测信用卡信用风险的效果,实证结果表明随机森林模 型要优于LogisticSVM模型。吕劲松等将数据挖掘模型应用于商业银行信 贷资产质量审计之中,SVM模型有效地识别出了一部分被错误分类的贷款。

至于分析违约风险影响因素的文献,大致可以分为三个层面:一是宏观因 素,比如经济增长、利率等;二是行业因素,比如银行资本比率、内部管理 等;三是借款者个人因素,比如收入、还款记录等。由于信息不对称使得投资 人和网贷平台不能很好地评价借款人违约风险的大小,从而增加了投资者和网 贷平台的风险。借款人声誉能有效缓解信息不对称,声誉变量包括借款人以往 违约次数和借款成功次数为代表,实证得出借款人声誉对违约风险的识别效 应,且如果借款人还款能力增加,这种识别能力也会增强。以拍拍贷为例,研 究学历在网络借贷上的作用,发现随着学历的上升,借款人逾期的风险越小, 且借款成功的概率更高。另外,社会资本的存在能有效降低借款人的违约风 险,这些社会资本包括借款列表被推荐的额次数、是否加入小组、增加投资者 中朋友的个数等等。通过使用多元线性回归模型对拍拍贷进行违约风险分析, 发现随着年龄的增加违约风险越低。

然而,违约风险的影响因素选取大多具有一定的主观性,而且难以判断其 是否是影响被解释变量的关键变量。近些年,随机森林等树模型开始被用于选 取解释变量,因为其能根据解释变量在结果预测中的重要性进行排序,避免了 人为选取解释变量的主观性。方匡南和吴见彬使用随机森林模型选取了对被解 释变量影响程度最重要的前6、8、10个变量,分别对个人住房贷款违约进行 预测,发现随机森林的预测准确率明显高于其他模型。

纵观现有的文献,主要有以下两个方面值得进一步研究:第一,大多数文 献都集中于使用回归分析等经典方法预测违约风险,数据挖掘模型的使用较 少。数据挖掘模型相较于经典模型受到的限制条件较少,而且预测准确度也较 高,有广泛的应用空间。第二,大多数文献在违约风险影响因素的选取上大多 采用人为选取,分析方式依赖于对信贷业务的理解和作者自身的金融知识背 景。使用数据挖掘模型筛选变量则极大地减少了主观性和个体差异,筛选出的 特征也有助于进一步地构建违约风险预测模型。

1.3研究问题

基于现有研究和Lending Club 2017-2019年的借贷分析数据,该报告主要 研究以下两个问题:

1 从借款人的大量特征中,自动识别影响借款人产生不良借贷的主要因 素,并描述不良借贷用户的用户画像。本研究拟将借贷状态划分为良好和不良 两类,使用随机森林和梯度下降树模型并基于数据集中所有有效的数据特征, 筛选对这两类状态的区分度最高的特征。

2 构建模型预测借款人的借贷状态,并分析其在预测借款人违约风险上与 常用经典模型的差异。本研究将利用随机森林、梯度下降树、多层感知机和传 统的逻辑回归模型,构建借贷状态二分类模型,并比较其性能差异。

1. 4数据挖掘模型

数据挖掘模型根据所需目的不同,种类也非常多,本研究涉及的数据挖掘 模型主要是运用于分类和预测方面,共有四种,分别是随机森林(RF)、梯度下 降树(GBDT)、支持向量机SVM)和神经网络(NN)。这四种模型都是有监督学 习算法,即通过训练样本获得最优模型,再利用最优模型预测测试样本的算 法。

1. 4. 1 Logistic 模型

在解决现实问题的过程中,经常需要研究某一事件发生的概率,以及哪些因 素以多大程度决定最终概率的大小。Logistic回归模型是一种广义线性模型, 其因变量服从二项分布,自变量的线性预测与因变量的Logit变换相关联。给 定一组客户样本T = {(&况)}无1& e是客户的特征变量,必e (0,1}一个二分 类的属性变量,北=1表示第i个借款人的借款状态为不良,必=0表示良好,用 Logistic回归方法建立信用评分模型的目的是对指定的借款人评估其借款状态 不良的概率,Logistic回归方程表达式如式:

exp(6o + X)

1 + exp(p0 + PTX)

其中p(y = 1|X表示为不良借贷概率,Xm维向量,是m维待估计参数。

Logistic回归方程不能利用通常的最小二乘法来估计,而要用极大似然法来估计, 其原理可以简单描述如下:

假设总体*,的,…,塌N个个体组成,每次从中抽取个样本,其观测值记为

7172,…,%

给定&的条件下得到结果yt = 1的条件概率记为Pi = p(yi = 1\xi),则在同样 条件下得到结果必=0条件概率为汉必=0&) = 1-Pt于是,该观察值的概率 为:

P(3)= Piyi(1-pi)1~yi

由于各项观察相互独立,因此可以得到其联合分布函数表达式:

n

01■■■,%)=日卩产- Pi)1-yi

i=1

为了求出上式最大值,对等式两边取自然对数:

ln|X(KoM1“"m)]

n

yi(Po + B1Xi1 + + Pm^im) -ln(1 + e髙邛网+…邛

i=1

上式称为似然对数函数。为了估计似然对数函数中的参数,对上式取最大值, 并分别对求偏导数,令其为0,得到:

ePo+PixH+^+Pmxim

1 + eBo+BiXii Pmxim

/ qPo+P1xii+ Pmxim \

),1 + ePo+P1xi1+^+Pmxim] &丿

1 = 1 ' /

j = 1,2, ...,m

上述方程称为似然方程。线性回归由于待估计的参数是线性的,可以通过偏 差平方和分别对参数求偏导数得到显式解;但由于Logistic回归中的似然方程 是非线性的原因,无法获得显示解,必须通过计算机程序迭代方式求解,在计算 机技术飞速发展的今天,迭代程序已经非常普遍,促进了 Logistic回归的应 用。

对似然方程提供的厨。=1,2 ...m)的估计值称为极大似然估计,而相应的条

件概率Pj的估计值(j = 1,2…,m)是在给定&的条件下yt = 1的概率估计,它代

表了 Logistic回归模型的预测值或拟合值。

当样本随机时,可以证明Logistic回归模型的极大似然估计具有有效性、一 致性以及渐进正态性等特点。容易得到如下等式:

=^0 + 81X1 + ^2%2 + + Pnxn

上式也称为Logistic线性回归模型,左边可以看作不良借贷发生比(Odds

to be bad)的对数,也称为概率p(y = 1\X)Logit变换,即Logisitic概率单位

(Logistic Probability Unit)Logit值越高,该借款人发生不良借贷的概率越大,

违约的可能性也就越大。

此外,利用Logistic回归方法,可以对特征变量以及客户违约发生比之间的 关系进行定量研究和解释,例如可以估计某个特征变量取值的变化对违约概率的 影响大小,这一点对个人信用评分模型来说比较重要。在建模经验不足的时候, 哪些变量对客户的信用评级有决定性的影响,可以通过Logistic回归模型进行 初步探讨。

1.4.2决策树

决策树是随机森林和梯度下降树的基础。决策树是一种非线性判别分析方法, 是从机器学习领域中逐步发展出来的一种分类函数逼近方法,本质上是通过建立 一系列树形规则实现对样本分类的过程,即根据已知样本的属性和分类结果,生 成一系列树形分类器规则,利用这些规则对未知数据进行分类和预测,是一种典 型的有监督单分类器。决策树有三种类型的节点:根节点、叶子节点和中间节点, 每个节点都是一个对象的具体某个属性,从每个节点向下一层又可以分叉,生 成新的路径,该节点有多少属性集合,便有相应的分叉路径与之对应。这样, 从最上面的根节点出发,沿着某条路径,途径若干个中间节点,最后会到达某个 叶子节点,这条路径可以看作是一个分类的具体规则,而整个决策树就是由一系 列路径所构成的分类规则集合。从根节点出发,存在且只有一条路径能够到达最 终的叶子节点,保证决策树的输出是唯一的,决策树的结果可用于数据的分类和 预测。决策树的具体应用过程包含三个步骤:

第一步是对训练样本集进行分析,通过递归调用,生成倒立的树状拓扑结构; 第二步对生成的倒立树从根到叶子节点的各条路径进行分析,生成具体的分 类规则;

第三步是利用生成的分类规则,对新的数据进行分类预测,得到想要的结果。

 

2-1决策树原理示意图

 

2-1展现了决策树的基本原理,对于一个新的用户,如果用户的各项属性信 息为:无房收入5.8万元,通过上面构造的决策树, 从上图蓝色虚线路径的决策过程可以预测,该用户应该属于“无法偿还债务”。 此外,还可以得知是否拥有房产“偿还债务”的关联性非常大。

决策树的实现算法一般有三种ID3C4.5CART,本文所使用的是CART 算法。CART算法以递归的形式将n维空间划分割为不同区域。步骤分为两步:

(1) 选取一个属性爲,根据爲中的某个值将维空间分为两个部分,一部分中 所有样本都满足,另一部分所有样本都满足;

(2) 按照第一步重新选择一个属性划分,不断递归直至维空间都被划分。 属性划分的标准用的是Gini指标。假设数据集DC种类别,那么数据集奶的Gini 不纯度指标可以定义为:

C

Gini(奶)= 1~^Pi

i=1

0表示类别i样本所占总样本的比例,当数据集中种类越多,Gini值越大,当 数据集只有一种类型,Gini值为0

若所选取的属性为A其所在的数据集D被分为k个奶子数据集。分裂后 数据集DGini为:

Gini^(D)= £g)

j=i

\D\代表数据集D的样本数,||代表数据集奶的样本数。选择使得分裂后Gini 值最小的方案作为特征选取的标准。而结点分裂的条件则选取Gini增益值最大的 属性的类型作为判断条件。Gini增益值为:

AGini(A) = Gini(奶)Gini(D)

1.4.3随机森林

决策树模型虽然简单、运行速度快,但是易出现过度拟合(Overfitting)问 题。为了解决这个问题,一个自然的想法就是将单棵决策树组合为多棵决策树, 这些决策树在精度上没有显著要求,然后让所有的决策树以投票的形式对最终分 类结果进行表决,类似专家开会投票表决一样,在这个思想的启发下产生了随机 森林(Random Forest)模型。

随机森林模型是2001年由美国科学家Leo Breiman提出的一种机器学习 算法,以数据为驱动,通过对指定样本进行学习和训练得出分类规则,不需要任 何分类的先验知识,是一种非参数分类模型。随机森林可以看作是一种集成学习 模型,基本分类器由决策树组成,这些决策树是经过Bagging集成学习技术得 到,对单棵决策树的输出结果进行投票从而决定随机森林模型最终的分类结果。 随机森林对噪声和异常值有着很好的过滤效果,能够克服过拟合问题,尤其在对 高维数据的分类方面表现除了良好的并行性和可扩展性。图2-2描述了随机森林 的基本原理。

 

2-2随机森林的基本原理

 

随机森林的算法实现可以描述为:假设有一个样本集9,从中有放回地随机 生成同分布的向量序列= 1.. k),同时有放回地随机抽取特征序列Xi(i = 1..k),由&和饥生成CART的决策树心缶),多个决策树构成了随机森林 h(xk,ek),k = 1..m}根据决策树的输出结果进行投票,得票最多的分类结果就 是最优分类方式。

给定一组随机森林hi(X),h2(X)…,hk(X),从随机向量{匕X}中得到训练集, 边际方程(Marginal Function )定义如下:

mg(X, Y) = avkI(hk(X) = Y) - maxj^YavkI(hk(X) = j)

(•)是指示函数(Indicator Function),边际函数测度的是平均分类正确的数 量超过平均分类错误的数量的程度,边际函数值越大,分类预测的可信度越高。 一般误差可以写成:

PE* = Px:Y(mg(X,Y)<0)

当决策树的数量不断增加,对于几乎绝大多数序列6i,^,PE*都收敛如下: Px,Y(Pe(h(X,d) = Y)- maxj^kPe(h(X,e) = j) < 0)

所以,随机森林并不会因为决策树增加而导致过度拟合的问题。同时,随机 森林还可以计算每个特征的重要性程度,基本的思想是对已有的随机森林,用袋 外数据(Out of BagOOB)测试其准确率;然后改变其中某个特征的值,即加 入噪声干扰,再计算已有随机森林新的袋外数据准确率;那么,该特征的重要性 程度就是原始袋外数据的准确率减去加入干扰后袋外数据的准确率。

1.4.4梯度下降树

GBDT全称Gradient Boosting梯度提升树,是一种基于Boosting提升树的 算法。Boosting思想是构建很多棵回归树(回归决策树)开始时每个样本权重一 样,用第一棵树来学习模型,后一棵树降低上一颗棵学习好的样本权重,增大没 有学习好的样本权重,即重点学习上一棵树的残差(预测值与真实值的差)最后 将这些回归树线性加权。而GBDT就是在Boosting上加入了梯度下降算法,每一 次建立回归树是在之前建立回归树损失函数的梯度下降方向,使得残差往梯度方 向上减少,速度更快。GBDT的算法流程如下:假设我们前一轮迭代得到的回归 树是/t_i(%)损失函数是:

L(y,/t_i(x))

式中为输入值,y为真实值,/t_i(x)为模型预测函数。计算损失函数的负梯 度为:

3L(yi,f(xi)')

之后得到本轮损失函数:

L(y,ft(x)) = L(y,ft_1(x) + ht(x))

则式中ht(x)为本轮需要寻找的弱回归树。针对每一个叶子节点里的样本,我 们求出使损失函数最小,也就是拟合叶子节点最好的的输出值ctj:

n

=argmin 2 ▲⑴,_1(&) + C)

1=1

式中,c为拟合叶子节点索引。之后得到了本轮的决策树拟合函数如下:

t
ht(x) = 2 W
j=i

式中I为单位矩阵。最后,本轮最终得到的强回归树的表达式如下:

t
ft(x) = ft_i(x) + 2ctjI
j=1

1.4.5神经网络

神经网络模型是模拟生物神经网络的算法,其涉及的具体算法有很多种,本 文使用的是多层感知机(Multi-layer PerceptronMLP)算法。MLP是一种特殊 的有向图,结点被看作神经元,连接结点的有向弧被看作连接神经元的神经。 MLP的结构一般分为三个部分:输入层、隐藏层和输出层,如图2-3所示:

 

2-3多层感知机原理示意图

 

神经元之间的传导需要用一个激活函数进行分类(激活为1,未激活为0), 常见的激活函数有sigmod或者tanh当该神经元超过一定阈值时,此神经元 被激活传导到下一神经元。输出层则极小化以下的损失函数:

 

O = {} [zlog(y~) + (1 - z)log(l - y)]}

(*)

其中,

的概率。

X为输入特征;Z为输入特征对应的激活值,取值为01yz对应

 

2.研究工作主要进展及所取得的研究成果。

2.1数据分析和模型实现

本研究的数据来源是Lending Club信贷平台上2017年至2019年共1455926 个借款人的借贷数据,每个借贷人有153项数据特征,包括申请贷款金额、贷款 目的、年收入等个人信息,也包括发放金额、利率、用户评级等表示借贷人在 Lending Club借贷状态的信息。

本研究的主要任务是:

1 结合梯度下降树和随机森林模型,从153项特征中筛选出区分不良借贷 的主要影响因素。

2 根据计算得到的主要影响因素,分别描述Lending Club的贷款发放特征 以及良好借贷和不良借贷的借款人区别。

3 根据随机森林、梯度下降树、多层感知机模型和Logistic模型,构建不良 借贷状态的分类预测模型。

2.2特征筛选

2.2.1借贷状态

首先观察目标变量一一借贷状态的数据分布情况。借款人的借贷情况分为七

类:正常还款、已还完、注销、在宽限期、拖欠16-30天、拖欠31-120天、违约。 该报告设定拖欠16-30天、拖欠31-120天、违约为不良借贷状态,其他状态为良好 借贷状态。图2-1左)是借款人借贷状态的分布情况。图2-1(右)是2017-2019 年每季度的借贷状态数量变化。

 










 

 

 


2-1借贷状态的分布情况(左)2017-2019年每季度的借贷状态数量变化
(右)

2-1左)描述了不同借贷状态的比例分布,其中不良借贷的占比很小,仅 1.96%,且大部分不良借贷情况为程度较轻的拖欠16-30天,说明总体借贷状态 良好。图2-1 (右)描述了2017-2019年每季度的良好借贷和不良借贷数量以及 所有借贷数量的变化趋势。总的借贷数量整体呈上升趋势,不良借贷数量波动在 较小范围内,但整体而言仍是下降态势。

2.2.2数据预处理

该数据集共有1455926个借贷人的153项数据特征,包括申请贷款金额、贷款 目的、年收入等,首先删除数据缺失率在3%以上的特征以及明显与借贷状态无 关的特征(如邮编),再删除相似度过高的特征(如申请贷款金额和批准贷款金 额)以及时效性过强且直接决定了借贷状态的特征(如当前已偿还金额和当前已

偿还利息)共得到47项特征。之后删除带有缺失值的用户,得到1048576个借 贷人。由于数据挖掘模型输入数据必须为数值型,且要求目标变量尽可能为平衡 的,我们对非数值型数据进行哑变量编码(将非数值型变量转换为数值型变量), 再通过下采样Under Sampling,从1014853个借贷状态良好的样本中随机抽取 33722个样本,使得正例和负例样本数相当。最后为了防止数据尺度对模型造成 影响,我们使用最大最小归一化进行量纲统一,整个数据预处理过程如图2-2 示:

 










 

 

 


2.2.3特征重要性

将预处理后的数据分别输入GBDT和随机森林模型,模型编写使用python3.7 sklearn框架,分别得到重要性排名前十的10个特征,如图2所示:

 

















































 

 

 


 


2-3 GBDT (左)和RF (右)的重要性前十的特征排序


两个模型的计算结果中,利率、评分等级、月供、银行卡信用额度比率都是 排名前四的特征,说明它们对借贷状态有较强的影响。最大周转余额和循环信用 额度比率也是同时出现在两个模型中的特征,也可以说明其对借贷状态有一定的 预测能力。

另外,考虑到利率、月供和评分等级都是Lending Club为借贷人设定的主要 借贷特征,说明Lending Club的借贷发放系统能够有效地评估预测借贷人的还款 可能性,实现了信用分级评价和利率差异化定价。

为了考察借贷人本身的特性对借贷状态的影响,以构建不良借贷用户的用户 画像,我们将与Lending Club有关的特征删除,再次使用随机森林和GBDT模型评 估特征重要性,计算结果如图4所示:

 







 

 

 


2-4 GBDT (左)和RF (右)的重要性前十的特征排序(仅包含用户特征)

两个模型的计算结果中,贷款金额、银行卡信用额度比率、信用账户使 用率、负债比是同时出现在两个模型中的特征,说明其对借贷状态有一定的 预测能力。结合图2中的计算结果,我们共得到9个可以认为对借贷状态有重 要影响的主要特征。分别是:用户评级、月供、利率、贷款金额、银行卡信 用额度比率、信用账户使用率、负债比、最大周转余额、循环信用额度比率。

2.2.4影响方式

为了初步研究这些特征对借贷状态的具体影响方式,我们将这些特征输 Logistic模型,从权重的正负定性分析这些特征与借贷状态的关系。

 

2-5 9个主要特征的Logistic模型权重

Logisti c模型中的权重为正表示特征正向预测预测借款人不良借贷的发生可 能性。由图可以看到,用户评级(信用评级越低,数字越大)和月供越大,不 良借贷的发生可能性越大;最大周转余额、银行卡信用额度比率、利率、贷款金 额、循环信用额度比率、负债比越大,不良借贷的发生可能性越小。由于我们对 数据进行过归一化的去量纲处理,可以认为权重的绝对值越大,则影响程度越大。 可以初步推断,最大周转余额、银行卡信用额度比率、用户评级、月供对不良借 贷状态的影响较为明显。

考虑到Logistic模型的结论可能会受到变量直接的相关性的影响,为了进一步 挖掘这些特征之间的相关性,挖掘不同变量之间的联系,我们计算了皮尔逊相关 系数矩阵,其热力图如下图所示:


 







 

 

2-6中,颜色越浅,表示相关性越强。可以看到,用户评级和利率有较强 的相关性;贷款金额和月供有较强的相关性;循环信用卡额度比率和银行卡信 用额度比率有较强的相关性。用户评级和利率之间的相关是由于Lending Club 据用户评级制定利率,评级越低,利率越高;而贷款金额越高,月供自然越 高。这两对相关性大致描述了L ending Club的放贷方式,具体关系将在3.3中详 细分析。

循环信用额度比率和银行卡信用额度比率之间的相关是由于循环额度包含 了银行卡信用额度。这两个特征都表示借贷人的信用额度,这类特征出现了两 次,说明信用额度对不良借贷的发生可能性有着较强的预测能力。

结合相关性分析的结果,我们将主要影响因素分为借贷发放特征和借贷人特 征两类,从放贷机构和借款人两个角度,分别分析不良借贷的发放情况和用户画 像,如表1所示,并在后面的章节对这些特征进行逐一分析。

1对不良借贷有主要影响的9个特征
借贷发放特征 借贷人特征

贷款金额

银行卡信用额度比率

信用账户使用率

负债比

最大周转余额
循环信用额度比率

2.3特征描述

2. 3. 1借贷发放特征

该部分从借贷机构的角度出发,分析L engding Club借贷发放方式和不良贷款 状态的关系。

1)评分等级

 










 

 

 

 


 


2-7 (左)是各评级不同借贷数量的借贷人数,图2-7 (右)是各评级不 良借贷人数的比率。A-D类评级的用户获得借贷的数量最多,出现不良借贷 状态的比率都在6%以下,且不良借贷发生比率从高到低的排序与评级排序完 全一致。如果将不良借贷比率为5%视作一个分水岭,则E-G级用户都可以视 为存在较高的不良借贷风险。其中,G级用户出现不良借贷的比率较高,G2- G5类用户的不良借贷比率均在10%以上。这一方面进一步说明Lending Club 现有的用户评级较好地区分预测了不同借贷人的还款能力,另一方面,为了 更好地控制风险,应该进一步减少给G类用户放贷。

 










 

 

 

2-8描述了 2017-2019年各季度不同等级贷款人的数量及其变化趋势。评 级最高且风险最小的A类用户数量整体呈上升趋势;B-D类用户总体数量波动但 维持稳定;评级较低的E-G级用户数量整体减少。从单个季度来看,E-G级用户 的数量占比在每个时期都维持在最低范围,从2018年第三季度开始,每个季度 的用户数量排序和用户评级排序一致,即评级最高用户的数量最多,评级最低 的用户数量最少。这表明Lending Club的风险控制在逐年加强,结合前面分析已 知的不良借贷数量在逐渐减少的现象,这样的风险控制操作是有效果的。

1)利率

 




 

 

 

 


 


2-9是利率、用户评级和借贷状况的关系。Lending Club根据用户评级 制定利率,评级越低,利率越高。从图中可以看出,随着用户评级的降低, 利率整体以0.05的增幅呈阶梯状上升。用户评级越极端,利率分布越集中,

G类用户的利率集中在0.30以上,A类用户的利率均在0.10以下,D类用户的 利率分布最为分散。同一用户评级下,良好借贷和不良借贷状态的利率分布 无明显差别。这说明利率对借贷状态的影响主要还是通过用户评级。

2)月供

 

2-10月供、用户评级和借贷状况的关系

 

2-10是月供、用户评级和借贷状况的关系。可以看出,用户评级越低, 月供越高,月供分布越分散。不良借贷状态下的月供略微高于良好借贷状态, 其中F类用户的差距最大,说明F类用户不良借贷发生的原因可能与过高的月 供有关。G类用户的月供整体而言最高,集中在250-1000的范围内,A-D类用 户的月供都集中在0-500之间。

2. 3. 2借贷人特征

1)贷款金额


 










 

 

2-12表示不同用户评级和借贷状态下,贷款金额的分布情况。A-D类用户 良好借贷状态下的贷款金额分布呈现分级式的崎岖分布,这可能是由于这类用户 在良好借贷条件下的申请金额偏向于1000020000这样的整数;而不良借贷状态 下的贷款金额分布以及F类用户和G类用户的贷款金额分布则较为平滑,更加偏
向于有零头的数字。可以推论,发生不良借贷的借款人大部分是在还款能力欠缺 的条件下申请贷款,贷款时需要考虑的因素更多。

2)银行卡信用额度比率

 










 

 

 

 


2-13描述不同借贷状态下的银行卡信用额度比率分布

银行卡信用额度比率是指借贷人总的银行卡信用额度/信贷信用限额,图2-13 描述不同借贷状态下的银行卡信用额度比率分布。借贷良好条件的借款人信用 额度比率主要分布在0-2500000之间,最高达到15000000。发生不良借贷的借款 人信用额度比率上限(300000左右)明显比借贷良好条件的借款人(15000000 左右)低,且集中分布于0-100000的范围内。这提示我们,对于银行卡信用额 度比率在300000以上的人,其发生不良借贷情况的可能性极小,可以考虑给予 较高的评级并予以借款。

3)循环信用额度比率

 




















 

 

2-14不同用户等级和借贷状态下的循环信用额度比率散点分布

循环信用额度比率是指借款人的总周转信用额度/信贷信用限额,图2-14描述 了不同用户等级和借贷状态下的循环信用额度比率散点分布。可以看到,该项数 据非常集中地分布于0-400000之间,良好借贷条件下A-D级用户的循环信用额度 比率会出现极高的异常值。没有出现循环信用额度在1200000以上的用户发生不 良信贷的情况。随着用户评级的降低,循环信用额度比率逐渐降低,F类用户和 G类用户的循环信用额度比率基本都在200000以下。

6)最大周转余额

 







 

 

 

 


 


最大周转余额是指借款人全部经营资金或流动资金在一定时期内完成实现 的最大周转额。图2-15描述了不同用户评级和贷款状态下的最大周转余额分布。 从图中可以看出,不良借贷状态下的最大周转余额明显低于良好借贷状态。借贷 人最大周转金额在200000以上时,没有出现不良借贷的情况。A-D类用户的最大 周转金额的分布较为类似,E-G类用户的最大周转金额则明显偏低,最高不超过

200000, G类用户最高的最大周转金额不超过100000。总的来说,最大周转金额 200000或许可以作为一个用户分级和评估借贷风险的分水岭,在此之上的用户可

以考虑给予较高的评级并提供放贷。

4)信用账户使用率

 







 

 

 

2-16不同用户评级下的信用账户使用率分布

信用账户使用率是指循环信贷的使用概率,一定程度上反应用户的资金稳 定性。图描述了不同用户评级下的信用账户使用率分布。总体而言,用户级别 越低,信用账户使用率越高,评级越低。同级别下,除了A级用户,良好借贷 情况下的循环信贷的利用率略高于良好借贷情况下,且在B-F级用户中,良好借 贷情况下的信用账户使用率容易出现极高的异常值。较高的信用账户使用率可 能意味着用户处于频繁进行金融交易的状态,这意味着其资金的不稳定性,但 也意味着用户的还款意愿和还款能力。但总体而言,高信用账户使用率仍然意 味着咼风险。

5)负债比

 













 

 

 

 


 


2-17不同借贷状态下的负债比分布


负债比是指全部负债与全部资金来源的比率,用以表明借款人负债占全部资 金的比重。图2-18描述了不同借贷状态下的负债比分布。不良借贷状态下的借 款人负债比集中分布在0-100之间,良好借贷状态下的负债比则集中分布在0- 200之间。一般而言,负债比越高,不良借贷的风险越大,但该指标也从侧面反 映了借款人的还款能力。为了进一步分析负债比和借贷状态的关系,我们结合用 户评级,分析不同评级下的借款人的负债比。

 

2-18用户评级和负债比分布

 

2-18是用户评级和负债比分布的散点图。可以看到,每个评级都有负债比 极高(1000左右)的用户。评估不良借贷的风险等级不能以负债比一概而论。A 级和E级用户的负债比大部分在400以下,F级和G用户的负债比大部分在200以下, B-D级用户的负债比主要分布0-600之间。总的来说,AB级用户可以描述为有 还款能力,且负债比较小的用户,因此放贷风险也最小。C-E级用户是有还款能 力,但负债比较高的用户。FG级用户虽然负债比很低,但可能伴随着收入较低 等问题,所以放贷风险仍然很高。

2.4不良借贷预测模型

2.2.2中预处理后的数据以训练集:测试集=8:2的比例进行划分后,分别输入 到随机森林RF、梯度下降树GBDT、多层感知机MLP中。模型编写 使用pythonsklearn框架。表2给出了不同模型与常用经典模型L ogisti c模型预测

准确率的差异。可以看到,预测准确率最高的是随机森林模型,其次是GBDT

MLPLogistic模型,三种数据挖掘模型的预测效果均优于Logistic模型。

2模型准确率和F-Score

 

RF

GBDT

MLP

Logistic

Accuracy

0.8213

0.8163

0.7913

0.7580

F-Score

0.8162

0.8156

0.7893

0.7577

 

2-19是四种模型的混淆矩阵示意图,可以看到,效果最好的随机森林模型

 
















 

 

 


 

 


总结:

本研究利用随机森林和梯度下降树模型,从1455926个借款人150个维度特 征中筛选出九个影响借款人是否发生不良借贷最重要的因素,并分析了这些因素 影响借款人违约的方式。主要的研究成果如下:

1)影响借款人发生不良借贷的主要特征可分为借贷发放特征和借贷人本身 的特征,借贷发放特征主要有:用户评级、月供、利率。借贷人本身的特征主要 有:贷款金额、银行卡信用额度比率、信用账户使用率、负债比、最大周转余额、 循环信用额度比率;

2 最大周转余额和银行卡信用额度比率越大,不良借贷的可能性越低;

3 用户评级和月供越大,不良借贷的可能性越高;

4 不良借贷状态的借款人申请数额过大或者过小贷款的情况较少,且更偏 向于有零头的数值;

5 银行卡信用额度比率在300000以上的人和循环信用额度在1200000以上 的用户其发生不良借贷情况的情况极少;

6 对于信用账户使用率和负债比不能一概而论,需要结合用户的上述特征 情况进行分析。

基于上述特征,本研究构建了预测不良借贷的分类模型,并对比了数据挖掘 模型和常用经典模型在评估借款人违约风险效果上的差异,结果发现,随机森林 在对借款人进行信用评级时效果要优于传统金融机构常用的Logistic模型,最 高准确率可达到83.87%。

三、支出决算

课题支出决算表

科目名称

支出经费(万元)

“智融兴教”基金课题研究用云计算设备采购项目

20

 

 

 

 

 

 

 

 

合计:

 


四、单位审核意见


 

 


 


 


课题负责人(签字):金 双Q#月/。日'


依托单位审核意见:

教育部科技发展中心审核意见: