王重仁,韩冬梅
(上海财经大学 信息管理与工程学院,上海 200433)
基于卷积神经网络的互联网金融信用风险预测研究*
王重仁,韩冬梅
(上海财经大学 信息管理与工程学院,上海200433)
针对互联网金融行业的信用风险评估问题,提出了一种基于卷积神经网络的客户违约风险预测方法。首先将输入数据分为动态数据和静态数据,将动态数据和静态数据分别转换为矩阵和向量,然后利用改进的卷积神经网络来自动提取特征并进行分类,最后使用ROC曲线、AUC值和KS值作为评价指标,将该方法与其他机器学习算法(Logistic回归、随机森林)进行比较。实验结果表明,卷积神经网络模型对于信用风险的预测效果要优于对比模型。
信用风险评估;卷积神经网络;机器学习;深度学习
近年来,国内互联网金融行业呈爆炸式增长态势,随着行业的不断发展,如何有效评价借款人的信用风险已成为互联网金融行业能否可持续健康发展的关键环节之一,日益受到人们的重视[1]。
客户信用风险评估本质上是一个分类问题,即将客户分成违约和按时还款两类。客户信用风险预测模型的发展经历了三个阶段:定性分析、统计学方法和人工智能方法[2]。定性分析是最早用于信用评估的方法,其后统计学方法被逐渐引入到信用评估中。近年来,随着机器学习的发展,一些智能化方法被陆续应用到信用评估研究中。例如, MALEKIPIRBAZARI M等[3]使用随机森林算法对国外网络借贷平台Lending Club借款人的风险进行预测。然而,这些传统机器学习方法预测效果的好坏非常依赖于人工设计的特征,而人工设计特征的方法往往无法考虑到所有特征,同时人工设计特征需要花费大量时间和人工成本[4]。
近年来,深度学习受到了越来越多学者的关注,卷积神经网络(Convolutional Neural Network,CNN)则是其中一种经典而广泛应用的网络结构。LECUN V等人[5]在1998年提出了LeNet-5,LeNet-5成功应用到了手写字符识别领域。2012年,KRIZHEVSKY A等人提出的AlexNet[6]在ImageNet图像分类竞赛中夺得了冠军,使得CNN成为了各界关注的焦点。在此之后,CNN模型不断改进,比如Google的GoogLeNet[7]等。CNN能够从数据中自动学习特征,从而代替人工设计特征,且深层的结构使它具有很强的表达能力和学习能力。经过不断发展,CNN逐渐从图像分类扩展到其他领域,比如:行人检测、自然语言处理、语音识别等。目前CNN的应用场景大部分都是非结构化数据分类问题,近年来,开始有研究尝试将CNN应用到结构化数据分类问题中,比如李思琴等[8]提出了基于CNN的搜索广告点击率预测的方法。本文研究所用数据来源于国内一家互联网金融平台——融360,本文尝试使用卷积神经网络来进行互联网金融行业违约风险预测研究。
将输入数据分为两类,一类为静态数据,如描述用户基本属性的性别、职业等;另一类为动态数据,动态数据主要包括用户的历史行为数据,如用户的银行流水记录、用户浏览行为、信用卡账单记录。动态数据为时点数据,会随着时间的变化而改变。本文研究所用到的输入数据的变量如表1所示,数据的标签为用户是否违约,用户违约定义为逾期30天以上。
表1 输入数据变量列表
在本文中,将用户动态数据转换成矩阵,矩阵如图1所示,其中矩阵的行代表用户的行为数据,矩阵的列代表时间,时间基本单位为月或周。假设用户放款时间为时间点t,用户数据的时间范围为放款前m个时间单位和放款后n个时间单位,因此构建矩阵时,矩阵各列以用户放款时间t为基准,按照时间的先后顺序进行排列。假设用户的行为数据种类数量为p,那么矩阵共有p行,m+n+1列,矩阵中的元素代表用户在某个时间点上的某一种行为的特征,一个矩阵代表了一个用户在不同时间点上的所有行为特征。
将银行流水记录和信用卡账单记录的时间基本单位设置为月,以月为单位进行汇总,将用户浏览行为的时间基本单位设置为周,以周为单位进行汇总,汇总时可选用的指标有合计、计数、平均等。因三种历史行为记录转换成的矩阵的大小不相同,所以将三个矩阵作为三个单独的数据源进行输入。
对于输入数据中静态数据,因数据不会随着时间的改变而改变,所以用向量的方式来进行编码,假设用户基本属性数据在数据处理后的种类数量为q,则用户静态输入数据的大小是1×q。
图1 动态数据转换后的矩阵示意图
本文提出的改进卷积神经网络模型借鉴了经典的LeNet-5和GoogLeNet的结构,构建的卷积神经网络模型包含四个子卷积网络,每个子卷积网络都有单独的输入,四个子卷积网络最后在全连接层(Fully Connected Layer,FC)进行融合,全连接层之后是Softmax输出层,CNN结构如图2所示。
图2 卷积神经网络结构
对于四个子卷积网络,与动态输入数据连接的子卷积网络采用两个卷积层(Convolutional Layer,CONV)和两个池化层(Pooling Layer,POOL)来自动提取特征,考虑到静态输入数据特征较少,与静态数据连接的子卷积网络只采用了一个卷积层和一个池化层。
卷积层由多个特征面(Feature Map)组成,每个特征面由多个神经元组成,每一个神经元通过卷积核与上一层特征面的局部区域连接。卷积层利用局部连接和权值共享,减少网络自由参数个数,降低网络参数复杂度[9]。卷积层计算公式如下:
X(l)=f(Wl⊗X(l-1)+b(l))
(1)
其中X(l)和X(l-1)代表层l层和l-1层的神经元活性,Wl代表卷积核,b代表偏置。
对于与动态输入数据连接的三个子卷积网络,采用相同的参数,在第一个卷积层,选择了64个大小为1×3卷积核,目的是提取用户每一个行为在不同时间点上的特征。卷积层之后是池化层,池化层起到二次提取特征的作用,它的每个神经元对局部接受域进行池化操作。常用的池化方法有最大池化、随机池化和均值池化,这里选择最大池化法(取局部接受域中值最大的点)。在池化层之后连接第二个卷积层,选择了128个大小为3×3的卷积核,目的是进一步提取用户每一个行为指标在不同时间点上的特征,并且提取用户同一时间上不同行为的特征。在第二个卷积层后同样连接了一个池化层。对于静态输入数据采用了一个卷积层和一个池化层来提取特征,卷积层使用了64个大小为1×3的卷积核。
四个子卷积网络的输出全部在全连接层进行融合,第一个全连接层和第二个全连接层的维度分别是512和256。最后,选择Softmax函数作为输出分类器。Softmax函数估计输入x属于特定类别j∈k的概率:
(2)
选择常用的修正线性单元(Rectified Linear Unit,ReLU)作为激励函数,ReLU激励函数可以防止梯度消失和过拟合问题,ReLU激励函数定义为:
fcov(x)=max(0,x)
(3)
Dropout是CNN中防止过拟合提高效果的一种有效手段,它是指在卷积神经网络的训练过程中,对于神经网络单元,按照一定的概率将其从网络中丢弃,本文在每个子卷积网络的最后一个池化层后面进行Dropout(0.3)操作。
为了证明CNN在用户信用风险预测问题上的优越性,选择了在信用风险预测领域常用的两种传统机器学习方法作为对比:Logistic回归(Logistic Regression,LR)和随机森林(Random Forests,RF)。
以TP(True Positive)代表被模型预测为正的正样本,以TN(True Negative)代表被模型预测为负的负样本,以FP(False Positive)代表被模型预测为正的负样本,以FN(False Negative)代表被模型预测为负的正样本。
ROC(Receiver Operating Characteristic)和AUC(Area under Curve)指标是常用的评价指标。首先计算真正率(TPR)和假正率(FPR)的值,然后以FPR和TPR为坐标形成折线图,即ROC曲线。
(4)
(5)
ROC曲线越靠近左上角,代表模型分类性能越好。AUC是ROC曲线下方面积,AUC越大,代表模型的准确性就越高。
KS(Kolmogorov-Smirnov)是信用风险评分领域常用的评价指标,首先将数据样本按照预测违约概率由低到高进行排序,然后计算每一个违约率下的累积TPR值和累积FPR值,最后求这两个值的差值的最大值,即为KS指标。KS值越大代表模型对于违约客户和按时还款客户的分辨能力越强。
本文数据源共包含50 000个用户的数据。首先对数据进行预处理。将类别型变量,如性别,转换为One-hot编码,同时将连续型变量,如收入金额,进行归一化处理。将用户行为记录和用户基本属性分别转换成矩阵和向量作为CNN的输入。同时采用特征提取的方式,从用户行为记录中抽取特征作为传统算法的输入,特征值从用户行为记录中汇总得到,选用的汇总指标有合计、计数、平均等。为了更好地对模型进行评估,将数据划分为训练集、验证集和测试集。
实验结果如表2和图3所示,表2中显示了3种模型实验结果的AUC值和KS值。从表中可以看到,本文构建的CNN模型实验结果的AUC值和KS值都远远高于传统方法。同时如图3所示,CNN的ROC曲线始终处于最左上方。以上表明本文提出的CNN方法具有较好的信用风险预测效果。
表2 模型运行结果
本文针对互联网金融行业的用户信用风险评估问题,提出了一种基于卷积神经网络的客户违约风险预测模型。首先将输入数据分为动态数据和静态数据,将动态数据和静态数据分别转换为矩阵和向量,本文建立的卷积神经网络模型包含四个子卷积网络,最后使用ROC、AUC值和KS值作为评价指标,将该方法与其他传统机器学习算法(LR、RF)进行比较。实验结果表明,卷积神经网络模型的客户违约风险预测性能要优于其他模型,能对借款人的信用风险进行更准确的评估,同时,卷积神经网络模型能够从数据中自动学习特征,与人工设计特征相比,可以节约大量的时间,因此本文建立的模型在互联网金融行业的信用风险评估领域更具有优势。
[1] 于晓虹,楼文高.基于随机森林的P2P网贷信用风险评价、预警与实证研究[J].金融理论与实践,2016(2):53-58.
[2] REDMOND U,CUNNINGHAM P. A temporal network analysis reveals the unprofitability of arbitrage in the prosper marketplace[J]. Expert Systems with Applications,2013,40(9): 3715-3721.
[3] MALEKIPIRBAZARI M,AKSAKALLI V. Risk assessment in social lending via random forests[J]. Expert Systems with Applications,2015,42(10): 4621-4631.
[4] 操小文,薄华. 基于卷积神经网络的手势识别研究[J]. 微型机与应用,2016,35(9): 55-57.
[5] LECUN Y,BOTTOU L,BENGIO Y ,et al. Gradient based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11): 2278-2324.
[6] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems,2012: 1097-1105.
[7] SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]. Computer Vision and Pattern Recognition,2015:1-9.
[8] 李思琴,林磊,孙承杰,等. 基于卷积神经网络的搜索广告点击率预测[J]. 智能计算机与应用,2015(5): 22-25,28.
[9] 郑昌艳,梅卫. 基于卷积神经网络的空中目标战术机动模式分类器设计[J]. 微型机与应用,2015,34(22): 50-52.
Prediction of credit riskin Internet financial industry based on convolutional neural network
Wang Chongren,Han Dongmei
(Department of Information Management and Engineering,Shanghai University of Finance and Economics,Shanghai 200433,China)
A method of customer default risk prediction based on convolutional neural network is proposed in the light of credit risk evaluation problem in the Internet financial industry. Firstly,the input data is divided into dynamic data and static data,and the dynamic data and static data are converted into matrix and vector. Then,an improved convolutional neural network is used to automatically extract features and classify. Finally,the ROC curve,AUC value and KS value are used as evaluation metrics,and the method is compared with other machine learning algorithms (Logistic Regression and Random Forest). The experimental results show that the convolutional neural network model overcomes the contrast model in the field of customer credit risk prediction.
credit risk evaluation; convolutional neural networks; machine learning; deep learning
上海财经大学研究生教育创新计划项目(2015111101)
TP391
A
10.19358/j.issn.1674-7720.2017.24.013
王重仁,韩冬梅.基于卷积神经网络的互联网金融信用风险预测研究J.微型机与应用,2017,36(24):44-46,50.
2017-05-25)
王重仁(1984-),男,博士研究生,主要研究方向:数据挖掘。
韩冬梅(1961-),女,博士生导师,教授,主要研究方向:经济分析与预测。