郭帅+韩胜+刘妍
摘要:随着“互联网+”时代的来临,国内P2P网贷平台迅猛发展,这种贷款模式凭借着投资高收益、低门槛和操作简便等优点,已成为时下炙手可热的互联网金融新模式。但由于准入门槛低,个人信用评估体系的不完善,使得平台面临巨大的信用风险。本文提出了基于PCA-BP神经网络的个人信用评估模型,利用PCA对个人信用风险评估的众多指标进行降维,得到几个主分量,将主分量作为BP神经网络的输入因子,利用BP神经网络的自学习、自调整以及非线性映射功能,使得在个人信用评估时实现了全自动化。
关键词:个人信用评估;P2P网贷;PCA;BP神经网络;动态量化
随着“互联网+”时代的来临,P2P平台数量有了爆发式的增长,这种新模式凭借着低门槛、高收益等优点以迅雷不及掩耳之势深入人心,但另一方面行业飞速发展的背后一定存在着一些问题,P2P行业种种“跑路”、违约风险接踵而至。我国个人信用评估体系存在个人信息不准确、个人信用观念和个人信用评估体系不成熟等问题,由此,本文提出了一种基于PCA-BP神经网络的个人信用评估模型和算法,在有效降低眾多指标维数的同时,利用BP神经网络自组织、自适应、自学习的功能,使得在个人信用评估时实现了全自动化。
1.PCA与BP神经网络算法简介
1.1 PCA算法简介
信息安全风险评估值的变化具有不确定性和非线性等特点。风险评估值受诸多因素的影响,并且因素之间还存在一定的相关性。传统的线性预测方法无法正确反应风险评估值的变化规律。而PCA可以去除因素之间的相关性,减小BP神经网络的输入变量,优化BP神经网络结构[1]。主成分分析法 ( principal component analysis,PCA) 是将多指标转化为少数几个综合指标的一种统计分析方法。它将一组给定的相关变量通过线性变换,转换成另一组不相关的变量,变换中保持变量的总方差不变,新变量按照方差依次递减的顺序排列。经过主成分分析,可以在保留信息安全风险因素主要信息的基础上降低支持向量机的输入维数。
1.2BP神经网络算法简介
人工神经网络是由大量简单的基本原件——神经元相互连接,通过模拟人的大脑神经处理信息的方式,进行信息并行处理和非线性转换的复杂网络系统。神经网络的优点是多输入多输出实现了数据的并行处理以及自学习能力。前向反馈网络和径向基网络是目前技术最成熟、应用范围最广泛的两种网络。BP神经网络是一种多层前馈神经网络,它的名字源于在网络训练中,调整网络权值的训练算法是反向传播算法。图1为含有一个隐层的BP网络。
由图1知,BP神经网络拓扑结构包括输入层、隐含层和输出层,上下层之间实现全连接,而同一层的神经元之间无连接,每层节点的输出只影响上一层节点的输出,每个节点都具有单个神经元结构。
2.基于PCA-BP神经网络的个人信用评估模型构建
2.1 基于PCA算法个人信用评估模型指标的确定
由于商业银行个人信贷数据不公开,难以取得足够多的样本,所以本文选取了德国某商业银行在个人信用评分领域比较有名的数据集[2]用于演示模型的求解及实证检验。该数据一共有20个指标变量,1000个样本点,其中没有违约的客户为700个,违约客户为300个。将该数据的各个指标进行赋值进行数值化处理,对20个指标利用PCA进行降维[3],得到的结果见表1。
在输出的主成分结果中,第一列为10个主成分;第二列为对应的“特征值”,表示所解释的方差的大小;第三列为对应的成分所包含的方差占总方差的百分比;第四列为累计的百分比。一般来说,SPSS默认选择“特征值”大于1的成分作为主成分。在上表中,前8个成分的特征值大于1,他们的累计贡献率为69.006%。由于所研究的指标较多,因此我们可以认为前8个成分能够作为主成分,其余成分所包含的信息较少,故可以舍去。
2.2基于BP神经网络构建个人信用评估模型
2.2.1数据的归一化处理
8个影响因子作为学习样本中的输入因子,输出因子为个人信用风险的评估结果。在进行样本训练之前,需要对数据进行归一化处理[4],用来加快神经网络的学习速度以及运算的结果,归一化处理方法如下。
2.2.2 神经网络的构建
取700组数据作为训练样本,300组数据作为检验样本,隐层节点数设为5,输出层有1个节点,输出结果1表示优质客户,2表示违约客户。隐层采用激活函数为softmax函数,输出层采用的函数为恒等函数。得到的输出结果如表3所示。
3.小结
从表3可看出BP神经网络模型对全部样本的回判(预测)准确率为83.4%,其中对优质客户样本的回判准确率高达94.4%,对劣质用户样本的回判准确率为68.3%。从实证检验的过程及预测效果来看,神经网络模型的预测精度最高并且拟合性也很好,对样本回判测试的总准确率为83.4%。该模型对劣质客户预测准确率偏低,是因为这里所使用的数据都是曾经通过了审核并获得了贷款的用户,而商业银行更多地是保留了通过借款申请并已发放贷款的客户的资料,对未通过借款申请的客户的资料则保留得较少,因此造成建模样本中劣质客户的样本数量不足,模型对这些样本的预判也因而受到影响。
参考文献:
[1]姜起源.数学模型(第三版)[M].北京:高等教育出版社,2003
[2]张健.商业银行个人信用评估模型研究[D].2012
[3]肖智.基于主成分分析和支持向量机的个人信用评估[J].2010
[4]张道宏.基于BP神经网络的个人信用评估模型[J].2006endprint