(湖南工商大学大数据与互联网创新研究院 湖南 长沙 410006)
大数据环境下的网络借贷业务繁荣发展,微额借贷以其较低的借贷利率、灵活的借贷周期、便捷的借贷流程,受到了大部分中低收入群体和微型企业的追捧,同时互联网微额借贷成为了无抵押条件下小额借贷模式与互联网技术有机结合的新型金融服务模式。但是借贷机构以较低的门槛开展微额借贷业务,虽可大幅提高机构借贷效率,但也更大程度上增加了贷款无法及时回笼的风险,因此产生的信用违约问题也日益突出,对借贷机构造成了严重的不良影响。为避免客户信用违约,借贷机构需要提高预测客户信用水平的能力,因此本文将特征提取与支持向量机结合起来,在优化原始样本的前提下,采用信用评估领域表现较优的支持向量机方法进行微额借贷客户的信用评估,并进行评估方法的对比研究。
本文研究的主题是微额借贷客户的信用评估,因此对原始样本进行优化是提高信用评估方法预测准确率的重要途径。特征提取是通过降低原始数据的维度或者将原始数据的特征进行重组再进行评估分析,因此成为了优化原始样本的重要途径。常用的特征提取方法包括:主成分分析法、逐步回归法、线性判别分析等。支持向量机是最常用的二分类机器学习方法,其进行二分类的核心思想是在核函数的约束下,找到特征空间的最佳分离超平面,使得样本之间的间隔最大。是解决小样本、非线性、高维度数据的最佳方法。因此本文采用支持向量机对微额贷客户的信用状况进行评估。
本文研究的对象是微额借贷客户,因此选取某信息服务公司提供的微额借贷客户的真实信用数据,包含:样本数据15000条,其中守约样本13458条,违约样本1542条;样本指标1138个,其中数值型指标1045个,类别型指标93个。
通过对原始数据进行描述性分析发现,数据存在较多缺失值和少量异常值,因此需要进行数据的预处理。但是由于指标量纲不同,直接对原始数据进行信用评估会造成评估结果不准确,因此采用标准差标准化的方法进行指标标准化处理,得到统一量纲的标准化数据。针对“守约”客户远多于“违约”客户的不平衡样本,进行了样本均衡处理。使用主成分分析法进行特征提取,最终得到28个对个人信用评估具有显著影响作用的指标。
将经过特征提取的标准化数据进行评估方法执行,为了验证支持向量机方法的评估性能,采用随机森林、BP神经网络、Logistic回归方法进行了对比研究。利用数据挖掘软件进行评估方法的执行,通过评估预测正确率和AUC值对评估结果进行分析。
得到的评估结果如表1所示:从预测正确率来看,支持向量机的预测正确率超过了90%,而随机森林、BP神经网络、Logistic回归方法的预测正确率均低于90%,说明支持向量机的预测效果较优。在机器学习领域,AUC值是用来评价二分类模型优劣的常用指标,值越高表明模型的效果越好,因此可以看出支持向量机的评估效果较好。
表1 评估方法预测性能对比
综上,采用支持向量机对微额贷客户进行信用评估具有较高的预测准确率,并且拟合度、区分度较好,具有良好的应用效果。
本文针对微额借贷客户进行了基于特征提取与支持向量机的信用评估,采用主成分分析方法提取了能够反映客户信用水平的重要特征,一方面减少了进入信用评估模型的指标、简化了信用评估的拟合过程、另一方面提高了信用评估的效率,提高了信用评估方法的预测准确率。根据实证分析结果可知,基于特征提取与支持向量机的信用评估方法适用于微额借贷客户,相比于随机森林方法、BP神经网络方法以及Logistic回归方法具有较好的评估优势,能够应用于现实微额借贷场景中,为实际中微额借贷客户的信用评估提供了较好的评估依据。