基于不同模型对德国信贷评价的预测分析

2016-04-18 01:40万媛媛
财经界·下旬刊 2016年7期
关键词:支持向量机BP神经网络回归分析

万媛媛

摘要:本文主要运用数据挖掘所学的各种模型对德国信贷评价数据集做了具体的分析,首先通过分析数据各变量之间的关系,运用R软件,然后用主成分分析,回归分析,BP神经网络,支持向量机对数据进行预测,最后比较不同预测模型的准确性,通过几种模型的对比可看出各种模型预测的好坏。

关键词:主成分分析 回归分析 BP神经网络 支持向量机

一、数据分析

(一)主成份分析

主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。

前19个成分的累计贡献率已经达到90%,另外其他的主成分可以舍去,达到降维的目的,观察各成份的比例,会发现成份增加时,所占比例没有明显增加,各成份没有明显的主次之分。下面是碎石图:

图像下降得较为平滑,没有明显的“陡峭”。

同时也考虑了一下,相关系数矩阵进行分析,得到图如下:

从以上分析,大致可知各变量所占比重较平均,没有特别地偏重哪个变量。

(二)回归分析

多元回归分析:表现在线性回归模型中的解释变量有多个。一

般表现形式:

对训练集进行多元回归分析,并用测试集进行检测,得到的准确率是0.742。

(三)逐步回归分析

上面的多元回归分析中涉及变量较多,为了简化模型,进行逐步回归分析,选取其中十一个变量。

得到结果如下:

对训练集进行逐步回归分析,并用测试集进行检测,得到的准确率是逐步回归分析的准确率为0.753。

1、BP神经网络

算法。令1:good 2:bad先对数据进行处理,调用r.studio 中的AMORE包。

每一百次输出一次,共显示10次:

index.show: 1 LMS 0.672420016008633

index.show: 2 LMS 0.682084907905352

index.show: 3 LMS 0.699954664285038

index.show: 4 LMS 0.700077412246174

index.show: 5 LMS 0.700084847039235

index.show: 6 LMS 0.700079842363825

index.show: 7 LMS 0.700037627521291

index.show: 8 LMS 0.685135487222039

index.show: 9 LMS 0.682417548537964

index.show: 10 LMS 0.679170941744628

从结果可以看出准确率在0.68左右。

2、支持向量机

支持向量机(SVM)是一种线性和非线性数据的分类方法,它使用非线性映射将原始数据映射到高维空间,在该空间内搜索最佳分离超平面。

Parameters:

SVM-Type: eps-regression

SVM-Kernel: radial

cost: 1

gamma: 0.04166667

epsilon: 0.1

Number of Support Vectors: 414

得到的准确率是0.752。

二、结论以及建议

在主成份分析中,对每个变量间的关系进行了分析,发现25个变量的选取很好,彼此间相关性比较小,也从侧面证明了,评价机构选取的评测依据是有代表性的。

用了四种方法对德国信贷评价进行了训练预测,结果准确率由高到低为:逐步回归的准确率0.753、支持向量机的准确率0,752、多元线性回归的准确率0.742、BP神经网络的准确率0.68。

如果希望尽量用少的变量对数据结果进行预测的话,可以做回归分析,选取更具代表性的特征进行分析。

参考文献:

[1]郭娟,基于BP神经网络的中国铁矿石需求量预测[J].国土资源情报,2009.1

[2]王磊,基于主成分分析的支持向量机回归预测模型[J].信息技术,2008.12

[3]薛毅,陈立萍,R统计建模与R软件[M].清华大学出版社,2009

[4]梁文光,广东省GDP时间序列预测-基于神经网络与ARIMA模型[J].技术与市场,2010

猜你喜欢
支持向量机BP神经网络回归分析
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于变形监测的金安桥水电站坝体稳定性分析
基于熵技术的公共事业费最优组合预测
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
森林碳汇影响因素的计量模型研究
河北省城镇居民人均可支配收入与消费统计分析
基于支持向量机的金融数据分析研究
BP神经网络算法在数值预报产品释用中的应用