万媛媛
摘要:本文主要运用数据挖掘所学的各种模型对德国信贷评价数据集做了具体的分析,首先通过分析数据各变量之间的关系,运用R软件,然后用主成分分析,回归分析,BP神经网络,支持向量机对数据进行预测,最后比较不同预测模型的准确性,通过几种模型的对比可看出各种模型预测的好坏。
关键词:主成分分析 回归分析 BP神经网络 支持向量机
一、数据分析
(一)主成份分析
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
前19个成分的累计贡献率已经达到90%,另外其他的主成分可以舍去,达到降维的目的,观察各成份的比例,会发现成份增加时,所占比例没有明显增加,各成份没有明显的主次之分。下面是碎石图:
图像下降得较为平滑,没有明显的“陡峭”。
同时也考虑了一下,相关系数矩阵进行分析,得到图如下:
从以上分析,大致可知各变量所占比重较平均,没有特别地偏重哪个变量。
(二)回归分析
多元回归分析:表现在线性回归模型中的解释变量有多个。一
般表现形式:
对训练集进行多元回归分析,并用测试集进行检测,得到的准确率是0.742。
(三)逐步回归分析
上面的多元回归分析中涉及变量较多,为了简化模型,进行逐步回归分析,选取其中十一个变量。
得到结果如下:
对训练集进行逐步回归分析,并用测试集进行检测,得到的准确率是逐步回归分析的准确率为0.753。
1、BP神经网络
算法。令1:good 2:bad先对数据进行处理,调用r.studio 中的AMORE包。
每一百次输出一次,共显示10次:
index.show: 1 LMS 0.672420016008633
index.show: 2 LMS 0.682084907905352
index.show: 3 LMS 0.699954664285038
index.show: 4 LMS 0.700077412246174
index.show: 5 LMS 0.700084847039235
index.show: 6 LMS 0.700079842363825
index.show: 7 LMS 0.700037627521291
index.show: 8 LMS 0.685135487222039
index.show: 9 LMS 0.682417548537964
index.show: 10 LMS 0.679170941744628
从结果可以看出准确率在0.68左右。
2、支持向量机
支持向量机(SVM)是一种线性和非线性数据的分类方法,它使用非线性映射将原始数据映射到高维空间,在该空间内搜索最佳分离超平面。
Parameters:
SVM-Type: eps-regression
SVM-Kernel: radial
cost: 1
gamma: 0.04166667
epsilon: 0.1
Number of Support Vectors: 414
得到的准确率是0.752。
二、结论以及建议
在主成份分析中,对每个变量间的关系进行了分析,发现25个变量的选取很好,彼此间相关性比较小,也从侧面证明了,评价机构选取的评测依据是有代表性的。
用了四种方法对德国信贷评价进行了训练预测,结果准确率由高到低为:逐步回归的准确率0.753、支持向量机的准确率0,752、多元线性回归的准确率0.742、BP神经网络的准确率0.68。
如果希望尽量用少的变量对数据结果进行预测的话,可以做回归分析,选取更具代表性的特征进行分析。
参考文献:
[1]郭娟,基于BP神经网络的中国铁矿石需求量预测[J].国土资源情报,2009.1
[2]王磊,基于主成分分析的支持向量机回归预测模型[J].信息技术,2008.12
[3]薛毅,陈立萍,R统计建模与R软件[M].清华大学出版社,2009
[4]梁文光,广东省GDP时间序列预测-基于神经网络与ARIMA模型[J].技术与市场,2010