徐明鹃, 王本有
(皖西学院 信息工程学院, 安徽 六安 237012)
BP神经网络集成挖掘方法在财务预警中的应用
徐明鹃,王本有
(皖西学院 信息工程学院, 安徽 六安237012)
摘要:分析了基于加权的集成预测,研究了一种基于贝叶斯的BP神经网络集成挖掘方法,通过R平台实现算法,成功地应用于上市公司财务预警。各种预测方法实验结果对比得出,集成预测可以提高财务风险预测的准确率。
关键词:贝叶斯;BP神经网络; 财务预警
0引言
随着大数据时代的到来,信息的重要性越来越受到决策者的重视。我国上市公司在飞速发展的同时,也不断地受到各种外界风险的冲击,如何能够对上市公司的财务风险进行有效预警,是许多决策者和研究者面临的难题。
国内外学者在财务风险预警方面做了不懈的探索和研究,采用的方法也多种多样:最常用的是神经网络方法,例如,Ravi[1]等采用一种主成分结合神经网络方法进行商业银行的破产预测;支持向量机方法也是运用较多的机器学习方法之一,例如,Shin[2]等采用支持向量机方法对韩国的数据进行预测和财务预警;此外,也有采用其它算法进行预警研究的,例如,SunL[3]等采用最简单的贝叶斯网-朴素的贝叶斯分类器进行了财务预警研究,并针对预警数据的相关性特点进行了分析。浙江师范大学的Sun[4]采用将多个分类器串起来的方式,以中国的上市公司为样本数据进行分类预警,取得了比单个分类器更好的效果。学者殷尹[5]等在构建概率估计模型中,利用贝叶斯多变量模型分析法对企业财务进行预测。
文中在分析了传统的基于加权的集成预测方法存在的问题后,提出了一种基于贝叶斯的BP神经网络集成挖掘方法,通过该方法提高了财务风险预测的准确率,为上市公司的决策者提供了更有效的指导依据。
1问题的提出
对于一个具体的预测问题,如果采用不同的预测方法,得到的预测结果准确程度也不一致,而集成预测方法的优势在于它可以将多种预测结果集成在一起,从而得出一个优于单一预测方法的预测结论。传统的集成预测方法的原理都是采用加权的方式进行集成的,但是如果所有的子预测方法的预测结果不一致的时候,仅仅将子预测方法进行加权集成得出的预测结果并不是最优和最准确的。因此,针对传统的集成方法的弊端,提出了一种新的基于贝叶斯的BP神经网络集成预测方法。
2基于贝叶斯的BP神经网络集成预测的设计与实现
基于贝叶斯的BP神经网络集成预测的设计思路:
1)利用数据挖掘的分类方法构建一个能够选择最优子预测方法的分类器;
2)对某一上市公司的股票信息进行贝叶斯网算法和支持向量机算法预测,并利用之前建好的分类器筛选出一个最优的子预测方法;
3)把最优的子预测方法的预测结果通过BP神经网络集成后形成最终的预测结果[6]。
由于BP神经网络具有很强的非线性映射能力,所以文中选取了BP神经网络方法构建集成预测分类器。构建的集成预测的系统框架如图1所示。
图1BP神经网络集成预测方法系统框架
2.1贝叶斯网
贝叶斯网是一种概率网络,它对于不确定知识有较强的表达能力,因此在人工智能领域有广泛的应用。贝叶斯网络继承了图论的直观性[7],其所用的贝叶斯公式几乎是所有概率推理的人工智能系统的基础。
设实验E为样本空间,A为E的事件,B1,B2,…,Bn为Ω的一个分割,且P(Bi)>0,i=1,2,…,n,则由:
(1)
得到
(2)
贝叶斯网络由网络结构和条件概率表两部分组成。贝叶斯网的结构是一个有向无环图,由结点和有向弧段组成。每个结点代表一个事件或者随机变量,变量值可以是离散的或连续的,结点的取值是完备互斥的。表示起因的假设和表示结果的数据均用结点表示。从大量数据中构造贝叶斯网络模型可以进行不确定性知识的发现。
2.2支持向量机
支持向量机(SupportVectorMachine,SVM)方法是一种基于统计学习理论的模式识别方法,它是由Boser,Guyon,Vapnik在COLT-92上首次提出,从此迅速地发展起来,现在已经在许多领域,如生物信息学、文本、图像处理、语言信号处理和手写识别等都取得了成功应用。
支持向量机提供了一个三层网络结构,可以完成多个输入、一个输出的学习机器,它所构建的体系结构如图2所示。
图2 支持向量机的体系结构
图中:x1,x2,x3,…,xn----位于体系结构最底层的输入样本;
K(xi,x)----样本x与支持向量在特定空间的内积,i=1,2,…,n;
αi----拉格朗日乘子,i=1,2,…,n;
f(x)----决策函数的输出。
首先将股票信息的训练样本作为支持向量机的输入,然后选择RBF核函数,将训练样本从输入空间映射到高维的特征空间,根据优化问题求解得出支持向量,最终给出相应的决策函数[8]。
2.3BP神经网络
BP神经网络是继人工神经网络后发展起来的一种算法,是目前神经网络训练中采用最多、最成熟的算法之一,它是一种通过误差逆向传播算法来进行训练的多层前馈网络,由输入层、隐含层和输出层构成[9],并通过反向传播来不断调整网络的权值和阈值,使得网络的误差平方和最小[10]。BP神经网络算法流程如图3所示。
图3 BP算法程序流程
2.4基于贝叶斯的BP神经网络集成预测方法
数据选自国泰安中国上市公司财务指标分析数据库,从中抽取了2010-2015中上市公司被特殊处理的股票(ST)和未被特殊处理的股票(NST)的财务信息作为原始数据,经过读取、合并、清理数据,构建的上市公司财务数据训练集见表1。
表1 上市公司财务数据训练集
基于贝叶斯的BP神经网络集成预测方法步骤如下:
1)通过筛选出输入数据项和期望输出数据作为集成预测分类器的训练集。
2)用贝叶斯网和支持向量机算法训练得到集成预测分类器,将1)筛选出来的训练样本进行学习和训练,得到一种最优子预测方法,把最优的子预测方法的预测结果通过BP神经网络集成后形成最终的预测结果。
3)对已训练好的分类器通过测试集进行独立预测,同时通过测试集去评估集成预测分类器和子预测方法的准确性。
3算法实现及实验结果分析
3.1实验平台
本算法是采用R软件实现的。R语言是统计领域广泛使用的一种语言,是诞生于1980年左右的S语言的一个分支。它基于S语言,并由MathSoft公司的统计科学部进一步完善。
预测算法包括两种子预测方法(贝叶斯网和SVM)和一种集成预测方法(基于BP神经网络的集成方法)。通过R平台实现了文中提出的基于贝叶斯的BP神经网络集成预测方法,并和其子预测方法的预测效果进行对比分析。
3.2集成方法与各子预测方法的对比
为了将集成预测方法和各种子预测进行对比分析,文中选用了3个度量参数:召回率(Recall)、准确率(Precision)和覆盖率(Coverage)。
召回率也叫查全率,推荐结果的召回率定义为:
(3)
准确率也叫查准率,推荐结果的准确率定义为:
(4)
覆盖率(Coverage)用来衡量测试的完整性。推荐系统的覆盖率可以通过下面的公式计算:
(5)
通过实验得出:以流动比率为 X 轴,以预测分类标签为 Y 轴,可以画出文中提出的算法和各子预测方法的预测点和实际点对比图,如图4~图6所示。
图4 贝叶斯网络预测结果比较图
图5 SVM预测结果图
图6 BP神经网络集成算法的预测结果图
由上图的对比可以看到,文中提出集成预测方法的预测结果的准确度明显高于各个子预测方法,准确率分别提高了 0.3和0.7, 召回率比SVM算法提高了36%,而准确度比贝叶斯算法和SVM算法分别提高3.31%和3.34%。
基于贝叶斯的BP神经网络集成预测方法和子预测方法在准确率、召回率和准确度三个方面的对比分析见表2。
表2 各种算法对比分析
4结语
提出了一种基于贝叶斯的BP神经网络集成预测方法,并采用R平台实现了该算法,对上市公司股票信息的训练集进行学习和训练,通过实验结果分析得出,该集成预测方法克服了传统的集成预测方法的不足,对上市公司的股票是否被 特殊处理做了很好的预测,为公司管理者提供了有效的决策信息。
参考文献:
[1]RaviV,PramodhC.Thresholdacceptingtrainedprincipalcomponentneuralnetworkandfeaturesubsetselection:Applicationtobankruptcypredictioninbanks[J].AppliedSoftComputing,2008,8(4):1539-1548.
[2]ShinKS,LeeTS,KimHJ.Anapplicationofsupportvectormachinesinbankruptcypredictionmodel[J].ExpertSystemswithApplications,2005,28(1):127-135.
[3]SunLL,ShenoyPP.Usingbayesiannetworksforbankruptcyprediction:Somemethodologicalissues[J].EuropeanJournalofOperationalResearch,2007,180(2):738-753.
[4]SunJ,LiH.Financialdistresspredictionbasedonserialcombinationofmultipleclassifiers[J].ExpertSystemswithApplications,2009,36(4):8659-8666.
[5]梁美健,闫蔚.企业财务预警的国内外研究综述[J].财会月刊,2014(6):104-107.
[6]李学明,郭尚坤,王剑柯,等.新的集成预报及其在短期气候预测中的应用[J].重庆大学学报,2010,33(12):119-126.
[7]吴永广,庞世春.K2&HC结构学习算法[J].计算机与数字工程,2014(7):1137-1140.
[8]杨永生,张优云,朱永生.基于多核非负矩阵分解的机械故障诊断[J].西北工业大学学报,2015,33(2):251-257.
[9]李文学,李慧,贺琳.BP神经网络在非线性时间序列预测中的应用[J].长春工业大学学报:自然科学版,2003,24(3):39-40.
[10]李佟,李军.基于BP神经网络与马尔可夫链的污水处理厂脱氮效果模拟预测[J].环境科学学报,2016,36(2):576-581.
BPneuralnetworkensembleminingmethodappliedinfinancialearlywarning
XUMingjuan,WANGBenyou
(SchoolofInformationEngineering,WestAnhuiUniversity,Lu’an237012,China)
Abstract:Byanalyzingtheweightedensemblepredictionmethods,aBayesianbasedBPneuralnetworkintegratedminingmethodisputforward,andappliedinfinancialearlywarningoflistingCorporationthroughRplatform.Thecomparisonofsomepredictionmethodsshowthattheintegratedpredictionmethodcanimprovetheaccuracyoffinancialriskprediction.
Keywords:Bayes;BPneuralnetwork;financialearlywarning.
收稿日期:2016-03-10
基金项目:国家自然科学基金资助项目(61375121,61075049); 高等学校优秀青年人才基金项目(2011SQRL150); 高等学校省级自然科学研究项目(KJ2011Z401); 安徽省高等学校省级教学研究项目(2015jyxm289); 安徽省级质量工程项目(2015zy051); 安徽省级教学研究重点项目(2012jyxm433)
作者简介:徐明鹃(1980-),女,回族,安徽六安人,皖西学院讲师,硕士,主要从事智能数据挖掘方向研究,E-mail:xmj8217@wxc.edu.cn.
DOI:10.15923/j.cnki.cn22-1382/t.2016.3.06
中图分类号:O157.5
文献标志码:A
文章编号:1674-1374(2016)03-0236-05