徐凯 何金萍 万春 黄迅
【摘 要】 文章以成都高新技术企业为研究对象,将不平衡样本处理技术ADASYN与人工智能技术SVM相结合,构建ADASYN-SVM智能识别模型,对成都高新技术企业利润操纵进行识别研究。研究结果表明:ADASYN技术能够有效解决不平衡样本问题,与SVM支持向量机、BMD贝叶斯判别、BP神经网络、LR逻辑回归等其他判别模型相比,ADASYN-SVM模型具有最优的识别性能。故运用ADASYN-SVM智能模型,能够准确地对成都高新技术企业的利润操纵行为进行有效识别。
【关键词】 利润操纵; 智能识别; ADASYN-SVM模型; 高新技术企业
【中图分类号】 F224 【文献标识码】 A 【文章编号】 1004-5937(2019)07-0048-05
一、引言
成都作为西部地区经济发展的重要引擎,承担着技术创新、产业结构升级、推动西部经济迅速崛起的重任[ 1 ]。而高新技术企业作为科技进步与创新的代表,正是引领成都实现经济飞跃的重要动力[ 2 ]。然而,受利益驱使,部分企业通过利润操纵行为进行非法盈余管理,这必然破坏金融资源在各企业间的公平有效分配,从而对西部地区产业结构的优化升级,甚至对新常态下中国经济的持续健康稳定发展产生不利影响[ 3 ]。显然,构建科学有效的模型对成都高新技术企业的利润操纵行为进行识别研究势在必行。
目前,学者们主要运用了单变量、多变量(Multiple Discriminant Analysis,MDA)、逻辑回归、概率比回归等传统的统计模型以及以人工神经网络(Artificial Neural Network,ANN)为代表的智能模型对企业的利润操纵行为进行识别研究[ 4-8 ]。尽管都取得了良好的识别效果,但上述模型却存在前提假设过于严格、易陷入局部最小、过学习、欠学习等众多缺陷,从而一定程度上制约了上述模型在利润操纵行为识别中的应用[ 9 ]。而人工智能领域的后起之秀——支持向量机(Support Vector Machine),由于具有全局最优、良好的泛化推广性能、能有效处理小样本问题等诸多优势,受到广大学者的認可,从而被广泛应用于财务危机预警、违约风险判断、信用风险识别等众多研究领域,并取得了良好的研究效果[ 10-12 ]。因此,本文将引入SVM智能模型对成都高新技术企业的利润操纵行为进行识别研究。
实践中需要注意的是,未进行利润操纵的企业往往较利润操纵的企业更多,因而这两类数量不同的企业样本构成了一组不平衡样本。当SVM在面对这样一组不平衡样本建模时,由于更容易受以未进行利润操纵的多数类企业样本信息的影响,从而使得识别结果更倾向于多数类样本,因此不利于监管者准确地掌握企业的经营行为[ 13 ]。因此,解决不平衡样本问题就成为SVM建模的关键。而合成少数类过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)作为不平衡样本处理方法中最为经典的一类方法,其良好的处理性能已获得广大学者的认可[ 14 ]。但SMOTE在样本生成过程中,由于忽略了邻近样本的分布特征,使得生成的少数类样本往往出现较多重叠信息,从而使得SMOTE方法的应用出现挑战。令人欣喜的是,随着研究的不断深入,已有学者开发出自适应合成抽样方法(Adaptive Synthetic Sampling Approach,ADASYN),通过利用少数类样本的密度分布来有效生成少数类样本,从而克服了SMOTE方法的缺陷[ 15 ]。因此,本文针对SVM模型的不平衡样本问题,将引入ADASYN方法进行克服,从而提升SVM模型在利润操纵行为识别上的性能。
基于上述分析,加之前期笔者曾利用改进Z模型和FSVM模型对财务危机进行预警研究[ 16-17 ],本文以成都高新技术企业为研究对象,将ADASYN与SVM人工智能技术相结合,提出ADASYN-SVM智能模型,并对成都高新技术企业利润操纵进行研究,从而为成都市政府高效准确地监管高新技术企业的经营行为提供良好借鉴。
迄今为止,围绕利润操纵识别问题,已有部分学者开展了卓有成效的研究:李延喜等[ 18 ]针对中国上市公司,从财务指标异常的视角展开了企业利润操纵行为的识别研究,但并未构建科学有效的识别模型;姚宏等[ 19-21 ]分别运用了主成分分析法、贝叶斯判别法以及逻辑回归模型对中国上市公司利润操纵行为的识别进行了建模;李双杰和陈星星[ 8 ]引入BP神经网络模型对中国上市公司的利润操纵进行了智能识别。尽管上述研究都取得了良好效果,但他们并未对不平衡样本问题展开研究,也未引入SVM人工智能技术建立识别模型,同时更未针对成都高新技术企业展开研究。本文与上述研究文献相比,具有显著的差异性。
二、ADASYN-SVM利润操纵识别方法
(一)SVM智能方法介绍
假设xi=(xi1,xi2,…,xik)为刻画高新技术企业利润操纵识别行为的指标变量。其中,i=1,2,…,n,表示共n家高新技术企业,yi∈{+1,-1}表示企业i是否进行利润操纵的状态指标。若“+1”代表高新技术企业i进行了利润操纵,则“-1”代表未发生利润操纵。于是,指标变量X与状态指标Y就组合成样本集合(X,Y)。然后基于yi((wTxi)+b)+ξ≥1的前提条件,就能够求解如下最优问题:
三、实证研究
(一)样本选择
本文以中国A股市场中的成都高新技术上市公司为研究对象,从Wind上市公司违规数据库中获得利润操纵上市公司样本。对未进行利润操纵上市公司的样本选择其2016年相关指标变量来进行识别建模。对利润操纵上市公司,一方面选择其利润操纵年份前一年的相关指标变量进行识别;另一方面选择属于利润操纵上市公司但其在2017年并未进行利润操纵的公司,用其在2016年的相关指标变量来进行识别建模。因此,未进行操纵上市公司的样本有63个,利润操纵上市公司样本最终有29个,不平衡样本比例为2.17:1。
(二)指标变量选择与提取
为选择能够准确刻画企业利润操纵行为的指标变量,本文借鉴李双杰和陈星星(2013)的研究成果,共选择了27项指标变量对利润操纵行为进行刻画,具体见表1。由于指标变量较多,易引发数据冗余问题,故本文运用主成分分析方法对指标变量进行提取。最终提取出9个指标变量,其累积贡献率能达到80%以上,表明提取的指标变量信息能够涵盖原始指标变量80%的信息,具有较强的代表性。
(三)实证结果与分析
在获得成都高新技术企业样本数据集的基础上,为更科学有效地开展利润操纵识别的实证研究,本文基于十折交叉验证法进行验证。同时,本文将ADASYN-SVM与SVM、贝叶斯判别(BMD)、逻辑回归(LR)、BP神经网络(BPNN)进行实证对比研究,从而展示ADASYN-SVM模型优越的识别性能。本文的实验皆通过Matlab2015b编程软件完成。实证结果如表2和图1所示。从表2和图1可以发现,从准确率来评价,本文提出的ADASYN-SVM具有最高的准确率;从一类错误来评价,尽管本文提出的ADASYN-SVM一类错误较SVM和BPNN低,但却较BMD和LR高。一类错误代表的是未进行利润操纵的高新技术企业被识别错误的概率,这并非是政府监管层所关注。他们最为关注的还是由二类错误代表的利润操纵企业被识别错误的概率,从表2和图1可以明显发现,ADASYN-SVM的二类错误远远低于其余模型的二类错误。由此可见,本文提出的ADASYN-SVM模型具有最优的识别性能,同时也证明了ADASYN能够非常有效地克服不平衡样本问题。
进一步,为了检验本文提出的ADASYN-SVM模型的识别准确率和二类错误与其余模型之间的差异是否显著,本文对各模型的性能评估结果进行了配对样本T检验,结果如表3和表4。从表3和表4可以发现,本文提出的ADASYN-SVM在识别准确率上显著高于LR和BPNN模型,而在二类错误上显著低于其他所有模型,从而证明了ADASYN-SVM模型在识别性能上显著优于其他模型。
四、结论
为对成都高新技术企业的利润操纵行为开展识别研究,本文首先引入ADASYN技术解决不平衡样本问题,进而引入SVM智能技术进行识别模型的构建并开展实证研究。结果表明,相较贝叶斯判别模型、逻辑模型、BP神经网络以及SVM模型,本文提出的ADASYN-SVM在识别准确率上显著高于其他识别模型,而在二类错误率上却显著低于其他识别模型,从而表明ADASYN技术能够有效地解决不平衡样本问题,并提升SVM对高新技术企业利润操纵的识别性能。
基于上述分析,本文认为,运用ADASYN-SVM智能模型,能够准确地对成都高新技术企业的利润操纵行为进行识别,从而有助于提升成都政府部门对成都高新技术企业经营监管的科学性与有效性,对推动成都金融经济持续、健康、高效发展具有重要的理论指导和现实意义。
【参考文献】
[1] 余丽霞,张志英,张丽宇.成都构建区域性金融中心的SWOTE分析[J].软科学,2010,24(8):82-87.
[2] 罗雨泽,罗来军,陈衍泰.高新技术产业TFP由何而定?——基于微观数据的实证分析[J].管理世界,2016(2):8-18.
[3] 肖成民,吕长江.利润操纵行为影响会计稳健性吗?——基于季度盈余不同汇总方法的经验证据[J].会计研究,2010(9):17-24.
[4] FITZPATRICK P.A comparison of the ratios of successful industrial enterprises with those of failed companies[R].The Accountants Publishing Company,1932.
[5] ALTMAN E A. Financial ratios,discriminate analysis and the prediction of corporate bankruptcy[J].Journal of Finance,1968,23(4):589-609.
[6] OHLSON J A.Financial ratios and the probabilistic prediction of bankruptcy[J]. Journal of Accounting Research,1980,18(1):109-130.
[7] LAITINEN E K .Predicting a corporate credit analyst's risk estimate by logistic and linear models[J].International Review of Financial Analysis,1990,8(2):97-121.
[8] 李雙杰,陈星星.基于BP神经网络模型与DEA模型的中国上市公司利润操纵研究[J].数理统计与管理,2013,32(3):440-451.
[9] 杨海兰,周培祥.基于SVM的中国家族企业引入外部职业经理人风险预测研究[J].经济体制改革,2017(5):122-128.
[10] 张贵生,张信东.基于近邻互信息的SVM-GARCH股票价格预测模型研究[J].中国管理科学,2016,24(9):11-20.
[11] 肖斌卿,柏巍,姚瑶,等.基于LS-SVM的小微企业信用评估研究[J].审计与经济研究,2016(6):102-111.
[12] 衣柏衡,朱建军,李杰.基于改进SMOTE的小额贷款公司客户信用风险非均衡SVM分类[J].中国管理科学,2016,24(3):24-30.
[13] AKBANI R, KWEK S, JAPKOWICZ N. Appling support vector machines to imbalanced datasets[M]// The 15th European Conference of Machine Learning.New York:Springer-Verlag,2004:39-50.
[14] CHAWLA N, BOWYER K, HALL L, et al. SMOTE: Synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002(16):321-357.
[15] HE H, BAI Y, GARCIA E A, et al. ADASYN: Adaptive synthetic sampling approach for imbalanced learning[C]//Proc. Int'l J. Conf. Neural Networks,2008:1322-1328.
[16] 徐凯,邱煜,黄月娥.基于改进Z模型的财务危机预警研究:来自医药行业上市公司的经验证据[J].会计之友,2014(33):66-69.
[17] 徐凯,黄迅,刘金彬.基于最优模糊SVM的财务危机预警研究:来自成渝经济区上市公司的经验证据[J].会计之友,2015(12):73-77.
[18] 李延喜,姚宏,高锐.上市公司利润操纵行为识别模型研究[J].管理评论,2006,18(1):3-9.
[19] 姚宏,李延喜,高銳.基于主成分分析的上市公司利润操纵识别模型[J].管理科学,2007,20(5):83-91.
[20] 李延喜,高锐,包世泽,等.基于贝叶斯判别的中国上市公司利润操纵识别模型研究[J].预测,2007,26(3):56-60.
[21] 姜金玲,李延喜,高锐.基于logistic的上市公司利润操纵行为识别模型研究[J].经济管理,2008,30(19):77-82.
[22] 宋新平,丁永生.基于最优支持向量机模型的经营失败预警研究[J].管理科学,2008,21(1):115-121.