毛金凤 石红霞 崔新晨 蔡毓畅 宋美
摘要:该文提出了一种集成学习Stacking算法用于评估涉嫌欺诈公司的审计风险。采用Spearman相关系数和递归特征消除两种特征选择方法的加权,从原始的9个特征中筛选出6个最佳分类特征。利用Stacking方法集成5种异质分类器(决策树、K近邻、梯度提升树、支持向量机、神经网络),用于克服识别准确度不高且易出现过拟合的问题。结果表明,本文提出的算法比单一分类器在准确率上具有较大提升,在分类是否涉嫌欺诈公司方面准确率可以达到99.4%、精确率98.8%、召回率98.8%、F1分数99.1%、AUC值99.6%。
关键词: 欺诈;审计风险;Stacking;机器学习
中图分类号:TP181 文献标识码:A
文章编号:1009-3044(2022)04-0015-04
传统审计工作一般由人工完成,在事前、事中和事后都需要分别进行审计分析,如图1。但越来越多公司涉嫌欺诈情况出现,这就要求审计结果必须是高度准确有效的,大数据的兴起将有助于计算机审计工作的发展。
1 国内外研究现状
依托大数据、云计算、人工智能等现代技术,审计模式开始革新。2014年秦荣生[1]提到大数据、云计算为现代审计提供了新的技术方法。刘杰[2]等人运用人工神经网络开展辅助分析性审核和风险评估等审计工作。曹杰[3]为机器学习特征选择提供了技术支持。胡俊俊[4]在适当的环节引进其他先进技术,指导计算机辅助审计高效实施。
基于机器学习、数据挖掘等技术的计算机辅助审计有多种方法,具有较大的成效。王忠[5]提出了一种应用模糊神经网络与遗传算法相结合的方法,解决在海量数据条件下的审计数据的总体。张轶[6]利用神经网络和RSVM模型对上市公司财务报表的真实性判别进行实例验证。王向阳[7]等人利用朴素贝叶斯和逻辑斯蒂研究非现场审计模型分别达到83.18%和93.14%,为机器学习算法应用审计提供了思路。王秋菲[8]等人分析了影响审计风险评估的关键因素,并采用Logistic回归法进行实证检验,正确率总体达到93.6%,建议建立以审计大数据为中心的数据云平台。Hooda[9]等人采用粒子群优化(PSO)算法选取特征,比较10种分类模型得出Bayes网和J48对可疑企业的分类准确率达93%,采用多准则决策方法更好地评估了模型性能,随后改进的Ensemble模型[10]在性能上有了更大的提高。构建大数据审计系统成为当前审计行业的热点,基于大数据的审计模型研究是系统能否准确判断的关键。
2 数据采集与预处理
2.1数据的采集
数据来自加州大学欧文分校UCI机器学习资源库( http://archive.ics.uci.edu/ml/index.php,如表1)。本文主要任务是以审计师已标记标签的公司欺诈风险数据作为研究的源数据,探索新的分类算法及提升风险识别的准确率。
通过对审计的深度认识,对文献进一步分析,笔者采用Hooda等人[9]公开的审计数据集,对District、PARA_A、Money_value等9个特征进行研究。具体有关数据信息详见数据表trial.csv,其中各参数解释如表1:
其中,固有风险是指由于交易中存在的差异而产生的风险。控制风险则是主要偏重设计和执行相关的内部控制之后,控制未能防止或纠正错报带来的风险。还有一类检测风险,是指公司中存在的差异风险,这些差异甚至没有被审计程序发现。在人工审计中,审计风险是固有风险、控制风险和检测风险的乘积。
接下来,笔者对数据集中的审计结果进行分析。Risk为已经整理好的对于是否涉嫌欺诈的776家公司的审计结果。不涉嫌欺诈公司与涉嫌欺诈公司的比例接近4:6。
2.2审计因素的特征提取
特征工程在机器学习分类问题中起着至关重要的作用,高灵敏度的特征可以帮助算法显著提高分类性能。通过检查各个领域的许多风险因素,例如环境状况报告、审计部门、信誉摘要等,评估其对预测欺诈公司的重要性,笔者试图寻找提取特征的方法,以提高预测准确率。最终运用封装式、过滤式两类特征选择方法,确定通过Spearman相关系数和递归特征消除相结合的两种特征选择方式对特征重要性排序,具体过程如图2。
2.2.1 两种特征选择
Spearman相关系数计算
它利用单调方程评价两个统计变量的相关性,对于样本容量为[n]的樣本,[n]个原始数据被转换成等级数据。通过Spearman相关系数,得到的重要程度排序为TOTAL> PARA_A>Numbers> District> Money_value> Loss> PARA_B > History>Sector_score。
递归特征消除
递归特征消除[11]是一种寻找最优特征的贪心算法,在本文中,利用递归特征消除得出各相关因素的重要程度为:PARA_A>Money_value>TOTAL>District>PARA_B>Numbers>Loss>History>Sector_score。
其中,PARA_A>Money_value表示PARA_A比Money_value更重要。自变量重要程度说明影响审计最重要的三个因素分别是PARA_A,Money_value及TOTAL,在审计过程中要注意检查计划支出和汇总报告,减少错误金额及差异数。
RFE自身的特性,使笔者可以比较好地进行手动特征选择,但也存在原模型在去除特征后的数据集上的性能表现差于原数据集,因此特征的取舍要谨慎,可以综合其他的选取结果。
2.2.2 特征重要性排序结果
为了公平兼顾两种模型结果,笔者设每种模型的权重为[12],最终选取前六个重要特征PARA_A(X1)、TOTAL(X3)、Money_value(X4)、District(X9)、Numbers(X5)、PARA_B(X2)。
3 基于Stacking集成模型训练
3.1 Stacking集成分类模型
Stacking[12]是一种分层模型集成框架,第一层由多个基学习器组成,其输入为原始训练集,第二层则是以第一层基学习器的输出作为训练集进行再训练,从而得到完整的Stacking模型[13]。输入的数据要划分为训练集和测试集,输入初级分类器(model1,model2等),然后将经交叉验证,输出用于高层分类器训练的训练集1,用于高层分类器测试的测试集1,以此类推,其他初级分类器,会产生训练集2,测试集2,直到训练集n,测试集n,将所有初级分类器经过交叉验证的结果进行矩阵堆叠,输入次级分类器进行训练,得到分类结果(图3)。
3.2模型训练
模型应用Stacking算法(见图3),用筛选出来的6个重要特征的审计数据训练模型。初级分类器为DT、KNN等5种参数[14-16]见表2,次级分类器为Logistic Regression[17-18]。为评估模型泛化能力,考虑到泛化误差,从宏观上给出模型的优劣评分,但不具有实际参考价值,同时为充分利用数据,采用五折交叉验证用于模型调优。
4 结果
4.1 Stacking模型与基分类器模型
检验5个基分类器和Stacking分类器的性能,经过五折交叉验证,各分类器在欺诈公司检测上,性能指标评估结果如表3所示。
5 讨论
5.1选择重要特征提升模型性能
使用Spearman相关系数、递归特征消除筛选得到的6个特征(District、 PARA_A、Money_value、TOTAL、PARA_B、numbers),与审计中影响固有风险和控制风险中的主要因素(被审计单位的外部环境、被审计经历、容易产生错误和舞弊的账户或交易)相近,可见方法是合理的,这使更重要的特征可以被利用,精简模型。与9个特征下模型性能对比,通过图4,笔者发现在AREStacking在Accuracy、Precision、Recall、F1分数这几个指标上明显高于Stacking_9,两者在AUC值上相近,因此综合考量经过特征选择后,AREStacking模型更可靠。
在特征选择对模型性能的问题上,笔者做了进一步研究,对比应用6个特征和9个特征的基分类器性能。结果表明,KNN、SVM模型性能提高,而DT变化不大,GBDT、NN反而下降,可见特征选择对于模型性能[19],分类算法不同,提升效果不同。同时,还与数据集有关,特征冗杂时,删除部分无关特征后,减少了计算复杂度,提高泛化能力,但可能会使准确率下降,故在选取特征时应结合多种合适的方法。
5.2 Stacking模型优越性
Stacking是将个体学习器组合在一起形成的集成学习,提高泛化性,提供更好的预测效果。在审计中,AREStacking比王向阳[6]等人的朴素贝叶斯和逻辑斯蒂研究非现场审计模型分别高出15.62%和5.66%,与王秋菲[8]等人的Logistic回归法相比,正确率总体高出5.2%,可见其在性能上高于目前的已有的单一分类器,是建立审计大数据平台中的风险评估程序的有效方法。通过表3,AREStacking模型准确率98.8%,召回率98.8%,精准率99.4%,F1分数99.1%,AUC值99.6%,尽管KNN、SVM在部分指标上与其持平,但其整体性能高于其基分类器。
5.3 AREStacking模型与Hooda模型
基于Hooda等人建立的审计欺诈风险模型[9],我们将其数据集进行特征选取和算法改进后,得到了AREStacking模型,将它与Hooda的BayesianNetwork[9]、Ensemble[10]做比较(Ensemble是BayesianNetwork的改进方法)。图5表明Stacking模型在准确率、精准率、召回率、F1分数、AUC值更高,在评估审计公司诈骗风险问题上结果更可靠,而且计算速度,鲁棒性,可扩展性更强。
此外,本文提出的AREStacking集成学习模型具有良好的自适应性,读者可以使用本模型及代码训练自己的数据,建立专属于自己数据的审计风险评估模型,从而为审计工作提供精准服务。另外,由于真实样本数据采集困难,在基于仅有的样本数据训练的AREStacking模型的稳健性还存在一定缺陷,这需要后续研究继续增加样本量训练使Stacking模型更加稳健。
6 结束语
本文以印度审计长(一家印度审计公司)为例,探索了机器学习方法在审计规划中评估被审计部门欺诈风险的适用性。采用了来自14个不同部门的776家公司的数据,对Hooda等人建立的涉嫌欺诈模型进行改进。在特征选择上,提出了Spearman相关系数、递归特征消除相结合的两种特征选择方式,提取了6个重要特征。在分类器上,实现了SVM、NN、GBDT、DT、KNN,5个基分类器,通过调参,获得了5个最优基模型后,再利用Stacking集成5个最优基分类器,得到了Stacking欺诈风险评估模型。实验发现,对Stacking分类器而言,相较9个特征,6个重要特征提高了模型的综合判别能力;通过对AREStacking分类器、单一分类器、Hooda模型的性能进行评估,得知AREStacking分类器综合评价更高。最后选择使用6个特征的AREStacking分類器在审计涉嫌欺诈公司方面表现更可靠。
在未来工作中,目标是通过集成机器学习方法(使用性能最好的分类器的混合)提高分类器性能。通过在审计过程中采集、挖掘、分析和处理的大量的资料和数据,改进被审计单位经营管理,促进审计成果的综合应用,提高审计成果的综合应用效果,帮助加强大数据审计分析模型和审计软件的研发等。
参考文献:
[1] 秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究,2014(6):23-28.
[2] 刘杰,廖捷,董海云.人工智能与审计变革[J].财会通讯,2019(13):19-25.
[3] 曹杰.大数据审计中的特征工程[J].江苏商论,2019(9):31-34.
[4] 胡俊俊,孙静.一种新型的计算机审计模型[J].计算机应用研究,2008,25(3):782-785.
[5] 王忠,武哲.数据挖掘在审计信息分析中的应用[J].计算机应用研究,2005,22(2):167-169,193.
[6] 张轶.计算机辅助审计技术的应用研究——基于数据挖掘技术的实例验证[D].重庆:重庆大学,2006.
[7] 王向阳,席斌,胡璟懿,等.基于机器学习的非现场审计模型研究[J].财政监督,2018(20):104-107.
[8] 王秋菲,秦爽,石丹.基于大数据的审计风险识别与控制问题研究[J].会计之友,2018(24):93-100.
[9] Hooda N,Bawa S,Rana P S.Fraudulent firm classification:acase study of an external audit[J].Applied Artificial Intelligence,2018,32(1):48-64.
[10] Hooda N,Bawa S,Rana P S.Optimizing fraudulent firm prediction using ensemble machine learning:acase study of an external audit[J].Applied Artificial Intelligence,2020,34(1):20-30.
[11] 黄卫卫.基于随机森林——递归特征消除的道路交通事故成因分析[J].电脑知识与技术,2018,14(14):240-243.
[12] Jiang M Q,Liu J P,Zhang L,et al.An improved Stacking framework for stock index prediction by leveraging tree-based ensemble models and deep learning algorithms[J].Physica A:Statistical Mechanics and Its Applications,2020,541:122272.
[13] 鄭红,叶成,金永红,等.基于Stacking集成学习的流失用户预测方法[J].应用科学学报,2020,38(6):944-954.
[14] 周志华.机器学习[M].北京:清华大学出版社,2016.
[15] 鲁晓艺.基于ES-SVM的上市公司审计意见预测模型研究[D].上海:上海工程技术大学,2020.
[16] 焦莉萍,郭晶晶,杨云云,等.决策树模型与logistic回归模型在生活饮用水水质影响因素分析中的应用[J].中国卫生统计,2020,37(6):874-877,882.
[17] 李佳欣.基于逐步Logistic回归下分类算法的个人信用评估分析[J].湖南文理学院学报(自然科学版),2021,33(1):5-8,57.
[18] 林瑜,吴静依,蔺轲,等.基于集成学习模型预测重症患者再入重症监护病房的风险[J].北京大学学报(医学版),2021,53(3):566-572.
[19] 王海雷.面向高维数据的特征学习算法研究[D].合肥:中国科学技术大学,2019.
收稿日期:2021-10-15
基金项目:国家级大学生创新创业训练计划项目(S202010451007);教育部产学合作协同育人项目(201901137017;201801034031; 201802257026);山东省高等学校教学研究与改革一般项目(M2018X066);2021年鲁东大学“专创融合”课程建设项目(202114)
作者简介:毛金凤(1998—),女,山东潍坊人,学生,学士,数学方向;石红霞(1998—),女,山东潍坊人,学生,学士,物理方向;崔新晨(1999—),男,山东淄博人,学生,学士,电气传动方向;蔡毓畅(2001—),女,山东济宁人,学生,数学方向;宋美(1979—),女,山东济南人,讲师,硕士,研究方向为大数据建模与分析。