机器学习在财务欺诈风险预警问题中的应用研究

2021-09-23 03:16李林杰
今日财富 2021年28期
关键词:贝叶斯静态欺诈

李林杰

随着大数据时代的到来与机器学习方法的不断的发展,如何系统挖掘并识别企业的财务报表中的欺诈风险,建立高识别率的财务欺诈风险预警模型,对于证券市场的规范运作,高效率完成审计工作具有重要意义。本文以我国制造业A股上市公司为例,在基本财务数据的基础上从静态、个体、时间三个维度进行指标构建,训练了lightgbm、xgboost、catboost、svm4种模型,根据模型的特点不同分别采用贝叶斯优化与网格搜索法进行参数调优,最终将调优后的模型采用等权重voting法进行模型融合。结果发现:测试集上的AUC值可达到0.8,能够对发生财务欺诈的企业进行有效识别,希冀能够为机器学习方法在财务欺诈风险预警中的应用提供一定的思路与参考。

一、引言

近年来,随着上市公司规模的增大,越来越多的财务欺诈开始出现。财务欺诈发生时将会对资本市场,个人投资者造成巨大伤害,不利于金融市场的良好发展,因此如何对财务欺诈进行有效识别与预警成为一个备受关注的问题。

在财务欺诈的方面,可以划分为传统人力审计与大数据识别模型两种。传统方法大多基于具有一定专业知识的审计类财务人员,运用其财务知识对企业的财务数据报表进行审查,这将耗费巨大的人力,效率与准确率都具有较大的局限性。随着大数据技术的不断发展,运用机器学习方法建立有效、高识别率的财务欺诈预警模型成为了可能。

本文的贡献包括两个方面:第一,特征工程。在從盈利、偿债、资产管理、现金、成长五个维度构建静态财务指标的基础上,从公司个体维度构建横向动态指标、从时间维度构建纵向动态财务指标,最终完成静态、个体、时间三个维度的特征构建。第二,模型融合。在应用xgboost、lightGbm、catBoost、svm等优异的机器学习方法基础上,通过等权重voting方法进行模型融合,进一步提高了对财务欺诈识别模型的准确率。

二、相关理论

(一)财务欺诈的动机

上市公司财务欺诈即因自身利益而在财务报告中采用故意错报、瞒报等方式,以虚假的财务信息欺骗财务报表使用者的行为。财务欺诈的动机可分为外因和内因两个部分:

外部原因主要体现在监管体制、会计制度和证券机制三个方面。由于监管体制的放松,会计制度在某些层面规定不严密,证券机制要求公司在上市前三年必须实现连续盈利,因此某些公司会铤而走险发生财务欺诈行为。

内部原因即企业的利益驱动。经济利益是企业的核心目的,为了吸取融资公司会通过财务欺诈来骗取投资方的信任。

(二)财务欺诈表现

虽然财务欺诈的表现形式多种多样,总体来说可概括成以下四个方面:

1.会计资料:编制虚假会计报表、会计资料和其他资料。

2.会计政策方面:蓄意披露和使用与经济事实不符的会计政策,掩盖事实真相。

3.会计确认与计量:随意变更财务指标,诸如资产、负债以及所有者权益等确认标准。

4.交易事项及记录:没有如实按实际的业务结果予以记录。

三、实证分析

(一)数据来源

本文的研究对象为A股的制造业上市公司,其中企业的财务数据包括盈利、偿债、现金等多个维度,包括5年的年度财务数据,涉及到300余个变量。数据来源为某大数据挖掘平台。

(二)数据预处理

在数据预处理阶段,主要对缺失值进行处理,将来原始数据中缺失值大于10%的变量剔除。剔除缺失值高的变量之后,在数据填充方面,对于每个指标,若公司有往年相关数据的话,使用公司历年指标的平均值进行填充;若该公司没有该指标的数据的话,通过该指标行业的平均值进行填充。

(三)特征工程

1.静态指标

基于上市发生财务数据造假的动因及数据维度的划分,借鉴张宏斌(2020)等学者的指标构建思路,本文从盈利、偿债、资产管理、现金、成长五个维度构造静态财务指标,如表1所示:

2.动态指标

考虑到机器学习方法对大数据的强拟合能力以及企业发生财务欺诈的动因与数据表现,本文在静态财务指标的基础上构建动态财务指标。在动态指标方面,从个体与时间维度分别构造横向动态指标与纵向动态指标:

横向动态指标即对当年与该行业其它公司的平均值做差值,帮助发现企业今年相对于行业平均变动的异常变动,若存在缺失值则用同年份该指标均值填充。

纵向动态指标即静态指标与该公司往年指标的平均值做差值,帮助发现企业今年与往年相比是否存在指标的异常变动。其中若存在缺失值则用平均值进行填充;若该公司每年的指标均缺失,则用所有公司对应指标的平均值进行填充。

(四)数据集划分

将前4年的数据为训练集,以第5年的数据为测试集来对调优后的模型进行性能评估。为了不改变原始样本的分布,在数据集划分时通过python数据预处理函数train_test_split中的stratify参数进行分层划分,划分后的训练集、验证集、测试集的样本量分别为6054、2595、2660。

(五)财务欺诈预警模型构建及调优

将经过静态、个体、时间三个维度所构建特征作为自变量,以企业是否发生财务欺诈为因变量,分别训练lightgbm、xgboost、catboost、svm模型,最终通过voting方法进行等权重模型融合,最终得到企业是否发生财务欺诈的预测结果,模型构建过程如图1所示:

其中,在机器学习模型的训练过程中将进行参数调优。参数调优的方法包括贝叶斯优化、网格搜索方法。贝叶斯优化方法的其主要思想是:给定优化的目标函数,然后不断地添加样本点,进而更新目标函数的后验分布。相比于常规的网格搜索法而言具有以下优势:

第一, 贝叶斯调参采用高斯过程,即利用之前的参数信息,不断地更新先验;而网格搜索未考虑之前的参数信息;

第二, 贝叶斯调参迭代次数少,速度快;而网格搜索速度慢,并且参数较多时易导致维度爆炸;

第三, 贝叶斯调参针对非凸问题依然稳健;网格搜索针对非凸问题易陷入局部最优。

考虑到不同模型与调参方法的优点,采用贝叶斯全局优化方法对lightgbm、xgboost、catboost模型的多个参数进行调优;采用网格搜索对svm模型进行参数调优,最终基于模型在测试集上的AUC指标对调参效果进行评价。各模型在测试集上的拟合效果对比结果如图2所示:

通过图2可以发现,在经过模型的参数调优后,各模型的AUC值均得到了提升,说明参数调优有效,得到了最优的单一模型。

(六)模型融合

在通过参数调优获得最优的单一模型结果的基础上,运用等权重voting投票法进行模型融合,结果如表2所示:

经过voting融合后,模型在测试集上的auc值达到了0.8,相对于单一的机器学习方法,模型融合进一步提升了对财务欺诈的识别能力,验证了本文提出的财务欺诈风险预警模型的有效性。

四、结语

本文在上市公司基本财务数据的基础上,对缺失值在10%以上的指标进行剔除处理。考虑到上市公司发生财务数据造假的动机、表现以及机器学习对高维数据的强拟合能力,从盈利、偿债、资产管理、现金、成长五个维度构建了静态财务指标,并在此基础上从个体维度与时间维度分别构建了横向动态指标与纵向动态指标,并将指标作为机器学习的输入特征用于预测企业是否发生财务欺诈。通过lightgbm、xgboost、catboost、svm模型的训练及调优后发现,除了svm模型外,其余模型在测试集上的auc值均能达到0.7以上,且相对于调参前的auc值均有效提高,说明经过调参的有效性。最终,采用Voting等权重投票法进行模型融合,最终结果在测试集上的auc值可达到0.8,能够对财务欺诈风险进行有效的识别与预警。本文的核心工作在于特征构建与前沿机器学习方法、贝叶斯优化、模型融合的应用,通过制造业上市公司的财务数据的实证结果证明了本文的财务欺诈预警模型的有效性。

(作者单位:上海对外经贸大学)

猜你喜欢
贝叶斯静态欺诈
欧洲网络犯罪:犯罪类型及比例
猜猜他是谁
基于HTML5静态网页设计
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯网络概述
贝叶斯公式的应用和推广
分布式系统负载均衡关键技术及其发展脉络
意外、健康保险欺诈概率识别
防范信用卡申请业务欺诈风险的中美对比