基于Adaptive Lasso-Logistic回归模型的财务报告舞弊识别研究

2019-09-13 07:28
新疆财经大学学报 2019年3期
关键词:财务指标舞弊财务报告

王 威

(桂林旅游学院,广西 桂林 541006)

上市公司财务报告舞弊行为是一个全球性的问题[1],据ACFE(注册舞弊审查师协会)统计,2018年其审查出的财务报告舞弊案例数量较2016年增加了11.6%,损失金额高达70亿美元[2]。我国资本市场建立时间虽然不长,但同样出现了多起财务报告舞弊案,严重影响了投资者信心,对投资者的切身利益造成了巨大损害。因而,如何有效识别财务报告中的舞弊行为已成为目前学界研究的热点。

传统的财务报告舞弊识别中大多离不开注册会计师的经验判断,这已很难满足大数据环境下的舞弊审查需求。面对频频发生的上市公司财务报告舞弊案件,需建立更加高效、精准的识别模型来评估上市公司财务报告舞弊风险,进而更有针对性地实施审计程序,提高审计效率。

一、文献回顾

目前较多学者采用了数据挖掘技术对财务报告舞弊进行识别,研究方法主要是人工智能方法和统计分析方法。在人工智能方法中,主要以人工神经网络方法为主。Green和Choi[3]于1997年首次将人工神经网络应用于财务舞弊识别;顾宁生和冯勤超[4]将基于LVQ的人工神经网络应用于财务舞弊识别;王泽霞等[5]在前人研究的基础上提出了基于BP-LVQ的人工神经网络并将其应用于财务舞弊识别,进一步提高了识别的准确度。人工神经网络方法是一种非参数方法,能适应更多的数据分布特征,无需正态性假定,且能适应复杂的经济关系,具有较强的非线性处理能力。但同时这一方法也存在两个明显不足:一是网络的“黑箱”问题,人工神经网络中各神经元和权重没有明确的物理意义,其解释性和透明度不高;二是学习速度慢,模型泛化能力不强,因此在实际应用中使用范围受限。

在统计分析方法中,Logistic回归模型具有解释性强和判别准确度高的特点,是目前舞弊识别应用领域中使用率最高、应用面最广的模型。Bell和Carcello[6]于2000年建立了Logistic回归模型,根据毕马威的数据使用Logistic回归模型进行了实证研究;孔宁宁和魏韶巍[7]以我国制造业舞弊上市公司为样本,综合运用Logistic回归模型和主成分分析法进行了研究;洪文洲等[8]选取我国2004年—2014年受处罚的44家上市公司为研究样本,使用Logistic回归模型进行判别,验证了Logistic回归模型在财务报告舞弊识别中的有效性。但Logistic回归模型也存在一些有待改进的问题,主要是模型对变量的多重共线性非常敏感、计算过程复杂。因此在实际应用中,如何从众多财务指标中有效筛选出财务报告舞弊识别的关键指标变量具有重大的现实意义,这不仅能有效简化模型、降低计算的复杂性,同时指标变量的减少还可弱化自变量的多重共线性对模型的影响,提高模型的判别能力。

对模型中的变量进行筛选的实质是在可选的模型集中筛选出效果最优的模型。早期的变量筛选方法主要有最优子集法、向前或向后逐步回归模型等,但在应用中都存在一定缺陷。最优子集法在变量维度较大时存在求解困难的问题[9],而向前或向后逐步回归模型则对变量结构的变化较为敏感,模型的稳定性有待提高[10]。为克服这些传统方法的不足,基于惩罚函数的变量筛选方法逐渐受到广大研究人员的重视,其中Tibshirani[11]于1996年提出的Lasso方法已成为变量筛选最常用的方法之一,它将惩罚函数转化为绝对值的形式,通过对回归系数进行压缩,将某些变量的系数压缩为0以此来达到变量筛选的效果。但Lasso方法也存在一定的局限性,即估计结果是有偏估计,不具有“哲人”性质(模型的相合性和参数估计渐近正态性),且存在对变量压缩过度的问题。因此,Hui Zou[12]于2006年在此基础上提出了对不同变量进行不同程度压缩的Adaptive Lasso方法,它能有效减弱变量系数估计的有偏性,并能使结果具有Oracle性质。因此,本文考虑使用Adaptive Lasso方法来对Logistic回归模型中的变量进行筛选,以期解决Logistic回归模型在识别过程中存在的变量多重共线性和计算复杂等问题。

财务报告舞弊识别的目的不仅在于对财务报告中是否存在舞弊行为进行判定,还在于评估出报告中的主要风险点,以为后续审计活动的开展提供指导。如前所述,人工神经网络方法由于解释性弱、泛化能力不强等固有缺陷难以在实践中推广,相对来说,统计学方法具有更强的实用性。本文提出将Adaptive Lasso方法与Logistic回归模型相结合应用于财务报告舞弊识别,不但能简化Logistic回归模型的计算过程,而且可在回归中更好地找出影响财务报告舞弊风险的关键因素,减少识别变量多重共线性问题,以实现对财务报告舞弊的高效、准确识别。

二、模型与方法

上市公司财务报告舞弊的主要手段包括不合规的收入确认、减值准备的计提与冲销、虚构经济业务、资产重组与盈余管理等,由于财务报告中各财务指标间存在严谨的逻辑关系,因而任何舞弊行为都会使公司的财务指标发生异常变动甚至扭曲。因此,通过回归分析准确把握财务比率指标的异常变化规律,可实现对财务报告舞弊的有效识别。

(一)全变量Logistic回归模型

假设有一个理论上存在的舞弊识别连续变量Y*,表示财务报告存在舞弊行为的可能性,值域为R,Y为实际观测到的响应变量。当该变量的值跨越某个临界点c(本文设c=0.5)即Y*>c时,表明财务报告存在舞弊行为,此时Y=1,其他情况下Y=0。

假设Y*与财务指标变量X之间存在一种线性关系,即:

当ε为Logistic分布时,则有:

记条件概率P(Y=1|X)=p,可得到Logistic回归模型,即:

当有k个财务指标变量时,相应的Logistic回归模型为:

(二)Adaptive Lasso方法

财务报告中涉及的财务指标众多,如何从中筛选出关键指标是提高模型识别准确率和速度的关键,本文采用Adaptive Lasso方法对财务指标变量进行筛选。

Adaptive Lasso的形式为:

Adaptive Lasso方法主要是利用L1惩罚项在原点的奇异性,将一些影响较小的财务指标变量系数压缩为0,从而将这些财务指标变量从模型中剔除,这样在完成财务指标变量筛选的同时,也实现了对财务指标变量权重系数的计算。与Lasso方法相比,Adaptive Lasso方法使用了不同的权重系数,消减了对非零系数的压缩,用较小的权重惩罚回归系数较大的变量,用较大的权重惩罚回归系数较小的变量,从而使得出的模型具有更高的识别准确性,识别的结果解释性更好。

(三)财务报告舞弊识别模型的构建

本文识别模型的构建思路主要以Logistic回归模型为基础,在求解Logistic回归模型的系数估计值时,采用Adaptive Lasso方法加入对系数的惩罚项,以实现对系数的估计和变量的筛选。具体识别模型如下:

三、财务报告舞弊识别的实证研究

(一)数据来源

以往的财务报告舞弊识别研究大多基于某一行业的数据展开分析,受行业特征影响较大,适用范围受限,难以为模型的鲁棒性和可移植性分析提供参考。因此,在样本数据选择上,本文考虑忽略行业差别,选择多个行业中的舞弊公司和非舞弊公司财务报告数据来建立样本集,以期构建适用范围更广、识别准确率更高的识别模型。

在对舞弊公司的选择上,为保证对舞弊行为界定的清晰、公正,本文以我国证监会公开发布的处罚公告为基础对舞弊公司进行认定,从中选择存在虚假陈述舞弊行为的上市公司为研究样本。具体选择时,对舞弊公司样本作如下筛选:如一家公司多次发生财务报告舞弊行为,则选择舞弊涉及金额最大的一年作为样本;以A股公司财务报告数据为主体,剔除B股公司;剔除会计师事务所、金融公司、期货经纪公司;剔除所有ST公司。对非舞弊公司样本作如下筛选:选择与舞弊公司年度一致的非舞弊公司作为对比样本;为减少行业和公司规模的影响,参照舞弊公司按照同行业、类似规模的原则进行选择匹配;为保证非舞弊公司样本数据的可靠性,主要挑选行业内存续时间较长、较为成熟的公司。

在样本数据的时间段选择上,考虑到与财务报告相关的政策法规和会计准则随着时间的推进也在不断变化,若样本选取时间过早,可能导致相应公司在治理结构、管理层决策方向以及所处经营环境等方面存在明显差异,从而造成财务样本数据的不可比。因此,本文主要选择2010年—2017年间样本公司的财务报告为样本数据。

根据上述方法,本文从我国证监会公布的607条处罚公告中筛选出了80家舞弊公司财务报告数据作为样本,同时选取了240家非舞弊公司财务报告数据作为对比样本,样本数据均来源于巨潮资讯网数据库;同时将样本数据随机划分为训练集和测试集,二者分别占样本总量的75%和25%,并运用选择出的变量对模型进行预测,进而检验模型识别的准确率,具体如表1所示。

表1 样本数据分布 单位:组

(二)变量筛选

在财务指标变量的选择上,对以往舞弊案例的分析表明,我国上市公司财务报告舞弊的动机受政策因素影响较大,舞弊多集中体现在对公司盈利能力和偿债能力的考核上,而营运能力又是二者的根基。因此,本文从偿债能力、营运能力、盈利能力三方面选取了18个财务比率指标。

其中,偿债能力是公司吸引外部投资和筹资的一个重要依据。为减少风险,债权人往往会在债务合同中注明一系列与财务指标挂钩的保护条款,当公司的财务状况接近于违反相应条款的情形时,管理层会产生舞弊冲动以转移风险。在偿债能力方面,本文考虑长短期负债偿债能力,选择了流动比率、速动比率、现金比率、资产负债率和利息收入倍数等5个指标。营运能力体现的是公司资源利用的效率,这是公司正常运营的基础,公司虚增资产或提前确认收入都会造成营运能力指标变动异常。在营运能力方面,本文结合公司运营主线选择了应收账款周转率、存货周转率、总资产周转率、流动资产周转率、固定资产周转率等5个指标。盈利能力体现的是公司为投资者争取特定比率投资回报的能力,迫于业绩要求,公司可能会通过虚增收入与利润来对其盈利水平进行粉饰,因此,盈利能力也是财务报告舞弊的一个重点。在盈利能力方面,本文着重从收入、利润及利润质量等方面选择了主营业务收入增长率、毛利率、营业利润率、净利润率、总资产收益率、权益报酬率、净利润现金比率、净资产增长率等8个指标。具体指标与含义如表2所示。

表2 财务比率指标

另外,考虑到不同行业的公司往往在经营环境、营运规模、竞争力度等方面存在较大差异,这些会显著影响公司的偿债能力、营运能力和盈利能力,造成财务比率指标的波动,因而为消除行业差异造成的影响,使样本中各个行业公司的财务指标数据具有可比性,方便后续模型进行识别,本文对样本中的相关财务比率指标数据进行了标准化处理,用公司当年的财务比率指标值与上年度该指标值的比值,即指标年度变化率来替代原财务比率指标,以使模型识别的结果更合理可信。

(三)模型实现

本文采用Adaptive Lasso-Logistic回归模型对所选择的18个财务指标变量进行筛选和参数估计,同时采用全变量Logistic回归模型、Lasso-Logistic回归模型作对比分析。在数据处理上,Adaptive Lasso-Logistic回归模型调用R统计软件中的msgps程序包,全变量Logistic、Lasso-Logistic回归模型调用R统计软件中的glmnet程序包。同时为减小偶然性的影响,本文重复500次实验,用所得各变量系数估计值的均值来表示模型总体的系数估计值,采用AIC和BIC准则评估回归模型的拟合效果,检验标准取α=0.05。

四、实证结果分析

(一)变量筛选和系数估计

1.变量筛选结果分析。从变量筛选的结果来看,Lasso方法和Adaptive Lasso方法都完成了对变量的选择,收到了降维的效果。Lasso-Logistic回归模型保留了4个变量,分别是资产负债率、主营业务收入增长率、毛利率、净利润现金比率;Adaptive Lasso-Logistic回归模型保留了6个变量,分别是资产负债率、应收账款周转率、主营业务收入增长率、毛利率、总资产收益率、净利润现金比率。可以看出,Adaptive Lasso方法对Lasso方法的惩罚项作了加权,在一定程度上克服了Lasso方法对变量系数压缩过度的缺点。因此,Adaptive Lasso-Logistic回归模型保留了更多的变量,使结果更稀疏、模型的解释性更好,且满足Oracle性质。由表3可以看出,Adaptive Lasso-Logistic回归模型的AIC值和BIC值均小于全变量Logistic回归模型和Lasso-Logistic回归模型,说明Adaptive Lasso-Logistic回归模型对数据的拟合效果最好。

表3 变量筛选及系数估计结果

在Adaptive Lasso-Logistic回归模型保留的6个变量中,资产负债率与财务报告存在舞弊的概率呈正相关关系。资产负债率反映了债权人所提供的资金占公司全部资金的比重,以及公司以自身资产为债权人权益提供保障的程度。资产负债率越高,表明公司偿债能力越弱,面临的财务压力也就越大,从而有更大的概率在财务报告中实施舞弊行为,以获取外界的资金支持。

应收账款周转率与财务报告存在舞弊的概率呈负相关关系。应收账款周转率表示公司从获得应收账款的权利到收回款项所需要的时间。而财务报告舞弊的一个主要手段就是虚增收入,虚增收入必然会造成应收账款迅速增加,其直接后果就是大量应收账款在期末无法正常收回,导致应收账款周转率大幅下降。因此,较低的应收账款周转率往往代表着较大的财务报告舞弊风险。

主营业务收入增长率与财务报告存在舞弊的概率呈负相关关系。可能的原因是,根据我国相关政策,公司无论是上市融资还是发行债券都与该指标直接挂钩。因此,当主营业务收入增长率降低时,说明公司主营业务大幅滑坡,上市公司的管理层会面临较大的压力,往往会通过财务报告舞弊来虚增收入、粉饰业绩,保持公司的“高速增长”,以满足管理部门和投资者的要求。

毛利率与财务报告存在舞弊的概率呈正相关关系。通常来说,同一行业的毛利率应该基本趋同,而上市公司常见的财务报告舞弊手段大多是虚增收入或虚减成本,这就会带来毛利率虚高的问题。

总资产收益率与财务报告存在舞弊的概率呈负相关关系。在公司资产总额一定的情况下,若总资产收益率低,说明公司的盈利能力缺乏稳定性和持久性,有较高的经营风险,因此实施财务报告舞弊行为的可能性就较大。

净利润现金比率与财务报告存在舞弊的概率呈负相关关系。净利润现金比率是指公司本期经营活动产生的现金净流量与净利润之间的比例关系。如果净利润高,而经营活动产生的现金流量却很少,则说明本期净利润大部分尚未实现现金流入,公司净收益质量较差,大部分收入都是以应收账款的形式存在,这就使得虚增收入的财务报告舞弊行为发生的可能性增大。

2.系数估计结果分析。从表3系数的显著性检验结果来看,Adaptive Lasso-Logistic回归模型得到的系数估计值检验结果较为显著,资产负债率、总资产收益率的系数均通过了1%的显著性检验,应收账款周转率、主营业务收入增长率、毛利率、净利润现金比率的系数也都通过了5%的显著性检验。

与Lasso-Logistic回归模型的系数估计结果相对比可以看出,Adaptive Lasso-Logistic回归模型的变量筛选结果中多了应收账款周转率和总资产收益率,二者的系数估计结果有一定差异。在其他被筛选的变量中,这两个模型对于资产负债率的系数估计值差异最大,Adaptive Lasso-Logistic回归模型中资产负债率的系数估计值增长了99.03%;而主营业务收入增长率、毛利率、净利润现金比率相对差异较小,其中主营业务收入增长率的系数估计值减小了44.33%,毛利率的系数估计值增长了21.96%,净利润现金比率的系数估计值变化最小,只增长了3.25%。Adaptive Lasso-Logistic回归模型保留的6个变量中,资产负债率、毛利率与财务报告存在舞弊的概率呈正相关关系,系数分别为0.205和0.361;应收账款周转率、主营业务收入增长率、总资产收益率、净利润现金比率与财务报告存在舞弊的概率呈负相关关系,系数分别为-0.582、-0.713、-0.108、-0.149;其余变量影响较小,系数被压缩至0。因此,最终得到的Adaptive Lasso-Logistic回归模型为:

为验证回归识别模型的可靠性和稳定性,本文使用R统计软件利用测试集数据对模型进行了交叉验证,得到的结果为Mr=0.016,说明模型是合理的。

(二)模型识别效果

在对公司是否存在财务报告舞弊行为进行识别时,常会出现两类错误。第一类错误为将不存在财务报告舞弊的公司识别成存在财务报告舞弊的公司,这将导致在审计中浪费更多的人力和物力,执行更多不必要的程序。第二类错误为将存在财务报告舞弊的公司识别成不存在财务报告舞弊的公司,此种情况将导致审计程序执行不到位,进而得出错误的审计结论。通常情况下,第二类错误会导致更加严重的后果,因此,对于财务报告舞弊的识别要在保证总误判率最低的情况下,尽量将第二类错误率降到最低,以减少可能的损失。

由表4可以看出,Adaptive Lasso-Logistic回归模型的识别效果比全变量Logistic回归模型和Lasso-Logistic回归模型都好,其总准确率高且总误判率以及两类错误率低。在训练集中,Adaptive Lasso-Logistic回归模型的总准确率分别比全变量Logistic回归模型和Lasso-Logistic回归模型高出3.98%和1.51%;在测试集中,Adaptive Lasso-Logistic回归模型的总准确率分别比全变量Logistic回归模型和Lasso-Logistic回归模型高出2.55%和1.84%。

表4 模型识别效果 单位:%

五、结论

本文将Adaptive Lasso-Logistic回归模型引入财务报告舞弊识别中,通过构建样本集进行实证研究,取得了一些有意义的成果。

第一,本文构建的模型具有较强的变量筛选能力,有助于审计人员迅速识别出财务报告中舞弊风险较大的财务指标,从而加快审计进程、降低审计成本。对于财务报告舞弊识别问题,传统的全变量Logistic回归模型保留了全部变量,使得其最终运算量较大且各自变量间的多重共线性问题严重,Lasso-Logistic回归模型则存在对变量压缩过度、部分可用变量信息被忽略的问题,而Adaptive Lasso-Logistic回归模型很好地克服了前两种模型在变量选择方面存在的不足,同时又保留了子集选择和岭回归的优良性质,因此将其应用于财务报告舞弊识别研究可取得较好的效果。

第二,本文构建的模型中的系数估计结果可为审计人员进行风险评估提供参考,有助于审计人员更有针对性地实施适当的审计程序。从模型中各变量的系数估计结果可以看出,目前对于财务报告舞弊风险影响较大的6个财务比率指标分别是资产负债率、应收账款周转率、主营业务收入增长率、毛利率、总资产收益率、净利润现金比率,多与盈利能力相关,其中主营业务收入增长率的系数绝对值最大,达到了0.713,远高于其他变量。这说明目前我国上市公司的财务报告舞弊行为主要与收入相关。究其原因,大部分公司进行财务报告舞弊的动机主要是为了迎合资本市场中财务分析师对公司业绩的预期,或是满足监管机构设定的作为特定行为先决条件的各类指标要求,这些大都是围绕收入来展开的,故收入造假成了财务报告舞弊的重灾区。因此,对收入的确认应是财务报告审计的重中之重。

第三,本文构建的模型具有良好的财务报告舞弊识别能力。从模型识别效果可以看出,Adaptive Lasso-Logistic回归模型相比其他两种模型具有更高的识别率,并且总误判率、两类错误发生率更低,这显示了Adaptive Lasso-Logistic回归模型的优越性,该模型的估计结果能有效帮助审计人员及报表使用人员准确评估公司财务报告的舞弊风险程度,从而作出更科学的决策。

当然,本文仍存在不足之处,如在指标的选择上仅考虑了财务指标而未能将非财务指标纳入识别指标体系,因此,在包含非财务指标和哑变量的情况下,对该模型有效性的验证可以成为后续研究中的一个重点问题。

猜你喜欢
财务指标舞弊财务报告
企业内部财务报告体系设计与应用
浅谈财务舞弊与防范
舞弊行为人特征分析
财务报告目标和经济发展之间的关系
探讨医院财务分析中财务指标体系的应用
国际财务报告准则基金会发布2017袖珍指南
全国国有企业主要财务指标
全国国有企业主要财务指标
中央管理企业主要财务指标
我国上市公司财务舞弊识别模型初探