刘 瑾
(中国财政科学研究院,北京 100124)
根据《中国注册会计师准则》第1141号,舞弊是指被审计单位使用欺骗手段获取不当或非法利益的故意行为,即企业为追求超额利润或其他目的,对财务报表及其附注中列示的金额或内容进行有意错报或漏报。从银广夏、康美药业到瑞幸咖啡,类似事件在中国资本市场屡见不鲜。尽管中国证券监督委员会对欺诈发行、虚假披露或有其他重大违法行为的上市企业做出罚款、暂停或终止股票上市交易的决定,但类似处罚具有时间上的滞后性,因此及时预警风险尤为重要。构建财务舞弊预测模型能帮助利益相关者识别舞弊事件,以可能发生舞弊事件的概率结果作为参考信息,弥补了监管滞后的缺陷。
应用机器学习方法之前,财务舞弊预测相关实证研究一般使用最小二乘法对变量进行因果分析,利用逻辑回归模型发掘财务舞弊的影响因素[1]。机器学习和实证研究的主要区别是对模型可解释性和预测能力的权衡:第一、实证研究使用计量回归模型致力于获得一致的估计系数,宁愿付出方差较大的代价,也不放弃无偏性质,而机器学习并不关注估计系数是否具有一致无偏性的特点,选择更小的方差以提高预测性能;第二、实证研究注重解释现象并寻找背后的规律,要求阐明模型拟合好坏的原因和变量之间的互动关系,追求较为简单的函数形式和易于解释的模型估计结果;机器学习不拘泥于可解释性,能较为灵活地选择函数形式来拟合数据,因此预测能力强于传统计量方法[2]。由于舞弊手段越发高明,仅依靠传统的财务报告和审计程序或逻辑回归模型可能无法完全识别出有意的错报或漏报行为。随着人工智能技术迅速进入大众视野,机器学习作为其重要驱动力带来了一系列传统决策机制的变革,也为财务舞弊预测问题提供一条新思路。
财务舞弊预测模型的构建过程离不开基于扎实理论的预测特征、恰当的预测方法和良好的预测结果,本节按照上述逻辑整理并归纳代表性研究成果,梳理和总结模型构建过程。
由于财务舞弊从属于公司舞弊, 因而舞弊动因理论可用于分析财务舞弊的动因,包括舞弊二因素理论、舞弊三因素理论和舞弊四因素理论[3];实践方面,国内外学者侧重于发现舞弊征兆,通过实证方法验证其识别会计舞弊中的作用,包括财务特征和非财务特征。Beneish(1999)发现会计舞弊与某些财务报表变量相关,从盈余操控角度提出应收款项大幅增加、产品毛利率异常变动、资产质量下降、销售收入异常增加和应计利润率上升是会计舞弊的征兆,可用于识别舞弊[4]。秦江萍(2005)以沪深股市1998至2004年39家舞弊公司的51份年报为研究样本,采用逻辑回归方法发现营运资金与总资产的比率、现金债务总额比、净利润现金保证率、应收帐款周转率、存货占总资产的比、每股未分配利润、非标准无保留审计报告、股权集中度8个指标对财务舞弊行为识别模型有显著的解释力[5]。除财务因素,非财务因素也是重要的特征变量。杨清香等(2009)对中国上市公司董事会特征影响财务舞弊的实证结论是董事会规模与财务舞弊之间呈明显的“U”型关系,持股比例比与财务舞弊显著正相关,领导权结构和稳定性与财务舞弊负相关[6]。上述文献内容表明预测特征形式越来越多样、预测特征涵盖的范围更广泛,关于财务舞弊预测特征的研究已较为成熟。
财务舞弊预测属于机器学习中的分类问题,模型输出变量被计量为分类数据,因此预测模型中较为常见的方法是逻辑回归。岳殿明等统计了1995年至2011年发表于权威国际期刊的18篇会计舞弊定量研究文献,根据频率分析发现逻辑回归方法的使用频次最多,神经网络紧随其后,其他方法还包括支持向量机、贝叶斯、决策树、堆栈变量方法、遗传算法等[7]。Green和Choi(1997)采用人工神经网络技术构造了建立在原始财务数据基础上的会计舞弊判别模型,审计人员可根据这一模型判别公司是否舞弊[8]。Cecchini等人(2010)应用支持向量机建立舞弊预测模型,通过该方法将输入的财务变量映射成不同的财务数据组合,结果表明支持向量机模型的预测性能比逻辑回归模型和神经网络模型更好[9]。上述方法在中国也得到学者的实证检验,金花研和刘永泽(2014)在2007年至2011年数据上发现,虽然逻辑回归模型表现出较高的解释力,但支持向量机方法随着训练集样本数的增多,训练精度也随之提高,在总体识别率方面比逻辑回归模型更好[10]。除逻辑回归、支持向量机、人工神经网络,学者也正将贝叶斯概率、随机森林和深度学习等原理更为复杂的算法应用于财务舞弊预测问题上。虽然使用的算法愈加先进,但基于算法的研究内容有较大的趋同性,仅关注预测准确率无法为利益相关者提供足够的决策证据,应继续发掘特征的重要程度,并针对不同行业、地区、政策背景等因素考察个性化的预测特征,更注重模型的可解释性。
除对个别方法的尝试,学者基于预测性能在算法选择、样本处理的方式上对不同模型进行了比较研究。Perols等人(2011)比较了六种流行的统计和机器学习模型在不同错分代价和舞弊样本比率下的财务舞弊预测结果,表明基于逻辑回归和支持向量机模型比人工神经网络、袋装法、决策树、堆叠法性能更好[11]。Kim等(2016)以Hennes和Leone(2008)的研究成果为基础,将报表错报问题分为故意错报、非故意错报和无错报三类,基于以前文献使用过的预测特征,以年份、行业背景为依据计算合成了1086个预测特征,使用逻辑回归、支持向量机和贝叶斯网络算法建立了多分类预测模型[12]。Bao等(2020)结合领域知识和机器学习方法,应用集成算法解决类不平衡的财务舞弊预测问题,基于原始会计报表数字建立预测模型[13]。应用机器学习构建预测模型有如下特点:第一,鉴于机器学习强大的计算能力,预测变量筛选过程较为宽松,学者一般会尽可能地涵盖各类相关指标;第二,财务舞弊样本天生带有样本不平衡特性,如何进行数据处理是构建预测模型的关键要素;第三,模型性能衡量标准在不断完善,仅靠预测准确率是不客观的,应深入发掘更加科学的性能度量。
机器学习在经济和管理领域的应用研究已逐渐形成一定范式,财务舞弊预测模型的构建过程包含以下四个阶段:
预测特征即输入变量,是对财务舞弊成因或影响因素的探索和归纳,也是整个模型构建过程的理论基础。中国资本市场自2005年股权分置以来不到20年,企业公开的数据大约有3至4万条,如果使用超参数较多的算法可能会存在样本量不足情况,从而缺乏足够的训练过程,难以收获满意的预测效果。因此,在确定预测特征的时候,要谨慎选择具有较强判别能力的财务特征和非财务特征,求精不求全,有利于简化后续特征工程的处理过程。
财务舞弊预测模型较多使用逻辑回归,随着国家对资本市场监管力度逐渐加强,大量公开数据和成熟的计算机技术促使学者探索更多机器学习算法的应用,预测准确率成为实务中较为重视的衡量标准。机器学习被视为一个转折点或者更高级的形式,对数据的前提假设更为宽松,能利用经验改善系统性能并对新情况作出有效决策,数据驱动理论的研究范式有助于克服传统计量研究方法解释性强、预测性弱的短板[14]。构建财务舞弊预测模型的算法从逻辑回归、决策树、支持向量机、神经网络等,到随机森林、梯度回归树等集成学习算法,正向卷积神经网络、循环神经网络等深度学习算法摸索。算法选择是一个尝试过程,虽然算法种类一直在更新,但并不是复杂的算法模型效果越好,复杂算法更难以表达预测模型的解释能力。因此,在追求模型效果时还需权衡模型的可解释性和预测能力,充分理解算法数学原理的推导过程,结合具体问题选择恰当算法。
数据和特征决定机器学习的上限,模型和算法是为了逼近该这个上限,因此特征工程在机器学习中的重要性不容置疑。财务舞弊预测模型中的预测特征一般包含财务指标和非财务指标,财务指标是基于财务报表原始数据构成的一系列数字的组合,如果不加筛选并将尽可能多的财务指标输入模型,变量间的严重共线关系会导致低效的模型训练过程、消耗计算性能,噪声数据将影响模型输出结果的准确性。为获得最佳预测模型,可利用特征工程对数据进行预处理、特征选择或特征降维等操作,经特征工程处理后的输入变量能够更好地描述样本、浓缩信息。统计方法也可用于筛选特征,根据预测特征为连续性变量还是离散型变量选择参数或非参数检验,可考察某个预测特征是否能够在统计上区别舞弊和非舞弊公司,淘汰没有判别能力的预测变量。
特征工程还包括特征变换、特征组合和特征创造等。在建模过程中,财务舞弊预测模型的特点是舞弊样本过少,非舞弊样本较多,不均衡的样本对模型训练的精度和相关性能评价指标会造成影响,预测模型总是将样本分到样本数较多的分类类别中去,因此可尝试不同采样方法,如过采样、欠采样和合成少数类过采样技术等。模型构建过程包括模型训练和参数调整。模型训练的基本思想是将所有原始数据分组为训练集、验证集和测试集,使用训练集和验证集进行模型训练,调整参数后用测试集获得模型结果。参数调整是对模型参数进行调整,以找到使模型性能达到最优的参数,例如随机森林中的最大叶节点数、最大树深度和子模型数等,梯度回归数中的学习率、子采样率和最大特征数等,调参手段主要有网格搜索、随机搜索和贝叶斯搜索等。特征工程和模型构建是一项繁琐的经验过程,涉及的步骤较多,为达到最佳预测效果需要进行不断尝试。
财务舞弊预测属于分类问题,即在给定大量已知标签数据的前提下,判断出未知标签样本的标签取值。预测模型在对测试集按照各自算法原理进行计算后,生成某类标签的预测概率,并将测试样本按概率值降序排列。分类过程就是寻找阈值将其“截断”为两类的过程,大于某阈值为一类,否则为另一类。如果阈值较大,则在靠后位置截断,能最大程度地查全正例;如果阈值较小,则在靠前位置截断,能最大程度地查准正例。在不同类型的错误分类具有相等损失的前提下,AUC值越大,模型效果越好。然而,在人脸识别门禁系统、软件缺陷预测、多标记学习等应用领域中,不同类型的错误分类所导致的损失差异较大。未来研究财务舞弊预测问题时,应权衡不同类型错误所造成的损失,科学地选择性能度量标准。
与自然科学领域相比,机器学习在社会科学领域的应用近几年也获得了发展,但整体来说仍处于初步阶段。学者普遍认为引入机器学习对社会科学研究范式的冲击有限,其原因在于:第一、社会科学在识别因果上已经发展出非常成熟的范式,除非能够带来颠覆性的边际贡献,否则没有理由舍弃传统计量经济学的实证研究方法;第二、机器学习的预测能力依赖于海量数据,而当前社会科学研究的样本量仍未足够;第三、机器学习仅提高数据搜集和整理的生产率,生成的数据依然以变量形式进入到传统社会科学研究框架内,本质上没有改变社会科学的研究方法,也并没有被研究者所广泛接受和使用,仍然处于商业驱动阶段[14]。本文认为机器学习在财务舞弊预测问题的研究上还有很大的进步空间,可从以下几个方面进一步完善。
理论对于研究的重要作用不容置喙,因此研究时首先要思考理论上的研究价值,是否有坚实的理论支撑,否则基于机器学习的预测模型仅是数据挖掘的结果。在未来的研究中,应重视预测变量的选取,研究中国的经济问题要结合制度背景,从理论上分析变量的经济含义,而不应该简单将所有相关变量纳入模型。对于财务舞弊问题,可借鉴契约理论、产权理论和行为学相关的经验证据继续探索舞弊动因。
机器学习虽然能拓展研究边界,但还无法颠覆社会科学研究范式,本文认为目前较为务实的做法是将机器学习的输出结果作为实证研究中的相关变量。在实证研究中,有些变量可以直接获取,而有的变量需要经过一定形式的转换,基于机器学习的变量不是直接运用会计实务中或者现实经济生活中已有的经济指标,而是作为一种新变量引入实证模型。由于研究假设或研究问题中的许多概念描述不可直接观察,将机器学习的输出结果作为对抽象概念的描述,不仅是对实务数据的抽象概括,也是对经济现象更为贴切的表达方式。在财务舞弊预测问题中,财务指标已得到较多实证研究的支持,因此使用机器学习模型继续发掘和验证非财务指标,是未来的研究趋势。
机器学习在会计领域应用中经常被诟病的一点是解释能力不足,即模型预测效果再好也无法被学者完全信任,因此基于机器学习的模型构建过程应包含详细的模型解释过程,尽可能清晰地展示一个机器学习模型为何做出如此决定、哪些特征在决定中起最重要的作用,以提高模型透明度。针对财务舞弊预测问题,需要重点阐述的是预测特征对预测结果的贡献程度,未来可以将研究重点转向分析预测特征的边际贡献程度,即对某一类特征或某一个特征采用逐步验证的方式检验其增量预测能力。
除了财务报表的指标,其他文本内容展也是公开信息披露方式,如年报中的管理层讨论与分析、股东大会或董事会会议记录,都属于机器学习擅长处理的非结构化数据,因此文本分析是未来研究的重点领域。进一步地,财务与会计研究应开拓性地打破宏观经济形势与微观企业行为的割裂局面,通过分析汇总层面的企业微观行为,尝试预测未来的宏观经济现象。由于汇总层面的数据量较大,借助机器学习处理数据有利于深入挖掘会计信息的宏观预测价值。