方郑亮
[摘要]本文从审计数据分析的三种基本方法出发,介绍了中国远洋海运集团相关信息系统的功能特点和配套工作组织模式,并结合实践经验将审计数据分析结果归纳为审计描述、审计线索、审计提示三种应用形式,介绍了审计数据分析对提升审计工作能效、增强审计权威、促进审计成果应用、强化团队建设方面的成效,提出企业发展审计数据分析的四个普适性关键要素为信息化、动态建模、能效评价和工学平衡,对目前审计数据分析在数据来源、数据处理、分析算法、工作流程等方面的重大挑战进行了分析,梳理列举了6类对审计工作具有较高实现价值的应用场景。
[关键词]审计数据分析 审计信息化 算法 应用场景
一、审计数据分析概述
审计数据分析主要结合财务、业务和管理数据,通过对“表、账、证”各类指标比对分析,发现数据异常,识别审计问题线索,确定核查要点。一是报表分析,主要对财报结果进行分析,是审计发挥“经济体检”作用、掌握企业整体经营情况的重要手段。二是账务分析,除了财务账簿类数据外,还包括业务、管理的各类台账、明细账、记录等,通过利用财务辅助账以及业务、管理上提供额外数据分类维度开展分析。三是抽样查证,传统审计无法对全体数据进行检查,抽样成为应对大量底层数据(主要是会计凭证及附件)的主要查证手段,基于数据分布情况,根据审计关注的重要性抽取部分数据进行深入核对核查。
三种分析方法在实践应用中涉及算法都比较相似,目前以汇总、趋势、比例等容易结合实际业务解释的分析算法为主,概率、聚类、逻辑判断等算法应用较少。此外,大部分审计数据分析中基本不考虑对文本、图片、视频等非结构化数据的批量处理问题,涉及少量的非结构化数据,也是先通过手工梳理实现结构化后再进行分析处理。
二、审计数据分析的实践探索
(一)信息系统建设
2016年,中国远洋海运集团(以下简称中远海运)开始建设联网审计系统,数据分析是该系统的核心功能之一。截至2021年底,联网审计系统实现了对集团主数据系统、投资管理系统和所属千余家企业财务系统的数据采集,根据审计需求规范了数据标准,采用大数据技术建立了审计数据库。联网审计系统为集团各级审计人员提供了界面统一的财务数据查询功能,提供“表、账、证”数据穿透和辅助核查等功能。系统设有“数据实验室”功能,允许所有审计人员利用系统内置的一些“大数据”算法,开展数据分析研究和实践,并通过数据接口允许掌握编程技能的审计人员自行编写程序,以完成更为灵活的审计分析建模,实现跨系统、跨地域、跨业务的数据挖掘和分析。此外,系统采用单点登录技术,对集团及所属单位的30余个重要管理、费控等信息系统进行联网,根据审计项目和日常监督需要动态分配访问权限,达到利用相关系统的查询分析功能进行监督核查的效果。
(二)工作组织模式
中远海运在集团总部层面组建了IT人员和审计骨干共同协作的联网审计工作小组,并通过两种模式开展工作:一是专题式工作模式。根据企业管理层关注重点、行业重大变化、年度审计计划等需求,结合联网审计系统的数据质量和分布情况,制定聯网审计专项主题,工作小组围绕主题,依托集团各级审计机构上下协同的工作机制,按照“总体分析、发现疑点、分散核查、系统研究”的流程,独立开展审计核查,形成审计结论和报告。二是融合式工作模式。将联网审计与审计项目紧密结合,以审计组向联网审计工作小组委托任务的形式开展工作,审前利用联网审计系统开展初步调查,为审计组提供线索指引和相关培训;审中为审计组提供远程技术支持,开展数据采集和分析处理,提供咨询建议;审后利用系统对相关整改落实情况进行核实,对相关问题进行跟踪延伸审计。工作小组不定期总结审计数据分析方面的案例和成熟经验,向直属单位推广应用,并结合基层单位贴近业务的优势对现有分析思路和模型进行改进,以点带面促进集团审计数字化工作水平提升。
(三)分析结果应用
审计数据分析的思路和算法很多,但从分析结果的应用形式上可以归纳为以下三种。
1.审计描述。审计描述通过计算企业关键领域的指标信息,得到基于审计需求的分析结果,作为审计鉴证的一部分或审计结论的基础,是一种基于时间点或期间的静态分析。比如,根据盈利能力、资产质量、债务风险、经营增长和其他等5个方面22个指标,建立行业和集团内部对标体系,结合审计覆盖周期,为制订年度审计计划和明确重点核查单位提供参考信息。
2.审计线索。根据审计需求选定数据范围、分析算法和参数等信息,获得审计需要关注的重点或问题线索,再通过线下核查检验分析的有效性。不同审计人员可以根据自身的经验总结,结合验证结果,通过调整数据范围和参数进行更大规模应用,属于一种主动式分析。比如,中远海运的审前调查,除了利用联网审计系统中提供的现有查询分析功能,分析被审计单位组织架构、财务、业务等方面的情况变化之外,还利用对其他重要信息系统的访问权限,对审计对象的相关数据进行汇总和梳理分析,并通过趋势分析、数据比对、异常检测等方法,运用大数据筛查手段发现问题疑点线索。
3.审计提示。通过预设筛选算法和阈值,对历史数据、新增数据进行排查,提示审计人员需要关注的事项,属于被动式分析。简单的审计提示与财务、业务、管理部门的预警分析一致,如预算执行进度、收入成本同比变化都可以纳入审计提示。复杂情况下,可以从历史数据中提取相关业务的供应商、记账等关键信息,建立行为特征的数据映射,固化为筛选算法,使计算机定期根据算法检查新增数据是否具备相应特征,以判定是否存在违规违纪的可能。
(四)工作成效
1.提升审计监督工作效能。审计描述能够提高审计人员对被审计单位各类重要数据的核查和分析速度;审计线索可以帮助审计人员快速验证自己审计思路,通过团队中共享提高核查效率;审计提示直接将部分固化程序的人工核查工作转移至计算机处理。
2.强化审计监督工作威慑力。审计数据分析突破了常规审计项目的边界,极大提升了审计监督的覆盖面,变相增加了对被审计单位的审核频率,一些风险点和违规手法,在特殊的算法和反复的数据分析过程中更容易凸显。在实践中,数据分析的专业性和实时监督能力能较好提升审计的权威性,审计结论和建议也更容易获得被审计单位认可。
3.促进审计成果应用。审计在针对单一审计对象发现的一些具有典型性、苗头性的问题和风险点,如果可以通过反向总结、抽取数据筛查标准,就可以借助审计数据分析在更广范围进行排查,帮助审计发现系统性、普遍性的问题和风险点,防止小问题变成大问题,避免企业产生更大的损失。
4.强化审计队伍建设。审计数据分析工作本身会要求审计人员更多关注企业信息系统的各个方面,熟悉如何利用各种现有工具在信息化环境下服务于审计工作,这个过程会拓展审计人员的知识视野,促进审计数字化思维的形成。数据分析工作的复杂性,要求审计团队必须摸索总结出一套稳定有效的工作模式,处理与IT、数据专家等多个专业领域协同工作,引导前沿数据技术在审计实践中落地,为审计增值发挥效果。
(五)实践启示
虽然对于不同企业,审计数据分析的具体成效因受到审计需求、数据质量、模型算法、核查流程等因素的影响而不同,但其发展仍具有一些普适性的关键要素。
1.信息化建设是基础。审计数据分析所需的数据、计算工具、流程管理等都离不开信息系统的支撑,建立独立的数据分析平台或者依托企业统一的数据集成、云计算平台开展建设,是大多数企业开展审计数据分析、实现审计业务数字化的基础。通过信息化建设,一方面,审计可以通过数据分析,发现揭示各类信息系统建设过程存在问题和风险,发挥审计核查监督作用,为企业数字化转型保驾护航;另一方面,通过信息化推动审计自身业务的标准化、规范化,并向企业管理层和相关利益单位输出审计数据分析结果,提供审计增值服务。但在实践中,审计监督类信息系统的价值更多体现在企业的软实力方面,与企业营收的直接相关性较弱,相关建设需求在企业整体信息化建设中处于靠后的位置,因此,企业对审计信息化建设持续稳定投入是开展后续数据分析工作的关键。
2.动态建模是重点。审计数据分析的建模过程与财务、业务在本质上没有区别,都可以简单表达为:输入数据和参数,通过固定算法和计算过程得到与期望一致的输出。不同的是,审计数据分析的目的是发现现实中问题、风险、不足等情况,相关分析模型的主要价值体现为“筛选”审计关注的电子数据。在实践中我们发现,基于财务关键指标等审计描述类模型长期有效,但只能为审计人员提供方向性建议,对问题根源指向性不清晰;提示“某笔报销费用异常”这类能精确指向细节的审计线索或审计提示类模型,在被审计单位实施整改后,相关数据特征发生变化会导致模型立刻失效。因此设计、测试、应用、推广各类审计数据分析模型,需要考虑模型生命周期和应用价值,根据审计工作需要进行动态平衡。
3.能效评价是关键。实际工作中,审计数据分析模型的结果一般只能代表问题线索,大部分情况还需进一步进行查证。假设审计分析从原始数据到问题线索的比率为K1,从问题线索到核查确认的比例为K2,K1和K2的乘积代表了审计分析的工作能效。基于同一分析模型,在不同数据范围上的应用效果可能差异巨大,如果K1和K2都是百分之一,原始数据1万条,对100條分析结果进行核查并可以核实1个问题,工作能效为万分之一;原始数据上升到1000万条,则需要对10万条分析结果进行核查,期望发现1000个问题,这样的实践结果是不现实的。并且,受历史数据质量分布不均、核查人员能力差异、审计资源分配不均衡等具体情况影响,K1和K2往往呈非线性且无关分布。因此,需要建立起一套科学、系统地反映审计数据分析能效的评价体系,配合分析算法的预估、研发、检验、优化工作,这样才能保证审计分析模型的应用实效。目前业界有一些研究成果,但尚无突出的优秀实践案例。
4.工学平衡是保障。审计资源与工作任务增长的不平衡由来已久。随着国家、企业在数字化战略上的部署和实施,“向系统要资源、向数据要效率”是审计数字化的基本需求。但是,一方面,审计分析的关键技术和核心算法虽然在统计、概率等领域有相同的知识需求,但在具体应用场景下所需的专业知识和技能又有很大区别,数据科学的专业化细分、科研创新工作自身的不确定性,与审计任务在工作周期和成果的需求上很难匹配;另一方面,在大型企业中审计数据分析工作的成果应用可能比研究、创新工作更为重要,一个优秀的审计分析模型、案例通过试点和推广,就能够直接影响企业成本效益,充分反映审计价值。为此部分审计人员还需要兼顾相关信息系统的运营、管理、培训等工作,这些工作内容均不在传统审计岗位考虑范围。长期来看,审计的工学平衡依然仍重道远,无论是加强专业队伍建设,还是引进第三专家、专业机构等措施,依然需要进一步对现有的审计资源进行重新规划配置。
三、审计数据分析面临的新变化
(一)数据来源复杂化
在结构化数据方面,随着企业内部大量的信息系统被广泛应用,数据的体量和类型相对于传统审计范围发生了指数级增长,企业外部的市场指数、政府公开信息、第三方增值服务等数据来源也趋于丰富多样;在非结构化数据方面,随着在审计工作中增值服务和风险防范重要性的提升,如决策文件、会议记录、票据图片、合同条款等非结构数据需要审计进行检索分析的应用场景不断增多。由于建设历史、管控范围等原因,无论哪类数据均难以完全实现规范统一,而且随着市场经济和企业业务发展变化和信息系统的持续更新,可以预见很长一段时间内,审计都需要面对大量在时间、口径上均无法统一数据来源。
(二)数据处理常态化
在传统审计中,数据采集和清洗在数据分析工作中所占比重较小,随着大数据时代的到来,审计在获得接触海量原始数据、可以直接进行电子取证的同时,也要求审计具备独立采集、清洗数据能力,如何对多元异构、跨领域关联的海量数据进行归集和处理是数据分析的前置问题。同时,审计部门也是数据和服务输出机构,审计自身业务的数据规范和质量也直接影响数据分析效果,基于审计视角的数据处理方法与能够提供的价值服务密切相关,数据治理问题不再仅是企业管理和IT部门的问题,也成为监督机构发展数字化业务需要面对的挑战。
(三)分析算法专业化
传统的数据分析方法对数据样本的总量、质量和规范性有严格要求,分析过程涉及的计算往往清晰明了,分析结果也具有明确的指向性。随着计算机硬件性能的提升,分布式数据库、云计算等技术的广泛应用,互联网企业为世界展现了自动推荐、神经网络、支持向量机、决策森林等算法在商业领域的应用价值。但是大部分算法都无法做到完全准确。在实际应用过程中,具备深度数学知识的工程师对算法的调优、对分析结果的解释变得至关重要。由于数据科学的深度分类,企业需要同时精通算法和业务的专业化人才,考虑到企业不同岗位对人才吸引力的差异,内部审计数据分析人才专业化的需求会比管理和业务部门更加凸显。
(四)工作流程独立化
传统审计中,数据分析主要作为审计的一种技术方法或工具,发挥辅助作用。随着时代发展,出现面向系统和电子数据的数据式审计概念,普遍认为数据式审计区别于传统审计的一个显著特点是将搭建审计分析模型作为审计的核心环节。大数据时代业界对数据式审计尚未统一定义,审计署和部分企业对自身数据式审计都设置了特有工作流程和管理方法。中远海运自2016年开始在集团总部和直属单位推广联网审计,也专门设计了配套的工作机制。随着企业数字化转型,围绕如何挖掘数据价值、发挥增值服务作用,审计数据分析已经发展出独立、区别于传统审计项目的工作程序和管理模式。
四、对审计数据分析新应用场景的思考
根据审计数据分析实践,梳理出部分目前较有可能通过关键技术突破,凸显价值、形成核心竞争力的六个审计数据分析应用场景。
(一)企业侧写
建立以财务数据为主的企业指标库,并不断增加审计关注业务指标形成对企业侧写描述。可以通过传统分析方法建立小体量指标体系,也可以利用特征工程、无监督学习等技术建立上千个指标的超大体量指标体系,结合审计历史问题等信息,相关统计分布情况可以直接形成审计风险地图、预警分析等效果。此类分析还可以进一步通过指标归集企业的特征值,将企业进行跨板块、跨行业分類,进而根据归属同组企业存在同类问题概率较大、不同组企业存在独立特殊问题的概率较大的思路,进一步推动审计分析成果应用。
(二)异常检测
基于两个假设:一是业务的异常情况会反应在数据上,二是数据的特征总体是符合某种分布规律的。根据这两个假设有两种基于概率统计技术的建模思路:一是可以通过特殊筛选方法将数据中比例较小的部分作为异常部分筛选出来,对“孤立点”检测的方法;二是从数据比例较大的部分入手,通过交叉筛查条件构建异常检测模型,将交叉筛选结果作为审计关注和重点核查方向。
(三)预测和周期性匹配
主要研究企业经营与市场规律匹配情况和成因。市场是存在周期性波动的,理论上企业的收入、成本类的数据应该与市场变化规律存在某种关系,利用时序数据分析方法发现这种规律,结合历史数据可以预估出未来一个时间节点企业某种指标的合理范围,实现预测。此类分析在金融领域,如股票、外汇分析等方面已经有不少成熟的应用。在借鉴相关思路和技术的基础上,通过预测结果与实际情况进行比对,可以对偏差进行深入核查发现问题,也可以对部分风险进行预判提示。
(四)数据相关性挖掘
通过数据挖掘技术找到隐藏在海量数据中的新知识。审计通过“相关性”分析结果,核查是否存在以前未被识别的“因果性”,进而发现是否存在薄弱环节或风险点。在具体操作中可以利用线性相关性计算等简单算法,也可以利用如神经网络、支持向量机等复杂算法,审计机构可以根据自身的数据体量和算力选择适合的算法。数据相关性知识挖掘是开展研究型审计、建立审计独立分析视角的最佳途径。
(五)审计问题的分类
企业的不同管理层级在不同时间、不同需求下,对审计问题的分类、定性以及重要程度有不同的分类需求。过去依靠人工梳理,耗时长也严重依赖操作人员的专业水平,不仅影响审计问题归类统计的严肃性,也制约审计的深度。目前,可以利用自然语言处理技术(NPL)相关算法,通过计算机进行自动分类判定,根据审计问题的一段描述,按照指定分类对历史问题进行归类,辅助人工抽样纠正,对部分错误数据进行标注,再利用机器学习技术改进分类算法参数,进而为审计管理和成果应用提供更有参考价值的统计数据。
(六)非结构化数据处理
随着审计对企业问题成因、本质的深入分析,被审计单位提供的资料中,合同、报告、总结、规章制度等文本数据价值会逐渐增加,全文关键字检索是此类分析的入门应用,利用特殊计算工具,批量处理文字性材料,并以结构图、摘要信息、文档关系等形式呈现,进而提高审计人员阅读和理解效率。此外,发票、照片、录像、录音等电子数据也是审计实践中的常见资料,利用图片识别、机器学习等技术可以批量识别图片、视频、音频等非结构化数据,提取关键信息进行结构化处理,提高审计人员核查效率,为进一步分析夯实基础。
(作者单位:中国远洋海运集团有限公司,邮政编码:100031,电子邮箱:fang.zhengliang@coscoshipping.com)
主要参考文献
[1]陈伟.联网审计技术方法与绩效评价[M].北京:清华大学出版社, 2012
[2]董伯坤.预算执行的数据式审计模式探索[J].审计研究, 2007(6):16-20
[3]付慧丽.数据式审计在企业集团公司的应用:以京东方为例[J].财会通讯, 2022(7):130-135