陈大峰(高级实验师),陈海勇
趋势分析(Trend Analysis)最初是一种财务报表分析方法,近年来审计研究人员将其应用于审计工作,进行核心数据取样,构建分析模型,将各个不同时期的数据进行综合比较,从中揭示经济活动的规律并做出预测[1,2]。另有一些研究人员针对不符合整体趋势的数据,提出离群数据挖掘的审计研究方法[3-5]。当前信息系统审计研究的主要目标是,如何合理搭建系统的体系架构,设计完备的功能模块并进行辅助决策支持[6],以及通过对数据的深层分析,揭示审计工作中一系列影响绩效信息使用的组织因素[7-8]。随着大数据技术的出现和兴起,将其引入审计,可以对复杂的电子审计信息进行有效转换集成、查询统计以及数据挖掘[9],但目前大数据应用仅仅停留在比较初级的阶段。面对标准越来越高的审计要求,需要在复杂数据环境下对新的审计手段展开研究,进一步提高工作效率。
大数据时代下,审计机构、被审单位、上下游单位以及所在行业都已经建立了相关的信息管理系统,各种计算机审计技术和方法取得了长足的发展,这给基于大数据的信息系统趋势审计提供了良好的研究基础。为了充分发挥大数据技术的各种优势,将大数据的最新技术与审计实务结合起来,本文提出了基于大数据的趋势审计的概念,并给出以下定义:大数据环境下信息系统趋势审计是指使用大数据技术对被审计单位和上下游单位或所在行业的业务数据、财务数据进行集成、对比、统计和分析,研究某段时期的效益走势、验证前期趋势、预测后期发展趋势,以判断被审计单位数据的合理性。
利用趋势审计可以对财务数据的合理性进行判断,揭示被查单位的财务问题,也可以在经济效益审计和事前审计过程中判断经济效益以及预测经济活动的发展前景。在传统环境下进行趋势审计时,一方面由于受到审计数据抽样的限制,得到的被审计单位的趋势存在相当大的误差;另一方面行业之间、上下游单位之间数据独立、互不关联,如果仅仅对某个被审计单位的数据进行趋势分析,则只能针对其中的离群数据做审计判断或者是趋势估计,得到的趋势审计结果没有参照上下游单位数据以及其所在行业的数据,所以其价值往往会大打折扣。脱离整体环境的趋势估计也显得太过理想化,失去令人信服的依据。另外,脱离整体环境产生的离群数据量是巨大的,并且绝大多数情况是合理的,只有在通过本行业和上下游单位综合分析后得到的离群数据才值得进一步去追踪调查。趋势分析面向的数据越多,分析得出的结果准确性越高,并且需要在分析过程中排除非可比因素。
大数据环境下趋势审计的主要任务是根据被审计单位的经济活动的逻辑关系设计审计方案,运用大数据技术对信息系统在运行过程中产生的大量业务数据与财务数据进行采集、转换、集成和分析,然后进行信息预测处理和数据挖掘,最终对数据进行趋势判断,发现可疑数据,取得审计线索。在此基础上,本文构建了趋势审计实施框架,如图1 所示,整个实施过程分为审计准备、数据采集与集成、趋势分析与表示、审计结论四个阶段。
审计机构在接收到审计任务后,首先要根据审计业务的性质和范围确定趋势审计目标;然后对被审计单位的经营情况进行详细的了解,掌握其组织结构、经营规模、潜在风险、内部控制、上下游单位、关联方及交易、所处行业的整体状况、主要竞争对手、以前年度审计报告等方面的情况;最后制定审计工作计划,报上级审批后确定趋势审计方案。在大数据环境下,被审计单位、上下游单位以及所在行业的数据情况比较复杂,审计人员在制定工作计划前应先根据审计任务进行需求分析,对数据资料进行初步分析和筛选,有针对性地缩小审计数据范围。好的审计方案不仅便于合理安排任务,而且能够减轻后续工作量。
图1 趋势审计实施框架
审计准备阶段需要对数据进行相关性检验。趋势分析往往是假设被审计单位数据与上下游单位的数据高度相关,如果挑选的某些上下游单位数据与被审单位数据之间的关联不大,那么得到的趋势分析结果显然是没有意义的,所以在选择上下游单位时首先需要检验与被审单位数据的相关性。相关性检验是指对多个数据集合进行统计和检验,判断其是否相关以及相关的程度如何,数据相关的程度用相关系数r 标识,当r 大于给定显著性水平a 和一定自由度f下的相关系数临界值T"a时,表示变量之间在统计上存在相关关系,否则不存在相关关系[10]。在众多相关性分析方法中,应用最为广泛的是Pearson积差相关,但该方法只能适用于被审计单位数据与上下游单位数据都为正态分布的情况,如果不是正态分布或者分布类型未知,宜采用Spearman 等级相关或Kendall等级相关[11]。
审计人员在进行趋势审计时,先按照审计需求对被审计单位和上下游单位信息系统中的数据进行采集。审计数据采集是进行趋势审计的首要前提,也是审计过程中最基础、最耗时的工作。进行审计数据采集时,审计人员需要依据事前调查所提出的需求,结合本次审计工作方案,确定本次审计数据的采集范围、采集内容以及采集重点。
由于各个数据源的数据结构不同(包括结构、半结构和非结构数据),为了方便后续操作,采集获取的数据首先要使用数据转换技术和整合技术进行处理,将其转变为标准统一、便于处理的数据格式,再将数据进行聚合、修正和关联性分析,清理去噪,以保证数据的质量和可靠性,最后得到可信赖的关联数据存储集成[12]。在大数据环境下,数据量特别大而且结构多样,不能仿照传统环境下将所有类型的数据转换为同一种类型数据存储,一般是针对各种类型的数据建立专门的数据库,分门别类地放置这些不同种类的数据信息,这样可以有效缩短数据查询和存取的时间,提高数据集成速度。
趋势审计所涉及的数据量巨大、种类繁多,传统的数据存储方式依靠新建数据库、添加表字段和记录等方式,已经落后于所需处理数据的增长速度。为了高效地处理这些类型不同且价值密度较低的海量数据,必须采用分布式存储方式。Google 公司自行开发了一种分布式文件系统GFS(Google File System),它是一个基于分布式集群的大型分布式处理系统,为大数据环境下分布式计算提供低层数据存储和数据可靠性的保障。对于规模不大的趋势审计项目,可以使用GFS 实现数据的有效存储。对于大型审计项目,由于数据量的逐渐加大、数据结构的愈加复杂,最初的GFS 架构会出现单点故障和海量小文件存储等问题,而且无法满足数据进一步分析处理的需求,Google 公司在原先的基础上对GFS 进行了重新设计,升级为Colosuss系统,在这个系统中以上问题得到了很好的解决。
趋势分析与表示是整个审计流程中最核心的部分,需要利用多种大数据处理技术,技术要求较高,在这个过程中根据审计业务需求最终得到趋势分析报告。经过上一阶段数据的集成得到了关联集合,其中的原始数据可以认为是比较正确和可靠的,审计机构首先按需要对这些原始数据做初步的抽取、筛选、分类、统计和标识,然后根据业务要求使用大数据技术(如分布式文件系统GFS、开源实现平台Hadoop、分布式数据库Bigtable、批处理技术Mapreduce、高性能计算与通信HPCC 等)进行规范化处理,期间生成的阶段性结果存储在数据中心,最后在规范化的基础上通过数据挖掘、信息预测、智能算法、决策支持等手段得到趋势分析,并使用数据可视化技术和人机交互技术形成趋势图示。
在趋势分析中可使用数据挖掘、集群、分割、孤立点分析等算法,深入数据内部来挖掘其中的价值,典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes等。数据挖掘不会预先设定固定的主题,主要是根据实时审计业务处理的要求,进行基于各种算法的计算,从而起到筛选和预测的效果。若要实现一些高级别数据分析,则可以使用聚类和分类的方法,针对不同类别的数据,按照具体业务需求进一步进行处理。该过程的特点和挑战主要是用于数据挖掘的算法很复杂,并且计算涉及的数据量和计算步骤都很多,常用的数据挖掘算法都以单线程为主,这些算法不仅要处理大数据的量,还要处理大数据的速度[13,14]。
审计机构需要与被审计单位多次交互,进行业务请求、信息反馈和信息确认。审计人员通过挖掘和分析得到的信息是否可作为审计线索,需要对照审计项目特定情况来分析和验证,进一步追踪和检查相关辅助资料,落实问题,找出潜在的价值,以保证后续的审计业务分析工作顺利完成。此外,需要使用数据可视化技术,模拟人脑的视觉思维能力,将抽象的数据表现为图形中的趋势曲线,使得审计结果形象化。
审计人员首先需要对上一阶段形成的趋势图示中的信息进行筛选、归类和整理,然后与根据被审计单位的相关经济活动产生的数据做验证,综合评价被审计单位的效益,出具趋势审计报告初稿。期间辅助的审计工作还有评估持续效益情况、检查期后事项、检查离群数据事项、检查或有事项和行业整体情况研究等。审计报告初稿经过项目专家组认证后报上级部门,最终确定审计报告。被审计单位遵照审计报告中的审计意见执行,相关部门也需要从审计报告中提取有价值的信息。最后整理和归档各种审计数据资料,以备复审和查阅,并将调阅的被审计单位资料全部归还给被审计单位。
在实际的审计工作中,被审计单位内部大数据的焦点在于业务流程信息与知识及沟通信息的融合,而外部大数据的焦点在于上下游单位、市场及行业社会环境信息的融合,所以大数据环境下被审计单位数据集成是要将内、外部大数据做全方位融合。集成后对数据的分析包括内容、关系和时空三个基本维度。内容维度是指被审计单位的数据所承载的信息内容,关系维度是指行业数据、上下游单位数据与被审计单位的数据之间的联系,时空维度是指各审计数据生成的趋势及数据随时间演变的模式,三个维度的交叉综合可以形成趋势价值。
根据趋势审计业务的需要,上述三个维度上的需求主要由三种类别的分析技术来支撑:一是全局视图技术。对于审计机构而言,对审计数据内容全局状况的把握,是开发趋势审计价值的一个基本需求。但审计数据的复杂性往往超出一般认知的信息承载能力,所以需要使用有效的技术从大量数据中提取出一个足够小的集合呈现给审计人员,同时这个小集合充分地代表了被审计单位和相关行业的信息。二是关联发现技术。其目标在于敏锐识别被审计单位数据与参照单位或行业数据之间的联系。对于绩效审计和事前审计,尤其需要强有力的关联发现技术,对大量的数据属性之间所构成的复杂潜在关联网络加以处理,最终形成趋势对比。三是动态跟踪技术。其目标在于对审计数据进行实时的快速增量分析和流数据分析,以达到监控和预警的作用。近年来这三种技术发展非常迅速,已经从实验研究逐步走向实际应用。为了满足趋势分析需求,对审计数据的分析就是利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行筛选、标识、分类和统计等。
趋势审计作为一种全新的技术手段在审计的多个领域加以应用,旨在提高审计工作效率和准确率。在大数据环境下,趋势审计工作可以分为以下几个类别:
区间审计是针对被审计单位某段时期的数据,判断业务数据或财务数据相对于上下游单位是否存疑,是否符合经济发展规律,这是较为常见的一种趋势审计类型,其前提是假设被审计单位数据与上下游单位的数据高度相关。以审计某单位财务收支项目为例,首先将某段时间内的所有财务收支数据分为三个类别,分别是本单位的收益数据、与上游单位相关的数据以及与下游单位相关的数据,然后使用大数据的数据挖掘技术和可视化分析技术进行处理,将每类数据显示为时间收益曲线,再相互比较得到趋势判断。判断的结果有两种:一种是近似正常,如图2 所示,在图中被审计单位的收益曲线大体是在上下游单位数据曲线控制的区间内;另一种是存疑,如图3所示,在图中被审计单位的收益曲线与上下游单位数据曲线相互交叉,比较杂乱,不太符合经济规律,这就提供了审计线索。
后势预测审计是指对一段时期的现实数据进行分析和统计,根据其规律预测将来数据的发展趋势,属于事前审计的一种应用。事前审计又称预防性审计,是对将来可能要发生经济或社会事项前景的提示,是当前审计领域的一个研究热点,但其实现的手段比较少,大数据环境下的后势预测审计能够提供一种较为科学的依据。以财政预算项目为例,对当年第四季度的预算做事前审计,需要将前几年的财政数据变化规律曲线加载(使用计算机图形技术来进行模拟)到当年前三季度数据中,然后进行比较,形成科学化的决策。在图4 中,预测的预算资金低于存量资金,则可以视为风险可控;在图5 中,预测的预算资金高于存量资金,则可以视为风险不可控,需要进一步的论证。后势预测审计是以决策为主要审计对象,可以减少失误和错弊,起到预防和警示的作用。
图2 时间收益曲线近似正常
图3 时间收益曲线存疑
图4 趋势风险可控
图5 趋势风险不可控
前势验证审计是指采集某段时期的后续数据,假定后续数据是真实可信的,根据其规律推测以前的发展趋势,最后与这段时期的数据进行比较,以期发现这段时期的审计疑点。以审计某单位上半年财务状况和经营成果为例,将前几年的财务数据变化曲线加载到下半年的财务数据中,与上半年财务状况进行比较。在图6中,前推的财务数据与现实数据相差不大,则可以视为正常;在图7 中,前推的财务数据与现实数据相差大而且振幅紊乱,则可以视为存疑。前势验证审计的监督作用还是比较明显的,其对于研究分析问题、改进工作、挽回已造成的损失和纠正错误弊端等都有重要作用。
图6 前势验证正常
图7 前势验证存疑
行业内趋势对比审计是指将被审计单位的数据参照所在行业整体水平,或者与相似单位的相似业务数据进行比较后得到审计结论,主要应用于绩效审计中。绩效审计越来越注重效果性,尤其关注资金使用效益,但如果检验效果性时脱离了相互比较,得到的结论也是经不住推敲的。以审计某市专项公共资金的使用情况为例,首先采集专项公共资金发放前后的效益数据,绘制出趋势曲线,然后寻找另一相似的城市,将其专项公共资金的使用情况也绘制出来,或者统计这段时期所有市的公共资金平均使用情况,再相互比较。在图8 中,公共资金发放前后效果明显,并且取得的效益优于本省平均水平,则可以视为绩效好;在图9中,公共资金发放前后效果不明显,且取得的效益远差于本省平均水平,则可以视为绩效差。通过行业内趋势对比审计可以发现绩效不佳的领域,在经济性、效率性、效果性方面监控并分析存在的问题,帮助被审计单位进行整改。
图8 行业内趋势对比绩效高
图9 行业内趋势对比绩效低
图10 多行业综合趋势绩效高
图11 多行业综合趋势绩效低
多行业综合趋势审计是将各行业内的数据进行统计后再与其他行业相互比较,或者统计所有行业的数据形成时间趋势曲线,以判断各个时间段的绩效。多行业综合趋势审计可以应用于绩效审计,也可以应用于大型审计项目中,其能够在宏观上整体把握项目的开展。以省级重点产业调整和振兴专项引导资金绩效审计为例,首先采集各产业在专项资金发放前后的效益数据,绘制出趋势曲线,然后统计相邻行业和所有行业的综合效益,最后相互比较,形成阶段性的审计结论。在图10 中,资金发放前后各个重点行业效果明显,并且相邻行业和所有行业的综合效益得到了很大提高,则可以视为绩效好;在图11 中,某些行业的效果虽然有所增长,但其增长率明显较低,相邻行业和所有行业综合效益的提高也有限,则可以视为绩效差。多行业综合趋势审计利用大数据技术及其相关工具,可以通过对照发现绩效不佳的行业,实时识别风险,提高宏观监控能力。
区间审计的趋势研究主要是为审计人员快速提供审计线索,缩小存疑数据所在的范围,需要采用其他传统的方法固定证据,取得审计结论。后势预测审计等其他类型的趋势研究可以直接应用到绩效审计、经济责任审计以及事前审计中,综合分析被审计单位、本行业和上下游单位的数据,得到的结论更为严谨和科学。对于其中的向后预测或向前推导,除了上文提到的依据某段数据进行直接加载外,还可以使用外推法和因果法。外推法的实施比较简单,适用于短期预测,最常用的是时间序列法,包括移动算术平均法和指数滑动平均法。使用移动算术平均法进行审计的前提是假定未来的状况仅与近期数据有关,与更早期的数据无关。当时间序列已经表现出某种规律性趋势时,Brown等[15]提出可以采用指数滑动平均法,对整个时间序列进行加权平均,加权指数一般取0.7左右。因果法是依据审计对象之间的因果关系进行预测,最常用的是回归分析法和计量经济学方法。回归分析法是先进行定性分析,确定有哪些相关因素,然后使用最小二乘法求出各因素之间的相关系数和回归方程,并依据这个方程做预测或前推。计量经济学方法是利用经济理论和经验数据建立表达各经济因素关系的统计模型,并用随机扰动误差代表忽略的因素对模型的影响,反应较长时间的规律性,适用于中期预测。另外还有线性预测模型,可以充分利用先验信息的贝叶斯方法,整合各种模型的优点进行组合预测。对于一些预测精度要求不高的审计项目,还可以采用定性预测,近年来人工智能也产生了如Boosting、贝叶斯网络等定性预测算法,已有学者分别对这些定性方法进行了探索与应用[16-18]。在具体的审计工作中,审计人员应根据特定需求和应用环境,灵活地选择预测方法。
以2015 年某地区住房公积金征管审计项目为例,住房公积金的提取对应着当地住房销售,而住房销售往往会涉及公积金贷款、住房契税缴纳以及开发商土地出让金缴纳等信息,因此,首先需要将采取的数据进行简单的去噪和格式转换处理,并导入到GFS系统中完成分布式存储。然后使用Hadoop平台中的Mahout 工具,对数据执行聚类算法,并对聚类结果进行分析。住房公积金提取信息可以分为提取人、住房、开发公司、公积金、土地等多个维度,包括住房地址、公积金提取时间、金额以及类型(贷款按月划拨、年度一次性提取等)等信息。如果需要的数据在有限的时间内得不到满足,可以使用数据交换模式进行收集。
数据收集并集成后,将各个不同数据源信息根据提取人信息或住房信息对应关系互联,采用的数据挖掘算法为K-Means 算法,特征为“公积金提取金额”和“房屋信息”,把这几个数据源对象分为若干个簇,以使簇内具有较高的相似度,根据一个簇中对象的平均值来计算相似度。在Hadoop 平台的mahout 目录下执行bin/mahout 命令,检测系统是否安装成功,再将各类别的数据执行划分,导出各簇数据集合。这里审计人员假定数据中有1/k 部分需要重点关注,k当前取值为30,实际可以根据工作需要动态调整,在得到的方差最小标准的k个聚类中,将公积金提取额均值最大的聚类认定为离群数据集。因为这些数值比较大的数据往往对应着某个阶段的特别业务,可以作为离群数据,需要额外的审计验证。通过审计验证的数据可作为正常业务数据,发现有问题的数据应记录在案并剔除出来,不能作为趋势审计数据。若审计工作时间紧迫,可将所有业务中的这些特别数据直接清洗掉,形成初步的趋势分析,同样具有一定的价值。另外,缺少完整互联信息的数据同样可以认定为离群数据,离群集合作为孤立点为后面的审计提供线索。
接着需要对相关数据做相关性检验。基于各簇数据集合中对应的住房公积金提取数据、住房契税缴纳数据、公积金贷款数据以及土地出让金缴纳数据建立线性回归,将数据导入Eviews 软件中进行显著性检验,结果如表所示。
由表可知,住房契税缴纳(I)、公积金贷款(G)、常数项(C)都通过了1%的显著性检验,而土地出让金缴纳(Y)未能通过显著性检验。表明住房公积金提取数据与住房契税缴纳数据、公积金贷款数据紧密相关,而与土地出让金缴纳的相关性不大,所以趋势分析时可以摒除土地出让金缴纳数据。
最后将各簇数据集合中住房公积金提取、住房契税缴纳和公积金贷款的相关数据按一周为统计单位汇总,绘制出趋势曲线,如图12所示。
相关性检验
图12 趋势曲线
图12 中有两个突出的部分,分别是8 ~16 周和37 ~ 45 周,对应着每年的3、4 月和8、9 月,是每年买房的高峰期,但对比契税缴纳和公积金贷款曲线,住房公积金提取的趋势曲线上第17 周和第22 周数据有异样,可以认为这是重大审计线索,需要重点审计,如果被审计单位没有相关资料辅证,则可以判断出此期间公积金提取不合规。
面对大数据,若采用普通的审计工作模式,需要对每个核心数据逐个检验,针对每个存疑数据都要对被审计单位做验证性分析,即使在数据已经高效集成的基础上,其工作量也是极其巨大且低效的。传统环境下的趋势分析对数据进行抽样,建立分析模型,对比参照行业,得到趋势结果。参照行业的选取存在很大的随机性,而且数据抽样误差大,得到的趋势结果不严谨。而大数据环境下的信息系统趋势审计利用大数据集中处理技术和统计技术代替传统的数据抽样,误差得以控制,并且可与本行业和上下游单位数据进行综合分析,形成的趋势更科学,审计线索能够更快地被发现,得到的审计结果更有说服力。
趋势审计技术可以在发现审计线索、行业综合判断、事后审计、绩效审计、经济责任审计、审计验证等多个方面得到应用,提高审计工作的效率和准确率,借以纠正错误和防止弊病,并根据审计结果,提出改进建议和措施。大数据环境下审计数据最显著的特征是其多种类型的来源、多样化的形态、持续快速地产生和演变,以及对深度分析能力的高度依赖。因此,审计机构对大数据的统计和分析,其核心并不在于采集并整合出大规模的数据,而是能否对来自被审计单位内外部多样化的数据进行高效的集成和筛选,并通过深度分析发现其审计价值。本文提出的基于数据交换的信息系统趋势审计成功地实现了这一点,在理论上提出了信息系统趋势审计的定义,总结了趋势审计的应用范围和类型,在实践上使用数据交换模式提高数据预处理速度,构建了实施框架并将多个关键技术加以整合,其工作效率和准确率高于传统的审计工作方式,建立的分析模型可直接应用于其他相似单位的审计工作,并针对不同时期、不同审计需求反复使用。
大数据趋势技术的应用环境要求较高,审计机构需要额外收集上下游单位数据以及行业数据。另外,审计人员一般需要经过严格的培训后才能掌握复杂的大数据技术。随着社会各行业信息化工作的开展和审计人员操作能力的提高,以及数据交换模式的开启,大数据趋势技术使用的桎梏将会逐渐被打破,从而实现高效的信息系统审计。