阳秋林 唐倩倩
[摘 要] 大数据审计的研究与应用是近年来审计领域的热点,数据的井喷式增长以及技术的更迭对传统的审计监督而言无异于当头棒喝。因此如何在海量数据中获取与审计相关的数据以及选择适应时代的审计方法是目前开展大数据审计的关键环节。本文首先阐述了开展大数据审计的必要性,分析了目前大数据审计在数据采集过程中存在的问题,提出了基于python的大数据审计原理,其次通过梳理大数据审计的研究现状,剖析传统审计在数据存储,审计程序的转型,最后研讨大数据技术和方法对审计的支撑作用。
[关键词] 大数据审计;Python;审计方法
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 01. 032
[中图分类号] F239 [文献标识码] A [文章编号] 1673 - 0194(2020)01- 0070- 04
1 引 言
随着信息技术的发展,被审计单位的运行越来越依赖于信息化,审计工作环境发生了翻天覆地的变化,以传统的审查账簿为主要手段的审计面临着巨大的困境。2015年,国务院印发《促进大数据发展行动纲要》。2016年金砖国家最高审计机关领导人在会议上指出:要加强顶层设计和战略规划,加大大数据技术的应用,创新审计方式方法,提升审计效能,更好发挥审计作用[1]。2018年,习近平总书记在中央审计委员会第一次会议上指出,要坚持科技强审,加强审计信息化建设。与此同时,国内外学术界也对大数据技术在审计上的研究给予高度重视,Earley(2015)分析了大数据技术给审计工作带来的机遇和挑战,研究了大数据技术在CPA审计中的应用[2];陈伟(2017)分析了大数据审计的现状与发展,以及大数据环境下电子数据审计的机遇、挑战与方法。纵观学术界与实务界,研究大数据审计具有重要的现实意义与应用价值。
2 研究现状
2.1 大数据的内涵及特点
早在2008年,《Nature》就推出了“Big Data”专刊,首次提出了大数据的概念。2011年,麦肯锡(2011)发布了《Big data: The next frontier for innovation, competition, and productivity》,将大数据定义为大小超出常规数据库工具获取、存储、管理和分析能力的数据集。
概括来说,大数据主要具有以下四个特点。
(1)大量: 数据量大,非结构化数据的超大规模和增长比结构化数据增长快10~50倍;另一方面,计算量较大。
(2)多样性:大数据的形式多样,如文字、图片、视频等。
(3)迅捷:一方面,数据量增长速度快;另一方面,大数据要求实时分析,处理速度要快。
(4)真实性:数据必须是准确的、可靠的、一致的,具有可追溯性。
2.2 大数据审计的内涵
目前,国外有关大数据审计的学术研究还比较零散。Lohr(2011)认为,应用大数据技术以后,审计判断更多的是依据数而非经验,这将提高审计的质量 。Moffitt etal(2013)也认为, 大数据将改变审计判断的方式[3]。国内学者大都认为大数据审计是基于大数据技术发展而产生的一种新的审计方式,其主要内容包括电子数据审计和计算机信息系统审计两方面。
2.3 大数据对审计的影响研究
(1)加大对外部數据的依赖:经济活动的日益复杂,加大了审计的难度,传统的“一对一”的审计获取数据不够全面,大数据环境下,审计更加依赖于电子数据,对纸质数据的需求减少,更多的是需要外部数据。
(2)加强相关关系证据的应用:大数据技术下的审计不再依赖于审计证据之间的因果关系而是基于数据间的相关性进行分析和验证, 利用计算机可以提取并分析相关性较弱的审计证据。
(3)力推审计质量和审计效率的提升:在大数据环境下,注册会计师不必采用抽样审计调查,而是全面调查,这样可以避免抽样误差,从而提高审计质量。利用大数据审计,审计证据将会更多、更全面。
3 大数据环境下审计的技术支持
3.1 大数据审计的数据采集
3.1.1 大数据审计的数据来源分析
大数据审计数据采集过程中的挑战主要集中在两方面,一方面,在数据生成过程中,有许多可以人为控制的环节,增强了舞弊的可能性,再者单位之间用的软件不同也可能影响审计的有效性,例如A公司使用金蝶,审计单位使用用友,那么这两者之间所产生的数据格式将会有所不同,审计人员在没有有效的手段验证数据真实性的情况下转换不同格式之间的数据,可能产生不可预见的错误,增大审计风险。另一方面,随着经济活动复杂程度的提高,企业数据呈几何级增长,数据所呈现形式也丰富多样,不仅仅局限于数值,还包括文字、图片等多种形式,数据类型也不仅仅局限于结构化数据还包括非结构化数据。因此审计人员在采集数据时,可能导致数据采集查全率低,不能真正反映有效的审计信息。
3.1.2 现有的数据采集方法
(1)Direct replication。当审计单位与被审计单位使用相同的数据库时,直接复制到审计人员的计算机中。
(2)ODBC接口采集。即审计人员通过ODBC数据访问接口直接访问被审计单位信息系统,转化成审计所需的格式。
(3)办公软件数据采集。使用如Excel,MS Access,MS SQL Server 等办公软件完成数据采集。
(4)专属模板采集。一些审计软件在被设计时,根据审计单位不同的特点设置了相应的模板,审计人员在进行数据采集时,通过选择相应的模板,即可自动实现数据的采集。
四种采集方式各有利弊,如表1所示。
3.1.3 大数据环境下的审计数据采集方法——以Python为例
目前,审计数据的采集主要依托于被审计单位的数据库,但在大数据环境下,审计人员也应积极搜集第三方数据,增强审计数据的全面性。然而这些信息大多以网页的格式存在,难以被审计人员直接分析,这就影响查全率,造成了一定的审计风险。因此,审计人员可以采用计算机辅助工具抓取网上数据。
Python(网络爬虫),是一种按照特定规则抓取网络信息的程序或脚本。因此,网络爬虫技术可以帮助审计人员获得各类与审计相关的数据,利用爬虫技术采集数据的过程主要有以下几步:第一步,确定目标。审计人员确定所需要获取的数据。第二步,网页分析,为获取第一步所需的数据对相关网页进行分析。第三步,数据获取,根据上一步对网页的分析,抓取数据。第四步,数据过滤和清洗。对取得的数据利用可视化工具进行分析,再借助SQL查询、Excel分析等进行建模和分析,进一步获得审计数据。
3.1.4 基于Python的审计大数据采集
常用的网络爬虫软件主要有以下五种,其优缺点如表2所示。
3.2 大数据环境下的审计数据存储
传统的审计数据有两种存储方式,一是以纸质文档的形式储存,采用这种方式存储,一旦文件数据过多,就需要占用大量的空间。造成空间上的而浪费。且时间一长,文档可能发霉变质。二是以电子数据的形式存储,以U盘或者移动硬盘为载体, 这种存储方式虽然相对便捷,但存储介质易受病毒感染且数据不能共享。郭红建(2017)大数据环境下的云端存储相较于上述两种存储方式有着绝对的优势, 云端存储通过集群应用、网络技术或分布式文件系统等功能,将云端数据的存储设备协同工作,共同对外提供升级数据存储和审计作业访问[4]。
3.3 大数据环境下的审计程序分析
3.3.1 审计程序分析方法
审计程序方法主要有趋势分析、比率分析、回归分析以及时间序列分析这四种方法。
(1)趋势分析法。简单来说,趋势分析是通过各期指标对基期指标的变化趋势分析,看看这种趋势的变化是否合理,进一步可以发现异常或为预测未来发展提供帮助。
(2)比率分析法。此种方法是财务分析最常用的工具,通过财务报表上若干重要项目的相关数据相互比较分析企业获利能力、偿债能力、成长能力以及周转能力,从而评价公司的经营活动。
(3)回归分析法。回归分析法是一种统计方法,通过构建因变量与自变量之间的回归方程式来预测与其有相关关系的随机变量值。回归分析法的难点在于需要收集企业大量的基础数据并且要确定变量之间是否存在相关关系,如若不然,预测结果将出现严重偏差。
(4)时间序列分析法。将经济发展、购买力大小、销售变化等同一变数的一组观察值,按时间顺序排列并结合数学方法来预测市场未来的发展变化趋势。
3.3.2 大数据引进审计分析程序的方式
引入大数据后,审计分析程序具体的分析方法也发生了一点改变,但基本流程是一致的。可以分为确定分析程序对象、明确期望值、可认同差异运算和分析差异合理性四个步骤。
(1)确定分析程序对象。大数据环境下的审计分析程序不再選取预期关系作为关键点,而是采用多角度的方式将数据概念抽象化,降低低概念层次的数据,扩大高概念层次的数据并运用一定的分析技术处理数据,提升数据的价值并且详尽地描述财务数据,使财务报告更全面、客观,为下一步打好基础。
(2)明确期望值。大数据环境下的审计,行业内的审计数据共享在大数据平台,审计程序分析数据也不例外。依托于大数据平台不仅可以量化相似企业数据,还能从大数据平台获取各种行业数据,并且能够利用大数据处理技术,使得数据更加的客观准确,摆脱了传统审计获取程序分析数据难、数据不准确的困境。
(3)可认同差异运算。大数据下的审计分析程序,将同行业的审计数据以不同的属性进行差异性和相似性的划分,选取与被审计单位相似的企业为标准,计算差异值范围,但要保证审计分析的准确性就必须确保被选取企业的审计数据真实,这在一定程度上提高了审计人员对数据收集和筛选的要求。
(4)分析差异合理性。传统审计下,执行被审计单位分析程序时,依赖于注册会计师的经验去分析和判断重大差异,主观性较强,削弱了分析程序的功能,而引入大数据技术后,深度挖掘差异存在的根本原因,重新执行分析程序同时有效识别差异,排除干扰数据,为进一步执行审计程序打好基础。
3.4 大数据下的数据挖掘
数据挖掘即是运用一定的方法对数据进一步的分析处理,挖掘隐含的数据及其价值。主要包括以下几个步骤。
(1)数据清理:筛选并剔除重复多余的数据。
(2)数据转换:即是指将数据从一种形式变为另一种形式,在实务中,由于每一个软件对数据库的架构和存储形式是不同的,我们为了软件能够更好地识别数据而进行数据转换。
(3)数据分析:运用统计的方法对数据进行处理,提取出有用的数据用于辅助决策。
(4)知识表示:将数据挖掘的结果以通俗易懂的方式描述出来。
4 大数据环境下审计的方法支撑
伴随着经济活动的日益复杂,传统审计的弊端逐渐凸显,人们迫切需要传统审计升级转变,大数据审计应运而生。大数据审计为传统审计向全量分析、宏观评价、分工协作等方面转变提供方法支撑。
4.1 数据分析方法
从样本数据分析到全面数据分析。传统审计下,由于人员、技术、地点等多方的限制,若要对被审单位所有的数据进行分析,难度太大且耗时太久,因此在传统审计方法下往往选择对样本数据进行分析,不可否认的是,对样本数据分析结果的确有一定的代表性, 但偶然性因素较大,影响审计结果的准确性。大数据环境下的审计,范围广、内容全,可以从全量的角度进行审计,审计对象更全面、更整体,审计结果也更具有代表性。
4.2 审计评价方法
传统审计评价是从微观和细节入手,得到也只是個体性的结论。而在大数据环境下可以对获取和分析审计对象内外部的数据,从而对公司进行全局性的分析。
4.3 审计工作方法
传统的审计工作方法就是从审计的准备阶段开始,一个审计主体对一个被审计单位,各自完成各自的审计任务,而实际上,被审计单位并不是一个孤立的主体,往往有多个相关的单位与之发生经济业务。基于此,一旦经济业务比较复杂,传统的审计方式就难以深入分析。而大数据审计可以让多个审计单位可以共同完成一项审计任务,资源互补,优化利用各个方面的专业人才,提高审计效率和质量。
4.4 审计模式
传统的审计模式为事后审计,仅审计被审计单位已经完成的账务处理和报表,判断是否正确、合法合规,只能达到事后监督和纠正错误的目的,而没有预防的作用。大数据环境下的审计贯穿审计的整个过程,是一种事前监控、事中分析、事后检查“三位一体”的持续审计模式。
5 结 语
大数据时代的到来,给传统审计带来了巨大的挑战,大数据环境下如何获得与审计相关的数据,探索大数据审计技术与方法的革新是推动传统审计转型的现实需求。本文通过以上几个方面对大数据审计进行探析,为进一步的审计流程再造、审计平台搭建奠定了基础。
主要参考文献
[1]刘家义.充分发挥国家审计在促进经济和社会发展中的作用[Z].2016.
[2]Earley CE.Data Analytics in Auditing: Opportunities and Challenges[J].Business Horizons,2015(5).
[3]MOFFITT K C,VASARHELYI M A.AIS in an Age of Big Data[J].Journal of Information,2013,27(2).
[4]郭红建.基于审计云的大数据审计技术与方法[J].管理观察,2017(36).