□
(南京审计大学政府审计学院 江苏南京211815)
目前,国家大力推动大数据技术产业创新发展,推动数字经济新业态新模式发展,构建自主可控的大数据产业链、价值链和生态系统。随着被审计单位大数据库的搭建和云计算技术的应用,审计人员在审计中需要面对规模庞大、信息繁杂、价值密度低的数据,并从这些海量数据中挖掘出审计所需的被审计单位内部控制、财务信息的真实性、风险和运营管理情况等相关信息,运用传统人工审计方法或计算机辅助审计方法会出现效率低下、效果不佳的问题。
传统审计专注于从结构化数据(如财务数据)中寻找因果的方法和思维,这在注重非结构化数据处理的大数据时代显现出其数据处理能力的局限。在大数据时代,审计人员所面对的非结构化数据规模庞大、种类繁多且实时增倍,如图1所示,全球大数据储备量规模在2015年便已达到8.61ZB,且年增长率非常快。据IDC的统计分析,非结构化数据规模占80%,且每年按指数增长60%。传统审计由于其滞后性难以对这些随时增长的数据进行实时快速处理。如何用大数据分析技术方法来处理非结构化数据,提高审计效率,是审计特别是计算机审计发展的重要课题。新出台的《领导干部自然资源资产离任审计规定(试行)》更加强调从非财务相关数据如自然资源资产数据、生态环境领域地理信息数据中挖掘信息的重要性,非结构化数据在审计工作中的应用需求愈发凸显。
审计是审计机构和人员按一定标准对被审计单位的财政财务收支、经营管理活动及其相关资料的真实性、合法性、效益性进行监督、评价和鉴证的经济监督活动,其处理分析的是企业的信息,而大数据时代,这些信息从规模、结构和处理方式上都发生了改变。这些改变给审计带来了新技术、新方法、新思路和新的挑战。
图1 2011-2015全球大数据储备量规模走势
秦荣生(2014)认为,大数据技术改变了传统抽样审计方式、追求分析数据精确度和寻找因果的审计工作思维模式。陈伟(2016)认为,大数据应用于审计能使审计取证更充分,审计结论更科学,能提供更多数据分析和数据可视化技术,而大数据平台为联网审计和持续审计提供了基础。吕劲松(2014)提出了基于大数据时代的新型审计组织模式,即“总体分析、发现疑点、分散核查、系统研究”,并认为未来审计会由“数据孤岛型、业务封闭型、模式单一型”向“数据一体化、业务一体化、模式一体化”发展。杨凯茜(2015)认为,大数据审计能充分利用企业外部数据,充分挖掘与企业业务关联的非财务信息,与此同时传统的函证作用变小甚至在审计中可以不需要函证。
结构化数据(Structured Data)存储在数据库里,可以用二维表结构来逻辑表达实现,相对于结构化数据来说,非结构化数据(Unstructured Data)的数据结构不固定,不方便使用数据库二维逻辑表来存储,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。
非结构化数据在审计中的应用非常广泛,是审计人员寻找审计证据和做出职业判断的相关依据,只是在大数据技术还未兴起之时,它们都是由人工或者是计算机辅助人工完成的,分析处理方法较为简单。比如对原始凭证上的交易真实性进行审计时,主要是看原始凭证所记载的经济业务是否正常,涉及业务发生的日期、经办负责人员、业务的程序和手续是否真实、客观地反映了已经发生的经济业务,有无伪造、涂改原始凭证的行为。
非结构化数据在审计业务中显然不止凭证这一种,它可以包括企业合同文档、商业活动现场照片和视频、会议记录、员工差旅信息、外部HTML、GPS等数据结构不规则或不完整、没有预定义数据模型的数据。这些数据可以来自任何地方,可以以任何一种方式进行分类归总进而分析处理。同结构化数据相比,非结构化数据获取途径更加广泛,数据类型也更加多样。就审计而言,被审计单位的经济活动产生的财务数据仅占其经济活动产生信息的一部分。例如图片视频这些非结构数据,同一项经济活动中产生的量都是以MB为基础单位累计的,而一些财务数据则是以KB为基础单位累计的。但这并不意味着图片和视频等非结构化数据所蕴含的信息价值比财务结构化数据所蕴含的信息价值多。相反,财务数据所反映的信息更加直接,而非结构化数据包含的信息丰富多样,需要运用一定数据处理方法从低价值密度挖掘出所需的信息。
非结构化数据并不仅仅包含企业数据库中所存储的与业务活动相关的数据,也包括企业外部与企业相关甚至不相关的数据。这就导致非结构化数据所占比例比以往大得多,且规模上不是结构化数据所能比拟的。随着时代的发展,企业数据结构发生变化,规模激增,传统人工审计或者计算机辅助审计处理数据的能力不足以承担处理如此规模的数据。原先的审计技术或者方法能通过抽样的方式处理结构化数据和部分与之相关的非结构化数据,而这些相关的非结构化数据是从业务相关的其他企业或者银行获得的,其他大量的非结构化数据则被忽略。且不谈这些非结构化数据中所蕴含的审计价值,以传统抽样审计的思维,传统人工审计和计算机辅助审计最多能提取TB规模数据,其能否代表PB、ZB规模的数据值得研究。大数据给审计提供了“总体审计”的思维和技术方法,这从数据处理规模上突破了传统审计思维。
大数据处理的基本思路是化大为小、化繁为简、从芜杂中找相关。非结构化数据处理的基本思路是聚类分析、化非结构化为结构化,其大概流程如图2所示。
图2 审计非结构化数据处理
在处理非结构化数据时,审计人员首先希望得到真伪的判断,大数据分析技术能提供多方面信息验证以提高判断的准确性。如判断企业是否存在一项经济业务活动,审计人员首先根据业务相关文书如约定书,从网络、企业数据库等搜集与文书上相关的企业、人员信息和业务相关数据,根据搜集的数据对业务相关文书进行验证。通过视频和图像文件的特征识别验证业务约定书的签订是否真实存在、约定时间是否相符、人员是否为约定书上的本人,通过对约定书上字迹的识别进一步确认是否为本人,综合其他方面验证组成审计所需的证据,以验证业务是否真实。对于业务活动实际开展的真伪验证则需要验证更多信息,如采购是否依据业务要求、仓储中是否存储过相关产品、会计凭证的真实合理、产品是否在登出日发出、对方是否验收产品、退货记录、税务机关是否有相关记录等。将这些验证结构形成证据链进而验证业务是否确实发生,再结合相关财务数据可以验证其是否记录、是否真实可靠。这样对一项经济业务的业务约定书、会计凭证和相关财务资料等的真实相符情况进行一一验证,形成一条完整的相关的审计证据链,进而对经济业务的真实可靠性做出科学判断。
从数据的处理输出结果中,审计人员希望得到审计重点。现阶段大数据审计离人工智能应用还有一段距离,我们仍然需要人工审计,但可以从数据分析结果中寻找审计重点。审计人员可以通过数据可视化分析方式,寻找异常值、众数以及其他特征值所在,这些异常值在大数据环境下可以是地理位置孤立点、不匹配的疑点、出现频次高的人员或来往企业、缺失数据等。对这些数据和信息进行审查核实,确定相关事项是否真实合理,减少大数据分析结果的误差。进一步对数据进行趋势分析,可以获知被审计单位的运营情况,是否存在异常变化、应收账款风险、会计政策变更等情况。通过行业的横向对比和企业往年数据的纵向对比判断其运营状况是否合理,企业所做决策对经营产生多大影响,进而评估企业管理层操纵盈余管理的可能性。
非结构化数据处理分析同样为审计人员评估企业内部控制提供新的思路和方法。被审计单位内部控制风险与审计风险密切相关,以往使用的调查问卷法、穿行测试法、重新执行法等方法依然是管中窥豹,我们实际并不知道企业真实的内部控制日常运作。而从一些非结构化数据,如监控视频,可以获知企业内部控制方面的真实信息以及企业日常是否按照建立的内部控制制度运行等,甚至通过建立内部控制评价规则库,可以量化内部控制评价,进而能对被审计单位内部控制风险实现科学评估。
随着大数据审计的不断发展,以及被审计单位非关系数据库的搭建和云计算平台的应用,大规模、快增长的非结构化数据推动了审计应用大数据分析技术,进而从这些非结构化数据中挖掘出审计证据链,了解被审计单位的内部控制和日常经营实际情况。非结构化数据分析也能帮助审计人员科学评估审计风险,减轻审计人员的工作负担,给审计结论提供合理依据。在审计过程中,需要根据审计实际需求和经验,不断完善大数据审计技术和审计方法规则库,推动审计向人工智能发展。