刘国城 陈正升
【摘 要】 大数据审计是智能信息处理时代的必然产物,是实现审计全覆盖的基本要求。通过国内外比较发现,我国大数据审计理论成果相对丰硕,但实务发展相对迟缓,且相关文献缺乏与其他学科的深度融合。文章以“数据科学”与“信息科学”等学科理论的渗透与交融为研究视角,以大数据分析为研究重心,首先分析大数据审计的学术积累与实践发展,其次基于全局视角对大数据审计实施全局策划,最后分析大数据审计的流程设计方案,尝试促进审计理论由单一学科阐释转向交叉领域研究的有机演化,力求丰富交叉学科一体化整合分析的大数据审计研究思想。
【关键词】 大数据技术; 大数据审计; 数据建模; 数据挖掘
【中图分类号】 F239.44 【文献标识码】 A 【文章编号】 1004-5937(2019)08-0030-06
2015年12月,时任审计长刘家义在全国审计工作会议上提出“推进以大数据为核心的审计信息化建设是应对未来挑战的重要法宝”;2016年6月,审计署印发《“十三五”国家审计工作发展规划》提出“拓展大数据技术运用,探索多维度、智能化大数据审计分析方法”;2017年10月,习近平总书记在中国共产党第十九次全国代表大会报告中提出“改革审计管理体制”“推动互联网、大数据、人工智能和实体经济深度融合”等论断与要求。大数据审计是智能信息处理时代的必然产物,是实现审计全覆盖的基本要求。目前,我国有关大数据审计的实务进展相对缓慢,文献成果缺乏厚度与深度,而且还极为缺乏相对成熟的大数据审计规范与标准以对审计实践进行全方位指导。本文在分析大数据审计国内外发展态势的基础上,探索大数据技术与现代审计之间的协同机理,旨在研究大数据审计策略实施的动力支持。
一、大数据审计的发展态势
(一)国内外理论研究梳理
2011年5月,McKinsey Global Institute指出,大数据是可被捕获、传递、集聚、储存和分析的数据的大型聚集,它现在已经成为全球经济各个部门和功能的一部分。国外有关于大数据审计的学术研究较为零散,尚未形成体系。Lohr[1]认为,利用大数据技术将提高审计决策的质量,且审计判断将更多依靠数据驱动而非经验驱动。Costonis[2]指出,大数据审计面对的难题主要为非结构化数据的性质及其数据选择。Moffitt et al.[3]认为,大数据将颠覆性地改变审计人员的判断和收集审计证据的方式。Schouten et al.[4]认为,运用预测模型具有检测模式异常的功能,运用机器学习可以成功解决以传统规则为基础的审计系统缺陷。Setty et al.[5]认为,大数据的引入,导致数据分析的重心向模式识别转变。Yoon et al.[6]指出,大数据将用来降低审计师对客户端数据的依赖,并提供独立的基准评估审计证据。Hussein Issa et al.[7]指出,审计人员可以在客户风险、欺诈风险、内部控制、持续审计等业务评估中运用数据挖掘技术分析外部数据。Danielle Lombardi et al.[8]认为,大数据时代,模式识别、数据挖掘、自然语言处理等技术将提高数据分析的预测能力。Michael Alles et al.[9]基于理论证据研究大数据技术纳入财务报表审计的优势与障碍,并确定可能使审计师受益的大数据的具体方面。国外相关理论并未深入探索大数据技术在审计领域中的应用策略,而是更加注重于大数据对当今审计理念的冲击,即大数据思想将引发审计判断与决策、审计技术与方法以及审计功能与效率等方面的宏观层面变革。
当前,国内“大数据审计”理论积累相对丰富。截至2018年1月,中国知网收录的“大数据+审计”学术论文累计231篇,其中核心期刊论文51篇(CSSCI期刊论文11篇)。国内相关文献主要集中于:(1)基于大数据的现代审计理念变革。例如,具体分析大数据对CPA审计的影响[10-11],剖析大数据对政府审计理念的冲击[12],基于技术特征与应用特征阐述新时代下大数据审计的内涵[13],立足大数据时代背景分析大數据技术对环境责任审计的影响[14]。(2)基于大数据的现代审计方式转变。例如,基于数据共享、数据标准化、数据多样性与审计人员能力研讨财政审计数据的分析模式[15];基于大数据价值链视角探讨审计工作的创新模式[16];分析大数据环境下商业银行审计非结构化数据的采集存储与处理[17];阐述基于DBSCAN聚类的大数据审计抽样,并基于大数据下财务共享服务模式建立IT审计的实施路径[18],提出大数据审计环境下政府审计采购的技术方式与组织模式[19]。(3)基于大数据的现代审计平台构建。例如,将大数据审计平台分拆为采集、预处理、分析与可视化四个子平台,融合数据挖掘、机器学习以及数据可视化等理论,基于方法支撑、过程建模以及运行机理等方面对各个子平台进行专项分析[20];阐述大数据环境下河南省审计厅基于信息资源共享与工作高度协同的审计大数据分析平台建设[21]。
(二)国内外实务进展梳理
国外非常关注大数据及其审计的发展与应用。2012年3月,奥巴马政府发布《大数据研究与发展倡议》,意在提升运用海量复杂数据集合谋取知识和洞见的能力,并将大数据发展拓展至国家战略高度。2017年4月18日,世界审计组织大数据工作组第一次会议在南京审计大学召开,来自18个成员国的40余位代表分别就本国大数据审计实务的发展情形进行主题交流。通过会议分享发现,与会各国均拥有丰富的大数据审计实战经历。美国联邦审计署审计长基恩·多达罗指出,美国联邦审计署将并行计算、数据挖掘等分析技术广泛运用于大数据审计实务,并长期致力于调查政府“欺诈与不正当支付”问题,正是得益于大数据审计技术的高效推进,进而发现2016年美国政府部门涉及不正当支付的金额高达约1 440亿美元;泰国审计委员会主席猜西·达初坦指出,泰国大数据审计已经广泛应用于信息系统、医学研究、公共交通以及灾害治理等领域,泰国审计署借助PPAPT应用软件包与ACL指令列表等手段积极推进大数据审计;印度通过建立实施标准模型,广泛应用数据仓库、可视化等技术,大幅提升大数据持续审计能力建设。印度尼西亚的中央财报数据在2015年为6.4亿条,在2016年为7.1亿条,预测性分析技术缓解了该国近4 000名审计人员的压力。奥地利借助R语言实施大数据审计分析并建立R语言导师机制。
近年来,我国政府审计机关已经逐步重视大数据审计实务建设。山东省审计厅成立财政、税务、金融、企业与社保等五个行业的审计大数据采集中心,并采用虚拟化桌面云技术建立数字化审计实验室,安装部署AS、AO、RTX以及网络教室等应用软件。四川省审计厅在税收征管审计中,构建125个数据分析模型,查询约700G的信息数据,归纳21项审计方法,充分揭示税收征管漏洞与缺陷。湖北省审计厅建立以“一大网络、三大中心、六大系统”为中心的大数据审计平台,“一大网络”即电子政务外网,“三大中心”即交换中心、数据中心与数据备份中心,“六大系统”即OA管理系统、AO实施系统、联网分析系统、结果分析系统、网上审理软件以及风险监控系统。四川省成都市审计局采集10余个重点行业的3 000余家被审主体的20余类电子数据,自主研发“大数据综合管理平台”。山东省青岛市审计局建立基于大数据关联分析的“审计大数据综合作业平台”。内蒙古包头市审计局建立以大数据为中心的“审计资源共享平台”。江苏省无锡市审计局在自然资源资产责任审计中,采用税务、社保、工商与环评等数据审核污染企业治污效果与环保审批问题,运用GIS数据审查违建拆除问题。
(三)国内外发展态势归纳
大数据审计横跨审计学、数据科学、信息科学、计算机科学、网络科学、数学和心理学等若干学科。审计学属于社会科学,但大数据审计更应该侧重于自然科学,因为其每一环节都与大数据处理涉及的自然学科范域相交融。大数据审计策略完善将完全依托于大数据审计既有的理论基础与实务经验。梳理发现,我国大数据审计文献积累缺乏深度,相关文献仅是站于社会科学视角从宏观层面定性分析大数据带给现代审计的理念冲击与模式变革,并未真正基于自然科学下的数据建模视角从微观层面定量研究大数据关键技术与现代审计方法的多学科交融机制。对于大数据审计理论的未来研究,学术界需要深度融合相关学科领域,以大数据科学为轴心,有效实现社会科学向自然科学的领域延展延扩,深入强化大数据关键技术在审计领域的全方位应用。梳理发现,我国大数据审计实践存有诸多不足,大数据技术处理的数据容量需要达到PB级,数据容量愈大,数据间的关联价值越高,但目前我国特定审计主体的数据容量大多处于PB级别以下,并未实现真正意义上的大数据,这还需要审计主体按照“五个关联”审计思路的要求(即从中央财政到省市县乃至每个乡镇的资金使用、从部门到项目具体执行单位的资金使用的纵向关联,从市财政、市发改委到一级、二级预算单位的各种专项资金的横向关联,财政、金融和企业三方面的数据关联,财政与其他多部门、多行业的数据关联,以及财政数据与业务数据、宏观经济数据的关联),实现审计数据的全覆盖精准采集,再如我国对大数据技术的实践应用不够广泛与系统,尽管湖北省恩施州在医保审计中尝试运用可视化技术,武汉市审计局在数据处理中应用Oracle与SQL技术,但不够深入,还无法适应PB级别以上审计大数据处理的需求。如今,国外在大数据审计中已广泛运用数据挖掘、机器学习、语义引擎、预测分析以及可视化等技术,而我国在此方面进展迟缓。此外,我国大数据审计实务建设其他问题还有:(1)多数审计主体缺乏系统性布局与长远性规划,仅从局部视角关注某一流程下模式优化;(2)审计具体流程的数据建模技术过于单一,缺乏同一决策下多种建模工具的比较研究;(3)部分省域内各市级审计主体存在审计流程模式重复建设,观念标准不一,缺乏共谋与协作。
二、大数据审计的总体策划
大数据审计从属于多学科交叉界域,逻辑结构烦琐,运行机制复杂。依托于多元共融的内外部环境,审计主体需要高度重视大数据审计工作的顶层设计与全局筹划,变革传统审计理念,力求将大数据审计工作做到常态化、流程化、立体化与长效化。本文提出一种大数据审计的总体策划方式供以借鉴,见图1,具体阐述如下:
(一)大数据审计需求及大数据关键技术的分析
需求分析是大数据审计有效开展的首要条件,其可使审计主体事先明晰任务需要与目标要求。大数据审计有横向需求与纵向需求之分。如图1所示,大数据审计横向需求涵盖理念变革需求、组织管理需求、安全运行要求、规范与标准需求、过程优化需求、内外在环境需求、技术动力需求、理论与经验需求以及事件决策需求等诸多方面。大数据审计纵向需求是基于特定业务的总体任务需求、具体任务需求、流程需求、功能需求、组件需求、建模需求、取证需求、核验需求和决策需求。审计主体有必要以审计对象及类型为基准,基于战略全局视角发现“需求”的本质,秉承层次性、相关性、可靠性以及重要性等需求分析原则,确保大数据审计的可控性、效益性和可验证性。
大数据关键技术是大数据审计顺利实施的技术前提,抛开大数据科学下的技术架构与数据智能,任何大数据审计理论与实践都将无从谈起。大数据有五项关键技术[22],具体为:(1)采集技术,其承载即时数据采集、既有数据采集、文字数据采集、日志数据采集、文件数据采集、图片数据采集以及视频数据采集等功能,相应技术有ZeroMQ、ActiveMQ、Flume、Sqoop及Kafka等;(2)預处理技术,其承载大数据的加载、清洗、转换、脱敏、脱密以及抽取等功能,相应技术有RestFul、Socket、Dubbo及Web Service等;(3)存储与管理技术,其承载结构化数据与异构化数据的存储及管理功能,相应技术有S3云存储、Neo4J、Solr、Hdfs、Lucene及Kudu等;(4)分析与挖掘技术,其承载大数据的实时分析、准实时分析、离线分析、机器学习、语音识别以及图片识别等功能,相应技术有MapReduce、Spark、Akka、Mahout及Flink等;(5)展现与应用技术,其承载文字展示、图画展示以及动画展示功能,相应技术有iCharts、Echarts、Springy及Tableau等。针对审计全局策划,审计主体需要规划关键技术与审计业务的融合策略,合理筹划特定功能需求下适用技术有关于5W1H的实际应用问题,突出技术优势,强化技术协作,力求为大数据审计方法的创新应用提供源源动力。
(二)大数据审计作用因素及其运行保障的分析
大数据审计的过程开展、平台建设与流程再造有其特定的作用条件与依托效应。影响大数据审计开展的主要因素有:(1)挑战、风险、困境与变革。大数据时代,审计数据的真实性与全面性遇到挑战,大数据的控制、保护、分析、存储及其平台选择面临诸多风险[23],且大数据财务流程将更为注重异构数据的核算、归纳、处理与监控,以满足组织内部动态、实时、全面的战略管理需求,以及财务信息外部需求者多样化与个性化的决策需求[24],这些都为大数据审计带来现实困境。借此,审计主体应予在依据证据、技术方法、组织管理以及策略架构等方面实现理念变革与模式创新,与时俱进,做好大数据审计的理念设计。(2)人员胜任能力。大数据审计是审计人员的主观见之于审计客观大数据的物化活动,其成功的关键在于审计人员的胜任力与团队行为的科学化。面对大数据审计跨学科等特征,审计机构在策划审计业务团队时,务必集合不同学科专业人才,聘请相关背景专家定期研讨,塑造和谐共荣的团队文化,实现知识互补、技术协同与经验共享,基于跨学科异质性知识的耦合致力于人员素质与团队力量的全方位提升。(3)审计运作方式。大数据时代,审计运作方式发生“质”变,未來的审计将会实现从运用随机样本抽样转向运用全数据建模,从探索精确数据取证转向融合混杂数据建模,从追求因果关系决策转向追寻关联逻辑建模,从依托审计经验预测转向借助技术工具建模。(4)审计智能服务。大数据时代,人工智能将会逐步成为审计实践的主流。当前,安永会计师事务所已尝试运用计算机技术辅助审核收入合同,运用机器学习分析大批量贷款合同,并估值测试。对于大数据审计智能服务的事前规划,审计主体应考虑两方面问题,其一是智能平台架构,该平台可设置审计用户登录、审计大数据导入、服务匹配、数据管理、智能取证、可视化报告以及历史查询等模块;其二是平台要素协同,该服务平台由系列大数据关键技术模型及其诸多相应组件组合而成,它们不是简单的叠加与凌乱的堆砌,而是目标的统一、功能的融合、任务的协调以及行为的协作。此外,大数据审计需要相应质量控制体系以保障常态化运行,其质量标准设计应事先融入全局筹划之中,重点考评计划的科学性、准备的充分性、实施的完善性、定性的准确性、分析的透彻性、判断的正确性以及成果的应用性。
(三)大数据审计策略体系构建的模块分解规划
大数据审计策略构建是抽象的知识凝练过程,其是针对每一审计业务,在多类“经验选择”的最优解下,对审计流程执行行为的记录、分类与归纳,并发现普遍性规律。图1设计的大数据审计策略体系可进行如下分解:(1)大数据审计规范与指南。该模块建设需要遵循实用性、科学性、全面性与持续性原则,涵盖基本要求、执业指南、技术标准、审计条例与质量目标等诸多方面,它们是审计主体执行业务程序的可操作性建议,是出具大数据审计报告的客观尺度。(2)大数据审计风险估计与管理。大数据审计风险包含固有风险、控制风险与检查风险三个层面,且它们与环境风险、组织风险、人员风险、操作风险、数据可信风险、机密性风险、完整性风险以及技术黏合风险等相融合[25],该模块旨在全面梳理审计风险类别,确定风险评估机制,建立风险管理策略。(3)大数据审计跟踪与挖掘。该模块要求审计主体事前策划与事后提炼大数据审计的持续跟踪机制,评判各类大数据挖掘技术、算法与工具的优劣之处与适行条件,组建“算法库”“工具库”“协议库”“规则库”,明确具体业务下不同挖掘技术的竞争与共生机制。(4)大数据审计模式构建与过程取证。该模块要求审计主体将特定业务划分为若干过程,建立每一过程下的实施步骤,如采集过程下数据源如何获取,异构数据如何传输与接入,再如抽取过程下如何实施数据的增量抽取与全量抽取,以及在取证环节中如何实现模型构建、实质性测试、模式发现以及模型评估。(5)大数据审计威胁诊断与预警。该模块要求审计主体如何设计威胁数据的采集、诊断与管理,如何监控“威胁源”并与“预警源”相衔接,如何促进审计预警信息的集合、修正与发布,对多源多模态信息集成、数据时效性检验以及元数据管理等预警技术如何正确应用,如何界定威胁等级并确定预警策略响应。(6)大数据审计免疫自稳与免疫防御。该模块要求审计主体基于既有经验推进大数据审计策略决策功能的参数化与标准化,运用自有“记忆”提升新业务决策供需的一致性、耦合性与自稳性,基于非特异性免疫防御利用现有制度、经历与文化甄选多样化风险控制方案,基于特异性免疫防御研判大数据审计中遇到的新问题,拓展与深化大数据审计技术方法、模式流程与策略建议,通过持续同“威胁源”发生作用进而促进审计执行力,培育特定知识实现对审计新威胁的即时应答。
三、大数据审计的流程分析
大数据时代下,数据建模是审计流程构建的核心,这是因为,隐藏于大数据之下的深层次问题必须依托诸多模型相互融合的模型库,才能找出其本质与规律,加之在未来,人工智能将逐步渗透至审计实务,系统性数据建模将是未来审计智能化发展的变革之路。大数据审计下,数据建模问题主要表现在如下维度:(1)宏观维度,即如何对审计大数据系统性建模做好全局规划与统筹安排,究竟哪些环节需要审计大数据建模,若干模型之间如何有效协同与有机整合。(2)中观维度,不同于以往审计,大数据审计职能广泛拓展,其不仅注重于事后揭露,还更加注重于事前预警与事中监控,为此,风险评估、疑点挖掘、数据取证、监测预警、审计可视化等方面都将广泛采用系统模型。大数据审计应关注上述各个方面下建模任务与建模要求分别是什么,哪些数据模型相对成熟,各类模型应用条件有哪些,适用模型的建模组件如何配置等一系列中观问题。(3)微观维度,即如何在审计建模中全方位实现审计大数据的应用价值与技术可行性,如何准确把握具体建模方法下的决策需求。具体而言,大数据审计建模所应该解决的微观问题主要包括多源异构大数据如何整合分析,如何实现审计大数据高效的压缩、感知、存储与管理,多域多层大数据如何实现高效传输与高效计算,完整的大数据如何实现可用,如何实现审计大数据的多粒度智能处理,如何对数据错误进行自动检测和修复,如何发现大数据的结构和关系并进行简约计算,如何对弱可用数据实施近似计算并知识发现,如何在审计大数据分析中优化数据挖掘算法的过程应用,如何有效处理审计大数据下的机器学习算法,如何基于审计大数据进行系统决策、风险控制与故障诊断等。系列问题由点及面,共同决定着具体审计任务下特定流程设计,同时也决定着建模技术和工具的选择与应用。
基于全生命周期的大数据审计涵盖数据采集、数据预处理、数据取证、数据可视化四项基本流程(图1),系统性数据建模融合于各具体流程之中,并促进流程内各项功能决策的有效实施。对于大数据审计采集,也应秉承“五个关联”理念,力求实现各类数据的全归集。未来,审计数据采集量会在PB级基础上向EB级或ZB级延伸,非结构化数据将占较大比重,具体有文本文档、日志、图像、音频、视频、报表、HTML以及XML等形式,潜藏巨大应用价值。多数异构数据并不产生审计效用,只有从PB级数据群中,将相关数据采集于一体,按特定逻辑建立主题数据库,审计大数据才彰显协同价值。审计异构数据类型繁多,无标准格式,对其采集需要专业技术与工具,如AO采集、网络爬虫、传感器采集、数据库摘取、ODBC技术、遥感技术、网络流量、元搜索、射频识别以及基于属性、关系与信息的多层过滤机制等。针对特定审计大数据采集需求,审计主体需要甄选适用的采集方法,确立科学的数据采集建模机制,有效做好对源数据的传输与接入。例如,反腐败审计中,微信数据采集方式为经过OAuth 2.0网页授权认证后,运用相应API数据接口建模截取数据;再如,对于富文本文档(RFT),Microsoft等公司开发RichTextBox等控件,审计主体可以借助相关控件模型,直接获取RTF数據。
大数据审计的预处理流程包括数据存储、数据清洗与数据转换三项过程,它们的实现需要依托适行的技术工具及应用模型。对于审计数据存储,传统技术有RAID、DAS、NAS、SAN、自动精简、分层存储、Cache、快照技术、克隆技术、远程复制以及LUN拷贝等,大数据技术有分布式文件存储、NoSQL数据库以及NewSQL数据库。分布式文件存储系统通过计算机网络与若干节点相联结,适用于审计大数据在不同空间下节点间的通信与存储;不保证遵循ACID原则的、分布式的、非关系型的审计大数据采用NoSQL存储系统;保持ACID与SQL等特性、可扩展与高性能的海量审计大数据采用NewSQL存储系统。对于审计大数据清洗,审计主体主要解决审计数据的合法性、完整性、一致性与唯一性等问题。通过字段类型合法、设定强制合法或字段内容合法等规则,确保数据合法性;通过前后数据或其他信息的补全,提升数据完整性;基于指标、口径、单位、频度、数据等维度保障数据一致性;依托主键去重或规则去重促进数据的唯一性。多类清洗方法有机结合,将会适应未来审计大数据属性多样及其更新频繁的清洗需求。对于审计大数据转换,审计主体必须明晰基本转换任务、主要转换类型、数据整合与合并、维度属性的转换以及如何实施转换。审计大数据转换是将不同格式与语义的源数据转化为被审计用户所理解且与目标数据相一致的数据整合过程。数据可转换类型有很多,如格式修正、字段解码、计算值和导出值、单个字段分离、信息合并、特征集合转化、度量单位转化、时间格式转化、汇总及键重构等,审计主体必须依托转换需求,合理定位转换类型,科学设定转换方式,且有效借助转换建模支撑,如山西省审计厅与九鼎软件公司联合开发数据转换平台,积极探索审计大数据转化建模新方法。
IT时代转向DT时代,传统分析技术已无法适应以非结构化为主的审计大数据取证,数据挖掘与机器学习将成为数据分析建模以及审计证据获取的核心手段。大数据审计取证将依托于Hadoop系统,其是一种基于Java的分布式系统基础架构,也是基于超大型数据集处理的高扩展的分布式计算平台,它拥有Hadoop Manager、MapReduce、Zookeeper、Hive、Avro、HBase和HDFS等完备组件,运用集群威力能为审计大数据提供海量计算的能力。Hadoop平台环境为大数据审计取证建模提供绝佳的土壤,有力推进审计取证的维度分析、模型策划、任务执行、算法调度与验证。数据挖掘分为结构化数据挖掘与文本挖掘,前者是基于关系型数据库的审计数据挖掘,后者是基于自由开放文本的半结构化或非结构化的审计文本挖掘。数据挖掘审计建模包含有监督建模与无监督建模两类,有监督模型涵盖以决策树、贝叶斯、K-邻近与逻辑斯蒂为主导的分类方法,以及以一元回归、多元回归、逐步回归与Logistic回归为主导的回归分析;无监督模型涵盖以层次、密度、网格、K-means、模糊C-均值、K-中心点、K-原型、量子、粒度与高斯混合为主导的聚类方法,以Apriori、FP-Growth、串行、频繁项集与频繁子图为主导的关联规则,以及基于分布、深度、距离、密度、偏离与频繁模式的离群点诊断。机器学习从属于大数据挖掘算法应用,其以信息论、控制论、计算复杂性理论、人工智能、神经生物学以及生理学等学科为理论基础,运用计算机模拟审计师的学习行为,进而获取审计取证知识与取证技能。大数据审计取证建模可适用的机器学习算法包括朴素贝叶斯、决策树、人工神经网络、隐马尔可夫、迁徙学习、半监督学习、无监督学习等集成学习。面对复杂取证需求,审计主体应熟悉各类挖掘技术的特点与适用条件,明确挖掘目标,做好相应算法的调整、移植与改进,并做好训练参数的查询管理,基于全学习周期完善分布式训练计算流程,全面优化并行学习等不同机器学习算法的遴选与设计。
大数据审计可视化是将审计领域的结构化数据、半结构化数据与非结构化数据抽象为可视化图表,将隐性审计证据信息以数据视觉形式直观显示。大数据审计可采用文本可视化、网络可视化、时空数据可视化以及多维数据可视化等手段,不同类型的可视化都有其特定应用条件,审计主体有必要将可视化的具体任务与相应类型有机结合,构建科学的可视化数据模型,力求做好可视化平台运营的正向驱动。例如,对于多维数据可视化,审计主体需要遵循如下步骤:(1)空间划分,将拟可视化数据集分类为m维属性与n位元素组合的多维空间;(2)可视数据开发,运用合适的工具与算法对拟可视化数据展开定量演算;(3)可视数据分析,对不同空间数据进行旋转、分块或切片,多截面与全视角对目标数据进行观察与剖析;(4)可视化呈现,以图形图表、计算机视觉、图像处理以及审计用户界面等方式,对隐性数据集的表面、属性、立体或动画进行显性化展示。当前,已有诸多可视化工具以供审计主体选择与应用,如无需编程语言的Tableau、Raw、Infogram、ChartBlocks等,基于JavaScript实现的Chart.js、D3.js、ZingChart、FusionCharts等,基于地图可视化的CartoDB、InstantAtlas、Polymaps、Kartograph等,基于函数公式可视化的R、WolframAlpha、Tangle等。例如,对于资源环境审计,可以通过卫星遥感影像借助CartoDB工具绘制目标地域环境资源的历年变化,再如山东省青岛市市南区审计局通过三维动态图示呈现不同时点预算资金“大盘子”的流动变化情况,动态掌握全年预算执行变化趋势,有效提升了审计的科学化管理。
四、结语
审计署“十三五”规划指出,我国将推进大数据为核心的审计信息化建设,到2020年实现对经济社会各类主要信息数据的全归集。大数據给新时代审计带来前所未有的挑战,审计人员如何将结构化数据与非结构化数据相融合,如何在PB量级数据中快速而精准提取有价值的信息,如何习惯并熟练获取及处理非结构化数据,这些都是“大数据驱动的审计”中亟待解决的难题。本文基于多学科融合视角,梳理与归纳大数据审计的发展态势,分析大数据审计的顶层设计与全局规划,将大数据关键技术全面融合于大数据的全生命周期流程,且形成“风险→取证→预警→防御”的前后逻辑关联,进而由单一目标决策转换为高度融合的全系列目标决策,丰富了以往审计研究的单一范域,为审计实务组织开展大数据审计提供“一站式”服务与“全覆盖”支持,深化问题解决方案,促进多轮驱动,为审计机制创新集聚合力。
【参考文献】
[1] LOHR S.The age of Big Data[N].New York Times,February,2012-02-11.
[2] COSTONIS M.Tackling Big Data[J].Bests Review,2013,33(7):2-40.
[3] MOFFITT K C,VASARHELYI M A.AIS in an age of Big Data[J].Journal of Information,2013,27(2):1-19.
[4] SCHOUTEN B.ETC.Time will show:real time predictions during interpersonal action perception[J].Plos One,2013,8(1):1-6.
[5] SETTY K,BAKHSHI R.What is Big Data and what does it have to do with it audit?[J].Molecular Biology of the Cell,2013,18(9):3645-3655.
[6] YOON K,HOOGDUIN L.Big Data as complementary audit evidence[J].Accounting Horizons,2015,29(2):431-438.
[7] HUSSEIN ISSA,H BROWN-LIBURD.ETC.Behavioral implications of Big Datas impact on audit judgment and decision making and future research directions[J].Accounting Horizons,2015,29(2):451-468.
[8] DANIELLE LOMBARDI,R BLOCH.ETC.The current state and future of the audit profession[J].Current Issues in Auditing,2015,9(1):10-16.
[9] ALLE M S,GRA Y GL.Incorporating Big Data in audits:identifying inhibitors and a research agenda to address those inhibitors[J].International Journal of Accounting Information Systems,2016,22(7):44-59.
[10] 王雯婷,张小竹,等.大数据对CPA审计的影响[J].中国注册会计师,2016(7):100-105.
[11] 龙子午,王云鹏.大数据时代对CPA审计风险与审计质量的影响探究[J].会计之友,2016(8):112-114.
[12] 魏建祥.大数据环境下政府审计模式转变[J].财会月刊,2016(22):64-67.
[13] 刘星,牛艳芳,唐志豪.关于推进大数据审计工作的几点思考[J].审计研究,2016(5):3-7.
[14] 马志娟,梁思源.大数据背景下政府责任审计监督全覆盖的路径研究[J].审计研究,2015(5):28-34.
[15] 裴文华,成维一.大数据环境下财政数据分析研究[J].审计研究,2017(3):53-58.
[16] 牛艳芳,冯占国,孟祥宇.大数据价值链视角下的审计工作创新与实践[J].审计研究,2017(5):17-22.
[17] 吕劲松,王志成,王秦辉,等.大数据环境下商业银行审计非结构化数据研究[J].软科学,2017(1):141-144.
[18] 程平,陈珊.大数据时代基于DBSCAN聚类方法的审计抽样[J].中国注册会计师,2016(4):76-79.
[19] 鲍朔望.大数据环境下政府采购审计思路和技术方法探讨[J].审计研究,2016(6):13-18.
[20] 刘国城,王会金.大数据审计平台构建研究[J].审计研究,2017(6):36-41.
[21] 翟群丽,魏志浩,崔瑞瑞,等.河南省审计厅大数据环境下”五个关联”审计思路与方法[J].审计研究,2016(5):14-19.
[22] 林子雨.大数据技术原理与应用[M].北京:人民邮电出版社,2017.
[23] 陈伟,Smieliauskas Wally.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学,2016(1):8-13.
[24] 刘国城,董必荣.“互联网+”时代我国本科会计教育的困境与变革[J].南京审计大学学报,2017(1):102-109.
[25] 黄国彬,郑琳.大数据信息安全风险框架及应对策略研究[J].图书馆学研究,2015(7):24-29.