(博士),,(副教授)
近年来,我国出台的一系列文件表明:审计监督已成为行政监督体系中八个独立的组成部分之一,其职能已基本扩大到了国家治理的全领域(刘家义,2015),并要求实现审计监督的全覆盖。与此同时,审计对象在大数据时代所产生的数据量日益庞大,其违规行为日趋隐蔽,国家审计所关注的体制机制性等重大问题也呈现综合性特征。
审计职能的扩展和审计对象的新变化对现有的审计数据基础和分析方法提出了新的要求。相关文件、审计署领导都指出:应推进以大数据为核心的审计信息化建设,构建大数据审计工作模式,积极开展审计大数据的综合利用。相关领域的学者也认为,大数据有助于实现审计监督全覆盖,数据综合分析可以帮助提升揭示审计问题和风险的深度与广度(秦荣生,2014)。各级审计机关也积极地建立数据分析职能部门或专业分析团队,如我国审计署2015年成立了电子数据审计司。
但是,仍有一些基础性课题亟待解答。如国家审计需要使用哪些大数据?审计大数据有无自身特色?现有的大数据分析理念和手段能否满足审计需求,尤其是实现审计大数据的综合分析?对此,一些研究或是倾向于将审计大数据等同于大数据,或是试图将大数据分析技术直接应用于审计实践。这些都制约了我们深入理解审计大数据的本质,阻碍了审计技术方法的创新。当前,管理科学和社会科学也在探索、甚至在争论大数据如何服务于社会治理(梁玉成,2014)。但是,现有技术主要针对互联网大数据,极少开展对多个领域政府大数据的综合分析。现有的少量实践也表明,科学的公共管理需要综合利用多领域大数据和互联网等新兴媒体中的社会大数据。
为此,本文一方面基于学科视野,从运用大数据服务公共治理相关领域的最新进展中汲取有益经验,并在相互比较中辨析审计大数据研究的特点;另一方面立足审计实践,结合国家审计案例和审计调查结果,理清审计大数据诞生的背景和范围,进而探究审计大数据的特征及其带来的挑战。由于整个学术界对于大数据概念的界定及其影响的探讨仍处于争论与发展并存的阶段,对于审计大数据的探讨和实践也必然需要较长的时间才能达成共识,文中观点仅供国家审计研究者和实践者参考。
利用大数据支撑国家审计并服务于国家治理,是大数据服务于公共管理的一个子命题。梳理大数据服务公共管理的研究进展,有助于辨析审计大数据的特色,并从中汲取有益的经验。
1.大数据的特征。近年来,信息技术以前所未有的广度和深度记录了人类社会的方方面面,也对各个领域使用的数据基础、理念和方法产生了重大影响。以信息科学为代表的自然科学学者较早注意到这种变化,提出并倡导大数据的理念。虽然不同学者对大数据的界定有所不同,但是一般都认同大数据应该具备高体量(Volume)、多类型(Variety)、高处理速度(Velocity)和价值密度低(Value)这四种特征中的全部或多数,即4V特征(Victor等,2013)。
管理科学和社会科学学者也注意到大数据及其分析方法对于公共管理的精细化、科学化的重要意义。有别于以往采用的田野调查、访谈和抽样资料,大数据以更大的范围、更细的粒度描述对象的行为,其采集过程几乎不受霍桑效应的影响(罗玮,2015),这被总结为大数据的第五个特征,即真实性(Veracity)。因此,大数据被认为能够更为全面、客观、真实地描述人类社会的行为。表1总结了相关研究中传统数据与大数据之间的差异。很多学者认为大数据是这些学科数据基础的重大变革,其对于管理和社会科学研究的意义,堪比显微镜对于化学的意义(Vindu Goel,2014)。为此,2009年,15名顶级学者在《Science》杂志发表论文,正式提出了“计算社会科学”(Computational Social Science)这一崭新的研究领域(David Lazer等,2009)。在此之前,我国学者王飞跃(2005)也提出了与之类似的社会计算(Social Computing)的思想。
表1 传统调查统计数据与大数据的对比
2.大数据如何服务于公共管理。目前,对于大数据如何服务于公共管理仍处于探索阶段,相关成果集中在舆情分析、卫生、交通等少数领域。一个代表性应用是:Google Flu利用大量用户在Google搜索引擎中输入的检索关键词监测流感的传播情况,该系统已在美国、荷兰等多个国家作为公共卫生管理的重要手段得到实际应用。而以往对流行病的监测主要依赖美国疾病控制和预防中心(CDC)等政府机构收集各个医疗机构的诊疗信息,时效性较差。两相比较,Google Flu在最初运行阶段能够提前两周左右就获得与CDC数据相接近的监测结果,大大提高了流感监测的时效性。
众多研究者和以Google Flu为代表的系统都较为重视利用互联网大数据服务公共管理,而相对忽视政府部门所掌握的政务大数据。产生这一现象的原因,一方面是此前互联网公司和信息技术人员对互联网大数据开展了大量的研究,形成了较有活力、更为开放和较成熟的技术基础;另一方面,政务大数据的获取较为困难,其实际应用效果和技术分析手段敏感性强,制约了对其的探索。但是,政务大数据对经济运行、社会生活等国家治理问题具有更为重大和直接的影响(鲍静等,2016)。正如李克强总理所指出的,中国政府部门所掌握的大数据占全国数据资源的80%。政务大数据也是我国新近发布的《促进大数据发展行动纲要》关注的焦点之一,并不应当在公共管理中缺席。
3.科学的公共管理需要综合利用政务大数据和互联网中的社会大数据。2014年,《Science》和《Nature》杂志接连发文指出:Google Flu近期的监测结果高出传统CDC数据近一倍,出现了重大偏差,而其系统性的偏差早已出现。David Lazer等(2014)认为:这不能简单地认为是媒体宣传对人类行为的影响,而是反映了互联网大数据在内容、处理方法等方面的内在缺欠。这一情况表明:仅仅依靠社会大数据就进行公共管理决策,仍然存在较大风险。鉴于国家治理的高度复杂性、公共决策的巨大影响和其效果的不可逆性,在利用社会大数据时有必要保持一定的审慎性。
从技术角度看,对不同领域的大数据进行综合分析的技术方法也仍然稀缺,且与领域高度相关。现有技术所用的大数据或是属于高度相关的2~3个领域,集中于社交媒体、交通等少数领域;或仅针对互联网大数据,而极少出现对多个领域政务大数据的分析。近两年的一些研究成果有Chen等(2016)利用交通数据和GPS记录,分析人们的移动与交通事故之间的关系。Wang等(2015)利用投宿登记信息、出租车的GPS轨迹以及公共交通数据以分析位移。
综上,利用大数据服务国家治理是当前各个学科普遍关注的前沿课题之一,这决定了审计大数据研究的前沿性和挑战性。对公共管理等相关领域的探索表明,传统数据、社会大数据和政府大数据相结合,才能更好地服务于公共管理,这一趋势与国家审计当前的发展方向一致。但是,这些领域只围绕与自身相关的政务大数据展开研究。与之相比,国家审计对象包括各级政府部门、各行业的国有企事业单位、领导干部经济责任等,这就从源头上决定了审计大数据不能局限于单一领域,而应侧重于对多领域政务大数据的综合利用。
相比于其他公共管理领域,审计大数据的主要特色在于对众多领域政务大数据的覆盖。相比于自身,审计大数据是否具有了与以往不同的内涵?审计所用数据基础的变化与其他领域相比有何区别?基于此,本文首先回顾以往对审计数据的使用方式,而后再剖析审计大数据产生的外在条件和内在原因。
1.审计大数据是在原有数据基础上的一次拓展。审计案例和实践都表明,国家审计以往所用的数据已经初步具备了大数据的海量性、多样性、异构性、真实性等关键特征。审计所用数据主要源自审计对象,其自身除了少量的审计公告和管理数据外,几乎不产生任何数据。在20世纪90年代,相关审计研究就已经开始剖析审计对象所产生的大量数据。《中国审计》是审计实务界比较权威的一家公开发表物,本文统计了其2013~2014年发表的审计案例中的数据来源,如表2所示。表2列出的《中国审计》2013~2014年间所公开报道的48个经典的审计案例中,有26个案例使用了银行数据,银行数据的记录条数一般超过亿条。在政府性债务、社保、国土等历次全国性大型审计项目中,所使用的数据也常常超过T级。这些数据已经基本满足了大数据对数据海量性的要求。
国家审计对象的多样性,决定了审计数据的多样性。不同领域的审计对象产生了内容高度差异化的信息,即使是同领域的审计对象也可能使用不同的信息系统,从而导致审计数据的高度异构性。文中异构性是指同类型信息在记录方式(如字节长度)、数据库设计模式、数据库版本等方面的差异性。
国家审计也一直强调数据的真实性。在管理、社科等领域中,对数据真实性的担忧主要源于分析对象可能受到调查问题、环境等因素的影响,导致所获得的数据出现偏差。但是,这种偏差很少源于分析对象故意提供的欺骗性信息。与之相比,审计对象却有充足的理由伪造数据,以掩盖违规行为。因此,“假账真审”始终是一项重大的审计风险。为此,国家审计一直从立法和实践两个层面确保审计数据的真实性。《国务院关于加强审计工作的意见》(国发[2014]48号文)中规定:“提供完整准确真实的电子数据。”审计实践中,会通过现场核查、数据比对等手段遏制数据造假。
可见,审计所用数据早已超越了统计和抽样调查数据,且以多样、海量、异构、真实的政务数据为主要分析对象,并具备了大数据的一些关键特征。从这个角度来看,审计大数据应该是在原有数据基础上的一次拓展,而不应当视为一种颠覆。这与其他领域有着明显的差异。
2.大数据更为全面地记录了审计对象的信息,为开展更大规模的审计数据利用提供了外在条件。
20世纪九十年代,会计电算化刚刚开始普及。当时,只有审计对象的财务信息能够被较为完整地记录下来,审计数据利用的主要任务就是“打开电子账”。而后,伴随着整个国家的信息化进程,审计对象的业务、管理信息也被逐渐纳入信息化管理;审计数据的利用也随之逐步扩展到业务和管理信息。
大数据时代,随着移动互联、云计算、物联网等技术的进一步普及,审计对象的信息得到了更为全面的记录。这种全面性既体现在可以记录审计对象每时每刻的行为,又体现在这种记录不仅被审计对象自身所保存,同时也被其他对象所保存。例如,一笔交易的相关信息既被交易双方所记录,也被银行等金融机构、税务等监管部门所记录,如果采用了云技术则数据的实际保管者就可能是云存储服务商。从这个角度来看,大数据时代审计对象的任何行为都将留下电子痕迹,但其数据的量级更大、来源更多、非结构化信息更普遍。当审计对象步入大数据时代时,国家审计的手段也不能停留在过去,否则最终只会导致新时代的“刀耕火种”,这就对审计数据的利用提出了新的要求。
3.审计对象的新变化和审计职能、审计方式的发展,是提出审计大数据的内在动因,最终决定了将以何种方式利用审计大数据。
表2 《中国审计》2013~2014年发表的审计案例的分析结果
(1)审计对象的违规行为日趋隐蔽和复杂,合规性审计所用的数据越来越多源化、多样化。国家审计与审计对象间的博弈始终处于“魔高一尺,道高一丈”的螺旋上升状态。现有审计实践表明,仅仅依靠审计对象自身提供的财务数据早已不能满足审计需要。很多审计人员感慨:“对会计资料进行逐一审查,未发现有明显的违纪违法现象”,“整本账目上数字工整清晰,毫无违法违规现象”(许伟等,2013)。表2的审计案例中,有5个审计案例只使用了财务数据,占9.43%,其余90%以上的案例均使用了至少两个领域的数据;部分案例还使用了与审计对象存在经济活动往来的其他对象的数据。
(2)国家审计日益关注的体制机制、潜在风险、政策效果等重大绩效问题均涉及大量的审计对象,并具有高度的综合性特征,所需数据的领域更多、覆盖范围也更广。2013年世界审计组织《北京宣言》指出最高审计机关在促进良治、提高公共行政效率和效益等方面的作用。刘家义审计长(2012)也指出:国家审计要发挥在促进改革体制、完善制度、规范机制方面的作用。虽然国内绩效审计的探索和审计实践并不乐观,但是各方都已经认识到在经济社会高度复杂的现实下,绩效审计所关注的很多重大问题都受到多种因素的综合影响。这就需要使用多个领域、全国性的大数据开展综合性分析。例如,政府性债务审计、全国社保资金审计中都将审计数据的采集和分析范围扩大到全国。
(3)审计监督的职能正在不断扩大,党和国家对审计工作的要求也越来越高。党的十八届四中全会和国务院《关于加强审计工作的意见》表明,审计监督的地位得到了提升,其职能也进一步扩大到国有资源等方面,目前已基本涵盖了国家治理的全领域,导致审计对象更为广泛和普遍(刘家义,2015)。尤其是“全覆盖”要求,使得以往“几年审一次、一次审几年”的工作方式已经落后,加强审计工作的信息化、自动化水平被普遍认为是破解审计人力短缺的主要手段,其核心是对审计数据的有效利用。近三年的全国审计工作会议都提出,以大数据为核心的审计信息化建设是应对未来挑战的重要法宝。
综上,大数据时代提供了审计大数据所需的外在条件,国家审计职能的扩展、审计对象的丰富和其行为的日益复杂化,都要求国家审计在原有审计数据的基础上进一步拓展数据的使用范围、加强对各领域数据的综合利用,使得审计大数据的类型、内容更为丰富,量级更大,真实性要求更高。基于上述分析,本文将审计大数据定义为:在大数据时代,开展审计监督所需的审计对象自身的或与其相关对象的各类数据及其分析手段的统称。这一界定也指出,讨论审计大数据时也应涵盖相应的大数据分析手段。另外,本文将审计大数据与原有审计数据进行了对比,具体见表3。
表3 审计大数据的若干拓展
1.审计大数据的范围。在认清审计大数据的特色和内涵后,本文进一步界定审计大数据的范围。以往研究多从个别案例和个别领域出发,分析审计数据需求情况,并不利于给出审计大数据的全貌。相关实践也严重缺乏理论指导,导致一些领域的数据被不同审计机关重复采集,一些数据却从未被利用。为此,本文针对某审计机构的审计数据需求进行了调研,试图框定审计大数据的大致范围。调查关注了不同审计领域所需使用的国务院79个下属部委及其机构数据的情况,见图1。
图1 不同审计领域履职所需的国务院下属部门情况
图1依据调研结果给出了各领域审计大数据需求的概貌,无明确审计数据需求的国务院部门未在图中列示。图中位于中央的节点代表某审计领域,上下两侧的节点代表某部门,两类节点间连边表明该审计领域需要使用相应部门的数据,实线边表示已获取过数据,虚线边表示尚未取得数据。
可见,审计大数据的范围基本是对各领域政务大数据的全覆盖,以及与审计对象相关的社会大数据。而且每个审计领域都需要综合使用不同部门的数据,如企业审计需要使用近20个部门的数据。这印证了前文的分析。由于审计大数据在其数据范围、提出背景等方面的独特性,审计大数据的特征也不应当是大数据特征的简单映射。此前,迈尔·舍恩伯格等(2013)将大数据及其分析技术的影响,凝练为大数据的三大特征:①全集而不是采样;②拥抱混杂性,无须精确性;③相关性,不必有因果性。这一观点对以互联网大数据为代表的各个领域的研究都产生了重大影响,也引发了较大争议(梁玉成,2014)。但是对于以政务大数据为核心的公共管理和决策领域,其适用性存疑。
2.审计大数据的特征。以下结合大数据的三大特征,着重阐释审计大数据的特征:
(1)审计大数据对“全体”的界定。审计的分析对象就是审计对象,大数据能够涵盖分析对象的“全体”。但是,对于审计大数据而言,其“全体”不仅指全部审计对象,也包括与审计对象相关的其他对象的部分数据。
审计大数据所界定的“全体”之所以大于审计对象的全集,是由两方面审计需求导致的:一方面,审计对象的违法违纪行为日趋隐蔽、狡猾,利用审计对象自身的数据已不足以发现有价值的审计线索,而必须借助与其存在经济活动往来的其他对象的数据。表2中的大量审计案例就利用了相关部门以及外部对象所掌握的相关数据。另一方面,政策执行、体制风险等具有综合性特征的审计目标也需要利用多领域数据。如对住房空置率的审计中,就综合利用了与审计目标直接相关的售房数据与看似相关度不高的电力数据。
图2给出了审计大数据所指“全体”的示意图及一种典型的审计大数据分析策略。由图可知,审计大数据不仅包含审计对象A、B的数据,也包括对象C所记录的与A、B有关的数据。通过比对不同对象所掌握的数据,就可以揭示审计对象很多隐蔽的违规行为,这已成为实际审计工作中一种重要的数据分析手段。例如图2中从三个不同对象处采集了与审计对象A有关的数据,此时A对自身所拥有信息的篡改不仅不能干扰审计工作,反而暴露了其企图。
图中实线圆圈中的数据为某个对象所有,圆圈中不同区块的数据为该对象所掌握的与其他对象相关的数据。例如审计对象A除掌握与自身有关的数据外,还掌握与对象B、C、D、E相关的数据。因此在开展对审计对象A的审计时,不仅需要利用A所掌握的全部数据,还应包括B、C所掌握的与A有关的数据,图中用短虚线示意其数据范围。当对象A和B构成审计对象的全集时,审计大数据的范围如长虚线所示。
(2)审计大数据分析对精确性的要求。由于大数据所固有的高噪音特点,导致单一个体的数据价值低、大量个体的聚合数据价值高。即使是政务信息系统也会由于建设历史、经办人员水平等原因,存在大量的信息缺失和不规范现象。在这一现实条件下,大数据分析技术只追求一定置信概率下的宏观准确度。正是这一特征使得很多一线审计人员对大数据分析抱有疑虑。
目前的审计工作要求兼顾针对整体的政策跟踪、体制风险审计,和针对个体的合法合规性审计。在开展针对总体规律的审计分析时,个体精确性的弱化并不会对结果产生较大影响。例如笔者前期对参保人待遇调整绩效的分析时,由于使用了239万人的待遇信息进行测算,因此少量参保人待遇信息的不准确,并不会对宏观分析结果产生颠覆性影响。此时,如果苛求每个参保人信息的精确性,将面临大数据所固有的高噪音特征的巨大挑战,反而干扰了分析者对宏观规律的把握。但是,在开展针对个体的合法合规性审计时,精确性的弱化就带来了巨大的审计风险。审计工作流程要求审计人员必须在公布结果前与审计对象交换意见,这类交流很少是“和风细雨”的。仍以参保人待遇信息为例,如果依据错误的待遇信息,指证参保人违规领取待遇,可以想象这类分析结果会置审计人员于何种境地,最终将影响审计工作的权威性。因此,审计大数据分析必须依据审计目标的不同,在个体精确性和宏观准确度中做出取舍。
(3)审计大数据分析对因果关系的要求。大数据分析善于发现数据中潜藏的相关关系,而不善于推断因果关系。这与现有分析手段的数学基础有关。以经典的“啤酒-尿布”规则为例,其发现过程是在对被同时购买的商品进行统计时,如果不同商品被同时购买的频次高于某一阈值且商品之间满足一定的条件概率约束,即为有效规则。由此可以简单地推算,n件商品可能出现此类规则的总数是(2n-n-1)。因此,对大量对象的相关性分析结果通常会有几千条被算法认可的有效规则,其中固然有真正的知识,但更多的是无意义的垃圾,甚至包括类似“蓖麻子开花导致麻疹病爆发”之类的荒诞结论。很多学者也对大数据分析的这一特征颇有诟病(梁玉成,2014)。
与之类似,仅依赖相关性分析的审计结果也极难在审计工作中被采纳。审计大数据分析从相关走向因果是审计工作的必然要求。这里有两层含义:一是在专家因果判断的指导下开展相关性分析;二是结合专家经验判定相关性分析结果的有效性。事实上,完全脱离专家的大数据分析方法并不存在。如笔者此前利用聚类方法分析上市公司财报疑点时,在最初的分析指标选取和最终审计疑点解释时都需要借助专家经验。
综上,本文认为审计大数据的范围基本是各领域政务大数据的全集,并拓展到与审计对象相关的社会大数据。本文将审计大数据的特征凝炼为:拓展的“全体”,个体和宏观精确性的取舍,因果指导下的相关分析。这些特征最终决定了:不宜将以互联网大数据分析为代表的其他领域的技术方法简单地移植到审计大数据分析。
构建大数据审计的工作模式已成为当前国家审计发展的必经之路。但是,审计大数据的研究隶属于当前科学研究的前沿课题之一。我们不仅缺少成熟的理论指引,更缺乏可靠的实践经验,将面临多方面的挑战。本文现结合笔者的经验提出一些浅显的建议。
1.审计大数据的采集。审计大数据的采集是开展大数据利用的前提。随着《审计法》《审计法实施条例》的颁布执行,尤其是《国务院关于加强审计工作的意见》的实施,以往审计数据采集所面临的行政阻力将随之弱化,因此本文着重探讨审计大数据采集的技术障碍。
从覆盖范围来看,审计大数据的采集涵盖多个领域,一个领域中又包含大量的审计对象,而且这类采集日趋常态化。例如,2012年全国社保资金审计中,就对社会保障这一大领域中涉及13种资金类别的子领域数据进行了全国范围内的采集,涉及审计对象(以参保人计算)十几亿个,处理了3000多个行政区划的近千个异构信息系统。这明显有别于以往与审计项目相结合的针对单一审计对象的数据采集工作。传统的审计数据采集倾向于采用全库备份的采集方式,其优势是数据无遗漏,降低了审计风险。但是,这种方式明显不适合对多领域、大量审计对象的数据同时进行采集。如何采集数据已成为各级审计机关面临的迫在眉睫的课题。从技术角度来看,其关键是破解信息的差异性和异构性问题。
数据标准已被实践证明是解决信息差异性和异构性的有效途径。标准化数据采集的优势是可以确保不同审计对象所提供的数据内容统一、格式一致,有效降低了数据采集的工作量,也有利于对不同对象的数据开展统一分析。但是,任何数据标准都不可能涵盖审计对象的全部数据,而只能在不同对象的信息差异中追求共性信息,这就决定了数据标准必然对信息有所删减,变相提高了审计风险。审计人员应该转变“眉毛胡子一把抓”的数据采集思路,结合审计目标,采取“有所取舍”的数据标准接口的采集方式。
2.审计大数据的整合。审计大数据的整合是实现大数据利用的基础,所面临的主要技术挑战是同领域数据的异构性和跨领域数据间的壁垒。审计大数据的异构性使得同一领域的不同信息系统的数据之间相互割裂,无法形成良好的数据分析基础。不同领域数据的整合路径更是当前科学界的前沿课题之一。目前,各级审计机关现有的审计数据中心,不同领域、不同对象的数据往往分别存放,即使是同一领域的数据之间,其记录格式、数据库设计模式也各不相同,不同领域数据间的整合更是无从谈起。这导致审计分析人员必须成为掌握不同信息系统底层结构的通才,但在实践中其知识和经验的更新速度也远远跟不上大量审计对象信息系统变化的步伐。
该问题的解决需要先利用数据标准破解同领域数据的差异性问题,而后再给出不同领域数据整合的基础模型。其基本思想类似于异构数据匹配研究中的全局模式。图3给出了传统数据整合思路与新思路的对比示意图,一个形状代表一种结构或一个领域的数据。传统的数据整合只有通过逐对实现不同格式或领域数据间的整合,才能实现全部审计大数据的整合。如图3(a)所示,当我们面临5个不同领域的数据时,依据传统的数据整合路径就需要进行10次领域数据间的整合,其总工作量随着领域数据的增加而呈现爆炸性的增长,明显不适合用于众多政务领域数据的整合。但是,一旦确定了基础整合模型,就只需要5次领域数据间的整合,且其总工作量仅仅随着领域数的增加线性增长,如图3(b)所示。同领域异构数据的整合思路也与之类似。
图3 异构或不同领域数据整合的不同思路对比
3.审计大数据的分析手段。审计大数据因其量大、多样,而对分析技术提出了更高的要求。以往的计算机审计手段主要以关系数据库为基础,采用SQL语句、多维分析等手段展开分析,其数学基础为关系代数。这类手段在分析审计大数据时存在三类缺欠:①不适合分析非结构化数据;②不适合分析因审计对象间的互动性行为所形成的网络关系;③SQL语句本质上是审计人员已有知识的表达,不善于发现以往所不知晓的知识。
因此,面向非结构化信息、面向对象间网状关系的智能分析方法是未来审计技术创新的重要方向(赵琛,2016)。图4以投资关系、业务往来、资金往来三种重要的审计对象间关系为例,给出了对象间网状关系分析方法的一个示例。图中用Ci编号的节点代表一家企业、用Pj编号的节点代表一个自然人、不同网络间通过虚线连接的节点表示其对应同一个审计对象。一般而言,社会网络是表达大量对象间的互动性关系的重要范式,图4中的示例就利用社会网络方法,给出了跨领域对象间的关系,即给出了同一领域中审计对象间的关系,例如基于工商数据的对象间投资关系,也给出了对象间在不同领域中的多重而复杂的关系,如企业C1和C3之间同时存在直接的投资和业务往来关系以及通过C2和P1而间接存在的资金往来关系。这非常有利于发现审计对象依赖其社会关系网所开展的隐蔽性违规行为。笔者参与开发的这类审计分析工具也已经开始在审计实践中得到应用,并得到公开报道。
图4 审计对象间社会网络关系
4.审计大数据的人才队伍。创新的关键是人才。20世纪90年代,审计数据在由纸质账簿向电子账簿转变的过程中,审计人员面临着丧失审计资格的威胁,大数据时代的审计研究者和实践者也面临着类似的理念与方法变革。从审计数据分析理念来看,针对一时、一地、一个对象的传统审计方式,已不能满足当前审计全覆盖和针对体制、政策的审计任务要求。实现这些任务需要对海量审计对象开展历时性、全局性、综合性的分析。一种“立足微观、面向宏观”“不苛求个体精确性,拥抱统计准确率”的审计理念或许是对审计大数据时代最好的回应。从审计数据分析方法来看,本文已经指出传统的审计数据采集、整合和分析只是当前历史背景下针对一个对象、小规模数据的产物,并不适应以多对象、跨领域、巨量数据为代表的大数据时代。
在人才队伍的建设中,急需破除门户之见,建立“政产学研用”多方面的人才培养体系。与其他学科相类似,审计大数据研究也具有跨学科创新性、理论与实践相结合的特点。对于审计大数据的探索也需要审计、计算机、政策科学等诸多学科学者的协同创新。在以往的研究中,高校科研院所的学者极难接触真实的、多领域的审计大数据,导致相关成果“不接地气”;审计人员则受限于繁重的审计任务,无暇跟踪前沿进展、很难将个体经验凝练为规律总结。只有建立融合不同领域、不同专长的人才队伍,才能破解审计大数据的挑战。需要认识到,审计大数据研究所面临的问题是当前前沿科学问题的具体体现,很难依赖少量的审计人员独立解决。应当在安全、保密的前提下,打开大门,欢迎社会力量尤其是科研和信息厂商参与到审计大数据研究中。
刘家义.国家治理现代化进程中的国家审计:制度保障与实践逻辑[J].中国社会科学,2015(9).
秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究,2014(6).
隋学深,奚冬梅.国家审计与国家治理哲学关系辨析[J].审计月刊,2014(8).
David Lazer et al..The parable of Google Flu traps in big data analysis[J].Science,2014(343).
梁玉成.大数据不能代替理性思考[N].社会科学报,2015-02-12.
Declan Butler.When Google got flu wrong[J].Nature,2013(494).
David Lazer et al..Computational social science[J].Science,2009(323).
鲍静,贾凌民等.我国政府数据开放顶层设计研究[J].中国行政管理,2016(11).
罗玮,罗教讲.新计算社会学:大数据时代的社会学研究[J].社会学研究,2015(3).
许伟,雷玥.狼狈为奸终现形[J].中国审计,2013(24).
刘家义.论国家治理与国家审计[J].中国社会科学,2012(6).
刘家义.中国特色社会主义审计理论研究[M].北京:中国时代经济出版社,2015.
宋常,胡家俊,陈宋生.关于绩效审计研究的新思考[J].审计与经济研究,2006(1).
维克托·迈尔·舍恩伯格,肯尼思·库克耶著.盛杨燕,周涛译.大数据时代[M].杭州:浙江人民出版社,2013.
Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘概念与技术(第2版)[M].北京:机械工业出版社,2006.
邱玉慧,吕天阳,杨蕴毅.基于大数据的企业基本养老保险待遇调整绩效审计分析——以X省为例[J].审计研究,2014(3).
赵琛.审计对象关系网络构建方法研究[J].审计研究,2016(6).
杨蕴毅,孙中和,卢靖.基于迭代式聚类的审计疑点发现——以上市公司财报数据为例[J].审计研究,2015(4).
王飞跃.社会计算——科学、技术与人文的数字化动态交融[J].中国基础科学,2005(5).
吕天阳,邱玉慧,杨蕴毅.社会保险数据碎片化现状分析——基于对A省11种基金的调研[J].社会保障研究,2015(4).
审计署兰州特派办理论研究会课题组.大型审计项目组织方式的实践经验和创新思路[J].审计研究,2015(2).