大数据审计是审计机关遵循大数据理念,运用大数据技术方法和工具,对数量巨大、来源分散、格式多样的经济社会运行数据,开展的跨层级、跨地域、跨系统、跨部门和跨业务深入挖掘与分析。大数据审计的理论框架主要由审计大数据、审计大数据分析技术和大数据审计平台构成。
大数据审计首先要坚持“数据先行”,只有高质量的基础数据才能成为大数据审计分析的基础。
1.审计数据
审计数据中包含结构化、半结构化和非结构化数据,按照数据来源可划分为依托外部的公共资源、审计基础资源、审计业务资源、审计知识资源以及审计共享信息。依托外部的公共资源是指互联网或其他公共渠道能够获得的审计需要的相关信息;审计基础资源是审计管理全流程中形成的审计计划、审计证据、审计底稿、审计报告和审计决定等全部文档资料;审计业务资源主要是指专题性行业数据;审计知识资源主要是以知识发现和知识管理为目标,收集的审计方法、审计法律法规、质量管理、审计事项等知识信息;审计共享信息主要是依托国家电子政务外网和国家级、省级公共数据交换平台,用于各级政府机关政务共享的数据。
2.大数据采集和预处理
对审计数据分析有价值的数据都应纳入采集范围,主要采集技术有ETL、网络爬取和数据众包采集。数据预处理即对采集到的数据进行清洗、填补、平滑、合并、规格化,以及检查一致性等处理,并对数据的多种属性进行初步组织,主要包含数据清理、数据集成与变换以及数据规约。ETL(Extract-Transform-Load)是将数据从来源端经过抽取、转换、加载至目的端,为联机分析处理、数据挖掘分析提供数据支持。对于非结构化数据转结构化数据采集,我们利用聚焦爬取工具,对聚焦爬取的审计主题信息,进行去重、分类等加工处理,建立索引并以搜索的方式满足用户的需求。
3.数据储存与管理
数据储存技术主要有分布式文件系统、关系数据库、非关系数据库(NoSQL)、数据仓库、云计算和云存储等,建立数据库时必须要遵循标准化原则、扩展性原则、可维护性原则和开放性原则。目前对于海量数据的存储和管理,在硬件上一般应用服务器集群架构,在软件上应用分布式文件系统。其优点是存储量大,可以方便地实现TB级别的数据存储;可靠性高,集群的各个结点可以实现负载均衡,不会因为一个结点出错而造成整个服务停止;扩展性强,集群可以通过增加结点来提高整个系统的吞吐率。
审计数据分析是实现审计大数据价值的直接途径,分析方法主要有验证型分析、查询型分析和挖掘型分析。验证型分析主要是验证采集的数据是否真实、完整、有效,是否包含审计人员需要的全部信息;查询型分析一般通过数据库工具依照法规、逻辑关系等一定的规则查询数据中存在的疑点问题;挖掘型分析是挖掘海量数据中蕴涵的数据模式与规律,来发现审计线索和分析解决审计问题,并预测趋势和行为的数据分析模式。
审计大数据的分析需要高性能的平台,来满足海量数据处理的需求,提升分析的效率和效果。
大数据审计云平台能够满足审计大数据的采集、存储、预处理、建模和分析需要,主要由基础设施层、数据存储层、数据分析层和平台应用层构成。基础设施层包含服务器、网络、操作系统、存储设备和数据接口等软硬件设备。数据存储层除了借助云计算环境和分布式文件系统HDFS建立审计数据库以外,还包括数据预处理、数据存储、数据管理、数据检索、数据审批和数据加密等功能。数据分析层为数据分析技术和分析模型,包括查询式分析模型和挖掘式分析模型。平台应用层主要运用数据分析工具、语句转换工具、数据切分工具和R语言文本挖掘工具等开展数据分析、疑点分发和数据挖掘,对分析结果进行可视化展现,生成审计分析报告。
深化大数据审计是适应时代发展的必然选择,是实现审计全覆盖的必由之路。新时代国家审计发展必须坚持科技强审,革新传统审计方法,加强信息化基础建设,向信息化要资源,向大数据要效率。
按照党中央、国务院对审计工作提出的“对公共资金、国有资产、国有资源和领导干部履行经济责任情况实行审计全覆盖”的明确要求,必须构建大数据审计工作模式,实现“集中分析、发现疑点、分散核查、系统研究”的数字化审计方式。大数据审计工作模式应做好顶层设计,充分发挥审计计划项目管理的统领作用,立足“两统筹”工作要求,科学安排正式计划项目,统筹审计资源,统一组织、整体联动、发挥合力,实现有深度、有重点、有步骤、有成效的审计全覆盖。
要将大数据思维融入项目管理和业务实施全过程,从顶层设计出发,研究大数据审计需要的资源、支撑环境,并对大数据环境下的审计全过程、各环节重新进行规划,分解审计业务管理流程,动态整合审计资源,优化审计作业链,实现大数据审计流程再造。大数据审计流程主要由年度计划项目审计流程和日常数据分析流程两部分工作内容组成。
1.日常数据分析流程
日常数据分析流程是指将数据采集、整理和分析的工作分解到平时,根据审计需求和年度项目计划定期采集财政、税务、被审计单位等审计数据和第三方审计相关的行业数据,并按照国家行业标准、审计数据规划或国家审计数据中心的统一要求,整理和校验数据,提高数据质量。在数据收集整理完成后,技术人员系统研究数据内容、特征和相互关系,充分对数据进行挖掘分析,为拟定项目计划意向、挖掘审计重点疑点和建立各行业分析模型、完善优化审计方法库提供信息支持。
2.年度计划项目审计流程
年度计划项目审计流程分为计划阶段、准备阶段、集中分析阶段、现场实施阶段和报告阶段。其中准备阶段和集中分析阶段是大数据审计工作流程区别于传统审计工作流程的两个阶段。
在计划阶段,由综合处围绕服务党委、政府工作中心,关注社会热点,结合审计工作实际,以及日常数据分析工作提供的疑点参考来明确审计计划意向,拟定年度审计项目计划,厅党组对审计项目计划进行审核后,综合处正式下达年度审计项目计划。
在准备阶段,各业务处室根据年度审计项目计划制定审计工作方案,数据部门根据审计工作方案、审计重点和数据行业类别组建不同的数据分析团队。数据分析团队根据审计工作方案进行预先研判,对大数据运用做出统筹谋划,明确项目的审计重点,紧扣审计工作方案开展调查了解,摸清审计所需的数据资源并收集完整。
在集中分析阶段,数据分析团队利用关联分析、趋势分析、聚类分析等数据挖掘技术,建立分析模型,形成分析结果和问题疑点线索,实现数据分析的批量化、深度化与准确化,减少现场审计时间。数据分析团队应当注重总体宏观分析和重点分析相结合,既要从整体层次上把握被审计单位主要特点、运营规律和发展趋势,指导审计人员确定审计重点,又要以问题为导向筛选线索,为审计取证提供明确具体的目标。为提高疑点线索的精准打击率,在这一阶段增加“试审”环节,按照数据初步分析结果选点进行抽样验证,根据试审结果修正和完善数据分析模型,再由技术人员对分析结果进行审核,人工筛查删除其中非正常数据或特殊业务情景,反复修正数据分析模型,进一步缩小疑点范围。
在现场实施阶段,现场审计组根据数据分析团队下发的疑点进行核实,同时落实其他审计事项。数据分析团队要密切追踪疑点核实情况,及时了解现场核查小组工作中遇到的问题,适时调整分析思路,细化分析指标,确保大数据分析的精准度;及时发掘现场核查发现的趋势性、典型性、普遍性问题,通过动态简报、情况调度会等形式指导各现场核查小组调整方向、把握重点,真正做到现场审计与非现场审计的深度融合,有效推动疑点落实。
在报告阶段,审计组在提交审计报告、完成审计文书资料归档的同时将疑点核实情况反馈给数据分析团队。数据分析团队根据疑点核实的效果及时对数据审计思路、数据采集范围、数据整理过程、数据分析模型、疑点核实情况进行归纳总结,形成数据分析报告,并调整和改进分析方法,完善审计方法库。
一是提高数据使用效率。自上而下完善审计数据规划,全方位、常态化地积累各行业、各领域数据,进一步加强数据标准化建设;加大数据共享力度,实现跨地域、跨行业、跨系统的数据挖掘分析;强化数据管理与安全保障,完善数据管理制度和安全工作流程,加强保密管理。二是建立全国统筹协调、层次清晰、功能齐全的大数据审计云平台。一方面,要构建审计存储云,通过Hadoop云计算框架下的HDFS、MapReduce、NoSQL等技术,实现异构数据的分布式存放和高效处理,实现动态负载均衡和分布式热备份。另一方面,要构建审计分析云,利用分布式文件系统和并行计算技术,将海量审计数据分到云上多个数据节点进行实时批处理分析,并及时反馈分析结果,提高分析效率。三是构建审计大数据分析模型体系。审计分析技术建模体现了审计业务和计算机算法的高度有机结合,科学构建审计大数据分析模型,实现国家审计系统共享,可以极大程度上降低人员知识水平和知识结构不足带来的审计差异,真正实现智能化审计,提高大数据审计工作的质量和效率。四是进一步推动审计技术创新。提高创新意识,提升创新能力,加强大数据预处理、深度分析挖掘、可视化交互等关键技术工具的开发应用。充分利用高等院校和科研机构的资源优势,建立合作研发模式。建立创新激励制度,开展审计数据分析技术评选,对优秀创新成果进行表彰奖励。
一是牢固树立大数据审计思维和理念。思想是行动的先导,要加大宣传力度,使审计人员深刻认识到大数据审计是事关审计事业长远发展的重大工程;建立大数据审计思维,主动学习信息化知识,夯实大数据审计能力,将总体思维、关联思维、预测思维融入审计实施全过程。二是科学开展大数据审计培训。在培训规划上,按照培训需求和目标的不同,采取经常性培训、专项培训和骨干培训相结合、案例教学和以审代训相结合等方式开展;在培训对象上,促进审计系统内的培训名额区域平衡,争取在一定时间内完成对审计人员培训的全覆盖;在培训内容上,既要兼顾工作必备信息化能力,又要兼顾行业类专题培训,也要对新技术新方法进行知识更新。三是打造高端数据分析团队。高端数据分析团队要把握全局,加强对大数据环境下审计目标、思路与模式的研究,提出有价值的分析需求;为审计项目提供分析指导和技术支持,为项目管理、领导决策提供可靠信息;构建、优化大数据分析模型,达到宏观分析和制度执行效果探索等目的。
大数据审计得到法律支持和制度支撑,是大数据技术在国家审计监督中充分发挥作用的关键前提。大数据等审计信息化技术应用的法规制度配套工作是一项复杂的系统工程,要放在国家层面大数据立法框架中进行。应从国家层面健全顶层设计和系统性规划,完善政府大数据管理使用相关法规制度,从根本上打破行业部门信息壁垒,真正实现数据共享。
应根据审计工作特点完善审计大数据法规制度。在审计法、审计法实施条例的修订过程中,明确被审计单位应当提供的电子数据及技术文档;明确建立电子数据定期报送工作机制;明确审计大数据的安全性、保密性规定;明确规范采集、存储、使用电子数据得出的结论依法合规作为审计证据的相关规定等。要建立健全与大数据时代相适应的审计标准和准则,为强力推进大数据审计保驾护航。
审计机关应整合现有资金渠道,积极争取本级政府的支持,加大财政投入,明确审计大数据基础设施总体建设需求,规划详细建设方案,加快金审工程三期建设步伐,加强对软硬件设备的更新与维护。上级审计机关应深入掌握各地区大数据基础建设进度不平衡的情况,组织、协调、指导下级审计机关金审工程建设,建设省、市、县之间的数据专网,开通数据传输功能,深度挖掘现有设备的潜力,提高现有设备的利用效率,全面提升信息化、大数据技术在审计业务和管理工作中的应用水平。
近几年,湖北省审计系统坚持科技强审,强化大数据审计思维,确立了“制度是保障、人才是根本、平台是基础、数据是核心、技术是关键”的数字化审计发展思路,初步构建了大数据审计体系。
湖北省各级审计机关均针对信息化建设制定了相关制度,如湖北省审计厅制定出台了《湖北省金审工程三期项目建设实施意见》《湖北省审计基础数据规划》等指导性文件,对全省审计信息化工作进行了统筹部署;武汉市审计局印发了《2018年至2020年武汉市大数据审计三年行动计划》;十堰市审计局积极争取市政府出台了《关于定期报送审计电子数据的通知》;荆门市审计局制定了《荆门市审计信息化发展规划(2017-2020年)》等,这些文件的出台为大数据审计提供了强有力的制度保障。
一是开发了湖北省全省审计计划项目管理系统和湖北省审计对象库,建设内容包括:全省计划项目统一管理、全省项目实施统一管理、全省项目资料统一管理、全省审计人员统一管理、全省审计计划项目综合分析和全省审计对象管理。系统实现了审计计划项目从制定、执行到审计报告全流程管理;省市县三级的计划项目申报、审核、资料交互管理;各审计机关审计项目和审计组人员的人力资源分配管理;历年审计成果管理,提高了审计项目管理的科学性,为大数据审计项目的顺利开展提供了保障。二是开发了可扩展的湖北省数据资源目录系统,实现了全省集中存储的数据资源、类型、结构的统一管理和可视化统计展示,有效提升了数据存储效能和利用率。三是开发了数据智能采集校验报送工具,实现了省市县三级审计机关一键完成数据的采集、清洗、整理、转换及上传省厅数据中心的全部流程。四是开发了可扩展的财政审计分析云平台,采用分布式并行技术,固化了总体分析、疑点分析和关联分析三大类40个审计分析模型,省市县三级可通过不同级别的账户、密码登录分析平台,实现了各级协同作业。五是打造了全省审计专网、数据分析网、视频会商系统等各级审计机关的互联互通、统一的工作平台,有力整合了湖北省审计机关的人力、技术和数据资源,推动了审计工作向大数据审计模式转变。
1.数据规划
运用数据,必须首先做到数据标准化。2018年,按照“以用为本”的原则编制了《湖北省审计基础数据规划》(图1),共涉及全省财政、地税、养老保险、学校、社会救助、安居工程等19类审计数据、110张审计标准表,其中市、县负责采集报送的数据标准表40张,省厅负责采集的数据标准表70张,初步形成既能满足审计署统一定期报送需要,又能满足项目审计和联网审计需要,同时兼顾各地业务信息系统差异的数据标准。
图1 湖北省审计数据规划文档结构图
2.数据采集
目前湖北省审计厅数据中心有服务器近百台,存储能力近200TB,电子数据积累量共达48.3TB,存储了包含财政、地税、部门财务、教育、社保、农业、扶贫、企业、医院、经责、自然资源资产、公共等12个行业的数据。湖北省已初步建立了数据定期采集机制,每年通过联网实时收集、定期报送、发函沟通等方式采集数据,建立了全省数据采集、校验、标准化和上传的通道。
3.数据安全
湖北省审计厅为实现数据管理的科学化和规范化,一是制定了《审计业务数据管理试行办法》和《数据安全管理试行办法》,对数据中心的软硬件配置、数据分类、数据的采集使用机制、数据安全等内容进行全过程管理。二是最小授权原则访问数据。数据中心在网络上与审计专网、电子政务外网进行了隔离,仅两台终端能够访问,并设置一台终端为数据输出端,既兼顾了数据安全,又能满足数据输出的需求。当有数据分析需求时,则将数据中心的数据迁移至数据分析服务器上,设置若干访问终端,分析结束后收回所分配的权限,并迁移结果数据至数据中心。
近年来,湖北省审计厅高度重视审计人员的计算机培训工作,每年通过多方式、多层次、多渠道开展计算机相关培训。一是按照审计署要求,通过自行组织培训、统一参加考试的方式,积极开展计算机中级培训。截至2019年底,全省共有637人获得审计署计算机审计中级证书,实现了每个市州和区县的全覆盖。二是积极选派人员参加审计署数据分析师高级培训班,目前全省已有6人通过署高级考试,并自行组织了二期数据分析师高级培训班。截至2019年底,计算机高级专家覆盖了全省17个市州、45个区县。三是组织开展了7期大数据审计实训班,采取项目带动、以审代训、实操演练相结合的方式,参训人员实现市州和区县的全覆盖。四是开展计算机中级后续培训班,促使现有中级人员从技术型人才向专家型人才转变。同时整合全省审计系统计算机审计和传统审计队伍,组建审计数据分析团队,加强对大数据环境下审计目标与思路的研究,加大对大数据技术的研究和开发力度,提出有价值的分析需求,构建、优化大数据分析模型。
近年来,湖北省审计机关按照大数据审计模式,科学制定审计项目,整合全省资源,依据再造的大数据审计流程,积极创新数据挖掘分析方法,大数据审计运用初见成效,大数据审计体系已初步形成。
在财政审计领域,审计覆盖面扩大,基本实现全覆盖。2015年以来,湖北省审计厅按照大数据审计模式,运用大数据审计流程,组建数据分析团队,在全国率先实现了省级110个部门及1032个二三级单位“横向到边”的全覆盖,全省各级审计机关部门预算执行审计总体覆盖面已达70%以上,初步形成了总体和重点问题分析模型体系。2018年,湖北省审计厅开始探索运用OCR语义识别技术和文本模糊匹配技术,完成了110个省直部门的预算文本及1400个项目文本的转化,实现项目预算明细表与国库集中支付、部门财务核算数据的关联分析,将10个人4个月的工作量缩短为10个人10天的工作量,极大地提高了工作效率。通过连续几年深入推进的部门预算执行全覆盖审计,进一步提升了财经法规的严肃性,规范了预算管理和财务收支行为,省直部门及所属单位预算执行情况取得了较好的效果。
在民生审计领域,智能化与集约化并进,节约审计资源。2018年底,湖北省审计厅首次组织民生资金大数据审计项目,对13大类25项资金274亿元民生资金开展审计。按大数据审计流程抽调了专业技术人员30人组建分析团队,采集了117个地方50套标准数据表,编写分析模型125个,经过多轮数据分析及人工排查,筛查出疑点28万条。在民生资金数据采集阶段利用Sqoop数据传输技术和Hadoop为基础的数据智能采集校验报送系统,仅用两天就完成了全省4077张表的校验上传,有效提高了数据报送的效率和质量。民生资金大数据审计项目摸清了各地民生类专项资金底数,揭示反映了挪用专项资金、惠农惠民资金发放不到位、资金发放对象身份不合规以及资金落实不到位百姓未能享受政策等问题,促使资金管理部门对问题立行整改,老百姓权益受到保障。
在医院审计领域,精准揭示了问题,提升了审计质量。近年来湖北省审计厅对2013年编制的《医院收费系统审计指南》进行了修订,形成医院数据审计方法体系。根据审计需要制定了医院通用的药品管理标准表4张、耗材设备管理标准表3张和门诊住院收费标准表2张,形成药品超标准收费、药品溢库、不可收费耗材、自立服务项目、超标准收取诊疗费等25个审计模型,为医院审计的开展提供了通用精准的审计方法体系。同时积极研究医院数据挖掘分析方法,利用聚类分析技术,制作出一个1799家医院名称3066个项目名称的费用汇总矩阵,将离群点医院的项目收费作为审计疑点,锁定7家医院异常治疗项目的总费用远远高于其他医院,查出虚假治疗费用的问题。医院的审计模型精准度高,转化疑点的取证率达到70%,极大地提升了审计质量。
在资源环境审计领域,运用地理信息技术,实现精准打击。湖北省审计厅从2016年开始探索自然资源审计全覆盖,出台了《领导干部自然资源资产离任审计指南》和《自然资源大数据审计指引表》。2018年完成对水利、林业、国土、环保、测绘、农业、安监、发改各部门进行调研、采集相关数据,设计审计模型139个。每年在市县领导干部自然资源资产离任审计审前准备和数据集中分析中,通过图斑叠加比对等技术筛出一千多处疑点线索,为审计组查找问题提供有力依据。