浅析大数据审计采集技术体系的构成及其应用

2023-06-27 00:18刘国城李君尤建阙圣贵

中国内部审计 2023年1期

刘国城李君尤建阙圣贵

[摘要]构建大数据审计采集技术体系的关键是大数据的采集及其标准化处理，如何从纷繁的数据中快速有效地找到所需数据，正逐渐成为大数据审计发展的关键因素。大数据审计采集技术体系主要由数据库采集技术、系统日志采集技术、感知设备采集技术和网络数据采集技术四方面构成。本文针对上述四方面的原理与应用进行深层次研究，以期促进审计采集技术的高质量发展。

[关键词]国家审计大数据审计数据采集技术

本文系江苏高校哲学社会科学研究项目“数字经济时代智能会计应用平台的模式设计与策略优化研究”（2022SJZD057）

在大数据审计采集、预处理、分析和可视化等流程中，大数据审计采集是首要环节，只有将数据进行集中收集，并积累到一定数量，才能由量变引发质变，进而找到不同领域、不同行业、不同层级数据之间的关系，这也直接决定了大数据审计在后续阶段所能提供的价值。针对大数据来源的不同，本文将大数据审计采集技术体系的构成分为四类，即数据库采集技术、系统日志采集技术、感知设备采集技术以及网络数据采集技术，并在各采集技术中引入实务应用，以期加速推进大数据审计采集技术体系的智能化建设与高质量发展。

一、数据库采集技术的分析

传统的审计业务往往会应用关系型数据库，如Oracle（甲骨文数据库）、MySQL（AB公司开发的关系型数据库管理系统）、Microsoft Access（微软开发的关系数据库管理系统）和DB2（IBM开发的关系型数据库管理系统）等数据管理系统，以此来存储被审计单位的各项数据。近年来，审计主体通常会使用NoSQL（非关系型的数据库）、HBase（分布式的、面向列的开源数据库）、MongoDB（基于分布式文件存储的数据库）等数据库采集、存储被审计单位的数据，并应用高端采集技术，如ODBC（Open DataBase Connectivity，开放数据库互连）技术、审计接口技术等，以此来连接审计主体和被审计单位的数据库，完成大数据审计的采集工作。

（一）ODBC技术的应用

ODBC技术是通用的审计大数据采集方法之一，其主要涵盖应用程序、驱动程序管理器、驱动程序和数据源。应用程序层通过采用ODBC接口，可以实现与数据源的连接和会话，并向数据源发送结构化查询语言（SQL）请求，再对结果定义数据格式。驱动程序管理器主要是为了装入驱动程序，以便于进行ODBC的初始化、提供参数以及次序验证等操作步骤。驱动程序是一种动态链接库，可以达到使数据源和ODBC函数交互的目的，在用户有需求时，转换相应的格式，并将结果返还给应用程序，发现运行错误的格式，也会以标准代码的形式进行返回。数据源则是由审计主体在数据库中存储的数据、数据库管理系统、网络环境以及相关的操作系统所组成。

ODBC技术目前被广泛应用于计算机辅助审计业务中，作为连接审计主体和被审计单位数据库的公共接口。审计人员借助ODBC技术可以轻松访问被审计单位的审计信息系统，并根据用户的不同数据需求，启动相应的驱动程序，配置对应的参数，将不同的数据格式转换成审计所需的格式。ODBC技术的优点有很多。首先，由于代码开源，依靠分层机构来运行，所以ODBC有很高的标准性与开放性，程序集成就变得十分轻松；其次，可以实现不同的数据库管理系统由相同代码运行，使得用户程序具备很高的互操作性，C/S（Client-Server，服务器-客户机）架构也因此得到了相应的技术支持，开发与运营维护成本大大降低。计算机辅助审计也是一种基于审计大数据采集业务的审计方式，相当于将被审计单位的各类数据进行数据迁移，并经过预处理等步骤，把数据转换成对应格式，存储于审计主体的数据库，最后应用分析程序对采集到的审计大数据进行数據分析。持续审计是计算机辅助审计未来的一个重要发展方向，其中，数据库采集技术为审计人员采集数据提供了诸多便利。

（二）审计接口技术的应用

针对审计接口技术应用的业务不同，可以划分为通用审计接口与专用审计接口。通用审计接口有三种实现方式。第一，审计主体可以直接连接被审计单位的目标数据库，采集有用的各种数据，这种审计接口往往只可以读取数据，不具备修改、删除数据的权限。第二，审计主体可以通过联网方式远程采集被审计单位的数据。该方式的原理是把大数据采集与存储相分离，并且增加了大数据采集工作站，审计主体从被审计单位中采集的数据都要统一存放到中间数据库中，由审计人员将所需数据采集到审计服务器中，进一步实现了审计端口与被审计端口的有效隔离。第三，在审计主体采用大型数据库，与被审计单位建立直接接口存在困难时，可以先获取生产转换文件，按照目标的文件格式进行导出，完成大数据审计的采集工作。

近年来，审计接口技术被广泛应用于计算机医保审计中。传统的计算机医保审计方式限制了审计人员的审计线索采集方式，只能局限于使用SQL语言来获取医保欺诈的线索，但是这种方法只能处理标准的结构化数据。然而，随着医疗改革的深入与信息技术的进步，医保的覆盖面逐渐扩大，医保的相关数据也随之逐渐朝着异构化、大规模、非数字化和多样化的趋势发展，进而对审计人员采集医保数据提出了更高的要求。医保数据采集是整个医保审计流程的起点，对不同来源和不同结构的审计数据，运用审计接口技术可以实现数据从非数字化转向数字化、从非结构化转向结构化以及从非标准化转向标准化，不断拓展数据的采集范围，并搭配数据清洗、集成等手段，不断提高数据的采集质量，进而形成医保数据存储仓库，满足后续的审计程序对数据方面的需求。

二、系统日志采集技术的分析

系统日志记录了被审计单位日常系统中关于各种硬件、软件问题的数据，以及对系统运行情况的监控记录，如有关应用程序、系统安全等方面的各种记录。目前日志采集技术被广泛应用于审计业务的很多方面，本部分的系统日志采集技术主要涉及Flume（Cloudera开发的日志收集系统）、Scribe（Facebook开源的日志收集系统）、Kafka（Apache软件基金会开发的开源流处理平台）等技术。

（一）Flume技术的应用

Flume是一种资源收集系统，主要用于收集被审计单位的系统日志等数据资源，在将服务器中的数据收集完成之后，Flume会把这些大数据资源统一集中到相应位置，如分布式文件系统（HDFS）。Flume技术的运行流程分为若干步骤：首先，从云端、脸书、推特等数据生成器中收集各种可用数据，这些数据会被代理（Agent）统一存储到数据收集器中，并需要同审计数据源和数据的接收端进行交互，最后代理（Agent）将汇集到的数据通过多个通道传输到广义存储当中，如Hadoop（由Apache基金会所开发的分布式系统基础架构）、HBase等。

Flume技术目前在大气污染防治审计中应用广泛。大气污染防治综合情况的业务数据，比如，资源类监视数据（基础设施、数据库、中间件等系统软件和气象业务运行进程状态数据）和业务类监视数据（以往业务系统的业务日志）收集，主要应用Flume技术进行“拉取”，通过在客户端部署代理工具，可以对大气污染防治的相关数据进行采集。关于大气污染防治审计的Flume采集技术，其应用框架可以分为采集层和汇聚层。在采集层部署代理（Agent），收集被审计单位业务系统的文件日志、数据库日志和其他日志，并对其格式进行转换以及封装这些日志；汇聚层的代理（Agent）会屏蔽掉采集层单个Agent的调整情况，以此起到隔离、缓冲的作用，防止其影响到其他大气数据的采集情况，确保采集的业务数据不会丢失，最后汇总采集层的全部和大气污染防治审计系统相关的监视数据。

（二）Scribe技术的应用

Scribe从被审计单位的日志源中收集各种与审计业务相关的日志，并统一存放到网络文件系统或分布式文件系统中，以便将来审计主体对数据进行处理与分析，此类分布式收集、集中处理的运行方式具备了高容错性、易扩展性的优点。Scribe技术的具体工作流程为：被审计单位的各类日志文件在经过收集之后，进行相应的资源配置，再通过共享队列的方式排队输送，Scribe技术可以将不同种类的审计数据存放到相应的目录，最后再传输给存储系统。如果分布式文件系统（HDFS）出现了问题，这些数据会先存放在本地，等到HDFS正常运行之后，才会被转移至后端的存储对象。Scribe的存储方式有很多，目前主流的方式有：File（文件）、Buffer（双层存储）、Null（忽略数据）、Bucket（包含多个store，通过hash将数据存到不同store中）、Multi（把数据同时存放到不同store中）等。

随着信息技术的发展，审计环境也发生了巨大的变化，在这样的背景下，审计主体须借助于计算机科学的迅猛发展，对被审计单位的各项经济业务往来进行审查，才能充分发挥审计的监督作用。近年来，为推进审计信息化建设，计算机辅助审计业务已开始应用Scribe技术进行数据采集。审计主体采用Scribe技术开展审计大数据的采集工作，在实践中也体现出了强大的优势：审计从抽样变为全覆盖，有效降低了审计风险；对海量数据的快速、灵活分析大大提高了审计效率；审计结论以数据说话，说服力更强，改善了审计效果。

（三）Kafka技术的应用

Kafka从属于Java阵营，是一种由Scala编程语言编写的数据采集存储系统，用于信息的实时发布和审计日志的采集与存储。Kafka技术在具备Scribe技术高扩展性与容错性的同时，还拥有高并发性、高吞吐量的特点。在审计数据采集中，Kafka技术的架构被划分为信息发布者、服务代理和信息接收者三层，Kafka的主要工作流程是将信息发布者的各类消息通过服务代理来传播、分类，最后由信息接收者收取信息。

当前的煤矿安全风险监测系统面临着诸多亟需解决的问题。在此背景下，为满足智能化的监管需求，可将Kafka技术应用于煤矿监管审计之中，通过深入研究Kafka的工作原理以及Hadoop大數据平台的搭建，设计出区域煤矿监管数据服务平台。基于Kafka技术搭建的区域煤矿监管数据服务平台，与传统的煤矿监管审计平台相比具有明显的优势：一方面，使用分布式大数据集群存储煤矿生产安全审计大数据，可以有效规避因平台故障导致的数据丢失风险，同时，还可降低审计监管机构的资源投入成本以及各项维修服务成本，并提供个性化的数据业务服务；另一方面，煤矿监管审计平台结合了云计算等新兴技术，在数据存储以及资源计算等方面表现强劲，能够满足审计大数据存储以及高速计算的要求，为审计主体智能化监管提供海量数据，有益于后续审计中的大数据预处理、数据分析、数据挖掘等工作的开展。

三、感知设备采集技术的分析

大数据感知设备采集技术主要是借助被审计单位的各种信号、图片、视频等信息，挖掘与审计业务相关的各种数据，且大数据智能感知系统会对结构化和异构化的数据进行识别、感知、适配和传输。本部分的感知设备采集技术主要涉及摄像头监控、数字会议桌面、遥感等技术。

（一）摄像头监控技术的应用

摄像头监控技术，是指审计主体通过安装摄像头的方式，代替审计人员对特殊的场景进行监督与观察，以节省相应的人力资源。通过摄像头监控技术采集到的各类图片、视频数据背后蕴藏的价值是十分巨大的，审计主体应充分关注摄像头监控技术的重要性。采用摄像头监控代替传统的人工观察，可以及时发现被审计单位内部控制存在的问题，发现更多的审计疑点，评价内部控制的执行情况，延展审计取证业务的时间范围与空间范围。

在资源环境审计中，审计人员可以在重点监控区域布控摄像头，并融合3S（遥感、地理信息系统和全球导航卫星系统）、环境实时监测、无人机远程监控等技术与方法，全天候对被审计单位的日常运行情况进行监控。一旦监测到不合理的情况，便可以收集被审计单位的违规与违法数据，最大程度上保证审计数据的真实性与合理性。在计算机系统以及各项硬件的协同运行下，审计主体可以对地球表层以及大气层空间中的各项地理信息数据进行采集、预处理、分析、计算、显示、描述，将对应地理区域内发生的各种自然现象进行分析和处理，把复杂的规划、管理、决策问题化繁为简，这将极大地促进审计模式、审计工作方式的转型升级，并为审计全覆盖的实现提供更为先进、自然的手段与技术。

（二）数字会议桌面技术的应用

数字会议桌面技术是对传统会议模式的创新，该会议系统集音频视频播放、会议签到、会议讨论、会议日程提醒、信息接收与发送、投票表决、资源共享等服务于一体，具备高度数字化、智能化与网络化的特点。数字会议桌面主要应用了图像音频视频处理技术、网络处理技术和会议集中控制技术等。

随着大数据技术的不断发展，未来的数据量必然会呈指数式上涨，数字会议桌面背后隐藏的大量被审计单位日常数据，将来会成为审计工作的重点内容之一。尤其是在财经法纪审计业务中，审计人员使用基于数字会议桌面的智能数据采集技术，可以迅速捕捉有用的审计信息，比如，核实会议的签到情况，检查会议的内容、安排、主题、报告，与会议相关的图片、视频、文本等资料，以及会议中讨论事项的表决、投票情况等。

（三）遥感技术的应用

遥感技术通过使用探测仪器，在不接触探测目标的情况下，从远处对目标的电磁波特征进行记录，并分析其特征以及变化。当前，遥感技术广泛应用于资源环境审计大数据采集过程中，主要采集被审计单位对水资源、林业资源、矿业资源等的利用情况与生态环境保护情况相关的数据。相较于传统的审计技术与方法，遥感技术具有数据采集范围广，获取数据速度较快、采集周期短，采集手段多样，采集数据量大，不受地形地貌等自然条件的限制等优势。

遥感技术多用于资源环境审计大数据的采集，如审计主体对水、土、林、矿等资源利用和生态环境保护情况的核查和审查，有时也应用于城市建设和管理审计之中。遥感系统由数据源、数据获取、数据处理三个重要部分组成。数据源是遥感探测的目标物，为遥感探测提供了获取数据的依据；数据获取运用遥感技术装备，比如，遥感平台和传感器记录目标物电磁波特性；数据处理通过运用光学仪器和计算机设备等硬件设施对所获取的遥感数据进行校正、分析和解译处理。运用遥感技术对数据进行校正、分析和解译处理，可以掌握或清除遥感原始数据的误差，从而梳理、归纳出被探测目标物的影像特征。在自然资源资产离任审计中，可将遥感影像作为数据源，获取领导干部任期内自然资源资产的客观时空分布状况，通过持续性监测获取自然资源资产时空变化信息，最终反映实际的自然资源资产时空分布和变化情况。

四、网络数据采集技术的分析

网络数据采集技术是指审计主体利用人工智能等新兴技术，从网站上获取与被审计单位业务相关的数据资料，将非结构化数据与半结构化数据从网页中提取出来，并存放到提前设置好的存储系统之中。本部分以网络爬虫和自然语言处理为例，阐释二者在审计数据采集过程中的应用。

（一）网络爬虫技术的应用

网络爬虫是一种模拟人点击网页的操作，利用互联网的链接地址来查找相关网页，在读取完该网页的全部信息之后，会自动搜索网页中的各种链接，按照这个原理循环往复地操作，以此实现自动抓取所需网页全部内容的技术。网络爬虫技术被广泛应用于审计数据收集、舆情监测、咨询业务等审计情境。网络爬虫会按照事先设定好的规则，自动采集所有可以访问页面的全量数据，在非人工干预的情形下实现浏览器与服务器的交互操作。与传统的人工数据收集相比，网络爬虫技术具备精准、大范围、高效采集等优势。

近年来，网络爬虫技术被广泛应用于互联网金融审计业务中，在审计大数据的采集环节发挥着重要作用。对于互联网金融企业来说，仅仅依靠被审计单位提供的业务数据和财务数据，很难让审计人员在审计过程中发现企业的违法违规交易、网络非法集资、互联网金融信息安全等问题。传统的审计过程仅仅依靠被审计单位提供的内部数据，已经无法满足大数据审计的需要。商业银行在面对小微企业贷款时，也存在着类似的问题。由于客户的贷款信息由自己报送，因此，信息的真实性、可靠性与完整性需要进一步查验。在大数据背景下，网络爬虫技术作为大数据审计采集环节的前端技术，结合文字识别、语音识别、可视化等大数据技术，能够更为便捷地收集被审计单位的网络外部公开数据，采集来的审计大数据更加真实、完整、可靠，能及时填补审计专项工作的数据缺口，并为之后的大数据审计分析奠定坚实的数据基础。

（二）自然语言处理技术的应用

自然语言处理作为“大智移云”（大数据、智能化、移动互联网和云计算）发展的代表性技术，是一种让计算机能够像人类一样，理解与学习自然语言、处理阅读和书写的新兴技术，它可以用来处理与审计相关的文本信息，避免人工检查的知识局限以及漏判、误判等情况的发生。得益于机器学习算法以及深度学习算法的发展，审计人员可利用计算机对搜集来的网络数据进行系统性的分析，从中筛除冗余信息并挖掘关键数据，为后续审计工作流程提供数据。

传统的信息系统审计通常采用访谈、现场观察、文档查看、抽样、穿行测试等方法收集证据，但上述方法需要以审计人员具备充分的经验为基础，并对相关问题进行逐一搜索或者重点排查。在大数据审计的环境下，文本数据的数量大幅增加使得审计人员对信息系统审计线索的发现愈发困难，传统的人工浏览方式难以满足大数据环境下对非结构化数据审计的需求，被审计单位的某些信息系统问题经常被忽略。在这种背景下，运用自然语言处理技术开展信息系统审计至关重要。基于自然语言处理技术的信息系统审计大数据采集原理可概括如下：通过对被审计单位现场调查和访谈之后，采集与被审计单位审计业务相关的信息，如各类财务数据，各项业务数据，运营过程中的各项采购、生产、销售单据等结构化数据，以及与审计活动相关的图片、文本、视频、法律法规、政策、舆情数据等非结构化数据。针对采集到的审计大数据，审计人员可以利用自然语言处理技术实现标签云分析等操作，对非结构化数据进行建模与分析，从审计大数据信息中全面获取审计证据并快速发现异常情况，可以极大地提高审计人员的工作效率与审计质量。

五、结语

大数据审计采集技术的发展极大地促进了审计人员数据收集的质量与效率，奠定了坚实可靠的审计数据基础，为大数据审计后续环节的开展减负增效。本文建立了以数据库采集技术、系统日志采集技术、感知设备采集技术、网络数据采集技术为中心的大数据审计采集技术体系，并在此基础上，将其分别融入到计算机辅助审计、资源环境审计、互联网金融审计等审计实务中，为大数据审计采集技术的未来发展及应用提供了理论支持和可供参考的实践模式。强化对大数据审计采集技术体系的深层次研究，将有助于发挥数据资源在大数据审计工作中的引擎作用，有利于扎实推进审计全覆盖目标的实现。

（作者单位：南京审计大学会计学院海安市审计局，邮政编码：211815，电子邮箱：215402@nau.edu.cn）

主要参考文献

[1]邓晓岚，余远剑，茅金焰，等.领导干部自然资源资产离任审计的大数据技术应用研究[J].审计研究， 2020（5）：19-29

[2]徐超，陈勇，葛红美，等.基于大数据的审计技术研究[J].电子学报， 2020（5）：1003-1017

[3]袁濤.“3S”技术在资源环境审计中的运用[J].中国内部审计， 2020（10）：74-78