大数据背景下审计数据统计分析研究

2022-03-11 08:40周正聪
信息记录材料 2022年1期
关键词:爬虫网页数据挖掘

周正聪

(太原学院财经系 山西 太原 030032)

0 引言

现阶段,人类已经进入了互联网信息时代,大数据技术在各个领域被广泛应用,改变了传统的数据处理模式,提高了数据信息处理效率。大数据技术在云计算基础上,借助信息存储与数据共享以及数据挖掘,将海量多变的数据存储在云计算中,通过分析和计算,可找到有效的问题解决方法。特别是对审计行业而言,由于新技术、新产业不断涌现,信息系统也变得越来越复杂,审计数据统计工作数据量巨大且分析难度高,借助大数据技术开展审计数据统计工作势在必行,大数据处理方法的应用从根本上提高了审计数据统计分析工作的整体效率。

1 大数据及数据统计工作

1.1 大数据概述

大数据概念诞生于2009年,最初被用于经济领域,随后在其他领域逐渐普及。大数据技术主要是利用计算机技术对大量数据进行挖掘分析,去除无用数据,保留并使用有价值的数据。大数据技术在各行各业中的应用可以更快、更有效地归纳与整理海量数据,可以提炼数据的价值。与传统数据相比,大数据具有3个方面的特点:(1)规模大:通常以TB来度量;(2)多样性:涉及多种数据类型;(3)速度快:大数据处理数据的速度远超过人类处理的上限,有着高速数据加工、分析、处理、存储、深度数据挖掘以及可视化表示能力,创新了审计工作模式,保证了审计工作的准确性,基于大数据技术的内部审计新模型如图1所示[1]。

1.2 大数据环境下数据统计工作的新模式

大数据技术将对审计数据统计工作产生新影响,并对相关工作提出新要求,具体包括以下3方面:(1)在大数据环境中,数据之间的关系是复杂的,以往很难发现事物之间的因果关系,只有深入对数据值进行挖掘,不断对数据进行梳理,才能弄清数据之间的关系,发现问题的真相。随着互联网时代的到来,数据量不断增加,可以利用大数据技术分析数据价值,发现相关关系,保证数据统计分析的质量;(2)以往在处理较大样本时,人们习惯于以抽样的方式来分析,但抽样技术是受到条件约束的结果,是一种在数据稀缺与可用性受到限制时不得不使用的方法。在大数据环境下,即使不通过抽样分析,也可以获取与处理整个事务的所有数据,借助于大数据分析技术,可以更深入地把握事物的未来趋势,提高数据的及时性和使用性能,使统计人员能够更全面地了解事物的真相;(3)大数据技术的应用使数据的统计分析效率显著提高,部分数据的统计和分析强调效率而非强调其准确性,统计人员可以有效地利用大数据技术进行相关的数据统计,以确保有效完成统计工作[2-3]。

2 大数据背景下审计数据统计分析工作开展思路

2.1 分布式数据处理系统

分布式数据处理系统(DDSMS)是一种能够对数据进行分布式处理的系统,其结构图见图2,其有着较强的数据流处理能力,可大大缩短数据处理时间,提高响应速度。互联网信息技术不断发展,DDSMS也被广泛应用于各大网络平台,如S4数据处理以及Puma数据处理等[4]。根据不同的环境和数据组合形式,DDSMS可以自动选择合适的数据处理模式进行数据分析,具有实时性的特点。此外,该系统也具有很强的延展性,以往的审计数据统计分析工作中,若有一个点计算失误,则会影响整个系统的准确性,影响了审计工作的进度,但DDSMS的应用可以有效解决这一问题,整个系统的容错性得到加强,即使发生单个或多个节点的错误,系统仍能进行有效的审计数据统计分析,保障了审计工作的实效性[5]。

2.2 注重数据挖掘技术的应用

数据挖掘技术即使用数据生成模型,再使用数据检验模型。在信息化环境下,面对被审计单位海量数据,通过数据挖掘技术的应用,可以对数据进行综合分析与处理,从而提高审计数据分析质量,在审计工作中不同的数据结构所使用的数据挖掘方法也不同,具体见图3[6]。

数据挖掘技术在审计工作中的应用主要包括以下几点。

(1)数据概化技术:数据概化技术压缩了数据库中的详细数据,满足了用户对不同级别信息的需求,可用于审计数据统计分析中的描述式挖掘,审计人员可在不同角度与粒度级别描述数据集,以此来得到某种类型数据的大致情况。此外,还可采用数据概化技术挖掘审计数据库中的数据,利用属性相关性分析等方法对详细财务数据进行较高层次的表列,从而得到财务报告的一般属性描述,为审计人员判断虚假财务报告提供依据[7]。

(2)聚类分析技术:该技术在审计数据统计分析中也非常有用,可以用来识别数据密集以及数据稀疏区域,找到审计数据分布规律以及数据之间的关系,进一步识别关键审计领域。聚类分析技术还可用于挖掘分析一些“孤立点”,在审计数据统计分析工作中,通常会对一些偏差严重、异常的数据进行重点检查,采用聚类分析技术中的孤立点检测算法能快速发现异常审计数据,从而检查出有可能违反规章制度的行为[8-9]。

(3)利用大数据挖掘技术构建审计数据分析框架:利用大数据挖掘技术构建审计数据分析框架主要包括6个流程(见图4),互联网背景下,审计工作量剧增,在数据信息中挖掘有价值的数据,借助大数据挖掘技术分析数据间的内在规律,以此来预测企业潜在风险以及发展机遇,在一定程度上优化了审计管理模式[10]。

如图4所示,利用大数据挖掘技术构建的审计数据分析框架的主要思路如下:①从确定数据源开始,需要注意的是数据源包括被审计单位的财务会计数据与非财务会计数据两部分;②通过对数据分析与清理得到目标数据,即从数据源中提取对企业有价值的数据信息;③数据挖掘(包括数据加工与数据分析):结合大数据平台的算法与模型分析处理筛选出来的审计数据,发现数据潜在的联系,为企业防范风险奠定基础;④数据可视化:可视化图形可直观显示审计分析结果,直接观察到审计数据与各种指标,便于审计人员理解[11]。

2.3 网络爬虫技术

网络爬虫技术即通过具体的指令在登录权限内自动跟踪网页,并查找相关信息的数据程序,其数据抓取的基本流程见图5。

网络爬虫技术在数据统计分析工作中的应用思路如下:(1)锁定目标网页:首先,要利用网络爬虫技术设置程序指令,根据审计工作的需要确定其数据所在的网页,利用聚焦网络爬虫技术对所需采集的数据进行初步筛选,并提交与信息筛选条件不相符的信息;(2)分析目标网页:锁定目标网页后,审计师应划分网页结构,对网页访问的逻辑重点分析,以提高相关数据的获取效率,可使用正则表达式与XPath路径语言两种模式对网页结构信息进行过滤筛选;(3)抓取数据:可使用 python编程,搜索关键词,然后通过显示屏显示结果,对获得的地址中的网络信息进行过滤,选择软件执行命令,最终保存结果;(4)数据存储:一方面可利用csv、txt、json与其他形式收集的数据保存为文本文件,供后续审计工作使用,另一方面可通过前面的收集,利用数据库存储方法将数据捕获到数据库中;(5)分析数据:在通过上述程序获得数据后,可使用SQL查询与数据可视化等技术进一步分析、扩展与验证数据[12-13]。

2.4 3S技术

3S技术即RS(遥感技术)、GPS(定位技术)、GIS(地理信息系统),主要应用于工程建设与自然资源等特殊领域的审计数据统计分析。RS技术用于帮助审计人员以空间连续的方式存储与更新来自广泛对象的信息,可获得详细准确的参数数据;GPS技术可对目标物体的具体坐标进行定位;GIS技术可及时采集信息,处理相关技术,分析其深度,为审计工作提供数据基础。

在审计数据统计分析工作中,GIS技术可用于对研究所需对比的数字化地图进行叠加等空间分析操作,以此来得到不同时期或不同地区的不同地图,并进行数据聚类分析,以获得更多的审计线索,其在审计工作中的应用框架见图6;遥感技术用于获取审计项目建设情况的遥感图像,通过与被审计单位提供的规划图进行对比分析,发现审计工作中存在的不合规建设等疑点;利用GIS技术可以保证审计跟踪的及时性和准确性,审计人员可通过GIS技术的面积统计功能,获取包括特定面积在内的非法用地的详细信息,收集直接的审计证据[14]。

3S技术在审计数据统计分析工作中既可以单独使用,也可以结合起来应用到同一审计工作中。首先可以使用RS技术获取审查地区不同时期的遥感影像,并进行对比分析,从而找到变化位置与变化量,为审计工作提供线索;其次,便可使用GPS技术收集确定其位置信息,随即审计人员根据位置信息前往被审计区域,以确认初步审计线索并形式审计证据;最后,在审计人员获取审计证据后,利用GIS技术对审查地区进行面积数据统计与精确识别,生成异常情况的详细信息,提供充分的审计证据[15]。

3 结语

综上所述,大数据技术的应用已成为审计数据统计分析工作创新发展的重要趋势,明显提高了审计数据统计分析工作质量与效率。本文简要分析了大数据环境下分布式数据处理系统、数据挖掘技术、网络爬虫技术以及3S技术在审计数据统计分析工作中的具体应用,推动审计工作朝信息化、现代化方向发展。

猜你喜欢
爬虫网页数据挖掘
利用网络爬虫技术验证房地产灰犀牛之说
改进支持向量机在特征数据挖掘中的智能应用
基于Python的网络爬虫和反爬虫技术研究
探讨人工智能与数据挖掘发展趋势
基于HTML5与CSS3的网页设计技术研究
基于事故数据挖掘的AEB路口测试场景
基于Scrapy框架的分布式网络爬虫的研究与实现
基于HTML5静态网页设计
谁抢走了低价机票
搜索引擎怎样对网页排序