数据挖掘技术在发掘审计规律中的应用研究

2022-02-22 01:38刘洋田富军
经济师 2022年1期
关键词:网络爬虫数据可视化

刘洋 田富军

摘 要:习近平总书记在中央审计委员会第一次会议上指出:要坚持科技强审,加强审计信息化建设。为探索实现审计方法由“数据验证型”向“数据挖掘型”转变,审计目标从“查纠错弊”向“风险控制”转变,文章以主题网络爬虫和数据可视化分析技术为基础,设计了审计大数据采集分析框架,而后以军队采购网为对象进行实例分析,挖掘军队招标采购中易发、频发问题的规律,为今后审计工作实现“精确制导”提供有力支撑,充分展示大数据信息技术在提升审计效率,助力审计高质量创新发展具有重要意义。

关键词:大数据审计 网络爬虫 数据可视化 审计规律

中图分类号:F239.1

文献标识码:A

文章编号:1004-4914(2022)01-115-02

大数据审计的总体思路是“总体分析、系统研究、发现疑点、分散核实、精确打击”,目前,利用大数据技术搜寻审计证据、确定审计事实的“分散核实”研究较多,但是利用大数据技术发掘审计问题规律,提供方向指引的“总体分析、系统研究”却很少,实例应用研究更是少见。因此,研究运用大数据信息技术打破“信息孤岛、数据茧房”桎梏,推动大数据审计由“数据验证型”向“数据挖掘型”转变具有重要研究意义和现实意义。

一、技术背景

1.主题网络爬虫。网络爬虫技术是一种面向万维网,通过运行预设的程序或脚本,实现客户端(浏览器)和服务端(服务器)之间自动交互,完成对万维网特定网页特定内容自动、精准、大范围抓取的一种技术。网络爬虫主要有通用型、主题(聚集)型、优先型、增量型、深层型等不同类型。有别于通用网络爬虫,主题网络爬虫不是漫无目的地在网络上爬取足够多的页面,而是根据设定目标,根据网页中标题、关键词、文本内容等具有代表性的信息,结合适当的网页筛选策略,过滤掉与主题无关的网页,将与主题相关的链接存入待爬取的URL队列进行爬取。运用PageRank、HillTop等搜索策略,使爬虫有次序、有目的地搜索,保证主题爬虫选择更合理的爬行路径,高效地完成网页爬取任务。获取到网页源文件后,根据需求筛选网页上有效数据,结合数据处理的难易程序,选择适当的格式存储数据,常见的存储格式有CSV、Excel、Html等。实现网络爬虫的工具主要有两类:可编程的工具,如R、Python等;另一类是现成的爬虫工具,如:八爪鱼。

2.数据可视化。象形文字的出现表明:通过图形图像获取信息是人类获取信息最原始、最直观、最高效的方式,常言道:一图胜千言。大数据可视化分析技术是从人作为分析主体和需求的视角出发,强调基于人机交互的、符合人的认知规律的分析方法,目的是将人所具备的、机器并不擅长的认知能力融入数据分析过程中。大数据可视化分析技术包括文本可视化技术、多维数据可视化技术、网络可视化技术、时空可视化技术等,其主要表现方式有标签云、柱状图、折线图、散点图、气泡图、热力图、雷达图等。常用的大数据可视化分析工具主要有两类:一类是开源的、可编程的工具,如R、Python等;另一类是商业化软件分析工具,如Tableau、SAS等。

二、审计数据采集分析框架构建

审计数据采集分析框架主要包含:审计数据采集模块、审计数据可视化展示、审计规律分析三个模块。

1.审计数据采集模块。审计数据采集前,需要以审计计划、审计目标需求为牵引,对需要采集的目标数据进行预定义,确定采集方向,以确保采集数据准确有效,避免浪费人力物力。比如,在审计中需要核实参与军队采购投标人的资质是否符合要求,就需要从工商、税务、行政处罚等数据为目标进行采集。在确定了采集的目标后,需寻找能够完成审计目标的可靠数据来源,如:官方发布的可靠数据,军队、政府部门的公开网站(如:工商、税务、政府、军队行政处罚等),民间有公信力的数据提供方(如:天眼查、企查查),企业的官方网站等。确定了数据来源之后,需要对目标网站的结构特征进行分析,根据网站的个性,编写爬虫程序,然后根据网页的特点,结合审计需求,抓取有效数据。最后,将所获取的数据根据下步使用需要,采取不同的方式进行存储。

2.审计数据可视化展示模块。大数据环境下,采集来的审计数据在数量和复杂程度上都对审计数据分析带来巨大挑战,如何从包含大量干扰因素的数据中提炼有效信息,揭示未知的或验证已知的规律,为审计人员做出审计决策提供数据支持,实现“精确制导”下的“精确打击”,是大数据时代背景下审计工作必须解决的问题。数据可视化技术助于审计人员探索分析和解释复杂的海量数据,将采集到的审计数据转化为图形和图像后,审计人员可结合自身的审计知识和实践经验,通过直观感知,进而从总体上系统理解和分析所获取的审计数据的内涵特征。此外,审计人员还可交互地改变可视化软件的设置,输出不同类别的图形、图像,多角度地分析审计数据。

3.审计规律分析模块。在经过采集数据的可视化展示后,根据数据分析展示的结果的直观感受结合自身的审计知识与审计实践经验,从中分析出数据所蕴含其中的规律,从而根据发现的规律把握今后审计工作的方向,有力提升审计效率,指导审计实践。

三、基于军队采购网实例运用

“军队采购网”是中央军委后勤保障部针对部队集中采购量大、采购需求分散等难题,专门建立的网上采购平台,该平台坚持“公正公开,阳光透明,服务部队,保障打赢”的原则,为提升部队战斗力发挥积极作用,通过几年的运行,军队采购网积累了相当数量的数据,具备了大数据分析基础。在实际运行中,少部分无良供应商采用违规手段非法获取订单,给部队战斗力提升带来不利影响,为此主管部门主动作为,惩处了采购活动中的违法失信行为,并在“军队采购失信名单”栏目公示了近几年来所有的违法失信行为查处情况。若能对近几年所有違法失信行为进行“总体分析、系统研究”,发掘具有倾向性的高发、频发违法失信行为,并以分析结果为锚定问题线索,将为“精确打击”提供有效指引。下面以Python语言为工具,运用审计数据采集分析框架来实现预期目标。

1.审计数据采集。根据审计目标需求,以军队采购网为目标网站,以“军队采购失信名单”网页数据为目标数据,分析违法失信行为,发掘具有倾向性的问题规律,确定初始URL为:https://www.plap.cn/supplierCr/common/list.html。通过对该网页进行分析发现该网页设置了反爬措施,无法直接获取相关数据,本次数据获取需采用伪装成真实用户访问网页的方式获取数据。通过调用request.post方法获取网页源文本并实现自动翻页,而后调用BeatifulSoup来解析获取到的源文本,根据网页数据排列特征,筛选出<tr>标签下的信息,最后将获取数据按Excel格式存储。

2.审计数据可视化分析展示。(1)文本可视化。经综合考量,本次实例分析采用文本可视化技术最为合适。大数据环境下,大量的文本数据使审计人员进行分析的难度越来越大,传统的浏览和筛选等方法无法满足大数据环境下非结构化数据审计的需要。将文本的内容或规律以视觉符号的形式展示给审计人员,有助于审计人员利用视觉感知的优势来快速获取大数据中蕴含的重要信息,从而发现审计线索。文本可视化技术的意义在于能够将文中中蕴含的语义特征(如词频、重要程度、动态演化规律、逻辑结构等)直观地展示出来。标签云(tag cloud)是一种典型的文本可视化技术,可以将关键词根据词频或其他规则进行排序,按照一定的规律进行布局排列,用字体大小、颜色深浅等易于视觉感知的图形属性对关键词进行可视化展示,进而快速直观地掌握文本的要点,发现审计线索。(2)设置停用词库。在实际的分析展示中发现,直接以源文本生成标签云词图,部分词频较高,却无法体现具体的违法失信行为的无效词会出现在云詞图中,干扰标签云词图展示效果,致使真正违法失信具体行为被掩盖,如:“根据”“公司”“依据”“违规违纪”“相互”“提供”等词。为此,为实现分析目的,本次分析建立了无效词集合的停用词库,在分析中统计词频时屏蔽停用词库内的词语,排除无效词干扰,得到更加精准有效的展示效果,实现预期分析目标。(3)生成标签去词图。以获取到的“严重违法失信行为的具体情形”为源文本,调用jieba分词库,把源文本的句子全部切分为单独的词语,形成一个由词语组成的文件,而后统计词频。根据分词及词频统计结果,调用wordcloud库生成标签云词图。

3.审计规律分析。(1)通过爬虫得到采集数据结果,可以看出,主题爬虫脚本成功实现了目标数据获取,得到军队采购失信名单栏目数据,为下步分析,提供数据支撑。同时,获取的失信公司名称,处罚结果等数据对于审计工作也有较大现实意义,比如:在审计中若对参加的投标人、投标公司是否因曾经受过处理或在处罚影响期内违规参加采购招标活动有疑问,可快速检索比对实现,进而发现是否违规。(2)通过生成的标签云词图,可以直观明了地发现:“虚假”“串通”“围标”“串标”这几个词语明显大于其他词语,色彩鲜艳,对比度高,直入眼帘,表明:在军队招投标采购中使用虚假文件,投标人之间围标、串标,招标人与投标人相互串通是最主要、最普遍、最易发、高发的违规失信行为,在今后的招标采购审计中可以上述几个问题重要锚点进行审计,重点关注此类的问题。其次,“核减”“工程造价”“上限”“转包”“虚高”等词语也较为突出,表明在工程造价超上限,违规转包,价格虚高等问题还一定程度存在,在今后的审计中也应该关注此类情形。(3)通过数据分析展示,得到了可靠的结果,较好地贯彻了大数据审计“总体分析、系统研究、发现疑点、分散核实、精确打击”的思路。实现了审计方向从依靠审计人员依靠长期审计实践小样本经验的“经验导向型”审计向依托大数据分析发掘规律的“数据支撑型”审计的转变,拓宽了大数据信息技术的在审计实践中的应用边界,有力验证了审计数据采集分析框架的有效性。

四、总结与展望

随着大数据时代的深入发展,审计必将从“查纠错弊式的回头看”向“风险预警式的提前管”发展,这些发展必将以高质量的数据采集分析为基础。“工欲善其事,必先利其器”,大数据信息技术就是这样一把“利器”。面对现实中更加复杂的审计实践,还需大力推进人工智能、5G、物联网、量子科技、区块链、高性能计算等信息技术与审计深度融合赋能,向前沿信息技术要审计战斗力,解决当前审计面临的矛盾和痛点,开创智能化主导、融合式聚变新局面,不断推进新时代审计高质量发展。

参考文献:

[1] 徐超.大数据背景下审计数据采集技术与方法研究[J].会计之友,2020(19):114-119.

[2] 吴则建.主题网络爬虫在商业银行内部审计中的应用[J].中国内部审计,2019(11):50-53.

[3] 陈伟.基于大数据可视化技术的信息系统AC审计[J].会计之友,2020(1):120-121.

[4] 陈伟,居江宁.基于大数据可视化技术的审计线索特征挖掘方法研究[J].审计研究,2018(1):16-21.

[5] 孟兵,李杰臣.零基础学Python爬虫、数据分析与可视化从入门到精通[M].机械工业出版社,2020:1-200.

[6] 张宝刚.基于Python的网络爬虫与反爬虫技术的研究[J].电子世界,2021(4):86-87.

(作者单位:中国人民解放军陆军勤务学院 重庆 400000)

(责编:贾伟)

猜你喜欢
网络爬虫数据可视化
移动可视化架构与关键技术综述
可视化:新媒体语境下的数据、叙事与设计研究
炼铁厂铁量网页数据获取系统的设计与实现
我国数据新闻的发展困境与策略研究
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量
网络爬虫针对“反爬”网站的爬取策略研究