大数据揭示农机版“空手套白狼”

2020-03-04 05:52
审计月刊 2020年11期
关键词:批量采集器网页

十堰市审计局在某农机补贴专项资金审计项目中,采取八爪鱼网页数据采集器和Neo4j图数据库有机结合的办法,有效解决了审计组数据采集慢、分析难的实际困难,大大提高了工作效率,实现了快速获取数据、精准高效分析,最终查出多家企业操纵多重身份假买假卖骗取农机补贴的问题,挖出了在审批过程中以权谋私的幕后黑手,揭示了农机版的“空手套白狼”。

一、应用背景及审计思路

审计组经过调查,确定了在农机补贴资金的申报审批环节,对农机买卖双方企业及个人的背景信息进行审核分析,找出虚假买卖骗取农机补贴疑点的大数据审计思路,但是却面临两大难题:一是数据采集慢,该区工商数据质量不高,审计组需要花费大量时间采集整理数据;二是数据分析难,面对200多家参与买卖的企业,以及企业背后的法人和数量成倍增加的股东,常规的SQL数据库分析方法已经不适用,如何才能理清买卖行为背后错综复杂的关系是审计组亟待解决的问题。

审计组一方面运用八爪鱼网页数据采集器在“天眼查”网站上批量采集工商数据,实现短时间内数据的自动化采集和规范化储存。该方法改变了网页查询“翻开一个网页、查询一条信息、记录一条数据”的现状,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,大幅提高了工作效率。另一方面,利用Neo4j图数据库数据模型简单、反馈结果直观的特点,将整理后的工商信息批量导入Neo4j图数据库,自动构建企业间、人物间的买卖关系,快速梳理出农机购置与申报补贴过程中各类事务之间、个人和群体之间的复杂关系,再通过分析语句快速、精准查找疑点线索,解决了数据分析难的问题。

二、应用步骤

(一)数据采集阶段:运用八爪鱼网页数据采集器批量采集数据

步骤1:创建采集任务、选定查询网址。进入八爪鱼网页数据采集器软件选择“自定义采集—使用向导模式采集”。找到数据来源的网址并在“采集网址”一栏输入。需注意的是,网址要具体到查询界面一级,可先在浏览器中找到再复制粘贴。具体到本案例,如图1至图4所示,在用“天眼查”网站查询企业信息时,审计组预先选定地域,用关键字进行模糊查询,批量采集“农机公司”信息。

图1

图2

图3

图4

步骤2:创建翻页设置,选定采集要素。如图5所示,用八爪鱼网页数据采集器打开设定网址后,选定需要采集的要素,并设置自动翻页数量。如图6所示,本案例中,审计组采集了“公司名称”“法定代表人”“注册资本”“成立时间”四个要素。

图5

图6

步骤3:定义采集字段、数据采集导出。如图7所示,对需要采集的信息定义字段名称以及提取信息的类型,启动“本地采集”并保存为excel格式。

图7

本案例中,审计组通过八爪鱼网页数据采集器采集到特定地域农机公司相关信息500余条,并将全部信息导出成excel格式。

(二)数据整理阶段:运用SQL进行数据整理

1.整理数据标准表。审计组将八爪鱼网页数据采集器采集到的“企业信息表”与被审计单位提供的基础数据表“XX市农机补贴发放明细表”导入SQL数据库,通过企业名称或法人代表字段进行关联,整理出本次审计范围内的农机生产企业和经销商,并初步梳理出企业之间的买卖关系,导出生成“农机企业表”和“购买关系表”用于下一步的数据分析。

2.转换格式、数据准备。将“农机企业表”和“购买关系表”由excel格式转换成csv格式,并存放于Neo4jdefault.graphdbimport文件夹中用于Neo4j数据分析,如图8所示。导入的文件先由excel表另存为csv格式,再以“记事本”的方式打开,选择编码UTF-8格式进行保存。

图8

需要注意的是,Neo4j默认是从打开地址目录下的import中读出,所以必须在此目录下创建csv文件,否则在Neo4j中执行载入命令会出现找不到文件的情况。

(三)数据分析阶段:运用Neo4j分析数据、筛查疑点

1.批量导入节点。在Neo4j中编写语句:

如图9示,节点批量导入完成,根据“企业信息表”自动生成了企业节点和法人代表、注册资本、成立时间等属性。

图9

2.批量导入关系。在Neo4j中编写语句:

如图10所示,关系导入完成,根据《购买关系表》自动生成了企业间买卖关系。

图10

3.数据分析、生成疑点。根据审计思路,审计组将农机销售过程中买卖双方存在关联关系作为分析重点,并编写语句:

执行结果如图11所示,图中4家企业之间存在买卖关系并享受了农机补助,但其法人代表为同一人,疑似通过虚假买卖骗取农机补贴。

图11

在此基础上,审计组继续拓宽思路,将农机购买合同签订人与买卖企业社保信息导入Neo4j中,筛查个人或企业买卖农机过程中利用本企业员工身份虚假购买农机骗取农机补贴情况。分析操作过程同上,在此不做赘述。

三、应用效果

审计组根据Neo4j的分析结果,迅速锁定对象,通过工商部门、人社部门的外围取证确定了买卖双方真实身份,结合购买合同、补贴申请资料和补贴资金发放流水,锁定了4家存在关联关系的企业操纵多重身份假买假卖骗取农机补贴106万元;960台劣质茶叶筛选机流向农户,造成国家资金损失57.6万元,经销商享受的农机补贴高于卖价从中牟利58.38万元等问题,全面揭示了农机版的“空手套白狼”。

审计组顺藤摸瓜,重点关注农机补贴资金的审批环节,找出了在审批过程中玩忽职守、按补贴金额10%比例收取企业赞助款设立小金库的XX区农机局局长张某。审计组迅速将该案件线索移交至检察机关。

经过办案人员的进一步核实,发现张某利用职务上的便利,贪污和与他人共同贪污公款28.54余万元,其中张某共计分得15.25万元。同时利用农机补贴指标分配、资质审核、项目验收之便,非法收受他人财物共计37.4万元,属于数额巨大,其行为已构成受贿罪。最终,张某以贪污、受贿罪被判处有期徒刑4年,处罚金30万元,受贿及贪污所得52.65万元予以收缴,受到了应有的惩罚。区农机局另外两名副局长犯单位受贿罪,免予刑事处罚。

四、应用特点及推广建议

在本案例中,审计组一是通过八爪鱼网页数据采集器实现了快速批量采集工商数据,大幅提高了工作效率,但同时发现,采集到的数据会存在数据错误、格式不对、显示乱码等问题,这就需要利用SQL对数据进行批量加工整理,以满足数据分析的需要。审计组在相应部门无法取得能够满足审计需要的工商数据的情况下,选择在网上爬取数据实属无奈之举,但就该软件本身来说,其相关功能可以在其他审计项目做到更深入的运用。二是通过运用Neo4j批量导入的功能,快速构建节点和关系,理清了买卖行为背后错综复杂的关系,将虚假买卖骗取农机补贴资金的违法行为直观地呈现在审计人员面前。但是,在整个Neo4j软件操作环节中,审计人员大部分时间还是花费在数据准备阶段,即整理需要导入的节点表和关系表,而这部分工作使用的还是最常规的SQL功能,如何进一步在数据准备阶段提高工作效率是值得审计人员继续思考和探索的问题。

猜你喜欢
批量采集器网页
COVID-19大便标本采集器的设计及应用
批量提交在配置分发中的应用
基于HTML5与CSS3的网页设计技术研究
采用经济数控车床批量车削孔类工件的再实践
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于Cortex-M4的油气管道微功耗数据采集器软件设计应用
基于ZigBee的大型公共建筑能耗采集器设计
基于LabVIEW的多数据采集器自动监控软件设计与开发
基于URL和网页类型的网页信息采集研究