大数据环境下电子数据审计的应用

2018-03-22 11:40孙梦蝶
中国管理信息化 2018年5期
关键词:关联分析大数据

孙梦蝶

[摘 要] 本文以某市商务促进专项资金审计为例,使用可视化技术确定审计重点,通过关联分析多部门数据查找疑点,对大数据环境下电子数据审计的应用的难点和可行性进行了研究。

[关键词] 大数据;电子数据审计;关联分析

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 05. 011

[中图分类号] F239.1 [文献标识码] A [文章编号] 1673 - 0194(2018)05- 0026- 02

1 前 言

随着我国财政专项资金规模持续扩大,考虑到财政专项资金具有补助金额大、补助项目分散等特征, 审计人员如果使用传统的审计方法,将无法实现对专项资金的监管职能,因此使用电子数据审计方法对财政专项资金进行审计非常必要。伴随着审计信息化的不断发展,亟需开展以大数据为基础的审计探索,从而更好地发挥审计的监督职能。

由于部分审计人员对审计信息化、大数据的认识还停留在传统的审计思维观念中,无法对海量业务数据实现分析处理,导致大量的数据未有效使用;特别是财政等数据种类多、数据量大,使用手工审计方法将无法对项目多、涉及部门广的专项资金实现全面审计,因此研究并实现专项资金的大数据审计是很有必要的。

本文以某市商务促进专项资金审计为例,确定审计重点,总结被审计数据的特点,进一步选择合适的数据处理方法。将内部数据和外部数据关联分析,查找疑点线索。使用传统的数据分析技术和大数据可视化技术等技术分析数据,展示大数据技术在专项资金审计中的可行性。然后总结研究内容和结果,分析大数据环境下对专项资金实行审计的有效性,提出有待解决的难点和需要完善的问题。

2 商务促进专项资金数据来源

某市201×年度拨付中央和市级商务促进专项资金共计7.6亿元。中央外经贸促进专项资金用于扶持市服务外包项目、进出口贴息和中小企业发展。市级商务促进专项资金用于补贴企业涉外参展、中东欧经贸合作以及出口品牌等项目。

本审计案例的数据来源广,涉及某市商务委、工商、地税、海关等部门,包括:各项拨付情况表、补贴报告、补助明细表、工商数据、地税数据、海关进出口数据,其中包含了大量的非结构化数据,如政策性文件、图片等。商务促进专项资金审计调查工作涉及面广,数据多而杂,仅依靠手工审计难以完成审查任务,需要借助计算机技术,对多个部门的数据进行关联分析、横向对比,通过可行的大数据技术对文档进行分析,筛选出重点内容,提高审计实施效率。

3 审计工具介绍

3.1 Excel

Excel以其简单性和易操作性在计算机审计领域得到了广泛的应用,已经成为审计人员必备的重要工具之一。随着信息化后被审计单位的数据更加庞大和复杂,审计人员必须在海量数据中提取有价值的信息,Excel2007以后版本提供了数据挖掘外接程序DMAddin.msi,涵盖了决策树、贝叶斯、聚类等主要的数据挖掘算法,这为审计人员开展审计数据挖掘提供了新的方法。

3.2 SQL Server

Microsoft SQL Server是一个分布式的关系型数据库管理系统,它具有独立开发的SQL语言,并支持对称多处理器结构、存储过程、ODBC开放数据库连接。SQL语句执行各种各样的操作,如对数据库中的数据进行修改,筛选数据等。SQL Server分析服务是与数据库服务并列的服务,整合了后台的数据库服务和前台的商业应用程序,主要功能有多个数据源视图共享一个数据源、通过钻取从数据库服务器提取完整的事例信息、交叉检验。

3.3 NLPIR大数据处理工具

大数据环境下非格式化数据比例非常大,如何审计非格式化数据,发现审计线索,是值得研究的。大数据搜索与挖掘共享平台(以下简称NLPIR)具有完整的大数据技术处理流程,能够满足审计人员对大数据文本的处理需求。并且它能够提供丰富的开放接口,审计人员可使用各类主流开发语言调用所有功能。

4 电子数据审计工具的应用及分析结果

4.1 NLPIR可视化

本部分首先使用NLPIR平台对文件进行分析,以确定审计重点。非结构化数据的信息量和信息的重要程度很难被界定,分析成为了难点,但由于数据来源的多样性、数据的高价值等特点,使得审计中分析非结构化数据成为必然。对非结构化数据进行可视化分析,是大数据审计的研究重点,标签云是可视化的方式之一。实现中文标签云步骤主要包括分词,统计词频,根据词频设置字体大小。NLPIR平台通过文章提取、中英文分词、词频统计、关键词提取等步骤实现大数据可视化。

将《关于拨付某市商务促进专项资金的函》导入NLPIR中,对文档进行分析,通过分词处理和词频统计后,发现“海关”“进口”“比例”等词语频率较高,可以大致了解该政策针对进出口进行补贴,可以根据海关数据核实申请材料,以及可能按比例补贴等情况。

4.2 Excel处理

使用Excel簡单复制粘贴功能,将各专项资金由独立的表格汇总成中央外经贸发展专项资金汇总表和市级商务促进资金汇总表。接下来根据专项资金的补贴项目、公司所在县市区分类筛选,并且可以通过金额排序筛选获得补贴金额较大的公司。

4.3 SQL处理分析

4.3.1 SQL Server导入处理

将Excel整理出的中央外经贸发展专项资金和某市本级商务促进资金两张汇总表格导入SQL Server数据库,使数据能更加直观地展现出来,同时便于后续的分析、筛选工作。导入数据库之后,市级补贴明细汇总表中共有3 312条记录,中央的补贴明细汇总表的记录共有9 118条,其中大部分数据为中小资金补助项目的相关数据。

4.3.2 SQL Server筛选分析

导入SQL Server数据库后,对市级和中央两张补贴明细汇总表中的同一家企业获得的所有补贴金额进行汇总,最后筛选出补贴总额大于10万元的企业名单。同理,可筛选出补贴次数较多的企业名单。

使用SQL语句对补贴金额的筛选结果发现,市本级专项促进资金补贴总额大于10万元的有178家企业,其中补贴总额超过100万元的有18家,以某进出口控股有限公司477万元补贴总额为最多;中央外经贸发展专项资金中,补贴总额大于10万元的企业有122家,其中补贴总额超过100万元的有21家企业,某渔业有限公司为513万元。

通过SQL语句对补贴次数的筛选,中央外经贸发展专项资金的补贴次数最多的企业达到了32次。审计组后来着重分别调取了几家企业的纸质申报材料,发现获得补贴次数较多的企业多为境外参展和产品认证补贴,都符合补贴文件规定的要求,且未发现骗补等情况的存在。

4.3.3 SQL Server关联分析

通过SQL语句关联工商地税信息,筛选出有规模不大或地税金额小,但获得的补贴却很多的企业,可以对其进一步核查。与进出口业务相关的某个资金补贴项目,可以将补贴资金关联海关数据进行审查。如关联海关数据,查看获得中东欧经贸合作补助资金企业其进口额是否达到了补贴标准。通过SQL语句筛选发现,企业最后申报的进口额均低于其当年的海关进口总量,调阅该项目补贴企业的纸质申报书,均符合文件规定的要求,与电子数据没有出入。

审核中央201×年度進口贴息项目,该项补贴文件规定:“获得补贴的企业必须在当年有进口重要机器或者技术进口。”尝试通过关联企业当年的海关进口数据进行对比,从关联结果中发现,有些企业进口额很少却获得大额补贴。针对该审计疑点,审计人员进一步调阅相应的企业纸质申报材料,确认了这几家企业是通过第三方进出口公司代理进口设备。由于被审计单位提供的数据不全易导致审计失误,因此必要时可利用大数据审计技术获取外部数据,通过不同来源的数据进行比对,以保证数据的完整性、真实性。

5 结 语

本文通过简单的NLPIR平台可视化分析功能确定审计重点,并根据审计重点进一步数据分析,对大数据在审计领域的应用做出了探索。虽然传统的关系型数据库可能无法适应大数据的发展,但对于有时仅需要处理少量数据的审计人员来说, SQL语言仍是必须要掌握的电子数据处理技能。专项资金审计项目多且数据较分散,审计人员需使用相应的电子数据审计技术汇总数据、关联数据和分析数据,因此SQL语句仍有可用性。

大数据环境下,通过充分利用电子数据审计技术对财政专项资金实行审计,研究解决专项资金项目分散、涉及部门广的审计难点,从而更好地发挥审计的监督作用。

主要参考文献

[1]赵长宝.大数据对财政信息化的影响及对策[J].中国招标,2017(9):23-25.

[2]姚东香.大数据时代地方财政审计信息化建设面临的困难及建议[C]//江苏省国家审计信息化专题研讨会,2013.

猜你喜欢
关联分析大数据
玉米骨干亲本及其衍生系中基因的序列变异及与株高等性状的关联分析
玉米骨干亲本及其衍生系中基因的序列变异及与株高等性状的关联分析
基于随机函数Petri网的系统动力学关联分析模型
关联分析技术在学生成绩分析中的应用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
基于关联分析的学生活动参与度与高校社团管理实证研究
不同的数据挖掘方法分类对比研究