罗苑玮 李春友 邱晨炜
【摘 要】大数据时代,数据分析和数据挖掘技术应用于各行各业已成为趋势。为提高审计工作的效率和质量,有效且清晰的数据信息显得尤为重要。因此,文章探讨如何利用Python技术在大数据分析中的各种优势,实现审计数据的采集并快速分析数据结果。同时,为进一步展示数据挖掘的实际应用效果,文章以对数字资产进行审查的相关工作为案例,为研究大数据审计的应用与发展提供支持。
【关键词】python;大数据审计;数据挖掘
【中图分类号】TP311.13 【文献标识码】A 【文章编号】1674-0688(2021)04-0086-03
0 引言
大数据时代的到来,使各行业的发展走向信息化,审计工作涉及行业广泛,被審计单位的运行越来越依赖于信息化,审计工作也由原来传统的以账簿查账为主的方式逐步向数据化、信息化、无纸化方向发展。大数据时代如何提高审计效率、降低审计风险是一个非常重要的命题。近年来,国家出台了相关的政策,2015年中共中央办公厅、国务院办公厅正式印发《关于完善审计制度若干重大问题的框架意见》及配套文件中明确提出“构建大数据审计工作模式,构建国家审计数据系统和数字化审计平台,探索建立审计实时监督系统,实施联网审计”。“加大大数据技术的应用,创新审计方法,更好地发挥审计作用”的观点,也在2016年金砖国家最高审计机关领导人会议上被提出。2018年,习近平总书记也在中央审计委员会第一次会议上指出,要坚持科技强审,加强审计信息化建设。
在这样的背景下,如何与时俱进地改变现有审计模式,在审计过程中通过大数据技术获取相关审计数据深入分析,降低审计风险是审计部门和审计机构面临的挑战之一。大数据时代,如果能将被审计对象原有无序的、零散的、体量巨大的数据以数据清洗和数据整理的方式将其结构化、集中化,让其成为易于读取的审计信息,最后通过审计程序发现数据中更加清晰和有效的线索。获取高质量数据可以更有效率地帮助审计师发现风险点,提高审计效率。目前,基于数据挖掘的审计尽管有专家学者提出了相关概念,但是没有形成既定的理论体系,而实务中的应用并未广泛展开,但是基于审计技术发展的迫切需求,该领域无论是在大数据审计分析框架、多种技术应用于审计方法等方面都仍然有很多值得深入研究的方向。Python开源式语言的出现,使得数据挖掘更具效率。本文将从Python语言的视角入手,探索Python在大数据审计中的应用,对大数据时代下提高审计监督职能和审计工作效率具有重要的理论意义和社会价值。
1 大数据审计的特征分析
大数据的概念于2008年首次在《Nature》杂志上被提出。麦肯锡(2011)将大数据定义为大小超出常规数据库工具获取、存储、管理和分析能力的数据集,并认为大数据包含大量、迅捷、多样性和真实性几个特点[1]。在众多关于大数据审计的研究成果中,大多数的研究学者认为大数据审计是大数据技术在审计方式方面的延伸和创新,主要包括两个方面:电子数据审计和计算机信息系统审计。王会金、刘国城(2017)提出了大数据审计的构建思路,按照采集、预处理、分析和可视化4个子平台组成大数据审计平台。在大数据环境下,被审计单位有大量非格式化数据,如何处理这些非格式化数据并在这些非结构化数据中寻找疑点信息,是众多研究的重点。大数据的4大特点给大数据审计带来新的审计思路和审计方法,同时也带来一些新的挑战。
在数据来源方面,在如今的审计过程中,虽然被审计单位提供的数据类型主要是以结构化的数据为主,但是半结构化数据和非结构化数据的占比也在不断增加。不易于分析的半结构化数据、非结构化数据与结构化数据相比,具有高价值、大体量、多样化等特点,这就对审计模型的处理能力提出了更高的要求。
在数据采集方面,主流的大数据的采集方法包括直接拷贝读取、开放数据互联、中间文件采集等,但是这些用于挖掘和收集大数据的方法,要求被审计单位有一定的数据库基础,并且所获得的这些数据也大多来自被审计单位。在大数据审计的环境下,审计人员的目光不能仅限于被审计单位的内部,还应该更多地关注网络中公开的海量信息,只有这样,才能更加全面且完整地了解被审计单位。所以,为了获取高质量的审计数据,对审计手段的多样化提出了更高要求。
在应用实践方面,深度挖掘审计线索是具体的表现之一,对跨部门、多行业、深层次采集到的海量数据进行清理转化,以审计业务需求为导向,依托清理转化后的信息数据,构建标准化和可操作的审计分析模型,进而在模型中发现审计疑点,最终通过核查这些疑点得出审计结论。
大数据技术在助推实现审计全覆盖的同时也推进了现行制度的完善和改革,即通过挖掘某种社会现象的潜在规律,作为政策制定的依据,针对问题进行大数据分析、不断完善政策,推动国家治理现代化[2]。
2 Python技术的工作原理与优势
2.1 Python的工作原理
Python是一种面向对象的计算机程序设计语言,它具有简单、解释型、交互式和可移植的特点。Python最大的功能是可以按照程序员设计的程序或者脚本自动抓取语言。意味着可以从网络上标准资源额地址中,以匹配的方法实现网页中信息的抓取,使用户持续不断地获得自己想搜索的信息。
在审计过程中Python可以切入被审单位的数据库,通过Python爬虫技术爬取底层数据,比如发票、合同等原始凭证信息,探究被审单位各项财务数据的真实性;还可以利用当今强大的大数据关联信息,从外部网站获取第三方证据,如“瑞幸咖啡事件”中,调查人员利用了大数据信息搜集瑞幸咖啡所有门店的日流量以作为调查结论的佐证。从被审计单位外部获取的审计数据,相比于被审计单位提供的更充分、可靠,能帮助审计人员获得更高质量的审计证据。
审计人员可以利用Python的爬虫技术获取各类相关审计数据,主要有如下几个步骤:?譹?訛确定目标,根据审计目标确定想要获取的目标数据,明确数据所分布的url网页位置。?譺?訛网页分析,主要对目标网页的数据访问路径和逻辑进行分析。?譻?訛获取数据,基于对网页的结构分析,抓取数据。?譼?訛数据的筛选和清洗,对所获得的数据进行可视化的呈现,通过编辑建模分析语言,可以呈现出Excel分析结果,同时借助SQL查询,获取最终的审计数据。
2.2 优势
尽管能应用于大数据挖掘与分析的软件有很多,但是Python编程语言的通用性、扩展库开源性及使用的简便度相较于其他软件具有一定的优势。对于审计数据的基础工作,Python都可胜任。
Python相比其他的数据分析软件,具有如下优势(如图1所示)。
2.2.1 语法简单,功能强大
Python语言最大的优势之一就是语法简单清晰,通俗易懂,对软件使用者的编程水平门槛较低,操作人员能很快学会使用,获得想要的结果。Python还具有强大的语法功能,由于Python内置中有很多常见网络协议,能够支持Socket、urllib等端口,兼容性较强,因此可以应用到图形处理、数据挖掘、网络开发等应用控制中。Python数据分析及信息获取中具有较强的资源优势,并进行信息分析和利用。
我们在审计过程中经常需要从Word、Excel文件中獲取指定的内容,应用Python内置函数读取文件内容可以实现对既定要求的数据和文本的准确抓取。Python的数据库接口适用性较强,审计人员可以链接底层数据库,根据需求下载不同的数据包,通过执行SQL语句等方式完成数据查找和存储。例如:Pandas是Python的一个数据包,只需要不到 10 s即可完成审计数据的函数处理和数据分析。
2.2.2 开源通用
由于考虑到成本问题,很多软件并非开源,因此限制了软件的可使用范围,使得软件应用的广泛性受到影响。Python的开源特性使得多个计算平台和操作系统都可以兼容Python编写的数据分析代码。例如:Windows、MacOS、Linux、Andorid、iOS等。并且,在云服务平台中,Python能够与C语言很好地兼容,能在各类库工具中快速满足平台服务的要求,减少项目开发周期及成本,从数据抽取、数据收集整理、数据分析挖掘到数据展示的整个过程中,不需要其他辅助工具或资源库的帮助[3]。
Python是一门真正的通用设计语言,很多数据分析软件设计的初衷是为交互使用,想要这些数据分析软件实现完全自动化是不太适合的,但Python的代码可用于整个数据分析过程,实现完全自动化,可以不受限制地重复使用。相比JAVA、C+、Matlab等软件,Python的脚本语言应用更广;可以加载很多组件和扩展包;能兼容多个平台的操作系统;并且,软件所占空间小,在一个简单的编辑器上就能完成操作。
2.2.3 兼容性较强,可快速实现数据可视化
Python具备人工智能、神经网络等各种资源,在数据调取、挖掘、整理和分析整个过程,能在Python中一并完成,无须其他辅助工具。这就避免了开发程序的切换和数据分析转化,提高了数据分析的效率。相比传统的开发语言,Python具有较强的学习能力,使网页运转系统建设和程序开发的效率大大提升。除此之外,Python还能实现可视化,无论是2D还是3D图表,使得数据结果可以更科学、直观地呈现出来。例如:Matplotlib可视化模块就能很好地运用在审计过程中。审计人员可以利用该模块,绘制象散点图、柱状图等二维图片,把复杂的数据转化成直观的图片分析数据,提高信息使用者决策的速度。
在大数据审计中,Python一般会应用Pandas、Matplotlib、Numpy等模块。Pandas主要用于金融和财务数据分析;Matplotlib用于实现数据可视化;而Numpy是一个提供矩阵运算的科学计算库,适合进行数据清洗和整理。对于大数据审计,Python完全能满足大数据审计数据挖掘和分析中对软件的需求且极具推广性。
3 基于Python技术的大数据审计案例与应用
对于各大娱乐公司来说,流量明星自带的“流量”,即在各社交媒体中的粉丝数量和发出动态后所获得的点赞和评论数量,其实也是公司的数字资产。一位热度高的流量明星除了能获取更高的知名度、广告代言费用和片酬,还能够给其经纪公司带来丰厚的经济利益。所以,各大经纪公司投资方、广告商、电影或电视剧的出品方,甚至是部分粉丝,就会利用一些技术手段对大量点赞和评论的数据进行造假。海量的粉丝与评论数据难以被传统的方式所记录,更是难以用传统的审查手段对“流量”资产进行全面或抽样验证。数字资产的出现,使审计内容与模式发生改变。
3.1 审查方法设计
流量明星在登上微博热搜或在微博发表动态后,其大部分的真实粉丝都会进行评论、转发或点赞;而另一部分的评论(通过非常规渠道购买的评论数),在每条微博下多数会使用重复ID多次评论;通过分析重复用户ID的情况,作为虚假流量而去除,这样就可以辨别真实粉丝的数量和实际评论和点赞量。
通过使用爬虫软件,选取微博某流量明星的3个热搜事件的微博(A、B、C)进行相互对比分析。为尽量避免用户反复进行评论提高热度行为,使用Python软件分别剔除掉微博评论下一级与次级评论重复的用户,就能得出实际评论的用户;再将经过筛选的结果与相对应的3条微博下的非重复评论用户进行对比,最终得出重复活跃的用户数量。
3.2 实施步骤
随机抽取某流量明星2020年1月至12月的3条高热度微博,分别命名为A、B、C。代码设置随机爬取该微博下的一级评论和次级评论,爬取数量分别设置为1 000。引用Pandas数据集,进行数据筛选。根据筛选结果,所爬取的A微博下的“一级+次级”评论中,在剔除重复评论的用户后,实际有效用户占所有用户的比重约77%。用相同方法分别爬取B微博与C微博下的评论后,所得出的结果分别约62%和69%。总计评论的非重复用户占总评论用户的比重约75%;而重复活跃的用户数占审查总用户数的比重约7%。
3.3 结果与分析
通过上述的对比可看出,在统筹随机抽取流量明星所发的热门事件的3条微博下的用户评论数后,到设定的审查截止时间期间,通过数据爬取与分析,出现的总有效用户数占总评论用户比重约75%;重复活跃的用户数占审查总用户数的比重约7%。管中窥豹,可见一斑。可以设想,在众多社交媒体上坐拥千万粉丝的流量明星,也许其背后真实的活跃粉丝数远低于其平台上所反映的粉丝数量,其背后的网络流量是否与其背后的数字资产价值相等也许也要打上一个问号。流量明星作为互联网时代的“热销商品”,他们本身也是公司的资产,在众多互联网、娱乐公司中也有着显著的商业意义,对于会计、审计而言,如何监督并识别这些资产十分必要[4]。
4 结语
本文通过分析大数据审计的特征,针对Python的工作原理和优势,引入案例研究Python在大数据审计的应用,为大数据审计中的应用技术研究提供了支持。不同于以往的审计模式,Python技术使审计从验证性分析变为挖掘性分析,提高了数据搜集的效率,弥补了数据收集的缺陷;有利于风险预判,使审计从事后控制转向了全过程控制。但是,Python在使用过程中也存在一些技术壁垒,需要审计人员加强自身学习,更新审计技术与方法。大数据的运用必将是未来趋势。大数据不仅代表的是数据集、是技术的革新,更是一种新的思维方式。审计人员不仅要对数据技术充分利用,更应具备大数据思维,才能在审计过程中发现数据的价值,提升审计质量。
参 考 文 献
[1]阳秋林,唐倩倩.大数据环境下对审计的探究[J].中国管理信息化,2020(1):72-75.
[2]孙梦蝶.基于Python的大数据审计方法探讨[J].现代企业,2018(4):38-39.
[3]胡晓燕.基于Python的可视化数据分析平台设计与实现[J].信息与电脑,2018(17):96-97.
[4]杜云.基于python的流量明星数字资产真实性审查方法初探[J].全国流通经济,2020(29):165-167.