王青松,蒋序杰
(湖南工商大学 会计学院,湖南 长沙 410205)
21世纪以来,我国多次遭遇重大突发公共事件,如“非典”疫情、四川汶川大地震和新冠肺炎疫情等,应对每一次重大突发公共事件都会投入大量的救灾物资和资金。采用跟踪审计来审计重大突发公共事件的物资和资金使用情况意义重大,审计阶段合理运用大数据技术能更好地完成数据采集、数据分析等。国家在2014年明确提出加强大数据技术与审计联合,构建大数据审计。审计署积极响应国务院的号召,在下属部门中专门成立了电子数据审计司。2016年7月,中国审计学会重点研讨了“大数据环境下审计技术方法”等相关内容,真正意义上推广了大数据技术在审计中的应用。
2020年10月,中共十九届五中全会提出“十四五”期间需增强突发公共事件应急能力和提升大数据技术手段辅助治理能力,在政策层面上强调国家既要制定重大突发公共事件的预警机制,又要加强经济数据库建设,推广大数据技术在国家治理工作中的应用。目前,大数据技术在重大突发公共事件跟踪审计中有了基础性应用,包括前期数据采集和数据整理、中期数据分析以及后期信息反馈等。
在国内几次重大突发公共事件的影响下,目前对重大突发公共事件跟踪审计的研究文献比较多。许多研究在经典审计理论的基础上提出一个包含审计内容、审计依据、审计需求、审计方法等方面在内的重大突发公共事件跟踪审计理论框架[1],并应用到重大突发公共事件跟踪审计的各个阶段。
部分学者在“免疫系统”理论角度上研究了重大突发公共事件跟踪审计的组织思路。黎仁华、李齐辉和何海霞在研究重大突发公共事件跟踪审计时明确要以重建资金和物资的使用情况为重点,提出“事前调查、全程跟踪、及时审计意见反馈”的实施思路[2]。陶岚和李琴则认为在重大突发公共事件的不同时期有着不同的审计内容,即在预警期以预防为主,在爆发期和缓解期以监督和揭露为主,在善后期以优化为主[3]。
郭强华和闫维艳在总结“非典”与“汶川”跟踪审计的中国经验时发现,重大突发公共事件跟踪审计必须应用到新冠肺炎疫情防控中,并提出相应的提升路径[4]。这与不少学者提出的跟踪审计开展方式相似,主要包括制定重大突发公共事件跟踪审计应急预案和业务实施指南[5-7]、融入风险导向审计和开展风险评估专项审计[8]、建立重大突发公共事件跟踪审计问责机制[9]。总体而言,重大突发公共事件跟踪审计对应急救援工作发挥着较强的监督效应[10]。
大数据技术对审计的影响研究主要体现在两个方面:一是大数据技术在审计工作中的应用研究;二是大数据技术对审计工作的影响效果研究。大数据审计是指审计主体将大数据技术运用到审计程序和方法中,对被审计单位实施的一种新兴审计模式[11],主要体现在审计组织模式、审计取证方式、审计数据分析、审计风险管理等方面的大数据技术应用[12-13]。学者们对大数据审计的程序与方法有着不同的具体研究,研究的内容主要有通过构建审计数据采集框架,能够根据审计需求自动进行数据采集和数据预处理的操作[14];运用基于Python语言的相似度分析和标签云分析等大数据技术分析数据文本,以便进行文本关键字提取、文本相似性计算和依存度计算[15-17],得出相应的分析结果并形成审计线索。
大数据技术在审计中应用带来的积极效果体现在审计工作的各个方面。在审计取证方面,有人通过验证大数据技术与审计证据之间的逻辑关系,认为大数据审计优化和拓展了传统审计的取证方式,丰富了审计取证技术,拓宽了审计取证范围[18]。最根本的原因是大数据技术改变了传统审计的载体,呈现出全过程留痕、数据范围广和数据电子化等有利特征,进一步改变了审计的取证模式[19]。在风险管理方面,将大数据技术应用到重大突发公共事件跟踪审计中不仅可以提高资金和物资使用的透明度和合理性,还能防止审计证据缺乏延展性,降低了审计风险[20]。大数据技术在跟踪审计中的应用能更好地发挥“经济体验”功能和监督效能,以及实现审计全覆盖[21]。
总体来说,学者的研究主要分为两大部分:一是对重大突发公共事件跟踪审计的内容研究,涵盖了审计方法、审计依据、审计准则等方面;二是对大数据技术在审计中应用的影响研究,包括大数据审计的方法研究和作用效果研究,但已有的研究很少直接结合重大突发公共事件来分析跟踪审计中的大数据审计方法应用。后文将介绍如何在重大突发公共事件跟踪审计中对大数据技术进行基础性运用,对现有大数据审计的数据分析方法进行补充。
重大突发公共事件的破坏性、突发性、公共性使跟踪审计的数据采集比常规审计更复杂,这成了审计取证工作中的难点问题。重大突发公共事件跟踪审计所需的财务、政策等数据对审计工作具有同等价值,对其进行深入数据挖掘与分析,合理地运用大数据审计工具处理大容量、多种类、低价值的数据,能更好地发现数据间的潜在关联以及隐藏的审计问题。
大数据技术在应用过程中不仅能挖掘结构化数据,还能深度挖掘一般审计未考虑到的半结构化和非结构化数据。在审计取证过程中深度挖掘审计证据,跨地区、宽领域、多角度地开展数据采集,包括挖掘过去与实时数据,在进行数据分析的同时研究其相关性,形成审计线索。跟踪审计具有持续性、有重点性、分过程性的特点,重点关注事中审计和事后审计。大数据技术所呈现的数据可挖掘性在很大程度上满足了重大突发公共事件跟踪审计的审计取证适当性,审计人员以多元化的取证技术搜集审计证据,便于事后数据挖掘和实时数据挖掘。
数据可追溯性是指对数据采集、整理、分析和储存进行追踪的能力,能记录数据使用的全过程信息,加强数据管理,为评估数据的可信性和安全性提供重要的信息支撑。通过大数据技术整合跨地区、多方位的信息来完成审计证据的搜集,在很大程度上可以保证审计证据的完整性和可靠性。将数据采集、整理和分析过程的详细情况作为基础数据,审计人员能判断数据的可信性,这一过程既符合跟踪审计的要求,又凸显审计取证的规范化。
重大突发公共事件跟踪审计是在重大突发公共事件发生后,对其相关审计事项进行分重点、有过程的独立审计,主要关注信息的真实性、行为的合规性以及制度的完善性。审计人员在数据库资源的基础上,运用大数据思维对被审计事项的各类数据进行分析,从而验证被审计事项的财务、绩效等方面的真实性、合法性及效益性。大数据技术的应用改善了重大突发公共事件跟踪审计的分析方法,由抽样分析和因果关系分析提升到总体分析和相关性分析。大数据技术下的数据采集、分析等过程能够被完整记录,从而保证数据的完整性与可靠性,缓解审计取证过程中的信息失真问题。
应急处置与救援以及事后恢复与重建是重大突发公共事件发生后的两个重要阶段,在此期间应用重大突发公共事件跟踪审计的审计步骤必须遵循“特事特办”原则。既要保证审计步骤的合理性和简化性,又要保障审计内容的时效性和审计质量的准确性。因此,可以根据重大突发公共事件跟踪审计的特点建立如图1所示的跟踪审计步骤,用以规范跟踪审计的组织思路,保证审计效果最优化。
图1 重大突发公共事件跟踪审计流程
跟踪审计步骤主要包括组建跟踪审计队伍、设计审计架构和运行机制、制定跟踪审计工作方式和风控体系、建立跟踪审计成果考核体系和完善信息公开与信息披露工作机制。值得注意的是在设计跟踪审计运行机制时,应采用内外结合的审计模式,即对内由重大突发公共事件跟踪审计组、数据采集分析中心和信息共享中心组成并相互联系,对外受国务院审计署的领导与监督以及电子数据审计司的联系与监督,如图2所示。
图2 重大突发公共事件跟踪审计运作机制
在制定跟踪审计工作方式时,应根据重大突发公共事件跟踪审计的独特性,在确定其审计内容、审计依据、审计需求、审计方式时都要与一般审计区分开。在建立跟踪审计成果考核体系时,既要考虑重大突发公共事件跟踪审计的经济性、效益性和效果性,又需考虑政策贯彻执行情况、领导干部问责机制和经济责任指标。在信息公开与信息披露方面,政府及有关部门需及时将信息传递给各方信息使用者,确保最大限度地共享信息。
文中主要介绍以Python为主的大数据技术在重大突发公共事件跟踪审计中的应用。作为一种计算机程序设计语言,Python在实际操作中可通过内置函数读取模块读取各类文件和数据,用SQL语句方式进行查找和存储;可视化模块Matplotlib能够根据各类数据的汇总完成绘图,并根据图像中的数据变化与差距来判断数据的合理性;中文分词组件Jieba是设置标签云的模块,通过筛选停用语以及提取高频词汇,实现文本和数据的可视化。重大突发公共事件跟踪审计的操作可以按照数据采集、数据整理、数据分析、信息反馈这一流程开展,具体操作如图3所示。
图3 大数据技术重大突发公共事件跟踪审计操作流程
1.数据采集
数据是运用大数据技术的基础,该步骤针对重大突发公共事件的应急处理与防控数据,包括政策文件、事件信息、会议记录、物资和资金储备与分配信息以及其他相关数据。基于审计署提供的“五个关联”审计数据获取范围思路,采用Python数据采集技术中的数据采集工具,可以构建数据采集平台,对来自互联网、重大突发公共事件和审计内部的信息进行查找、标记、分类、存储,形成财务信息、政策信息以及其他相关信息。
2.数据整理
数据整理阶段主要包括数据的存储、转换、提取、汇总等操作。从数据采集平台收集到的数据以DMP、CSV、TXT等形式传输到这阶段后,先作为源数据库保存,其目的是后期出现数据错误并向前追溯错误来源时能快速地找到该阶段的起点,并找到出现数据错误的节点,这与审计取证的规范化相契合。然后利用Python程序设计特定处理程序,转化数据格式以及截取数据内容,从而实现脚本统一,并导出新数据库。
3.数据分析
大数据审计除了考虑结构化数据外,还需要考虑半结构化和非结构化数据。实时的非结构化数据是传统筛选方法无法提供的,对其进行相似度分析和可视化处理是大数据技术运用过程中重要的数据分析方法,能快速获取数据文本中的重点内容。相似度分析是采用TF-IDF技术的一种自然语言处理方法,在Python语言的基础上实现数据文本相似度检测,通过某一字词在文本中的相似度分析推广到整个文本的相似度分析,能得到不同文本之间的相似值。可视化模块Matplotlib是审计人员寻找审计线索的重要方法,审计人员通过代码完成基础性图形的绘制,实时数据的变化会带来图形的变化,根据图形中的数据差异以及变化来形成相关的审计线索。
4.信息反馈
数据分析重大突发公共事件数据文本产生的结果需要反馈给各相关方使用。当数据分析的结果以表格、图像或文件等形式向审计人员提供时,会形成审计线索,审计人员借此来进一步调查和判断该审计线索能否形成审计证据,在一定程度上实现了数据资料的自由化,方便了审计人员对审计证据的搜集。
以武汉市红十字会发放捐赠物资的情况为例,对武汉市红十字会官网的公告资料进行数据采集和数据整理,得出包括接受单位、物品名称和数量等信息在内的数据文本,再利用Matplotlib数据可视化处理和相似度分析对数据文本进行数据分析,从而得出相应的分析结果。因为数据采集和数据整理需要运用内置函数读取模块以及SQL语句方式等处理程序,其具有较强的专业性,所以仅进行数据分析阶段的大数据方法应用分析。
以武汉市红十字会发放捐赠物资情况为例,在数据采集和数据整理所得数据文本的基础上,利用可视化处理分析2020年2月份对武汉市部分县区的新冠肺炎疫情防控指挥部发放捐赠物资情况和2020年2—6月份捐赠物资整体发放情况。采用Python技术中的Matplotlib数据可视化操作来对捐赠物资发放情况进行可视化处理,部分操作代码示例如下所示:
import matplotlib.pyplot as plt
from pylab import *
mpl.rcParams['font.sans-serif']=['SimHei']
......
fig =plt.figure(figsize=(8,6))
ax1 =fig.add_subplot(111)
......
plt.legend(loc=7)
plt.title('数据')
plt.savefig('img_4.jpg')
plt.show()
1.对部分县区捐赠物资发放情况的可视化处理
以武汉市红十字会在2020年2月份对蔡甸区、汉阳区、洪山区、江岸区、汉江区、硚口区、青山区和武昌区新冠肺炎疫情防控指挥部发放的捐赠物资情况的数据文本为基础,由上述操作代码可以导出如下图4所示的散点图。由图4可知蔡甸区、汉阳区、洪山区、江岸区、汉江区、硚口区、青山区和武昌区的新冠肺炎疫情防控指挥部接收的口罩、手套、防护服和消毒液数量的大致情况。
图4 武汉市红十字会对武汉市八个区发放捐赠物资情况散点图
根据散点图4上的数据可以得知,武汉市红十字会对蔡甸区和青山区的新冠肺炎疫情防控指挥部发放的口罩数量和手套数量差距、对汉江区和江岸区的新冠肺炎疫情防控指挥部发放的消毒液数量差距、对江岸区和硚口区的新冠肺炎疫情防控指挥部发放的防护服数量差距均较大,产生的差距能形成审计线索。审计人员进一步跟踪调查并判断能否成为审计证据时,可以考虑不同区域之间的疫情严重情况、人口数量等因素,从而判断武汉市红十字会在发放捐赠物资安排上的合理性和准确性。据武汉市红十字会官网可知武汉市红十字会存在定向发放捐赠物资的情况,由于上述分析仅针对新冠肺炎疫情防控指挥部,而实际上不同县区内部存在不同数量的定向接收单位,因而可能产生上述差异。总之,数据差距能很好地指引审计人员进行进一步跟踪和调查。
2.对不同月份捐赠物资发放情况的可视化处理
以武汉市红十字会在2020年2—6月份的整体发放捐赠物资情况的数据文本为基础,由上述操作代码可以导出如下图5所示的散点图。
由图5可知武汉市红十字会在2—6月份整体对外发放口罩、手套、防护服和消毒液数量的大致情况。根据散点图上的数据可以得知,武汉市红十字会在4—6月份发放的口罩、手套、消毒液和防护服数量有着明显的下降趋势,其口罩和手套数量低于100万个,消毒液和防护服数量低于10万个,四种基础防疫物资数量都远低于2月份和3月份发放的数量。特别是各月份之间手套数量的差距,2月份和3月份发放的手套数量都在2000万左右,而4—6月发放的手套数量都不足100万,产生的差距能形成审计线索,可由审计人员进一步判断。
图5 武汉市红十字会2—6月份捐赠物资发放情况散点图
从武汉市红十字会官网的公告可以得知,武汉市红十字会在4—6月份对外发放的捐赠资金有了明显增加,这可能是导致捐赠物资发放减少的原因之一。从另一个角度可以考虑,随着防疫工作的开展,各接收单位的口罩、手套、消毒液和防护服等基础防疫物资已经处于饱和状态,武汉市红十字会调整为发放医疗器具、食品以及生活用品等物资,这也可能产生此散点图所反映的差距问题。
以武汉市红十字会发放捐赠物资情况为例,在数据采集和数据整理所得数据文本的基础上,利用相似度分析方法分析2020年2月份对武汉市部分县区新冠肺炎疫情防控指挥部发放捐赠物资情况和2020年2—6月份捐赠物资整体发放情况。在Python技术下的部分操作代码示例如下所示:
import jieba
import matplotlib.pyplot as plt
from pylab import *
mpl.rcParams['font.sans-serif']=['SimHei']
from read_excel import read_excel
from TFIDF import cosSim
def get_txt(filename,sheet_name='Sheet1'):
......
res_table =[]
for i in range(5):
tmp =[]
for j in range(5):
sim =round(cosSim.CalcuSim(texts[i],texts[j]),12)
tmp.append(sim)
res_table.append(tmp)
for i in range(5):
print(res_table[i])
......
1.对部分县区捐赠物资发放情况相似度分析
以武汉市红十字会在2020年2月份对武昌区、汉江区、洪山区和蔡甸区的新冠肺炎疫情防控指挥部发放的捐赠物资情况的数据文本为基础,由上述操作代码可以导出相似度分析结果如表1所示。
表1 四个县区捐赠物资发放情况相似度分析结果表
由上表1可得,武汉市红十字会在武昌区、汉江区、洪山区和蔡甸区的新冠肺炎疫情防控指挥部发放捐赠物资情况的数据文本经过基于词频的相似度分析后,结果显示出较高的相似性,可能的原因是2020年2月份还处于新冠肺炎疫情防控的前期,主要缺乏基础性防疫物资。武汉市红十字会对各个区的捐赠物资发放情况相差不大,在四个区数据文本的内容上,口罩、手套、消毒液等词汇的词频较高,使得数据文本的相似度较高。相比之下,对武昌区和汉江区以及蔡甸区和汉江区的新冠肺炎疫情防控指挥部的捐赠物资发放情况的数据文本相似性相对较低。
2.对不同月份捐赠物资发放情况相似度分析
以武汉市红十字会2020年2—6月份捐赠物资整体发放情况数据文本为基础,由上述操作代码可以导出相似度分析结果如表2所示。
表2 不同月份捐赠物资发放情况相似度分析结果表
由上表2可得,基于词频的相似度分析结果表现出明显的层次性。随着时间的推移,后期与前期的相似性越来越小,例如在2月和3月捐赠物资发放情况的数据文本相似度较高,为0.954 2,而在2月和5月的相似度最低,为0.612 4。相似性的变化应该引起审计人员的关注,从文本的主要内容出发,跟踪与调查差距产生的原因。从现有情况来看,可能的原因是随着防疫工作的开展,不同的时间段存在着不同的物资需求,例如火神山和雷神山等方舱医院的修建需要建筑设施和医疗设施,医资基础较弱以及患者较多的地区需要更多的治疗药品和治疗器械等,这使得不同月份之间捐赠物资发放情况的相似性越来越小。
图4和表1从横向角度进行分析,而图5和表2从纵向角度分析。对比分析可知,在2月份武汉市红十字会对不同县区分发的捐赠物资大致相同,但武汉市红十字会在不同月份之间的捐赠物资整体发放情况表现出极大的差异。捐赠物资并不是随机发放的,而是要根据不同地区的疫情严重性、不同时间的物资需求等因素有计划、有目的地安排捐赠物资发放。在可视化处理和相似度分析后形成的审计线索,需要审计人员结合实际情况判断捐赠物资发放的合理性,跟踪与调查其是否形成审计证据。
大数据时代,各类数据在重大突发公共事件跟踪审计中发挥着重要的作用,审计人员应紧跟时代的步伐,努力将重大突发公共事件跟踪审计与大数据技术相结合,推动审计工作的开展。文章主要研究了大数据技术与突发公共事件跟踪审计的联系,明确了大数据技术在重大突发公共事件跟踪审计中发挥的作用,其中主要介绍Python技术在数据分析阶段的运用。目前,大数据技术在重大突发公共事件跟踪审计中的应用还不够深入,没有完全地将大数据审计的优点运用于重大突发公共事件跟踪审计中以提升跟踪审计的质量和效率。提高国家对重大突发公共事件的应急处理能力要考虑相关政策制度、技术创新和人才培养等方面。
完善重大突发公共事件跟踪审计规章制度。与传统审计相比,重大突发公共事件跟踪审计在国家制定的规章制度中涉及的内容较少,需要完善相关的规章制度,为其发展提供法律保障。首先,要在制度上明确重大突发公共事件跟踪审计的审计模式,在审计署下设置专门的重大突发公共事件跟踪审计机构。其次,针对重大突发公共事件跟踪审计的开展节点、审计对象、审计标准以及成果考核等方面进行细则优化,保证重大突发公共事件跟踪审计开展得及时和准确。
推进大数据审计技术创新。在审计中运用大数据技术能推动其工作的开展,特别是在审计取证方面,丰富审计取证方法,拓宽审计取证范围。首先,明确电子数据审计司的工作职责。其次,健全数据管理机制,包括结构化与非结构化数据的收集、整理、存储、分析、反馈等操作,确保完全满足大数据审计的数据需求。最后,构建完整的大数据信息平台并科学运用,包括采集平台、预处理平台、分析平台和可视化平台等。
加强多学科型综合人才培养。目前,同时熟练计算机技术和审计业务的人才很少,这在很大程度上阻碍了大数据技术在审计中的运用。为了在审计工作中更好地运用大数据,首先,要组织对在职审计人员开展计算机技术专项培训,重点培训大数据技术的分析方法,以便与审计人员丰富的工作经验结合,激发其创新系统化审计思维,进一步提高审计能力和审计效率。其次,在高校等培养机构加强“审计学科”与“数据科学”的交叉融合教育,培养多学科型综合人才,适应新时代的发展。