黄妙红 何胜 王珏 肖嘉丽
[摘 要]电网企业目前的计算机审计工作主要基于数据库中的电子数据进行分析,而从审计经验看,被审计单位的各类纸质文件中往往隐藏着大量的审计线索和疑点,如何充分利用相关数据是本课题的核心。基于此,本文首先要解决的问题就把相关纸质文件转化成计算机能够识别的文字,这需要企业利用扫描仪将相关文件扫描成图片;其次,本文研究了OCR图片识别技术,将扫描后的图片文件进行OCR处理,并抽取成文字文档,为相关文档的深度挖掘和利用奠定基础。
[关键词]OCR技术;审计文本识别;现场审计
doi:10.3969/j.issn.1673 - 0194.2020.16.036
[中图分类号]F239.1[文献标识码]A[文章编号]1673-0194(2020)16-00-03
0 引 言
经过多年的信息化建设,电网企业各业务系统中产生了海量的业务数据,仅靠人工进行审计,不能满足企业的需求。电网企业审计信息化建设应用已有10年的历史,在此期间,电网企业积累了大量审计信息化经典案例,同时也对前沿信息技术如何在审计业务中应用进行了深入研究。为了进一步提升审计工作效率,推进审计信息化作业模式和手段向智能化、自动化方向发展,企业需要对先进信息技术在审计辅助作业中应用进行深入研究。利用图片识别技术、大数据分析技术、文本挖掘、自然语言处理、机器学习、商业智能(BI)等高科技手段与工具,基于公司海量业务数据进行智能审计,帮助公司审计部门进一步提高审计工作效率,提升审计的精确监管能力。本文重点研究图片识别技术(OCR)在电网企业审计现场中的应用。通过OCR技术实现现场取证的纸质文档结构化,并对文档合规性进行审查,分类及整理智能化文档,为智能电子取证打下坚实基础。
1 OCR技术在审计现场中的应用
目前,电网企业的计算机审计工作主要基于数据库中的电子数据进行分析,而从审计经验看,被审计单位的各类纸质文件中往往隐藏着大量的审计线索和疑点,因此,如何充分利用相关数据是本课题的核心。而首先要解决的问题就是把相关纸质文件转化成计算机能够识别的文字。这需要企业先利用扫描仪将相关文件扫描成图片,然后研究OCR图片识别技术,将扫描后的图片文件进行OCR处理,并抽取文字文档,为相关文档的深度挖掘和利用奠定基础。在本课题中,OCR技术在审计现场中的应用分为以下几点。
1.1 交通费发票识别
国家和中央各部委、电网企业对员工出行时乘坐的交通工具均有明文规定,根据出差人的行政岗级、出差事由和目标、出差地的经济环境水平、出差人数和出差的可行预算,对交通费报销标准均制定了明确的上限。出差人获得的交通费报销凭证的票面清楚地标示了国内机票的舱位和火车票的座位等级。总而言之,企业核查交通费发票报销,重点是运用OCR技术对机票舱位为头等舱、商务舱,火车票座位等级为商务座、特等座、一等座、软卧的差旅费报销行为进行定位识别,核查超标情况。
1.2 酒店住宿发票识别
按照中央廉洁自律八项规定,公务人员出差不能超标入住高档酒店和会所,也不能有任何高消费行为。在审计检测中,企业可以通过提取成本费用中的差旅费、业务接待费、会议费等科目下发生的支出,对重点关注的高档酒店的住宿和消费情况进行核查,提取这些支出原始凭证,对发票开具单位的名称和信息进行检查,匹配酒店等级和出差人员的职务级别,从中发现疑点。
1.3 违规购买土特产、高档烟酒识别
企业通过提取成本费用中的业务接待费、宣传费、会议费、其他费用等科目下发生的支出,检查员工是否违规购买土特产和高档烟酒。运用OCR技术对发票开具方的单位和信息、品名、规格、数量、单价等商品内容进行核查,检查发票开具方是否含有“商贸行”“特产”“烟酒”“贸易公司”等字样,关注商品名称中是否含有“烟”“酒”“礼盒”字样。尤其要注意的是,在多次审计项目实践中发现部分基层单位存在一些隐形变异现象,如通过开具“购用品”“购水”或者“办公用品”“文具一批”和“购茶叶”等发票进行变通,掩盖实际采购的交易行为信息。对于此类现象,审计人员在对原始凭证发票信息进行识别归类和分析后,可以通过外围调查、咨询访谈、突击盘点实物、观察法等,对真实交易行为开展定性和审计识别。
1.4 财务报表识别
目前,电网企业财务报表的数据分析大都采用人工阅读审核方式,效率低,无法实现自动化以及智能化。传统的人工审核方式已经严重阻碍了电网企业的审计效率和业务开展。运用OCR技术将财务报表中的文字、表格、图像转化为电子版的数据,通过计算机程序,快速采集财务报表数据,再通过AI技术发现其中隐藏的疑點信息,具体步骤如图1所示。
2 关键技术要素
2.1 图片识别技术
光学字符识别(Optical Character Recognition,OCR)指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程,即识别图像中的文字,并以文本的形式返回。
2.1.1 OCR的应用场景
根据识别场景,可大致将OCR分为识别特定场景的专用OCR和识别多种场景的通用OCR。比如,现今方兴未艾的证件识别和车牌识别是专用OCR的典型实例。通用OCR可以用于更复杂的场景,具有更大的应用潜力。但由于通用图片的场景不固定,文字布局多样,难度较大。根据所识别图片的内容,企业利用OCR可将场景分为清晰且具有固定模式的简单场景和更复杂的自然场景。自然场景文本识别难度极高,主要原因是图片背景非常丰富,经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题,且文本布局可能存在扭曲、褶皱、换向等问题,文字可能出现字体多样,字号、字重、颜色不一的问题。因此,自然场景中的文字识别技术,也经常被单列为场景文字识别技术(Scene Text Recognition,STR)。