王攀娜 杨昆
编者按:随着人工智能、大数据等信息技术的不断发展,OCR文字识别技术逐渐应用于审计领域,成为重要的审计技术创新工具。文章探讨如何将OCR文字识别技术应用于审计,发现OCR文字识别技术与审计系统相结合、与智能审计工具共建数字化审计平台、助力构建数据共享平台三条路径,并分析了基于OCR文字识别技术实现审计技术创新的保障措施,以期通过OCR文字识别技术实现审计技术创新,提高审计工作效率。
在大数据、区块链、云计算、人工智能等创新技术的驱动下,将OCR文字识别等智能技术融合到审计实务工作中,可以为审计工作提供数字化赋能。使用OCR文字识别技术,可以大大提高数据的准确性,将审计人员从枯燥繁重的工作中解脱出来,节省键盘输入的人力和时间,为审计技术打下非结构化数据采集的基础,推进审计技术创新。
OCR文字识别技术介绍
OCR文字识别技术概念
光学字符识别(Optical Character Recognition,OCR),通称为文字识别,通过光学输入设备获取纸张上的文字图片信息,再以通用格式存储为文本文件。OCR是一种高效、快捷的自动文字输入方法,实现了计算机认字技术,是计算机视觉研究领域中模式识别和人工智能领域的一种应用。OCR系统性能好坏的衡量指标主要包括识别速度、识别比例、产品的稳定性、用户界面是否友好、使用的方便性和可行性等。OCR文字识别是实现文字高速录入的一项关键技术,在身份信息识别、金融票据识别、合同信息提取等商业场景中都有比较成熟的应用。
OCR文字识别的处理流程主要包括图像处理和文字识别,具体处理流程见图1。图像处理包括图像输入、图像预处理、版面分析和字符切割四个步骤。图像输入是通过电子信号处理读取图像。图像预处理指将图像处理为有文字的黑色和没有文字的白色区域、去除图像成形的噪音、校正倾斜的文字和数字等。版面分析是将文档图片进行段落和行的划分。字符切割是将粘连在一起的文字、段笔等情况进行切割。文字识别过程包括特征提取、字符识别、版面恢复以及后处理四个步骤。特征提取是识别字符图像的关键特征,通过降维处理以便后续进行字符识别。字符识别是根据数学的向量特征,进行字符识别。版面恢复是根据原文档的排版情况,识别格式,将结果输出。后处理是将识别出来的文档与原文档进行比对校正。
OCR文字识别技术的应用场景
近年来,文字识别技术作为一项采集图片信息的工具,已经在很多实践案例中都得到了运用。具体来看,OCR文字识别技术的应用场景大致可分为:通用类,表格、文档、网络图片等任意格式图片;证件类,身份证、驾驶证、行驶证、护照等证件图片;票据类,增值税发票、机动车销售发票、医疗发票等各种发票;行业类,物流面单、医疗化验单据等多种行业特定类型图片;定制模板,用户自定义识别模板。
OCR文字识别技术应用于审计的路径
我们认为OCR文字识别技术运用到审计工作场景的路径主要包括如下三个方面。
OCR文字识别技术与审计系统的连接
1.实时性
审计系统需要及时获取相关的审计数据,并在短时间内做出专业判断,借助OCR技术可实现审计系统的实时计算。此外,OCR文字识别技术可实现审计数据的持久存储。OCR在审计中的应用主要分为图像采集模块、OCR文字识别模块和审计模块三个部分,中间通过Redis和Kafaka两个传输工具实现。
(1)图像采集模块。图片采集是OCR技术应用的基础,实现系统的图像输入流程,主要功能是对图像进行预处理,包括去除噪声、二值化、校正倾斜等,然后发布到Redis的图形通道中。
(2)OCR文字识别模块。通过调用Redis的图形通道获取到初步处理后的图片,进行文本检测,包括文本行分隔和文字分隔;最后将图片中的信息还原为可被计算机识别的信息,识别之后将文字发布到Kafaka文字通道。
(3)审计模块。通过Kafaka文字通道,将OCR文字识别模块识别信息传递到审计模块,进行信息实时计算和持久化存储。Redis和Kafaka是文字识别技术与审计系统连接框架系统中的消息传输工具,因为图像采集和文字识别速度不同,文字识别和审计模块处理速度不同,各模块间直接进行数据的传递可能导致消息堵塞。使用Redis和Kafaka作为缓冲,可为系统的稳定性提供保证。
2.全量审计
在对公客户信贷舞弊风险年审时,审计人员需要从行内信贷系统中随机抽取100个有贷款的对公客户信息,通过比对贷款投向信息与企业营业执照的经营范围是否匹配来识别舞弊信号。审计人员要手动录入企业名称、经营范围信息、统一社会信用代码等,然后开始后续工作。使用到OCR具体工作流程见图2。审计人员只需要获取全量的企业营业执照的照片,并导入到文字识别工具中,即可获得可编辑的文本信息。为进一步提高审计效率,还可先设计一份数据汇总表单,规定自己所需的信息,将这些文字版企业营业执照变成更可观的表单。将节省下来的时间用在发现舞弊信号等方面,有效降低抽样审计导致的重要信息遗漏风险,并提高审计的质量。
OCR文字识别应用于智能审计技术
OCR文字识别技术有助于审计实现非结构化数据采集,助推其他审计技术发挥功效,使得应用范围可以拓展到更多社会实践工作领域中。融合OCR文字识别、机器人流程自动化、高级數据分析等多种新兴审计技术,将为审计工作提供数字化赋能。智能审计数字化平台通过数据加工、转化、存储、交换、关联共享和管理等专业化处理,对数据的组合分析、交叉验证,以实现全面分析。动态、真实地反映审计对象的相关信息,帮助审计部门识别各种审计风险。目前该技术应用于审计数据采集、文档审阅、底稿编制、海量合同文本、录音等非结构数据等方面发挥了巨大的优势。
在审计业务中,审计人员需要阅读大量的合同,提取合同名称、合同签订双方名称、签订时间、结算方式等信息,与单位财务报表进行对照、核查,形成初步审计报告。借助OCR文字识别技术和数据分析技术,帮助审计人员发现合同条款中的潜在风险。审核合同时,如果合同信息未电子化,审计人员很难发现多个合同中存在建设内容部分重复或全部重复的情况。使用OCR文字识别技术将合同信息电子化,建立合同信息库,对合同数据进行重复筛查和关联匹配。通过将非结构化数据转变为电子化形式,再利用数据分析功能,将转换后的数据与现存的结构化数据进行关联,通过匹配进行核对,实现多点联动审计。
OCR文字识别技术助力构建共享平台
OCR文字识别技术是共享中心的关键所在,在传统的共享中心数据的采集主要是人工来进行文字的转化,将纸质文件上的数据录入到系统中,但OCR改变了人工录入数据的工作模式,从源头上提高数据的准确性。尤其是伴随着数据的不断增加,数据不断复杂化,借助OCR将为共享中心的发展提供更有力的支撑。
使用OCR文字识别技术将纸质文件数据转化为结构化数据上传至共享中心,可简化审计工作流程。通过OCR文字识别技术构建共享中心,内部审计人员可在业务前端直接抓取数据,看见原始凭证的图像,不必再通过财务人员传递才能获得,超越了业务地点时间的限制,解决了时滞问题和舞弊。OCR文字识别技术能规避手动输入可能的错误,实现自动验证发票真伪,从发票台账取数,扫描识别时直接验证发票真伪,降低税务风险。
OCR文字识别技术应用于审计的保障措施
为了实现OCR文字识别技术在审计工作中的应用,下面探讨其保障措施。
探寻新型审计模式
随着内外环境的快速变化,需要探寻符合时代发展的新型审计模式。在业务风险越来越隐蔽的情况下,审计人员必须形成数据思维,统筹分析信息。审计人员需要更多地考慮未来审计工作模式的转变,改进创新审计技术。将各种前沿技术应用于审计的核心流程中,识别并评估日常工作中可以标准化和自动化的场景,为审计中的关键审计流程提供了全新的数字化解决方案,提高了工作效率。
构建智能审计平台
伴随着信息技术的快速发展、数据应用的持续拓展,搭建智能化审计平台,可以实现基于OCR文字识别开展审计工作。参考全球领先的专业服务机构德勤公司的做法,从计划和风险评估到控制测试再到实质性测试,以及最后的结论与报告阶段。
(1)计划和风险评估阶段,使用自动式综合性数据分析,可快速实现报表、会计科目及分录的可视化分析,聚焦高风险科目,揭示异常风险。
(2)控制测试阶段,借助数字化流程挖掘和设计工具,自动跟踪业务流程,通过动态视图可视化呈现,帮助企业更直观了解流程运行情况,识别异常操作业务,进而深入分析企业内控流程中的潜在风险。
(3)实质性测试阶段,利用数据动态可视化技术、机器人流程自动化技术结合第三方数据平台,对企业图谱、股权结构、关系图谱等信息进行挖掘和展示,对企业关联交易进行展示,辅助审计人员对客户关联关系及关联交易进行充分挖掘,从而提升风险防范能力,保障审计质量。
(4)结论与报告阶段,德勤公司自主研发的“勤报通”工具能实现报告审阅流程的高度自动化与智能化,还能通过健康检查全面快捷地识别报告中的错误情况,改进报告质量,提高审计交付的质量。
保障数据的安全性和准确性
信息技术通过计算机程序自动处理,可大大提高工作效率,但不可忽视风险。OCR文字识别技术应用于审计过程中,数据的安全性和准确性是必须面对的重要问题。如采用OCR审计无形资产的形成和摊销时,要考虑数据获取是否准确,是否能支持最终形成的审计结论。要注重对数据的管理和保护,设置好数据访问和存储的权限,严格限制访问,采用授权机制来保证审计数据的安全。使用OCR文字识别技术提取数据时,可使用一定措施来提高识别准确度。对图像进行文字识别时,保证光线尽量充足和稳定,且文字的背景最好是纯白的背景,这样能去除干扰因素,进一步保证文字识别技术的识别准确率。在文字识别技术处理流程中,最后一步的人工对比和校正也将保证输出数据的准确性。
结语
数据时代的到来,审计数据的载体变得越来越多样化,图片、照片、影像等资料承载着丰富的审计数据信息。为了了解藏在这些信息背后的复杂关系和潜在风险,审计需要将非结构化数据转化为可审计的数字或文本信息,揭开审计对象之间的复杂关系。OCR文字识别技术为智慧审计打下了 非结构化数据采集的基础,如机器人流程自动化技术、自然语言处理技术等。OCR文字识别技术与审计系统结合、与智能审计工具结合、助力构建共享中心这三方面的应用,进一步落实到数据采集、信息审核、审计抽样三阶段具体审计工作流程当中,有助于推进审计智能化水平,提升审计工作的社会服务价值。
参考文献:
[1]汪莉,叶健彪.基于OCR的审计技术创新与实现[J].中国内部审计,2019(04):44-47.
[2]徐超,陈勇.大数据技术与方法在审计监督中的应用研究[J].数量经济技术经济研究,2021,38(05):135-153.
[3]余玉苗,徐慧慧.利用机器学习提升内部审计价值——读《机器学习强化保证》[J].财务与会计,2020(12):86-87.
[4]张晶,李雅琴,王博文.光学字符识别(OCR)技术在内部审计中的实践应用[J].纳税,2020,14(01):275.
[5]赵文华.德勤探路审计中的人工智能应用[N].中国会计报,2017-03-03(010).
第一作者:王攀娜(1980—),四川自贡人,副教授、博士、硕士生导师,现就职于重庆银行博士后科研工作站。