基于OCR技术的医疗收费票据自动录入系统研究

2021-05-11 02:44:58广东电网有限责任公司广州供电局梁林森

电力设备管理 2021年4期

广东电网有限责任公司广州供电局梁林森

近年来，全国医疗服务的就诊人数持续提高，数量高达几十亿，很多企业收到的医疗收费报销单据也在迅速增长，然而这类医疗收费票据的处理依然停留在传统的人工处理方式阶段，难以满足企业工作需要。现在借助成熟的OCR文字识别技术实现医疗收费报销单据的自动录入，将极大的提高财务人员的工作效率，缩短报销时间。

1 OCR技术及特点

技术简述：OCR中文叫做光学字符识别，是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。这项技术已经比较成熟，应用风险也低。OCR一般可分为手写体识别和印刷体识别，识别内容则包括汉字、英文字母、阿拉伯数字、常用标点符号等。一套OCR处理流程基本可分为版面分析、预处理、行列切割、字符识别、后处理识别矫正共计5个步骤。

技术特点：基于OCR技术建立的各种图像识别应用系统大都可归纳为特征提取、文字定位、光学识别、语言模型四个方面。在建立的识别应用系统中，原始图像的数据质量影响最终的识别结果。例如：拍照或扫描模糊，有斜角、反向等，这些都需要在特征提取前做好预处理。同时OCR有一个识别正确率的限制，并不会完全100%识别准确，目前对印刷体的识别率可达到99.8%，手写体一般最高可达90%。因此，实现基于OCR技术的医疗收费票据自动录入功能时需要考虑识别准确率的情况，做好数据的后期矫正[1-2]。

2 技术解决方案

2.1 票据数据流向分析

当前，医疗收费票据基本都是打印的纸质票据，需通过票据扫描设备转化为影像扫描件。然后通过OCR识别技术进行票据信息的提取，最后录入财务相关系统，机器或人工审核后执行后续企业内部报销流程。图1为票据数据流向的分析示意图。

如图1所示，原始纸质票据转化为扫描件图像后，经过预处理后分为两类数据：一是分割和规范化的单个字符的图像；另一个是经过校正去燥等处理的完整的票据图像（图1中处理后图像分支）。分割后的图像送入OCR识别器中识别，提取票据数据信息；处理后的图像可按票据种类、日期、单位、医院类型、住院（科室）等数据项进行分类压缩存放，可保存在磁带、光盘等大容量存储介质上，供查询和重新识别使用[3]。

2.2 票据自录入系统组成

实现医疗收费票据的自动录入功能需构建四大应用模块，按数据的流向，依次为票据影像自动获取、票据识别、数据自动录入（图2）、人机数据审核。其中人机数据审核尤为重要，因为涉及到相关人员的报销资金，如果以万份错误率为功能符合度的指标，我们认为万份错误率＜0.01%。通过人机数据审核功能，建立“机器+人工”的双层核查机制，具体设计如下：

图1 票据数据流向示意图

创建系统自查自纠的数据约束规则，先由系统根据规则对录入系统的数据进行第一次核查，对发现的异常数据提交人工核查；人工对系统对提交的异常数据进行识别，将正确的数据录入系统，提交后台规则学习模型中进行训练；人工对系统全部录入的数据进行随机抽查，抽查发现错误的数据，将正确的数据录入系统，提交后台规则学习模型中进行训练；通过上述三个过程的循环应用，逐步提高系统自查自纠的能力，降低人工参与的机会，最终实现系统采集、识别、录入、校对的全过程自动化处理。

图2 医疗收费票据自动录入辅助应用结构图

3 系统应用效果

目前，基于OCR技术的医疗收费票据自动录入系统已在广东电网公司广州供电局财务共享中心上线运行，应用效果也比较好，主要体现在以下两点：

工作效率极大提升。系统上线运行前，对于财务人员来说最头疼的就是发票的录入和整理。人工录入耗时低效、易出错，人工校验、纠正也会花费大量的时间。现在发票通过扫描仪即可实现发票的识别、数据自动录入、发票验真等工作。以前1个月的发票录入工作，现在3个小时内可全部录入系统，工作效率得到了极大提升。

图3 系统操作界面

与报销系统高度集成，报销时效大幅度缩短。这套医疗票据自录入系统可以本地部署也可以云部署，直接对接企业财务共享中心，企业各地的员工通过手机客户端即可完成发票的采集、识别、验真[4]。后续，员工出差后不需要回到办公室贴发票、提交报销单，随时随地都可以提交报销申请，享受到了高效的医疗报销体验。

综上，针对医疗收费票据报销业务，充分借鉴了OCR识别技术、移动应用技术，以及人工智能技术，与之前传统的票据人工录入工作模式相比，通过系统识别自录入功能的使用，极大的降低医疗发票录入和整理的时间成本，提高了财务人员的业务专注度，也提高了财务报销工作的及时率，准确度，有比较好的推广应用价值。