OCR：不可忽视的智能基础

2017-02-17 15:39佚名

中国信息化周报 2017年1期

佚名

如今在纷繁复杂的金融领域，利用各种证件的OCR技术结合数据分析，对于提升金融行业尤其是互联网金融整体业务流程的效率，降低客户的人力成本，收效显著。

什么是OCR？如何利用？等一系列問题随之浮出水面。如今我们不得不正视这样一个事实：人们每天都被文字包围，像办公文件、上课板书、商品介绍等都是由文字组成的，并且这些文字在某一程度上也是语音交互的基础，而这其中关乎一个关键技术——OCR （Optical Character Recognition），光学字符识别。

什么是OCR

OCR是指光学设备（扫描仪、数码相机等）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，其本质就是利用光学设备去捕获图像并识别文字，将人眼的能力延伸到机器上。此概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

在20世纪50年代，IBM就开始利用OCR技术实现各类文档的数字化；到了80年代，平板扫描仪的诞生更是让OCR进入了商用阶段。但不管是哪个阶段，那时的OCR设备对于文字背景的要求非常之高，也需要很好的成像质量。

OCR的工作原理

一般来讲，OCR的工作原理包括四个部分，分别是：影像输入，通过光学设备将图片转入计算机后，系统会对图片进行一些处理，包括字符格式的分离、二值化处理、图像降噪、倾斜校正、文字特征抽取等，以提升图片的精确度；对比识别，根据字符的不同特征，将之与数据库进行对比，并利用对比后的识别文字与其可能的相似候选字，根据前后的识别文字找出最合乎逻辑的词，再作出更正，以加强比对的正确性；人工校正，目前为止还没有一款软件的文字识别是百分之百的，所以还需要用户亲自校正，确保输出的准确性；影像输出到txt、doc、exl等格式。

现实中，OCR的发展其实已经相当完善，不过随着人们需求的变更，此种OCR已经不能满足人们的要求，而在当前自然环境OCR是人们最为关注的新点。

自然环境OCR进展

相比于传统的OCR，自然环境OCR最难的部分在于文本检测（将文字从图片中提取出来），因为它具有极大的多样性和明显的不确定性。例如文字中包含多种语言，每种语言含有多种字母，每个字母又可以有不同的大小、字体、颜色、亮度、对比度、排列和对齐方式等；因拍摄图像的随意性，文字区域还可能会产生变形、模糊断裂等现象。

另外，背景也是一大干扰因素，例如文字区域附近有非常复杂的纹理；非文字区域有着跟文字区域非常相似的纹理，比如窗户、树叶、栅栏、砖墙等。

文本检测首先要从图像中切割出可能存在的文字，即候选连通区域，目前被采取最多的方法是MSER（最大平稳极值区域）。

当然也有团队在此基础上开发出了自己的一套算法，例如微软研究院在传统检测方法ER（极值区域）和MSER基础之上采用了对比极值区域CER（Contrasting Extremal Region），CER是与周围的背景有一定对比度的极值区域，在低对比度的图像上比MSER效果更好，而且获得的候选连通区域数量远小于ER，提高了算法的效率。并且，为了提高所获得连通区域的质量，微软又增加一个算法环节去增强CER。最后采取了一套基于浅层神经网络的文字/非文字分类算法，进一步提高了对于连通区域字符的辨认率。

OCR的应用前景

不管是传统OCR，还是自然环境OCR，其参与者还是不少的。在国内，涉足OCR的企业主要有汉王、文通、百度等，国外的像ABBYY、IRIS、Google、微软等。此外，市面上也有不少OCR产品，传统的OCR产品有尚书、汉王等，自然环境OCR的有百度翻译、Google翻译，实用性相当不错。

论起OCR的应用前景，仅看其隶属于计算机视觉领域的一个分支，再联系到当前人工智能的发展，其前景可想而知。除了翻译、智能购物以外，OCR未来最大的发展潜力在于人机交互。

众所周知，人机交互一直是研究者追求的东西，但是目前也仅仅做到了语音交互和肢体交互。文字代表了人类的所有智慧与思想，如果机器人能够进行文字识别，那将能够进一步获取知识、学习人类，进而与人类进行更为自然的交互，或是协助人类工作，提高效率。