技术宅
OCR是指通過特定的电子设备(例如扫描仪或数码相机)对图片进行处理,然后用字符识别方法将形状翻译成计算机文字的过程。如现在很多学生在使用的拍照解题APP,可以识别出照片上的题目,幕后功臣就是OCR(图1)。我们以上述解题APP为例,APP在接收到图片后会进行预处理并将图片矫正,接着对图片进行水平切割(用于识别水平方向的行)和垂直切割(用于识别垂直方向的列),最后对文字进行特征向量的提取并成功识别(图2)。
①解题APP题目识别就是OCR
②OCR识别文字流程图解
常规OCR识别通过切割获取行和列,也就是要OCR从图片中识别出每个文字,文字的分割结构应该是按照“田字格”的模式排列(图3)。
③常规OCR的水平、垂直切割示例
不过生活中我们经常遇到很多弯曲文字,比如广告牌上的宣传文字、一些论坛显示的图片验证码,对于这些图片如果按照传统的方式切割,它会将文字切割为不完整的多个部分,比如下图中的“N”和“8”,N字母被切割为上下两部分,这样的结果自然是导致识别失败。所以常规OCR对于弯曲文字的识别是有难度的,当然这也是为什么很多论坛使用这种弯曲验证文字来避免机器人自动登录的原因(图4)。
④传统的水平、垂直切割导致文字分裂
⑤TextTubes技术选取弯曲文字
为了解决弯曲文字识别难题,亚马逊研究人员引入了TextTubes技术,它引入了一种新的算法,该算法首先会对目标图像进行建模,建立一个曲线函数,然后再分析出半径以及中间轴,继而生成一个文本选取分区。简单地说就是把弯曲的部分看成是一个近似圆的某个扇区,然后将文字覆盖的区域作为扇形的某个部分,最后对其进行分割选取。上述例子,它把图片字符所在区域看成一个扇形,文字的行(对应水平分割)是通过上下两段弧形进行选取,每个字符(对应垂直分割)则借助半径线条实现,这样弯曲文字可以被分割为一个个独立又完整的字符(图5)。
当然在实际识别中,弯曲的形状多种多样,文字排列方式也不尽相同。为了能够提高TextTubes的识别效率,亚马逊引入了大数据机器训练方法,它准备了两个训练数据集CTW-1500和Total-Text,前者包含1500张图片和超过10000个的文本字符,每张图片里至少包含一种弯曲文本形式。后者则有1255个训练图像、300个测试图像,同样的,每张训练图片中也至少包含一种弯曲文本形式。这样通过一定时间的训练,机器就可以对生活中常见的弯曲形式进行识别。接着在这个基础上可以生成一套新的算法,部署这个算法的OCR软件在接收到包含弯曲文字的图片时,它会自动根据算法对常见图片上的弯曲文字进行准确的分割和识别,从而解决传统OCR无法识别弯曲文字的难题(图6)。
⑥TextTubes技术图解
现在不仅借助机器学习,很多OCR训练还引入了Al的卷积神经网络(CNN),这样通过机器深度学习+卷积神经网络,可以让OCR实现更加智能的提取,比如在更复杂的场景(不仅仅是在弯曲图片上)识别出各种字符。场景文本识别(文字检测+文字识别)是未来OCR技术的发展方向,如基于Google Lens底层的AI光学字元辨识(OCR)技术现在已经能辨识超过10亿种物件,并且可以在各种复杂场景中识别出诸如相片中的店铺招牌、地标、景点、著名建筑、Wi-Fi等等物件(图7)。
⑦基于图像识别和OCR技术的人工智能应用——Google Lens
显然如果弯曲的文字可以被自动识别,它可以给我们的生活带来很多的便利,因为在生活中还有许多弯曲字符,比如应用到安防识别中,那些弯曲车标标识就可以快速识别,迅速确定用户驾驶的汽车品牌(图8)。
当然这些技术还可以应用在自动驾驶汽车识别标志牌、智能导航、街头数据采集等等领域。比如大家常用的美团,它对于街头店面的自动采集系统就使用类似TextTubes的技术。虽然很多店铺门头图、店名采用不规则分布文字,这些文字行本身多角度且字符的笔画宽度变化大,但是美团借助“OCR+全卷积网络定位”实现这些文字的定位和精准识别。相信随着OCR技术的发展,以后基于OCR场景识别发展起来的各种识别技术必然会给我们的生活带来更多的便利。
⑧车标弯曲字符