杨俊叶++王训伟
摘要:文章首先对OCR技术的发展背景进行了介绍,指出了OCR文字识别系统在扫描仪、文字编辑等领域的应用及优势。通过对OCR技术工作原理的介绍,重点论述了OCR文字识别系统主要的图像处理模块、版面分析模块、文字识别模块、文字校对模块及输出模块的功能、实现方式以及技术要点。文章最后从更精准的文字编码库和一种到多种算法的改进两个方面就OCR文字识别技术未来的发展趋势进行了分析。
关键词:OCR技术;图像识别;功能模块;文字编码库
一、概述
OCR(Optical Character Recognition) 技术的中文名称是光学字符识别,通常是指通过扫描仪、数码相机等电子输入设备将纸质文档上的信息,如文字、表格和图像等信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用字符格式存储在文本文档中。随着移动internet网、高级智能手机以及微信和QQ等社交网络的发展带来了海量图片信息,图片成为internet网信息交流主要媒介之一,如果信息是由文字作为载体我们可以通过搜索引擎进行检索,但是图像和表格文字我们却无能为力,在这种情况下,计算机的OCR图像识别技术就可以解决这个难题。OCR实际上就是让计算机去识别图像为可编辑的文字,实现图像到文字的转换,通过图像处理和模式识别技术对光学字符进行识别,这是自动识别技术研究和应用领域中的一个重要方面。目前大部分的扫描仪制造商将OCR技术集成到扫描仪软件中,实现边扫描边进行OCR文字识别,扫描仪与OCR文字识别技术的完美结合,大大方便了人们对扫描图像上的文字编辑需求,OCR文字识别技术己成为绝大多数扫描仪软件的标配。
二、OCR文字识别的原理
OCR文字识别的原理是计算机对图像进行版面分析、处理和模式识别。图像版面分析是指通过对图像文字的预处理,文字图像的分割和坐标定位;文字模式识别是通过检测暗、亮的模式,放大图像确定其形状特征并进行提取和判断,最终通过图像黑白点二进制与字符编码进行匹配,根据最相近的匹配度将文字图像特征进行文字的转换。
标准的OCR文字识别系统主要包括图像处理模块、版面分析模块、文字识别模块、文字校对模块和输出模块。
(一)图像处理模块
主要是通过扫描仪设备将纸质的期刊、学位等文献数据进行扫描,一般建议扫描成线图模式(灰图或彩色图识别率低),扩展名为tif图格式,图像分辨率为300DPI,图像要进行去污点、去黑边、图像居中和图像纠偏等工作,最好不要有底纹,总之保持图像为白底黑字,图像页面整洁从而提高文字识别率。
(二)版面分析模塊
可以分为自动和手工两种方式,自动版面分析程序主要使用黑白二值法,逐页将所有文字区域部分进行画框定位并存储相应的区域块坐标;手工版面分析是指人工通过鼠标在图像文字区域进行画框,选择特定区域进行文字识别,这种方式主要应用于需要从图像提取特定区域的文字,有针对性的文字识别。另外还可以设置图像文字的横竖排版方式以及中外文字体信息等以提高文字识别率。版面分析模块原理主要是对版面划分、更改划分,即对版面的理解、字切分、归一化等,可选择自动或手动两种版面划分方式。目的是告诉OCR软件将同一版面的中英文字体、图像、表格、横版竖版方式等分开,以便于分别处理,并按照怎样的顺序进行识别。
(三)文字识别模块
文字识别模块是OCR软件的核心部分,文字识别主要使用了黑白二值法,以单个汉字“一”为例,将文字颜色取反,也就是白变成黑,黑变成白,以单字图像区域分为上下两部分,这种方式将每个字都可以划分为不同区域,将不同区域的反选区域用二进制的方式进行转换,将每个文字区域划分后生成一个二进制编码,我们预先对每个标准的文字进行二进制编码存放到数据库中,用OCR文字识别完的结果与标准数据库中的二进制编码进行比对,从而选择最接近的二进制编码文字,最终得到文字识别结果,如果没有找到相似度高的编码,则系统识别认为有误文字会以醒目的红色显示,提示用户需进行人工修改。文字识别模块主要对单个图像文字进行识别,所以必须对图像进行逐行切割,对每行汉字通常也是逐字进行识别,即单字识别,再进行归一化处理。
(四)文字校对模块
文字校对主要分纵向校对和横向校对,纵向校对是指按照顺序把文字识别结果进行排列,将识别结果所有相同文字进行调用,显示识别结果中所有相同的文字,调用识别结果同时调出对应原图进行人工比对。横向校对是指按照我们的阅读习惯逐行进行校对,显示一行识别结果和对应的原图进行校对,发现错字进行人工修改,对识别结果经常出错的文字,需要重新进行标准文字编码库改写,以达到文字精准识别。
(五)输出模块
将校对无误的文字可以输出为文本或XML等格式,输出的文本文字完全可以编辑了,同时原图像文档可以输出PDF文档用于浏览原图,也可输出符合移动阅读的电子出版ePub格式等。
三、OCR文字识别未来发展趋势
目前的OCR发展技术主要是从图像处理进行图像清洁、去污点、图像纠偏等,然后对图文进行分析进行文字切割、图文分离等最终进行黑白二值法取得二进制编码,但是对文字进行黑白二值法,用什么方法进行文字特征抽取,成为影响OCR文字识别率的关键,所以目前文字特征提取主要是统计的特征提取方法,即通过文字区域的黑白点数,当一个图像文字分为几个区域时,一个文字切割的多个区域黑白点数进行联系,就成为空间数量组合,这种算法是目前OCR文字特征的主流算法,文字识别率几乎能达到95%以上正确率。但对于我们中国汉字特征是由象形字演变而来,所以我们还可以从汉字的笔划入手来提取文字的特征,简单说就是取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对。当然无论用哪种识别算法,识别完后最终需要通过对比标准编码二进制文字数据库,当输入文字算完特征后,须有一比对数据库或特征数据库来进行比对,数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组,标准编码库精准也将直接影响OCR文字识别正确率。
所以,OCR文字识别技术未来发展趋势,一方面将在文字编码库方面更加精准,利用精准的文字编码库与识别结果进行比对,选择最优的文字识别结果,另一方面将从一种算法向多种算法进行转换,并且我们还可以利用多种算法得到的文字识别结果之间再进行比对,最终选择最优的文字识别结果,这样将大大提升OCR文字识别率。