◆郭 军
(铁道警察学院 河南 450000)
基于OCR软件性能的文本型数字图像OCR识别准确度提高策略研究
◆郭 军
(铁道警察学院 河南 450000)
本文以OCR软件性能为视角,从对图像噪声的免疫力、对标点符号的辨识、数字图像预处理能力、能够辨识的内容范围、交互界面便捷性、软件自学习功能等7个方面对OCR识别准确度的影响因素展开分析,并提出相应针对性的应对策略。
OCR识别;文本型数字图像;信息资源数字化
OCR(Optical Character Recognition,光学字符识别)这一概念最早于1929年由德国科学家Tausheck提出[1]。信息资源数字化工作的目标对象,是大量甚至海量的纸质载体或固体载体形态的文献资源,OCR凭借自身的智能识别及批量操作性能得以在信息资源数字化工作中广泛应用。信息资源数字化工作中的 OCR识别,其生命周期可以划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和OCR文本识别等四个阶段[2]。OCR文本识别,是信息资源数字化 OCR识别生命周期中的最后阶段,是决定识别准确度的关键阶段。本文尝试以OCR软件性能为视角,对 OCR识别阶段影响识别准确度的相应因素展开分析并提出针对性的应对策略。
笔者曾借助具体的 OCR识别案例对清华紫光股份有限公司的 TH-OCR MF7.5、北京汉王科技股份有限公司的HW-PDF-OCR8.0等两款常用OCR识别软件的性能进行分析[3],结果表明 OCR识别阶段软件性能是影响是识别准确度的关键因素。具体而言,文本识别阶段OCR 软件的性能优劣主要体现在对形近字符的辨识、对图像噪声的免疫力、对标点符号的辨识、数字图像预处理能力、能够辨识的内容范围、交互界面便捷性、软件自学习功能等7个方面。
1.1 对形近字符的辨识
文本型数字图像的 OCR识别,实际上是基于字符图案笔画边缘特征的模板匹配过程[4]。形近字符(如“籍”和“藉”、“璧”和“壁”)之间在笔画边缘部分存在较大相似度,辨识过程中容易造成 OCR软件的误判。信息资源数字化实践证明,因误判形近字符造成的错误识别在影响OCR识别准确度的众多因素中稳居前列。
1.2 对数字图像噪声的“免疫力”
在对文本型数字图像进行 OCR识别之前,通常均已经过了数字图像的预处理操作,一般都对数字图像中的噪声进行了降噪处理。但是,受数字图像预处理程度、文本型数字图像自身质量等因素影响,在对文本型数字图像进行 OCR识别时数字图像中往往仍然存在着不同程度的噪声。因此,OCR识别软件必须对数字图像中的噪声具备一定的抗干扰能力。
1.3 对标点符号的辨识
文本型数字图像中的标点符号具备字符图案体积小、所处空间位置特殊等两个显著特点。标点符号字符图案体积小,容易与其临近的文字字符图案混为一体,造成 OCR软件的错误辨识。标点符号字符图案所处空间位置偏僻、且成对出现的标点符号的不同部分之间往往有文字字符图案,容易对OCR软件的完整、准确辨识造成干扰。
1.4 数字图像预处理能力
在对文本型数字图像(尤其是原始印刷、排版质量欠佳的数字图像)进行正式识别之前,需要借助 OCR软件的图像预处理功能对数字图像进行微调,微调效果对识别准确度有直接影响。OCR软件的图像预处理功能主要包括图像旋转、倾斜矫正、剪切以及亮度、对比度、饱和度、清晰度调整等。
1.5 支持辨识的内容范围
文本型数字图像中的字符信息,在语言种类、字体类别、字号大小等方面经常呈现出混合排列的现象,部分数字图像的文本内容为手写体稿件,部分数字图像的文本内容中在打印版字符图案旁还存在手写体批注内容。OCR软件能够支持辨识的内容范围,不仅应包括常规印刷版面的数字图像,还应支持对综合、复杂版面数字图像的辨识。
1.6 交互界面便捷性
信息资源数字化操作过程中,OCR软件交互界面的友好、便捷程度会对操作人员的使用舒适性和最终的识别准确度造成影响。OCR软件交互界面的便捷性主要体现在页面及窗口切换、快捷键及工具栏设计、键盘操作和鼠标操作的兼容性、数据输入、编辑及输出保存的便利程度等方面。
1.7 软件自学习功能
信息资源数字化过程中,同一字符图案的辨识会经常反复多次出现。对同一字符图案的辨识,其操作具有统一性与稳定性。为确保识别准确度,OCR软件应具备一定程度的自学习功能,自动记忆存储并强化对部分特殊字符图案(形近字符、易混字符、简写手稿等)的辨识结果,并与具体的实践操作保持同步更新。
基于上述对OCR文本识别阶段识别准确度影响因素的分析,笔者认为应围绕强化OCR软件性能,从强化对形近字符的辨识、提高对数字图像噪声的“免疫力”、增强对标点符号的辨识、提高数字图像预处理能力、拓展支持辨识的内容范围、增强交互界面便捷性、强化用户自学习功能等7个方面着手提高文本型数字图像的OCR识别准确度。
2.1 强化对形近字符的辨识
(1)丰富形近字字符特征信息库
OCR软件对字符图案的辨识,基于被识别字符图案特征与OCR软件自身字符特征信息库的比对。OCR软件形近字符特征信息库,是其对形近字符进行辨识的基础和前提。为提高对形近字符的识别率,OCR软件应将各语种、各字体的形近字符特征抽取存储至自身字符特征信息库中,并在具体实践过程中将其不断丰富、完善。
(2)优化形近字符匹配算法
OCR识别的核心和关键,在于被识别字符图案特征和 OCR软件自身字符特征库之间的匹配算法。形近字符匹配算法,基于KMP算法、Horspool算法、BM算法、Shift-And算法等几种常见的字符串匹配算法演变而来。不同的形近字符匹配算法,其出发点不同、匹配识别策略不同,相应地对不同形近字符的适应能力也不同。信息资源数字化操作实践过程中,应根据被识别对象的具体情况选择合适算法的OCR软件。
(3)加强人工抽验与校对
任何一种形近字符匹配算法,在存在其识别强项的同时也不可避免地存在着识别盲区。因此,无论选用何种算法的 OCR软件,信息资源数字化过程中均需要有必要的人工校正干预环节。具体实践中,对识别结果进行全部校正不现实也没必要,可采用科学抽样的方法抽取一定数量的识别结果进行人工校正,以弥补OCR软件对形近字符的识别误差。
2.2 提高对数字图像噪声的“免疫力”
在对数字图像进行 OCR识别之前,如果原始数字图像中噪点明显且大量存在,需要先对其进行降噪处理。但是,信息资源数字化实践中对全部的原始数字图像进行降噪处理将会耗费大量的人力和时间成本。即便对原始数字图像进行降噪处理,实践证明无论如何调整滤波方案,均无法完全去除数字图像中的噪点。同时,如果对原始数字图像进行过度滤波处理,容易对数字图像中的字符细节特征造成损坏,反而会干扰OCR精确识别。因此,OCR软件自身应具备一定程度的对数字图像噪声的抗干扰能力,这是信息资源数字化流程中对抗数字图像中噪声的最后一道防线。
2.3 增强对标点符号的辨识
提高对文本型数字图像中标点符号的识别率,应紧紧围绕标点符号字符图案体积小、所处空间位置特殊这两个特点进行。可以借助提高对原始文献资料的扫描分辨率,来克服标点符号字符图案体积小的困难,但是同时应注意如果分辨率过高反而会影响识别速度和整体识别率[5]。可以通过提高OCR 软件对数字图像中各字符图案的切分精确度,来克服标点符号所处空间位置特殊的困难。
2.4 提高数字图像预处理能力
在对文本型数字图像OCR识别之前,应对其进行必要的预处理操作。为确保识别准确度,笔者认为 OCR软件的数字图像预处理性能应主要包括以下6个方面:
(1)图像倾斜校正
因原始文献资料印刷排版质量或物理损伤,造成文本型数字图像中的字符偏离水平或垂直方向,影响 OCR软件对其进行文本定位和字符分割,进而影响后续的识别准确度。因此,OCR识别之前应进行数字图像倾斜校正,OCR软件应具备自动校正和人工校正两种校正功能。实际操作中,一般是以自动校正为主,必要情况下用人工校正作为补充。
(2)图像反白
数字图像经二值化处理之后,数字图像中的字符图案呈黑色,其余背景部分呈白色。经反白处理之后,数字图像中的字符图案呈白色,其余背景部分呈黑色。借助图像反白处理,可以在黑色背景下把存在于数字图像中的噪点凸显出来,便于后续的降噪处理。
(3)图像版面分析
在版面语种方面,OCR软件应支持对常见语种(如中文、英文、法文、德文)及混合语种内容版面的分析能力,应能够根据版面语种的不同采取相应的版面分析策略。在原始文献资料的出版物类型方面,OCR软件应支持对图书、期刊、报纸等常见出版类型的版面分析能力,应能够根据出版类型的不同采取相应的版面分析策略。在版面分析功能类型方面,OCR软件应提供自动版面分析和手动版面分析两种选择,应支持常规情况下进行自动版面分析,特殊情况下辅以人工版面分析。
(4)版面属性设置
文本型数字图像在语种、字体、排版等方面的存在较大差别,尤其是部分文本型数字图像出现多语种、多字体、多版型混合排版的情况。因此,针对有特殊排版情况的文本型数字图像,OCR软件在对其进行识别之前应进行针对性的版面属性设置以确保精确识别。
(5)图像旋转
因原始文献资料印刷排版质量或者数字扫描成像阶段操作不慎,容易造成文本型数字图像在水平或垂直方向上产生一定角度的倾斜。为确保对文本型数字图像的精确识别,OCR软件应具备图像旋转功能,一般应支持在顺时针(或逆时针)方向上连续旋转90度,并支持在顺时针(或逆时针)方向上连续旋转任意角度以供选择。
(6)图像剪裁
因原始文献资料印刷排版质量欠佳,或流通使用过程中产生污损,或在数字扫描成像阶段操作不慎,容易在文本型数字图像边沿或文字区域形成明显的噪点。借助数字图像剪裁功能,OCR软件可以轻松去除这部分噪点。
2.5 拓展支持辨识的内容范围
信息资源数字化实践中,原始文献资料在载体形态、语种、字体、字号等方面呈现出多样性和复杂性的特点。为确保精确识别,OCR软件在面对种类繁多、类型不一的文本型数字图像时应具有广泛的适应性。一方面,OCR软件应支持对常见语种、常见字体、常见字号单独或混合排列的文本型数字图像的识别。另一方面,OCR软件应支持对含有手写字体、毛笔字、常规文字行间及旁边的批注、艺术签名等内容的文本型数字图像的识别。
2.6 增强交互界面便捷性
根据具体的文本型数字图像 OCR操作实践,笔者认为应从以下5个方面着手增强OCR软件的交互界面便捷性。
(1)文本型数字图像OCR识别过程中,在版面分析、图像旋转等环节需要将数字图像的局部与整体进行对比操作。OCR软件应能提供局部图像与整体图像的对比分析界面,并能提供相应的快捷键设置选项。
(2)OCR软件应能在“后编改”界面下,将被识别的文本型数字图像的原始内容、初次识别结果及其他备选识别结果在同一窗口下集中展现,以供用户对初次识别结果进行必要的判断、编辑与修正。
(3)信息资源数字化过程中,在对文本型数字图像进行批量识别操作时需要将正在识别的数字图像、已经识别的数字图像和尚未识别的数字图像之间进行参照,OCR软件应能够将某一单个数字图像和整批全部数字图像之间建立链接与映射。
(4)OCR软件应结合信息资源数字化具体实践操作需求,提供常用功能造作的快捷键。同时,OCR软件应支持对快捷键的隐藏、显示、编辑、重设等操作。
(5)OCR软件应支持用户对识别结果存储路径和保存格式的选择。在存储路径方面,OCR软件应能够支持对识别结果存储路径的预设与编辑操作。在保存格式方面,OCR软件应能够支持txt、doc、log、conf 等常用文本格式。
2.7 强化用户自学习功能
OCR软件的用户自学习,是指在信息资源数字化过程中,用户根据实际情况用新的字符图案匹配选择替换已有相应的字符图案匹配方案,是 OCR软件在用户的干预下更新字符特征匹配信息库的过程。一方面,OCR软件借助用户自学习功能能够实现对字符图案匹配方案的不断更新与优化;另一方面,新的字符图案特征匹配方案也可能只是对已有匹配方案的补充但并不能将其完全替代。因此,在信息资源数字化操作实践过程中,OCR软件应能够支持在向用户推送新匹配方案的同时,向用户提供是对原匹配方案进行补充或是替换的选项。
[1]Schantz,Herbert F.The History of OCR,Optical Character Recognition[J].Recognition Technologies, 1982.
[2]臧国全.文本数字化图像OCR识别的准确度测度实验与提高[J].图书情报知识,2010.
[3]郭军.两款常用中文OCR软件的性能比较实验与分析[J].情报探索,2011.
[4](日)谷口庆治.数字图像处理—应用篇[M].北京:科学出版社,2002.
[5]张青杨.提高OCR识别率的诀窍[N].电脑报,2005.