OCR汉字识别系统获取纸质图片资料文字信息技巧

2017-08-22 09:10钟子喆韦军朱凤印
现代交际 2017年16期
关键词:原理技巧方法

钟子喆+韦军+朱凤印

摘要:OCR汉字识别系统通过扫描仪扫描,能快速将纸质文本信息转换成Word可编辑文本,极大地提高了工作效率,因此漢字OCR识别技术有着广泛的发展前途及实际应用价值,文章提到的具体操作方法可以有效地应用于实际工作当中,供同行参考。

关键词:OCR汉字识别系统 原理 方法 技巧

中图分类号:TP391 文献标识码:A 文章编号:1009-5349(2017)16-0191-03

一、 什么是OCR?

OCR是(Optical Character Recognition)的缩写,即光学字符识别,也可简称文字识别。它的工作原理就是通过电子设备检查纸质资料上打印的字符,采用光电转换装置将汉字或字符转换成电信号,并由计算机进行检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。[1]

衡量OCR系统性能优劣主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。[2]早期的OCR软件在识别率等方面不是很理想。文字识别的工作只能由简单的识别软件逐字进行,无法分辨不同的字体,对于手写体或是印刷效果不清晰的印刷品,在识别上有一定的难度。有人做过实验,对于印刷品模糊或是手写体过于潦草的汉字,识别后的修改时间与正常打字的速度相差不多,有时甚至还赶不上人工打字的速度。但是随着这项技术的日趋成熟,识别软件已经进入了人工智能阶段,它不仅能识别黑白印刷体汉字,还能识别灰度和彩色印刷体汉字,识别正确率能达到99% ,对于手写汉字识别率已达到70% 以上,对于大批量的印刷文字向电子文档的输入,OCR汉字识别效率与识别率都能让用户十分满意。[3-12]

二、 原理与功能模块[4]

OCR的功能是将各种录入汉字、印刷体或手写体中每个汉字的图形或图像通过计算机辨认出来,并标出汉字类别代码,从而获取文字及版面信息的过程。[2]因此,汉字识别归根结底是一个图像识别问题。由于汉字信息量很大,具有不同的字形、字体,而且结构复杂,因此汉字识别的过程极其复杂。汉字识别系统可由汉字图形输入装置、予处理器、识别器、后处理器几部分组成。如图1所示。

汉字图形输入装置主要功能是通过光、电输入设备,将原稿转换成二维点阵图形。所谓的原稿指的就是印刷的纸质资料。

予处理器是指对印刷的纸质资料文稿页,进行成分分析、字符的分割、去干扰等。

后处理器是对识别后的词组、词条和上下文关系进行后期纠错、输出。

三、OCR适合对象[4]

(1)印刷行业、文印店经常会遇到客户只给你一本厚厚的宣传册,要明天之前必须把那本宣传册上的文字原原本本打出来。OCR能极大地减轻录入工作强度、提高录入速度,是非常快捷、省力的好帮手。

(2)办公室工作人员经常会遇到要马上把纸质文本打印成Word文档的工作,对于打字慢或是懒得打字的人,为了完成工作任务,OCR是非常好的选择。

(3)其他对象:广泛应用于网上资源数据库、数字化图书馆、档案部门,尤其是对于原始纸质文件、档案、书稿等的引用、检索数字化工作,OCR能轻松提高效率。

四、OCR系统识别汉字的方法

文字识别模块是OCR软件的核心部分,它主要对输入的汉字进行“阅读”,但不能一目多行,必须逐行切割,一个个字的辨认,即单字识别,再进行归一化。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找可疑字,具有前后联想等功能。[4]

(一)汉字识别所需硬件、软件

一般来说进行汉字识别只需要一台计算机、扫描仪即可。OCR汉字识别软件在购买扫描仪时会自带,安装在本机上运行即可。不同的扫描仪所附带的OCR汉字识别软件是不一样的。目前,市面上的OCR软件有丹青、汉王、蒙恬OCR、清华紫光、尚书等。OCR软件的种类虽然很多,但其使用方法大同小异。现以清华紫光OCR2003专业版为例,介绍其具体操作过程和使用技巧。[5]清华紫光OCR2003专业版具有识别率高、支持表格识别等特点,流程分为四步:获取识别图像;图像版面处理;识别及修改;结果输出。[6]

(二)设置扫描模式及扫描

在本机上安装好清华紫光OCR2003千禧版之后双击桌面图标,打开扫描仪对扫描参数进行设置。如果选择“直接终扫”,系统只进行一次扫描。“直接终扫”能节约时间,但是前提是要把需识别的纸质文本在扫描仪中放好,扫描时尽量不要出现歪斜现象。

扫描时采用的分辨率是识别过程的关键。一般杂志或报纸需300dpi的分辨率就能足够供OCR产生良好的识别效果,以激光打印机输出设备的纸质文件在300dpi的扫描品质下,识别率可以达到99%。[7]扫描完成后,利用紫光OCR2003千禧版对该纸质文件进行识别。拖动中间或是右侧工作区域内的蓝色线框,可调整识别范围,框选部分颜色会以黄色显示,如图2所示。

(三)倾斜矫正和版面分析

OCR系统有自动倾斜矫正和手动倾斜矫正两种方式,建议使用自动倾斜矫正。由于印刷和用户多方面操作的原因,扫描得到的图像可能有一定的倾斜角度,尤其是小的倾斜角度,在扫描中难以避免,倾斜角度小OCR系统可以自动适应,无须任何处理就可识别;倾斜角度小于10—15度时可以先进行倾斜矫正,然后再进行识别处理;如果倾斜角度大于15度的图像,建议重新扫描。[8]

版面分析是指将扫描得到的图像,划分出每一个区域块,目的是告诉OCR软件将同一版面的文章、表格等分开,以便于分别处理,并按照一定的顺序进行识别。对于划分出的区域范围,简单的图像版式笔者建议使用自动分析,报刊等复杂版式建议采用手动分析,以免遗漏所要识别的文字。[9]

(四)进行文字识别

扫描后的图像文件,经过倾斜矫正、版面分析等处理后,即可进入识别阶段。识别窗口菜单栏上有“横排正文”按钮

和“豎排文字”按钮

,如果没有其他的复杂的内容,一般默认用

就可以,不用进行版面分析就能识别。识别是OCR系统的核心,为了保证正确地识别,应按以下的步骤进行。

(1)选择正确地识别字体。[10]选择工具面板上的

按钮旁边的小黑三角,根据识别图像的具体情况选择字体 。

简体多体(印刷体)——常见的宋体、仿宋体、黑体、楷体、圆体

繁体多体(印刷体)——常见的宋体、仿宋体、黑体、楷体、圆体

纯 英 文(印刷体)——常见的英文多种字体

手 写 体——要求笔记规范、不潦草

(2)在展开的左侧面板下拉列表中选择“TMP0000.TXT”,同时,软件右侧会自动显示需识别的扫描文字,如图3所示。

(3) 点击OCR系统工具条中的【全部识别】

按钮之后,面板被分为上下两部分,如图4所示,其中上部分显示已经识别出来的字符,下半部分是扫描原稿。识别体现OCR的核心技术。从扫描文本中分检出的文字图像,计算机根据方案的笔画、特征点、投影信息、点的区域分布等进行分析,并将其转变成文字的标准代码的过程。[11]

图中醒目的红色汉字,表示系统识别认为有误,需要进一步识别和确认。同时,系统还提供了相似的文字供选择。因为大部分汉字已经被识别,红颜色显示的只有小部分,需要使用者逐个比对。如果想要对于识别过的图像进行再次识别,系统会出现对话框,提示是否覆盖已有的识别结果。

(4)对已识别的文字进行保存。点击【导出】按钮

→【保存类型】→】, 或Word的RTF文件,文件名为“扫描1”。用记事本打开识别 “扫描1” 文件并将其拷贝/粘贴在Word中,对其进行编辑和格式调整即可。

五、结语

使用OCR软件时要保证印刷品的清晰度,是真正提高工作效率的关键,如何除错或利用辅助信息提高识别正确率,仍是OCR最重要的课题。

参考文献:

[1] 徐永芳.OCR技术在档案数字化过程中的应用[J].艺术科技,2011(2).

[2] OCR文字识别系统[EB/OL].http://zhidao.baidu.com/question/277594055.html, 2011-06-09.

[3] 白桦.提高OCR识别率[J].电脑知识与技术,2004(34):4.

[4] 丁龙,陆俞,颜世崇.汉字OCR的原理、方法与应用[J].高师理科学刊,1998,18(6):19-21.

[5] 王桂敏,齐凤河. OCR软件使用经验浅谈[J].科技信息,2006(6):18.

[6] 詹庄影.OCR文字识别系统使用技巧[J].华南金融电脑,2002(11):81.

[7] 印刷体OCR识别技术[J].企业标准化,2004(5):44.

[8] 蓝色理想.OCR 图片文字识别图解教程[EB/OL]. 2006-11-20[20012-03-08].http://www.blueidea.com/computer/soft/2006/4278.asp.

[9] 可可豆.自己动手提高OCR 识别率[J].广东电脑与电讯,2003(3):81.

[10] OCR文字识别技术[EB/OL].2006-03-07[20012-03-08].http://news.pack.cn/packtechnology/bzxjs/2006-03/2006030714050309.shtml.

[11] 浅谈文字识别软件OCR [EB/OL].http://wenku.baidu.com/view/5961ef68af1ffc4ffe47ac58.html.

[12] 深入探究光学字符识别软件——OCR[EB/OL]. 2004-05-13[2012-03-08].http://info.printing.hc360.com/HTML/001/010/001/29952.htm.

Abstract: OCR Chinese characters recognition system is scanned by a scanner, can quickly be paper text information into Word editable text, improved work efficiency greatly, so the Chinese characters OCR recognition technology has a broad development prospects and practical value, this article refers to the specific operation method can be effectively applied in practical work, for reference.

Key words: OCR Chinese characters recognition system, Principle ,Method, Skill,

猜你喜欢
原理技巧方法
求数列和的几个技巧
浅析狭义相对论的建立及其原理
浅析狭义相对论的建立及其原理
指正要有技巧
提问的技巧
例谈三角恒等变换的常用技巧
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法
捕鱼