【摘 要】 本文阐述了光学字符识别概况和提高光学字符识别率应注意的问题,分析了光学字符识别技术的优势,探讨了光学字符识别在博物馆的应用问题。指出,在博物馆数字化建设中,很多野外拍摄的文物古迹图片、名人字画、书籍等需要在网上展出,而图片里面的文字却不能被计算机索引,手工输入又比较慢。借助光学字符识别后,这些困难就迎刃而解了,在保证录入质量的同时还极大的提高了工作效率。
【关键词】 博物馆;数字化建设;光学字符;应用
在信息时代,数字博物馆是传统博物馆面向新世纪、适应新发展要求的产物。要建立数字博物馆,首先要使博物馆数字化,很多纸张的文档信息要转变成数字化信息。然而,扫描所产生的电子文档上只是以图形文件出现,不能直接引用、修改、查询,非常不方便,而且利用率也很低。如果能得到文本文档,以上的不足就能轻易地解决了。要得到文本文档,便要应用到光学字符识别技术。
一、光学字符识别概况
光学字符识别是通过光学字符识别软件,将含有文字的图像的图形文件,转换成文本文件。光学字符识别的工作主要有:输入影像、处理影像、文字特征抽取、比对识别、校正,输出保存。
二、提高光学字符识别率应注意的问题
提高数字化过程中的光学字符识别率就意味着减少工作上的人力、物力和精力,提高文档数字化工作的效率,降低了文档数字化的成本。要提高光学字符识别率,关键应注意以下几点:
1、光学字符识别软件的选择
光学字符识别的软件有清华紫光、汉王、清华文通等。这些软件可以从网上下载,但要选择图像质量好并且图像中的文字都是标准字体的情况下识别率才能达到预想的效果,否则便错误百出。
2、扫描参数的设置
在使用光学字符识别处理图形文件时,首先要设置扫描参数,这样光学字符识别率才会提高。
(1)设定分辨率。分辨率大时,一些存在扫描失真的扫描仪,容易造成错误的识别,识别率降低,文件变大,不便于存储和传输。分辨率小,图像的像素点就少,光学字符识别软件得不到足够图像信息,识别率就不会高。因此分辨率的选择很重要,要根据不同的情况选择不同的分辨率。经验表明,300dpi在光学字符识别中最为合适。
(2)设定色彩模式。一般来说,黑白模式扫描是进行光学字符识别普遍采用的方式,其正确率和速度比其它的扫描模式图像要高,其原因是文本通常是黑白的,别的颜色会造成信息的干扰。其次是灰度模式的应用率,对于文字字迹较淡或纸张泛黄的文档,对其扫描第一步将色彩模式设成灰度,按灰度不同的级别进行图像划分,再将其像素点定为白色,其它为黑色,达到黑白模式。
(3)设定亮度和对比度。文档底色较浅或较深可设定为灰度模式,就需要通过设定亮度和对比度来进行调节。文档较浅,可调低亮度;文档较深则调高亮度,亮度和对比度的调整,使得图像更加黑白分明。
3、校对
因为任何光学字符识别软件的识别率都不能做到100%。因此,人员应该仔细校对。光学字符识别软件识别完后,有两行显示,一个是识别结果,另一个是图像。一些光学字符识别软件还会用另一种颜色显示出来加以区分,利于提醒用户。
三、光学字符识别技术的优势
1、录入速度快、准确率高、省时省力
光学字符识别技术与手工录入相比较,有着很大的优势。其速度比手工录入快;光学字符识别文字识别的质量也比手工录入高,其出错率也低。因此,光学字符识别既节省了人力,又优化了资源配置。
2、拓宽文档用户利用面
采用光学字符识别,将纸质文档数字化,能够使文档信息实现全文检索、编辑修改、网络传输,从而方便用户对文档内容的查询与利用,拓宽其利用面,多方面地服务于公众。
四、光学字符识别在博物馆的应用
在博物馆数字化过程,光学字符识别技术的运用主要是把纸质载体文案的信息内容利用高速扫描仪转换成计算机能识别的图像文件,如JPG、TIF或合成多頁的PDF文件,再利用光学字符识别软件的字符识别功能把不能编辑的图像文件和PDF文件中每个字符与标准的汉字数据库中字符对比,截取相同形状的字符并保存在文本编辑软件中,保持能编辑的状态,并可以进行自动标引或运用各类数据库软件的搜索引擎针对字符搜索,以达到文档信息的全文检索。
在实际文档全文数字化过程中,一般先把一份文件扫描成多页JPG、TIF或PDF文件,再运用光学字符识别软件识别并判断识别效果,并进行必要的调整和修复才可以到达全文数字化的要求。
在扫描生成页面后,光学字符识别技术针对印刷体的页面文件一般识别率可达98%以上,在自动纠错、人工校对后,基本符合文档数字化的要求。从扫描和识别的速度分析,一般中档扫描仪每分钟扫描在40-60页面左右,配合主流光学字符识别软件以及处理、分析、校对每页文档全文数字化用时在1分钟以内,装订50个页面的案卷数字化时间在30分钟左右。与人工单字符输入法相比,工作效率提高近十倍,工作强度成倍减少。运用光学字符识别技术进行文档全文数字化,工作人员可以长时间连续工作,而纯人工输入连续工作的后果是差错率的居高不下,从而影响文档信息全文的检索和使用。
光学字符识别技术在文档全文检索技术中的运用主要在于实现文档全文数据库的输入工作。如针对一卷50页的文档,文档正文和目录一般不超过51个,而全部目录在数据库著录时,对于熟悉计算机输入的人来讲不费吹灰之力,几分钟或更长点时间就可以完成,但是如需做到全文任何关键词检索,必须把每个页面上的汉字字符(可能超过500个)输入计算机数据库,50页的文件可能有汉字字符25000个左右,以1分钟输入100个中文字符计算,连续不断地输入也需要4个多小时。所以面对浩瀚如海的馆藏文物、文献档案以及每日俱增的新归文档,依赖单个字符的输入法和数量相对较少的文物档案和历史文献管理人员是无法完成如此巨大的全文输入工作量的。在文档管理工作中馆藏量和增量一般很难缩小和控制,工作人员数量很难大幅度增加,所以唯有改变数据的输入方式,提高输入效率。光学字符识别技术正是弥补了单字符输入速度慢的不足,光学字符识别率的大幅提高更是填补单字符输入差错率高的缺陷。因此,从当前文档全文数字的工作量以及计算机输入和各种文字识别技术的功效来判定,光学字符识别技术是比较适应文档全文数字化的一种技术,是实现文档全文数字化的技术基础和实现途径之一。
博物馆需要将大量的文物信息在网上发布,如果仅仅是图片,用扫描仪就可以了,但实际上大多需要的是文本信息,这是扫描仪所不能办到的。靠人工录入,耗时耗力。借助光学字符识别后,这些困难就迎刃而解了,在保证录入质量的同时极大的提高了工作效率。博物馆有很多野外拍摄的文物古迹和名人字画,图片里面的文字不能被计算机索引,手工输入又比较慢,光学字符识别技术就很好的解决了这个问题。
总之,光学字符识别不论在纸质文献、图书还是在文物档案数字化过程中都有其独特的应用。将光学字符识别技术恰当运用,既节省人力物力,又能发挥其最大价值。
【作者简介】
叶永晟(1973.2-)男,汉族,陕西榆林人,内蒙古包头博物馆助理馆员,本科学历,研究方向:文博.