文本数据质量的发展离不开海量的原生数据和网络原生数字资源的支持。原生数据包括业务数据、文献数据和用户数据三大类型。其中,文本数据是支撑文献数据搜索引擎和知识化资源系统建设的主要对象。目前对于文本数据质量控制存在流程复杂、数量巨大和技术效率要求较高的问题,OCR识别技术因此备受关注,其采用人工智能的辅助算法,OCR可以提高其兼容性。本文通过综述OCR 技术的识别工作过程、关键技术、研究思路及在不同种类文献中的广泛应用,表明通过改善OCR技术可以提高对于文本数据的识别效率和准确度,实现文本数据的智能管理化。
(一)OCR技术原理及其发展
OCR技术即光学字符识别,是一种将图像文字转换为可编辑文本的技术,方法包括两个主要环节:首先是图像处理过程,利用扫描仪、数码相机等电子设备,通过光学和电子信息技术将印在或写在纸上的文字转化为点阵图像,以检测亮暗的方式来确定字符间的轮廓形状。通过字符识别研究文字形状特征,最终转化为计算机语言文字。OCR的实现过程融合了人工智能、数字图像处理以及计算机图形处理等多种先进信息技术。随着互联网和人工智能技术的不断发展,OCR识别技术己经可以从识别特定文字发展到对文字进行高精度的识别,识别速度大幅提高,对于清晰工整的文字图像识别准确率甚至可以达到99.5%以上。
(二) OCR技术应用现状
目前OCR 技术根据识别类型主要划分为中文简繁体识别、中英文混合识别、大字符识别、表格识别、图文混排文档识别;根据识别对象的字体上可以划分为印刷体识别、手写体识别等,甚至还可以识别视频图像文字。OCR技术的发展满足了用户对于文字自动识别的需求,广泛应用于我国各行各业,包括金融机构、政府医疗、图书馆、档案馆等单位。网页识图,AI 智能输入法,快递单号识别系统,高速公路ETC 通道车牌自动识别,图书馆书刊报全文数字化等,实际上都是利用OCR 技术原理来解决实际问题。
本段主要以笔者在实际工作中质检不同类型的文献数据为例,通过阐述文献数据验收中发现的主要问题来分析OCR在全文本数据加工中的质量控制问题。
(一)学位论文文献
由于传统的资源建设和服务方式已经不能满足读者日益增长的需求,导致学位论文资源建设的规模和国际影响力显著下降。因此,重视学位论文的数字化,进一步加大学位论文全文本数据质量控制的建设势在必行。
在实际验收学位论文的工作中,主要问题存在于论文的英文摘要、英文目录及其论文文献标引这三部分。由于与汉字相比,外文字母数量和结构相对简单,但依然存在相似字母与数字识别困难的问题。例如:V与U、I与J、a与d、c与o、i与L、6与G、L与I,I与1、O与0等。这些字母和数字由于结构相似,造成较高的识别错误率。在经过OCR软件识别后需要重点进行人工校对。
在英文词组切分的方面,O C R软件在进行词组切分时,如果不能正确切分,就会导致固定词组错误。实际中常见:“Domestic Subscription”识别为“DomesticSubscription”、“Council of the People′s”识别为“Councilofthe People′s”等情况。此外,根据英文的行文习惯,经常存在同一个单词分成上下两行书写的情况,中间或用连字符(—)或不使用连字符,OCR识别时主要依据“原样识别”的原则, 这样同一个单词可能被切分成两个单词,针对这种情况,应采取统一的识别规则,如果需要恢复单词原意,则需要进行针对性的处理。
在论文文献的书写和引用中,存在大量外形相似的标点和符号,例如:“, 。 、 .”、 “— _”、“[{ 〈”等。这些标点符号的结构形态也常与纸张上的污渍杂点相近,OCR识别过程中经常混淆,造成文本信息错误。对于不太常见的符号,例如上角标、下脚标、波浪线、下划线、注解中的圈注符号、汉语拼音的音节等,大部分OCR识别软件在识别过程中仍然存在一些问题。例如:
(1)“M2”识别为“M2”,二次方符号没有识别正确。
(2)“Xīmén ànshā”识别为“Xīmén Anshā”,汉语拼音的注音符号没有完全识别。”
(3)“或者标明或标记”识别后为 “或者标明注或?标记“,带圈文字识别错误。
(二)政府公报文献
政府公报是指政府机关出版发行的以登载法令、方针、政策、宣言、声明、人事任免等各类政府文件为主要内容的连续出版物。政府公报具有较强的权威性,因此对OCR识别准确性和内容还原度都提出了较高要求。
(三)民国时期文献
民国时期文献涵盖图书、期刊、报纸、手稿、书札,还包括海报,老照片、电影、唱片,以及非正式出版的日记、传单、商业契约和票据等。据初步估算,国内民国时期文献数量超过了存世的古籍总量,它们散落在全国各地的藏书机构。随着时间的推移和社会的进步,民国文献质量的保护与利用越来越受到重视。其中文献数字化的质检工作,是保障数据质量的最后一个环节,OCR软件对于全文本数据质量的控制问题尤为关键。
在质检工作中,民国文献数据质检内容分为目次数据和图像数据两部分。目次数据的问题主要集中在元数据中的book表和catalog表中,例如:book表中,book_ name为“人格修养法”,原书上实际显示为“独立自尊人格修养法合册,catalog表中chapter_name识别为“复活后第五主日即升天前主日”,原书上实际应为“耶稣升天前主日”、 catalog表中chapter _name识别为“器物妆饰”,原书上实际应为“器物装饰”。这种漏识、多识、错识的情况常见于经过OCR软件识别后的书目目次数据中。
对于图像数据,其主要问题多存在于书中表格识别和科学公式还原的问题上:
1.不同种类易错表格问题及控制办法
对于简单样式的表格,其有若干条标志性的表格线且内容属于一对一的关系,在实践中可以不转换表格格式,按照整体合并内容;对于复杂样式的表格,表格里的内容存在一对多的关系,且缺少表格线作为标记,在实践中可将表格整体作为图片进行处理。当然,也可以采用文本编辑的方式重新按照原样绘制表格。对表格采取何种处理方式,主要是根据数据文件的格式、用途而定,根本原则是避免识别后表格中文字内容漏识、错识以及对应关系识别错乱等问题。
2.科学公式还原问题及控制办法
政府公报发布的一些文件中包含科学公式,由于科学公式通常采用特殊符号或采用特殊结构,仅通过自动识别难以达到完整正确还原公式的目的。一些公式经过自动识别,其格式不能完全还原,导致公式含义发生变化。针对这种情况,在实践中可以采取格式转换的方式,将固定格式的公式按照其科学含义转换成文本文件能够显示的样式。
OCR 文字识别系统性能的好坏主要由拒识率、误识率、识别速度、用户界面友好性、产品稳定性、易用性以及可行性等因素构成。本段主要讨论如何通过OCR软件的工作流程及主要关键技术来解决文字“拒识率”和“误识率”这两个问题,从而提升全文本数据的质量。
(1)图像输入和预处理。在前期图像输入这个过程中设置准确适合的参数是后期图像扫描质量高低的关键所在,是决定 OCR文字识别率高低的重要因素,清晰完整的扫描图像有助提高后期OCR软件对于文字识别的准确率。扫描图像完成后是预处理过程:OCR系统对图像边缘进行检测,将倾斜图像进行归正处理。这个过程提高图像文字的准确度,利于0CR软件的识别,避免文字的“误识率”和“拒识率”。为获取更清晰的图像,OCR操作系统会对图像进行增强处理,加大图像颜色对比度,以便人、机可以更好地研究分析图像。
(2)图像分割。图像质量达到合格后是对图像进行分割处理,过程的目的是为了分离和定位需要识别的物体,将原本输入的完整图像,变成像元图像进行输出。
(3)图像特征提取和图像分类。即将分割后的物体提取系统所需特征,根据特征进行分类。目的是将输入的信息图像变化为特征信息进行输出。
OCR系统完成上述操作后,文字可达到较高的准确率。未识别合格的文字是由OCR软件的“拒识率”和“误识率”等因素造成的,需要后期人工干涉进行文字校对。因此加大后期人工校对力度是保障文字识别率提高的关键所在。
结合文献中全文本数据加工存在的主要问题和OCR系统软件的部分工作流程分析,提高OCR识别率的方法可从以下四个方面入手:一是完善OCR软件系统的预处理过程:设置准确合适的图像扫描参数、利用Photoshop软件编辑完善图像,避免图像文字受到外在因素的干扰,从而提高图像文字的清晰度,利于0CR软件的识别;二是建立完整的字库进行支持,及时更新文字字库,扩充字库中的生僻汉字也可降低OCR文字识别软件的“拒识率”,从而提高全文本数据质量;三是建立专门的错题库,将典型特殊的问题汇总,当OCR系统再次遇到同样错误时可有针对性的避免重复问题发生;四是加大人工通查校对力度。目前OCR技术仍不能做到对于文本数据内容百分百正确识别,后期人工校对环节对于提高OCR识别率十分重要。
OCR技术目前趋于成熟发展,但仍存在一定的问题和局限性,为解决其对于文本质量控制的主要问题,本文从OCR技术原理及其发展应用现状为出发点,介绍 OCR技术在实际中的应用,同时依次以OCR软件在学位论文、民国文献、政府公报数据中对于文本数据加工中出现的问题为例,分析文本数据质量的控制问题。通过OCR软件识别过程、关键技术、研究思路及在多种文献中的应用四个方面说明OCR技术在文本质量控制和管理中的重要作用。通过汇总分析实际工作数据验收中存在的问题,分别从如何解决图像扫描质量问题和文字识别问题两个角度出发,提出提高文本数据质量控制操作准确率的相关建议。
作者单位: 国家图书馆