唐文博 李瑜 杨露 左佳未 刘涛 张文娟
摘 要:随着现代编程技术的飞速发展,使得企业对纸质档案的管理方式向数字化和信息化转变成为了必然的发展趋势。档案是在企业运营发展过程中形成的重要资料,对企业未来的发展起到举足轻重的作用。但是在档案的日后使用中,纸质档案和扫描生成的图像还是存在无法针对档案的具体内容进行检索和引用等操作,这对档案的利用工作造成很大的不便。考虑到日后的档案管理利用需求,需要将纸质档案转化为真正的文本形态的电子档案,这样才能更好的利用智能档案管理系统进行档案管理工作。本文介绍了国内外OCR研究现状然后简单的介绍了OCR技术的原理,最后介绍了OCR技术在档案管理工作中的应用。
关键词:档案管理;OCR;图像处理;文字识别
绪 论
随着计算机技术的飞速发展,电子设备的快速迭代进步,信息技术对于大部分企业的现代信息化产业起到了巨大的推动作用。为了适应数字化进程的飞速发展,企业需要将信息转化为能被计算机接受和处理的形式,这样一来企业首先面对的便是如何将纸质信息数字化的难题。纵观人类漫长的发展历程,我们会发现大量对于人类文明的记录都是出现在文字和记录媒介之后,所以用文字来记录信息对于人类的发展起到了至关重要的作用。即使现在计算机技术慢慢的在人们的生活中普及,但是在企业的生产运作中产生的大量资料都还是储存在纸质档案中。
对于大部分企业的档案管理工作来说,都会面临着将大量纸质档案信息化然后录入计算机的难题。即使现在大力推行档案信息化的发展,依然还有海量的历史遗留档案保存在档案室中,仅仅只有部分的档案通过简单的拍照上传方式处理,以照片的形式存在数据库中并不利于后续生产工作任务中处理和维护,而且以这种形式存储需要大量的存储设备,耗费财政收入。 并且现阶段采取人工检核手工录入成本非常高,工作量巨大且效率非常低。
国内外研究现状
光学字符识别(Optical Character Recognition)是指通过利用现代计算机编程技术,对纸质文件的电子图像副本进行处理和分析,以获取文件的原始文本信息等数据的过程。OCR识别技术其实是由计算机视觉系统研究领域的一个分支技术演变而来,和人工智能技术和识别模式方向有着不可分割的密切联系,是现代计算机发展过程中的热门技术。同时,OCR技术也是实现文字录入技术向高速度和高精度的发展的必要技术条件。
在OCR 技术茁壮成长的生命周期中,最先诞生的成果便是对印刷体的数字识别技术,这项技术在当时是众多文字识别中最成熟的。OCR的首个专利早在1929年便被一位德国科学家取得。然后随着社会的发展,欧美国家产生了大量有价值的书籍,报刊和镇府文件等有存储价值的资料,在大量信息存储需求的推动下,各国展开了对对常用语言如拉丁文、英文等语言的OCR识别技术的研究,意图取代传统的手工录入模式。到了二十世纪末,伴随计算机技术的蓬勃成长,拉丁文、英文等光学字符识别技术等到普及渗透于各个领域,将浩如烟海般的文字材料能够便捷、迅速、节省人力财力并且及时录入计算机中。
国内对OCR算法的研发相比欧美国家起步较晚,从1970年开始,我国开始对OCR识别领域投入充足的科研经费和科学人才进行支持,在这种环境下我国的识别技术获得了飞跃式的进步。
OCR技术简介
从宏观的角度来了解OCR技术的话,会发现主流OCR技术主要可以分为两个阶段,分别为图像处理阶段和文字识别阶段。
图像处理
在图像处理这一阶段,所做的工作就是对原始的图片资料进行一系列的加工处理,为揭晓来的文字识别阶段做好准备。本节会以图1为例子,介绍说明图像处理阶段所需要进行的工作。
1.灰度化
首先进行的工作便是对图片进行灰度化处理如图2所示,灰度化是将一张彩色图片转化为灰度图片的过程,灰度化以后的图片只有黑白灰三种颜色,但是仍然保存了图片整体的色度以及高亮等级的分布特征,可以有效的降低后续的计算量。
2.二值化
对图片进行灰度化操作之后,图片中仍然存在许多影响因素,所以需要再做进一步进行二值化处理,如图3所示。
二值化最重要的操作就是为图片选择一个适合的阈值,这个阈值过高或者过低都會影响二值化最终的成果。然后根据这个阈值,我们可以将图片中的所有图像数据归类到两种截然不同的类型中去。最终,经过二值化的灰度化图片将不再包含灰色,仅仅剩下黑白两种颜色,这就是二值化的最终效果。
3.图像降噪
在现实中工作中,图片会因为受到人工操作失误和成像设备内部老化的干扰而产生意料之外的噪声干扰,而为了减少图片中的这些影响我们需要对图片进行降噪处理,降噪结果如图4所示.
从二值化过后的图片中,如果仔细观察我们会发现有大量细小的墨点分布在图片的每一个部分,这些墨点就是这张图片中需要消除的噪声,如何处理这些墨点对OCR识别的结果会起到决定性的影响,所以我们在这个阶段需要进行降噪处理。
4.倾斜矫正
在实际操作的时候,人们通过拍照或者扫描的生成的图像资料不可能完全的水平,所以在切图之前,我们需要通过算法对图像资料进行旋转处理,只有当图像资料接近完全水平时,切图工作才能准确的分割图像资料。
5.文字切分
目前,主流的资料都 是多行文本的形式进行保存的,在对这种形式的图像资料进行切割工作主要可以分为行切分和字符切分两个步骤。文字切分的主要原理就是将上一步处理之后的文字投影到y轴上,并将所有的特侦知加在一起,这样得到的就是一个关于行字符的特征直方图,如图5所示。
对于一段多行文本来讲,文字切分包含了行切分与字符切分两个步骤,倾斜矫正是文字切分的前提。我们将倾斜矫正后的文字投影到 Y轴,并将所有值累加,这样就能得到一个在y轴上的直方图。
在这个直方图之中,越靠近y轴说明文字特征越少,当图像完全靠经y轴就说明这一部分是背景区域,根据这个规律,我们就可以将每一行文字单独识别出来,如图6所示。
接下来的字符切分和行切分所使用的原理大致相同,只是将投影的方向从y轴变为x轴,如图7所示。
值得注意的是,当两个字符之间的距离较小时,程序可能不会将两个字符分开,又或者有些左右结构的汉字由于中间存在间隙,导致被切割为两个字符,这些都会导致最终的识别结果出现偏差。对于这种情况,现在主流的处理方式就是在进行字符切割时,提前为字符间距设置一个理想的期望值,这样在对字符进行切分时便会大大降低出现错误切分的情况。
文字识别
通过文字切分对图像资料中的文字进行区域划分后,就可以对区域内的文字进行识别,文字识别有以下几个步骤。
1.特征提取和降维
每一种文字都会有自己独有的特征,这种特征使对不同种类文字的识别具有了可行性,也是程序进行识别工作的重要信息。就拿常用的几种语言来进行说明,英语和阿拉伯数字因为其字母种类较少,分别为10和52个字符,所以他们的特征就容易提取。但是对于汉字来说,特征提取的难度就大幅增加,因为汉字不仅拥有大量的总数,并且字体结构相当复杂,所以拥有极大的特征维度。
所以在确定识别对象是中文后,我们需要对识别对象的特征维度进行降维,否则分类器的效率会受到非常大的影响。并且,降维的程度和很重要,既要降低维数提升识别要率,也要保证降维后的特征向量有足够的信息量去识别不同的文字。
2.分类器设计、训练
分类器是在文字识别中,对样本资料进行分类的方法程序的统称,我们的任务就是根据根据识别样本然后设计出对应的设计器,现在主流的设计方法会选择模板匹配法和神经网络分类法。在设计好之后,设计器往往还不能直接使用,我们还需要用监督学习的方法对设计器进行训练之后才能投入使用。
3.后处理
分类器的处理结果仅仅相当于一份草稿,我们还需要对对这份草稿进行处理,这和自然语言理解有很大的关系。主要的处理内容就是对形近字和文字排版进行特殊处理。
OCR技术在档案管理中的应用方式
最近几年,只能档案管理系统开始逐渐应用OCR技术来提高档案管理的工作效率,實用的应用方式有以下几种:
1.提取档案内容
在阅读纸质档案时,常常会出现需要使用档案某一部分内容的情况,这时使用OCR文字识别功能对目标内容进行扫描识别操作,可以直接提供目标文本的电子拷贝,可以有效的减少信息利用过程中的重复劳动,提升工作效率。
2.制作电子档案
档案管理员可以在档案新建,入库时利用OCR技术制作对应的电子档案,在档案利用者来申请档案借阅等工作时优先提供电子资料,减少档案管理工作人员去档案库寻找档案的次数,并且纸质档案丢失损坏问题也得以解决。
3.建立文本数据库
通过OCR文字识别和区块链技术建立一个和纸质档案一一对应的电子档案数据库,可以为全文检索提供对应的条目数据。通过全文检索来搜索档案或者是目标内容可以在提高检索效率的同时,降低档案管理人员的工作量。
结 论
综合上文所述,在档案数字化的过程中,使用OCR技术可以有效地提高档案录入与输出的速度与质量,减少档案管理工作所需的工作人员及其工作量,最大限度地降低了档案管理工作中的人力消耗。然而,只有解决了OCR识别率方面存在的问题,该技术才能真正地促进档案数字化的发展。
参考文献
[1] 马泽. OCR文字识别技术在不动产数据整合中的应用——以广东省清远市清新区为例
[2] 刘明英. 档案数字化过程中OCR技术的应用分析
[3] 胡泽枫.基于OCR的批量发票识别系统研究与实现
[4] 陈小庆.基于Android平台的OCR识别技术研究与实现
[5] 邱联鹏. 非结构化数据在社保行业中的应用研究
[6] 宫天丞. 关于光学字符识别实现原理简述