王 瑜
(中国电建集团北京勘测设计研究院有限公司,北京 100024)
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
在信息时代的档案管理中,OCR识别是非常实用的工具。很多老旧的档案在形成之初受年代限制没有一开始就形成电子文件的条件,所以只能靠后期扫描完成数字化,这样的文件在企业中依然有着庞大的数量,而这庞大数量的未数字化的档案给档案管理带来了很大的难度,急需一种可以帮助档案管理工作人员提高效率的方式来解决问题,这个时候OCR识别自然而然的被关注。OCR技术相对于传统的手工录入方式来说,具有强大的优势,首先OCR识别的速度远快于手工录入。根据国际通行的打字速度评级标准,即使是专业人员,每分钟也仅能输入150-240个字,而采用OCR技术,即使算上前后期的处理环节所花的时间,其速度也比手工录入快很多。其次,OCR识别的准确率也远高于手工录入,在档案文本提取方面优势卓越,为后面的档案全文检索功能提供了基础,并且可以大大节省人力资源,优化资源配置,使档案人员可以从繁忙的录入工作中解脱出来,把精力分配给更加有意义的工作。
OCR识别技术分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别文本检测不是一件简单的任务,尤其是复杂的档案数字化下的文本检测,非常具有挑战性。档案信息化场景下的文本检测有如下几个难点:
早期的档案的文本存在多种分布,许多档案中包含图片和文字,甚至多数情况下采用图文混排的形式,老档案纸面发黄,字迹模糊这就给OCR的扫描识别增加了难度。当然除了档案全文的文字识别,在档案著录环节,OCR识别也很难提取有用信息。著录时主要从需从档案中提取文件题名、责任者、人名、密级、保密期限等信息,填写到档案系统的相应位置。而这些信息因为早期档案格式不规范,或者档案种类的不同的原因,所在的位置也不同,很难总结出一个可以一套公式用到底的规律。
建立的档案数字化系统必须与本单位的存储和应用系统兼容,否则会造成不必要的运行环境问题。引进OCR软件也一定要与OCR软件也一定要与本单位的存储和应用系统兼容,便于今后的数据管理与利用,这一点在需求分析中应涉及。
国家档案局的《DA/T 77-2019 纸质档案数字复制件光学字符识别(OCR)工作规范》中对档案的OCR识别早有规定,按照T 77规定,OCR识别时首先扫描时就需要注意,纸质数字复制件的图片分辨率不应低于200dpi,特殊情况下,如字体偏小、密集、清晰度较差等,可以适当提高分辨率。图像应做降噪处理,处理中应去除扫描过程中产生的污点、污线、黑边等影响图像质量的杂种,去除档案页面原有的纸张褪变斑点、水渍、污点。装订孔等影响识别的地方。其次调节档案的亮度、对比度。部分档案由于年代久远,很多会底色发黄、字迹变淡,若要提高OCR识别率,需要改变很多参数,即调节亮度和对比度,且应先调亮度再调对比度。
要选择好的OCR软件,目前,市场上比较流行的OCR软件很多,主要有百度文字、腾讯云、科大讯飞、清华紫光。汉王等品牌。各个品牌都有不同的特点,可以就档案系统接口情况选择。其次在著录时无法提取有效信息的问题,可以通过人工框选的方式来解决。其次训练OCR识别软件的机器学习功能,减少文字识别的误差。只有OCR软件和人工搭配工作,才能更好地完成档案管理。
档案管理是一门相当繁琐又传统的学问,他记录着我们每个人、每个行业、甚至世界各民族的荣辱浮沉、盛衰兴亡。而OCR技术的存在能让档案这门古老的学问焕发出光来。我相信只有深刻学习各种技术,才可以使得我们管理的档案在日后发挥更大的作用。