邓嘉墚
(苏州大学社会学院 苏州 215123)
研究探索
档案扫描图像清晰度控制
邓嘉墚
(苏州大学社会学院 苏州 215123)
扫描图像清晰与否,是评价扫描图像质量优劣的关键。扫描图像的清晰度取决于扫描仪在扫描时所用的设置参数,包括分辨率,亮度与对比度。本文试用定量分析的方法,分析档案扫描图像的清晰度与各扫描参数的关系,得到控制扫描图像质量的方法。
扫描图像 清晰度 OCR 扫描参数
纸质档案数字化,是指使用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁带、磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程[1]。作为纸质档案数字化的最初产物,扫描图像质量的优劣,决定了档案数字化过程的效率与之后对数字化成果的开发、利用。扫描图像质量受到多方面因素的影响,其中,扫描图像的清晰与否,无疑是评判扫描图像质量优劣的关键。
清晰度通常用来表示人眼看到的图像细节及其边界的清晰程度,是由外部环境和设备客观性能的综合结果造成人对图像的主观感觉[2]。对档案扫描图像而言,清晰度是指扫描图像对档案原件细节的表现程度。扫描图像的清晰度由图像输入端,即扫描仪所设置的扫描参数决定,包括:分辨率、亮度和对比度。
扫描图像清晰与否,看似感官、因人而异,但它对扫描图像后期的开发、利用至关重要。笔者希望用定量的方法,对在不同设置参数环境下得到扫描图像的清晰程度做出比较分析,得到扫描图像清晰度与各扫描设置参数之间的定量关系。考虑到部分纸质档案在得到扫描图像的同时,会进行录入操作或做全文数字化——用OCR识别技术将扫描后的图像文件转化成文本文件,并建立文本与图像页面之间的对应关系[3]246,决定利用扫描图像的OCR(光学字符识别)率的高低来映射扫描图像的清晰度,使扫描图像的清晰度能以数量的方式直观地表现出来。
下文定量测试选用了一面314字符数A4大小的纸质档案,在保持其他参数不变的情况下,分别改变扫描仪的分辨率、亮度与对比度三参数之一的设置,对该档案扫描得到扫描图像。用较为成熟的OCR软件ABBYY FineReader 12对扫描图像做字符识别,再与原纸质档案字符数做比得出OCR率。OCR率越高,则代表该扫描图像的清晰度越高,反之亦然。之后,比较分析得到各设置参数与OCR率的关系,即分辨率、亮度与对比度的参数设置对扫描图像清晰度的影响,找到控制扫描图像质量的方法。
分辨率是扫描过程中最为重要的一个参数,代表了扫描仪在单位长度内扫描图像包含的取样点数或像素数,一般用每英寸点数(dpi)表示。下文中,笔者在保持其他扫描参数不变的情况下,对同一份纸质档案,分别用100dpi、200dpi、300dpi、600dpi与1200dpi作为扫描分辨率设置所用参数,得到不同的扫描图像。之后,对这些扫描图像做OCR,得到OCR率,如下表。
表1 分辨率与OCR率比较
如上表1,可以看出扫描分辨率设置与OCR率的关系,100dpi下扫描图像的OCR率远小于其他几组分辨率下扫描图像的OCR率,即验证了在低分辨率(100dpi)设置下,扫描图像的清晰度并不能很好地支持OCR。换而言之,要得到较为清晰的扫描图像,应适当加大扫描档案所采用的分辨率大小,如《纸质档案数字化技术规范》中建议“扫描分辨率应不小于200dpi,综合考虑信息技术的不断发展,为最大限度地采集档案信息,满足后续多种利用目的需要,扫描分辨率建议不小于300dpi”[1]。又如杭州市档案馆在纸质档案数字化的一期工程中,就将扫描分辨率定为300dpi,浙江省档案馆的数字化扫描分辨率一般在200~300dpi左右,有的高达600dpi[4]10-13。
当然,为追求更好的清晰度,一味地增加扫描分辨率并不可取。通过上表可知该档案扫描图像在300dpi下得到较高OCR率后,再增加扫描分辨率,得到的OCR率并不随之增加,反而,在使用1200dpi扫描时,得OCR率较200dpi至600dpi时所得数据明显降低。在使用600dpi或1200dpi分辨率时,所得扫描图像可经数十倍放大而仍能表现其细节,感官上确实更清晰了,但实际操作中,扫描仪的分辨度设置越高,扫描单份档案耗时越长,产生的图像文件大小(存储容量)也随之变大,OCR的时间也随之增加,甚至当分辨率达到一定数值,如本文1200dpi后,还会导致OCR率下降的情况。面对浩如烟海亟待数字化的纸质档案,不合理使用过高的扫描分辨率,会产生大量的数据冗余,使档案扫描与图像利用过程变得耗时费力,并不可取。
从提高档案扫描图像质量出发,扫描图像的清晰度优劣,不仅局限于感官上的清晰度高低,也应考虑到图像的扫描过程与后期利用的效率。档案扫描前,应综合权衡,选用合适的分辨率,获得更“优”的清晰度。
亮度与对比度是扫描过程中另外两个重要指标,亮度设置用于调节扫描后生成图像的明暗效果,对比度设置用来调节扫描后生成图像中最亮的白色与最暗的黑色之间的差异程度。亮度与对比度的设置,在扫描过程中共同作用于扫描图像,它们相互联系,又各有特点,本节放在一起讨论,便于比较分析。亮度与对比度都是调节扫描后生成图像显示效果的特定指标。两者的区别在于:亮度设置作用于扫描图像中所有的像素点,调高扫描亮度,则扫描图像所有的像素点的色值都会随之提亮,使扫描图像整体被提亮,反之亦然,如下图(1)展示了亮度设置由低到高对扫描图像的影响。
图一
对比度设置虽然也作用于整幅扫描图像,但是只作用于图像中最亮的白色与最暗的黑色之间的差异程度。增加扫描对比度,扫描图像的明暗区域差异范围变大,反之亦然,如下图(2)展示了对比度设置由低到高对扫描图像的影响。
图二
依照上文所述方法,分别对亮度、对比度做定量分析,得到如下表2、表3。
表2 亮度与OCR率对比
表3 对比度与OCR率对比
1.亮度。通过表2,可以发现当采用+30亮度设置时,扫描图像的OCR率最高,达到92.4%,高于其他亮度设置下扫描图像的OCR率。通过图一与表2相互对照,能发现除去OCR率最高的+30亮度,在其他几组亮度设置下,扫描图像的OCR率与文件存储容量改变幅度不大,但图片在感官上趋于过暗或过亮,对档案原件的还原度变差,保真度下降,扫描图像的清晰度变“劣”,影响扫描图像后期的查阅与利用。
2.对比度。通过表3,可以发现当采用0对比度设置时,得到扫描图像的OCR率最高,为91.1%,为几组数据中的最高值。在0对比度下扫描后,增加或减小扫描对比度的设置,所得扫描图像的OCR率都逐渐减小,当采用-90对比度对档案文件扫描时,OCR率为零,感官上也无法辨别档案上的内容,如图二1.jpg。区别于亮度,在采用不同对比度扫描时,产生的扫描图像的存储容量大小随对比度增加而增加。当对比度设置大于0后,扫描图像的OCR率逐渐减小,但扫描图像的存储容量仍随对比度设置增大而增大,产生了扫描图像数据的冗余,在不能有效提高OCR率的同时,造成了存储空间的浪费。
综上,笔者在300dpi、30亮度与0对比度设置下,对上文比较中所使用的纸质档案扫描并比较原文件,得出OCR率为92.0%。在保证扫描图像清晰度的同时,合理控制了扫描图像的文件大小。
档案扫描图像清晰度,不论高低,而论优劣。在进行纸质档案扫描时,应综合分析档案原件的实际情况,并从之后对扫描图像的利用需求出发,设置合适的分辨度、亮度和对比度,以期得到更优的扫描图像清晰度,提高档案扫描图像的质量。
[1]纸质档案数字化技术规范 [S].中华人民共和国行业标准DA/T31-2005.国家档案局,2005.
[2]关剑波.传统胶片影像与数字影像清晰度比较[C].国际博物馆影像技术研讨会,2005.
[3]张照余.档案信息化理论与实践[M].中国档案出版社,2007.
[4]傅荣校,翁敏曦.档案数字化扫描与存储格式比较研究[J].档案与建设,2006(11).
Discussion on the Clarity of Scanned Image of Archives
Deng Jialiang
(Society School of Soochow University,Suzhou 215213,China)
Clarity is undoubtedly the key to the quality of scanned image.The clarity depends on the parameters of scanners set in scanning,including resolution,brightness and contrast ratio.In this paper,the method of quantitative analysis is used to show the relationship between the clarity of digital image and the parameters in order to find the method to improve the quality of the scanned image.
canned image;clarity;OCR;scanning parameters
10.16565/j.cnki.1006-7744.2017.09.09
邓嘉墚,苏州大学图书情报与档案管理专业研究生,主要研究方向为档案数字化。
G270.7
A
2017-03-27