李晓明(国家图书馆 北京 100081)
中文字符数转模清晰度研究*
李晓明(国家图书馆 北京 100081)
中、英文字符在结构、数量、字体等方面存在差异,相较来说,中文字符需要的线对数要求更高。数转模技术结合中文字符的特征,以文字使用频率和笔画复杂度为遴选依据,确定中文典型字符。以中文典型字符为研究对象,采用缩微影像可读性质量分析、文字光学等级测算和实验验证等方法进行分析,有助于厘清解像力、缩率与字符高度等要素的关系,提出数转模技术对被拍摄中文字符高度的要求。中文字符数转模工作的顺利开展,有利于保证文献拍摄清晰度符合要求,实现对文献的保护。
数转模 光学等级 中文字符 解像力
数转模技术是将数字图像通过数字存档机转换到缩微胶片上进行长期保存的技术,是对珍贵数字资源异质备份的有效手段,是数字资源长期保存的有效途径。
近年来,全国图书馆文献缩微复制中心(以下简称缩微中心)带领多家成员馆开展了数转模转换和设备研发工作,并从中发现了数转模技术影像质量标准中存在的问题。当前国内数转模技术所采用的相关标准均由国外标准转化而来,而以国外相关标准考察中文文献缩微影像,其清晰度并未达到理想水平。这是由于中文字符与英文字符在文字结构上的差异造成的。然而在实际工作中,这一点并没有引起业界重视。业界普遍认为以120线对/毫米的解像力标准进行数转模转换便可得到令人满意的影像,而忽略了字符结构的复杂程度对文字影像清晰度的影响。在此情况下,制定一套针对中文字符的数转模技术标准来规范我国数转模技术应用,是现阶段亟待开展的工作。本文对中文字符进行系统分析,找出中文字符典型特征与数转模各项技术参数之间的关系,从而提出中文字符原件的标准要求,为中文字符数转模技术标准的制定提供理论基础。
中文字符结构是指字符的形体和笔画的复杂程度。在数转模领域,字符结构是需要重点关注的,它和系统解像力、拍摄倍率、字符高度以及文献的背景反差等缩微技术参数共同作用,决定着字符影像的清晰程度。
根据国家标准GB/T 16573-2008的早期版本GB/T 16573-1996《缩微摄影技术——在16mm和35mm银明胶型缩微卷片上拍摄文献的操作程序》中附录D显示,每个字符都有一定的光学等级(符号为C),并通过下列公式计算:C=H/d。其中,H为字型的大写字符的高度,d为基本细部尺寸(基本细部可以理解为字符的最小线条宽度)[1]。
通过上述公式可以看到,在中文字符结构方面影响字符影像清晰度的关键在于字符的线条宽度。字符的结构越复杂,则线条宽度越小,光学等级越高。而光学等级越高代表字符可读性越低。
在数转模技术参数中,系统解像力为拍摄系统的固定参数,按国家标准要求应达到120线对/毫米;文献的背景密度反差可通过曝光技术使其符合国家标准,其中涉及的变量是拍摄倍率、字符高度和字符线条宽度。
若要根据参数关系,获得数转模字符标准,则需要固定字符线条宽度,从而对其他两项参数进行分析和研究。固定字符线条宽度的前提是明确研究对象,即遴选出中文典型字符。
表1 中文字符笔画与使用频率统计分析表
对于英文字符,通常选用小写字母“e”为典型字母,这是由于在英文文献印刷时,“e”字的清晰度最小。如果“e”的清晰度符合预定要求,那么其他字符的清晰度则都可以达到标准。1956年,美国NBS摄影技术部制作了“NBS解像力测试图卡的使用法”手册,其中有关于缩微胶片清晰度的鉴别基准项目,均采用字母“e”作为典型字符。然而,中文字符的识别与英文字符相比存在着很大的差异,如二者在字符远近粘连、字体字符数量、形状拓扑差别等方面各具特殊性。所以,在中文字符的清晰度鉴别上,“e”并不能作为参照,需要选取相应的中文典型字符。
在中文典型字符的选取过程中,我们以《通用规范汉字表》为基础,其将中文字符总共分为三级:一级字表为常用字集,收字3 500个,主要满足基础教育和文化普及的基本用字需要。二级字表收字3 000个,使用度仅次于一级字。一、二级字表合计6 500字,主要满足出版印刷、辞书编纂和信息处理等方面的一般用字需要。三级字表收字1 605个,为姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足各专门领域的用字需要[2]。在选取的过程中,我们以一级字表中的字符为选取范围,以笔画密度高、使用频率高为原则,进行典型字符的筛选。中文字符结构复杂,仅选出某一文字作为典型字符是不具备代表性的。因此,笔者结合多重判断条件,遴选出一组字符作为研究对象,结合相关汉字的使用频率表和汉字的笔画复杂程度[3],制作了数据统计分析表,如表1所示。
根据对一级字表中的汉字的横画进行统计,结合汉字的复杂程度与字符的检出率,我们初步确定中文典型字符为 “是”“事”“藏”“最”“露”“量”“警”“矗”。
在确定中文典型字符的基础上,我们需要结合缩微技术成像原理及相关标准,对上述字符进行分析研究。首先确定字符线条宽度,从而得到拍摄缩率和字符高度之间的对应关系,即在系统解像力为120线对/毫米的国家标准条件下,找出不同缩率对应的被拍摄原件文字高度标准的计算方法。
在中文典型字符分析中,笔者采用的方法是字符缩微影像可读性质量分析法,分析对象是上述典型中文字符中最为复杂的“警”和“矗”。
在分析研究中,除了考虑文字本身的选取以外,我们还要考虑典型字符的字体。不同字体的光学等级不同,可识别程度也不同,因此典型字符的字体也是决定字符线条宽度的关键因素。在字体的选择上,我们利用光学等级计算公式,对较为常用的宋体、楷体、黑体、隶书进行初步测算,每种字体所对应的光学等级数值如表2所示。
表2 不同字体对应的光学等级数值
从表2我们可以看出,宋体的光学等级最高,也就是识别度最差。因此,我们选择宋体为研究对象的字体,便于适用到中文字符所有字体。
在选定典型字符和字体的基础上,我们需要对字符线条宽度进行测量,并利用字符缩微影像可读性质量分析方法进行进一步分析研究。
字符缩微影像可读性质量分析可借鉴小穴纯教授针对日文汉字缩微影像可读性的研究成果。他在理论分析的基础上提出了影像质量的计算公式和像质分级标准,最终指出:日文汉字缩微影像的可读性质量(Q),与原件上汉字两相邻线条的最小距离,即细密度(S)和摄影解像力(R)成正比,而与拍摄时的缩率(M)成反比[4],如图1所示计算公式为:
同时,将Q值分为3个质量等级,分别为:
Q≥2.5 影像清晰
2.5 > Q≥1 影像可分辨
Q<1 影像不清晰
图1 字符高度与细密度图示
为了力求精确,笔者在word中将文字大小设置为700磅,对文字的高度及细密度进行测量,并计算出高度与细密度的比值,结果如表3所示。
结合数转模设备、胶片和光学成像原理,笔者将系统解像力设定为国家标准中要求的120线对/毫米,将缩率随机设定为7.4、10.5和14.8,将质量等级设定为2.5及1.0,带入公式1,并参照表3中计算出的文字高度与细密度的比值,可推算出中文字符的最小高度要求,如表4、表5、表6所示。
表3 基于不同文字的影像可读性分析表
表4 “e”字字高数值对照表
表5 “警”字字高数值对照表
表6 “矗”字字高数值对照表
上述理论分析是在解像力符合国家标准的情况下,在不同字符、不同缩率、不同安全系数条件下,对文字的最小高度要求。从表4、表5、表6可以看出,数转模技术对中、英文字符的最小字符要求差距较大。经分析,笔者认为,“矗”字为较复杂的常用文字,在一定程度上能体现常用中文字符的复杂程度。因此,在系统解像力为120线对/毫米、缩率为7.4时,原始文献文字高度需高于2.4毫米;缩率为10.5时,原始文献文字高度需高于3.41毫米;缩率为14.8时,原始文献文字高度需高于4.81毫米。
这里需要说明的是,上述结论只适用于印刷字体,而不适用于手稿、油印件或是质量较差的原件。
为验证上述理论值是否可靠,我们选用3张数转模设备检测标板,分别为7.4倍、10.5倍和14.8倍,以“是”“事”“藏”“最”“露”“量”“警”“矗”8个字符作为检验字符,如图2所示,用数转模设备OP300进行拍摄,采用FP505冲洗机进行冲洗,在显微镜下观察试片、文字清晰度和文字高度。
5.1 观察方法及原则
在观察过程中,首先观察固定缩率下能看清楚的文字高度,然后观察在此缩率下所看到的测试图的读数,并详细记录。按照此方法对7.4倍、10.5倍和14.8倍3块标板进行观察,并记录观察数据。用显微镜观察测试图样时,如果某个测试图样上两个方向的线条都能区别清楚且笔画等宽,则认为是可以分辨的;如果出现有某个笔画突然变细的情况,则判定此字不能分辨清楚。按上述原则读取并记录可分辨的最小图样和最小字符高度。
5.2 实验结果
图2 实验用技术标板
笔者综合表7数据与表5和表6中文字高度的理论数值进行对比,考虑拍摄、冲洗等环节导致的误差等因素,可以判断实验数据与理论数据基本吻合,可证明上述推断方法具有参考意义。
表7 实验中缩率、解像力、字高对应关系表
6.1 中文字符标准要求
根据上述理论分析及实验结果,在将质量等级设定为2.5的情况下,数转模工作可将字符高度标准要求设定如表8所示。
表8 文字高度与缩率、解像力关系
本文所选典型字符为中文字符中最为复杂的文字,因此,在制定标准时,文字高度最小值不必完全按照理论值进行设定。在实际工作中,数转模工作者可结合工作项目情况和文字特点,自行选取典型字符按上述方法计算文字高度标准。同时,在质量等级的选择上,数转模工作者可根据项目需求在1到2.5之间选择。
6.2 数转模中文字符标准应用情况
自2011年缩微中心开始数转模工作,截止到2015年底完成约140万拍的数字文献抢救工作,建立了完善的工作流程与摄制标准,并且将上述理论应用于实际工作中。
以地方志数字资源转换为缩微胶片工作为例,缩微中心在数字文献选取之初,先对文献进行整理,测量待拍摄原件原始尺寸及文字高度。根据文献原始尺寸确定拍摄缩率,以确保文献影像大小符合国家标准。之后结合已确定的缩率和文献文字高度,确定文献拍摄清晰度是否符合要求。目前,地方志数转模项目采用双画幅拍摄,缩率在10~14倍之间,按照表8 的缩率与文字高度的对应关系,最小文字高度应在4.05毫米到5.7毫米之间。若文字高度低于此标准,则利用120线对/毫米的解像力将无法得到完全清晰的缩微影像,这就需要通过提高系统解像力来提升影像的清晰度。目前,缩微中心所拍摄的地方志的文献高度一般在6.5毫米左右,已高于该项目文字高度要求,经质检检验,拍摄的文献清晰度符合要求。
中、英文字符在结构、数量、字体等多方面存在差异,中文字符结构比英文字符更为复杂,字符细密度相差很大,在相同清晰度下,相应需要的线对数要求更高。数转模技术在中文字符拍摄时需紧密结合中文字符的特征,将字体的光学等级与数转模成像特点结合起来进行分析,进而确定中文字符在数转模选取拍摄原始文件字体高度、缩率及解像力要求。同时,鉴于汉字结构所具有的复杂性、多样性和密集性等特点,数转模工作还需要在后期大量实验基础上,对前期数据进行不断修正与整合,建立适合数转模中文字符影像质量控制方法,保证国内数转模的拍摄质量。
[1]GB/T 16573-1996缩微摄影技术——在16mm和35mm银明胶型缩微卷片上拍摄文献的操作程序[S].北京:中国标准出版社,1996.
[2]教育部国家语言文字工作委员会.通用规范汉字表[M].北京:语文出版社, 2013:4-41.
[3]汉字使用频率统计[EB/OL].[2016-03-21].http://wenku.baidu.com/view/0902c8cf05087632311212b3.html.
[4]中国档案学会档案缩微技术委员会.第一次档案缩微技术讨论会论文选集 [C].北京:档案出版社, 1991:141-143.
Research on the Technology of COM Concentrated on the Field of Chinese Characters
Chinese characters need higher logarithmic demand for the differences in structure, amount and font features between Chinese and English characters.The technology of COM(Computer Output Microfilm) determines typical Chinese characters by combining the features of Chinese characters, and using the frequency and the complexity of the strokes as the selection basis.It is helpful to analyze the relationship of resolution, shrinkage and text height, and determine the requirements in height of the Chinese characters in technology of COM to take typical Chinese characters as research object, and analysing by readability quality estimation method, text optical grade calculations and experimental verification methods.The development of COM would protect the documents and ensure the film clarity of the documents.
Computer Output Microfilm(COM); Optical grade; Chinese characters; Resolution
G255.72
A
*本文系2015年度国家文化科技提升计划项目“中文字符数转模技术研究”的成果之一,项目编号:2015-05。
李晓明 女,1970年生,现工作于国家图书馆,副研究馆员,研究方向为文献保存保护及数字化服务,已发表论文10余篇。
2016-03-31 ]