[摘要]手稿和图纸档案都属于特殊属性的纸质档案,其档案载体不同于普通公文用纸,基于特殊纸质档案的纸张性质与幅面尺寸的特殊性,在数字化过程中涉及的扫描处理技术、数字化存储格式以及对数字化成果的校验方法都有差异。论文力求通过比较研究的方法分析手稿和图纸档案数字化过程的不同层面,以期对特殊纸质档案的数字化方向做一个探索和展望。
[关键词]手稿图纸数字化比较研究
[分类号]G270.7
A Comparative Study on the Digitization of Handwritten Manuscripts and Drawings Archives
Pang Li
(Archives of Shanxi Normal University, Xian, Shanxi, 710062)
Abstract: Handwritten manuscripts and drawings archives are special paper archives,so their carrier differ from ordinary paper documents.Because the particularity for the nature of the paper and format size,digital scanning processing technology,digital storage format and the outcomes of digital calibration method all have differences and similarities. The paper tries to through a comparative study methods to analysis the different level of manuscripts and drawings archives digitization process and to do a exploration and prospects for special paper archives digitization.
Keywords: Manuscript; Drawings; Digital; Comparative Study
隨着信息化发展,馆藏档案的数字化早已不是一个崭新的课题,然而在各级各类档案馆中档案数字化理论方法基本成型,但具体实践工作及操作流程还在进一步探索中,除了普通纸质档案(A4打印纸)的数字化简单易行外,图纸、手稿、书画等特殊纸质档案的数字化处理方法和技术发展缓慢,这是现今馆藏档案数字化的障碍和难点所在,因此,本文以手稿与图纸档案为研究对象,研究其数字化过程的种种异同,对整改和开发馆藏档案中特殊纸质档案的数字化工作有重要意义。
1手稿与图纸档案数字化过程差异
1.1手稿数字化过程
手稿和图纸档案都属于特殊类型的纸质档案,而又各具不同的特点。手稿档案大多是年代久远的档案资源,纸张包括手工纸和机制纸,性质较复杂,通常的手稿、书信和日记大多为书写纸、凸版纸、元书纸、新闻纸、黄色毛边纸或道林纸,印有不同格子的纸笺,另外,题词和诗词手稿通常都使用宣纸,还有一些是毛笔、碳素墨水笔等手写笔记,这些手写笔记都是历史的见证,是非常珍贵的档案资源,然而,由于手稿档案的纸张载体种类、字迹书写材料、幅面尺寸都没有统一标准,这就为数字化处理造成了诸多不便。
手稿由于纸质薄、脆、软的特性和年代久远因素,首先要进行数字化预处理,运用新型档案保护修护技术,为实现手稿的修复,提高档案纸张的生理化性能,把细菌纤维素迁移到已形成的档案手稿纸张上,从而预先提高档案数字化的质量。[1]通常的处理技术是将手写笔记翻拍成JPG图片或者扫描成PDF图片,再用画图软件如Photoshop或者Adobe Reader软件把图片格式打开,用虚拟打印的方法将文件转换为MDI格式,最后打开MDI格式的文件,用OCR技术进行识别发送至WORD文档,这种方法繁琐且效率低。另外,如果采用拍照的方法,又涉及照片保存的问题,且有些手稿字迹褪去,照片影像模糊不清,而手稿纸质薄、脆、软,使用扫描仪扫描也会对原始档案进一步破坏。因此,现今可以直接捕捉和处理手写笔迹和草图的Carbo抓图处理软件,直接利用摄像头拍摄手稿的照片并读取图片,利用混合图像编辑技术既保留了矢量图的高清晰度又实现了位图方便编辑的特性,这个处理过程和一般扫描应用非常相似,但效果又比普通扫描更清晰,颜色更逼真,还进一步保护了档案资源,处理后的手稿还可以进行编辑,如图1和图2所示,从数字化的发展趋势、数字化难易程度及数字化成果来看,手稿将越来越多采用类似于Carbo软件的手写信息数字化采集及识别软件来进行数字化处理。
1.2图纸数字化过程
图纸档案通常是基建工程形成的文件资料,包括底图和蓝图,底图含有文字成品和工程项目设计图纸,蓝图主要是底图的复晒品和工程项目管理文件。[2]图纸档案由于产生年代不同,其介质性质相差甚远,图纸的幅面大小也各异。图纸档案是广泛利用的档案资源,图纸通常包括机械图、建筑图、电路图、平面图和线条类艺术品等图纸资源,如何将图纸档案中具有复杂性、特殊性的图形转换为能在计算机上编辑与处理的图形数据文件,是图纸档案数字化的关键点。图纸档案因其幅面大、数量多、使用率高的特点,通常有两种数字化方法:一种是用图形软件重新绘制。现今,各种图形都可以利用绘图软件完成,计算机图形学也可以解决各种图形问题。如Auto CAD绘图软件可以完成工程制图、机械制图等,并形成计算机直接处理的矢量图形数据文件;另外,处理一些特殊图形的绘制问题使用的绘图软件有Adobe公司开发的Illustrator软件、Macromedia公司的Freehand软件、Corel公司的出品的Coreldraw等。软件绘图首先能实现直线与曲线的绘制,使用贝塞尔曲线来绘制对象的路径,并能描绘出任何形状的对象;其次是可以实现图形的编辑,主要包括图形的融合、相交、挖空、分割、修剪、合并等,也可实现基本几何图形的绘制。[3]直接绘制图形的方法缺点是效率低且工作量大。另一种方法是用扫描仪将图纸扫成光栅图输入计算机,如对图纸档案数字化处理时,为了保证其真实性、准确性,需使用工程扫描仪来扫描最大号(A0幅面)的图纸,这种方法工作效率高,且贴近原稿真实性,但人们无法直接对光栅图进行编辑,对特殊图形也无法处理,这对数字化最终成果的使用有所限制,因此,图纸数字化同时采用扫描、图形处理软件以及工程制图软件(CAD制图)对图纸进行数字化,相应的图形处理软件应该具有矢量图形的编辑等功能,图纸档案的数字化建议根据图纸中特殊图形的实际情况及图纸档案的使用情况选择适当的方案进行数字化。如图3推荐的图纸档案的数字化流程。
2数字化过程中处理技术比较
2.1手稿和图纸扫描后图像处理技术
手稿档案数字化后的图像中包含有少数民族文字,还存在诸多非常用字体,这些文字年代久远,不便确认,利用传统扫描后呈现得不够清晰,不易辨认,影响了档案数字化的进程和预期效果。少数民族文字种类繁多,如藏文、彝文、朝鲜文、满文等,很多文字濒临灭绝,特殊字体包括古今字、繁体字、异体字等。古今字是因时代变迁形成了外形不同而意义相同的字,还有一些假借义、引申义而产生一字多义的现象。
手稿掃描后图像中的特殊文字和字体信息的数字化方式一般是键盘输入,键盘输入耗时长且成本高,现今普遍利用OCR技术(Optical Character Recognition,光学字符识别)来处理图像扫描后的文本数据转换,OCR技术可以利用多种模式识别算法剖析出文字的标准编码,翻译成计算机文字,并使用通用格式存储在文本文件中。但OCR技术对打印文本以及清晰图像的文本数据识别率较高,目前在手稿识别、古籍识别等领域还有待进一步突破。[4]所以,针对少数民族文字以及古今字、繁体字、异体字等特殊文字和字体,需要在分析后提出通用合理的数字化方案,设计出具有高识别功能的工具,能对古语、少数民族文字、手稿以及各种特殊字体的文字进行识别,开发出特殊文字及字体的数字化档案管理系统。具体来说就是将少数民族文字、古语、文言文、特殊字型和字体的文字全部录入到一个系统中,此系统在扫描手稿时,可以自动识别文字,并转换成文本性数据,也可以将扫描后的原稿存储成电子文本。截至目前,还需进一步整理、编纂,再利用技术手段将特殊文字及字体整合成可反复利用的数字化档案管理系统,由于手稿档案是我国文化的宝贵财富,应该重视其数字化进程,发挥历史档案的价值。
图纸档案在前文中提到,扫描后的图像文件存储于计算机,图像文件的构成一般是矢量图形,而特殊图像也是由直线、曲线、圆等基本组件构成,这些相对独立的组件具有形状、大小、轮廓、颜色等属性,这些属性只要矢量化后都可以修改调整。而数字化得到的图像数据量大,必须采用编码技术压缩。数字化后的图像其技术参数包括像素、图像分辨率、颜色值和色彩空间等,是以位图的形式呈现在计算机上,一些图纸档案数字化后的图像会“失真”,因为图纸档案与传统纸质档案数字化追求的效果不同,图纸档案数字化后图像更注重“原真”,所以需要通过数字化系统中的图像处理功能,或者专门的图像处理软件来对数字化后的图纸图像进行处理。
数字图像的处理主要包括四个方面:图像几何变换、图像平滑处理、图像锐化处理。图像的几何变换是指图像处理中对图像平移、旋转、缩小、放大等简单变换以及变换中灰度内插处理,在数字化过程中,图像会收到噪声源的干扰,产生无用信息,影响图像的质量,判断图像复制质量的重要指标之一就是图像的清晰度,在图像处理中,清晰度主要是通过扫描进行控制的。利用图像锐化的方法来改善图像质量,使图像信息易于观察。计算机图像可以转化为图形,而图形文件也可以转化为图像文件。Photoshop及其他图像软件(Illustrator、Freehand、Coreldraw)中也可以将矢量图形光栅化或转换为其他图像文件。
2.2数字化成果存储格式
手稿数字化后多是文字型、文本型数据,《电子文件归档与管理规范》中推荐的通用存储格式为:文字型数据采用XML、RTF和TXT格式。XML文档格式优点是可以全文检索,可扩展,可在不同系统之间进行信息传输,并能进行数字化迁移;RTF优点是编排功能强,可进行不同格式间的转换,容易识别,但RTF格式繁多;TXT文档格式文件体积小,使用方便,能被几乎所有文字处理软件识别,但同时因TXT容量较小,不易与外界进行转换,不能插入图片。另外,还有常用的文件处理DOC格式可在文件中嵌入图表、图片、建立超链接,但尚未成为国际标准。
图纸档案扫描后多为图像数据,采用JPEG、TIFF等格式存储。《纸质档案数字化技术规范》中规定:“采用黑白二值模式扫描的图像文件,通常采用TIFF格式存储;采用灰度模式和彩色模式扫描的文件,通常采用JPEG格式存储;提供网络查询的扫描图像,可存储为PDF或其他格式。”[5]下面就几种图像存储格式进行比较:GIF格式是动态图的存储格式,压缩比高,磁盘空间占用少,但不能用于存储真彩色的图像文件;TIFF是一种非失真的压缩格式,图像质量好,但占空间比较大;相反,JPEG格式属于有损压缩,容易造成图像数据损伤,但占用磁盘空间小且图像质量好,可以压缩成不同压缩比的文件包,适合网络传输;PNG格式属于无损压缩,适合图像浏览,图像色彩丰富且品质高,但占用空间大。由此可见,手稿数字化存储和图纸的数字化存储格式迥然不同。
2.3数字化成果信息校验技术
档案数字化成果的信息校验,是档案数字化的后期工作,也是档案数字化成果优劣质检的关键步骤。由于手稿和图纸均属于特殊纸质档案,因此信息校验结果直接决定了数字化成果的再利用。手稿和图纸的信息校验的相同之处是,手稿和图纸上的文字数据都可以采用双人工输入比较法,即由两名录入员在不同时间和不同终端上分别录入同一批数据,其中一名人员录入的结果与另一名录入的结果进行比对,如果两次录入结果不同,需进行核实并修正。[5]这种方法缺点是数据量大,工作量大,人工成本高,优点是最终结果的正确性很好验证。不同之处是图纸数字化后大多是图形、图像,而手稿大多是难以辨认的字体和特殊字型,手稿数字化后其不同字型、字体应遵循国际化的准则来校验。目前,国际标准ISO/IEC10646(GB13000,Unicode)把迄今为止尚存的语言(Living Languages)按照其文字(Script)统一编码,制定出全球通用的编码字符集,所容纳的汉字囊括《康熙字典》《汉语大字典》等,[6]开发出这样一个包含了少数民族文字、外国文字以及古今字、异体字、繁体字等多种字型、字体的系统,手稿的数字化成果可在中文简体与繁体、日文、韩文、英文等平台上校验,这种跨语境关联的全文检索系统,不但方便了不同语种的用户的检索,也为手稿数字化成果校验提供有力的平台,是未来手稿数字化的方向。
图纸数字化成果的校验,主要是对扫描后的图像逼真度以及编辑后矢量图准确性的校验,由于受数字化扫描角度的影响或是受折叠、受潮等因素的影响,图纸会出现歪斜变形现象和不同程度的褶皱,导致图纸上图形的网格和曲线出现变形,扫描进机的图像与最原始的图有一定的差别,如果在这种情况下进行图纸的数字化,结果与原始档案数据就会不一致。图纸数字化成果的校验,主要的問题就是倾斜角的检测和图形歪斜的矫正,由于局部扭曲,缺乏统一的形式,因此很难用自动的方法检测与校正,现今常用一种人工交互方式的倾斜校正方法,即采用人工选中图纸的四个角,然后根据这四个角的坐标算出倾斜的角度。本文提倡采用纯手工方式来处理图纸档案数字化的扭曲变形。主要有以下几个步骤:第一,选择图纸扫描后存在扭曲的局部区域。第二,估测扭曲方向及大小,人工确定校正的方向和大小。第三,手工校正。校正前后效果对比见图4与图5(选用图纸实体见陕西师范大学2012年基建图纸部分内容)。
处理数字化后图像,首先应了解灰度直方图(用于表达图像灰度分布状态的统计图表)。对图像进行数字化校验或编辑时,可以利用灰度直方图检查输入图像灰度值在可利用的灰度内分配是否恰当;为了使原图像忠于图纸档案原稿,可以进行灰度变换。由此可见,手稿和图纸扫描后的数字化信息的校验也截然不同,手稿大多是对字体、字型及文字正确率的校验,而图纸主要是对图形、图像扫描后忠于原文的校验以及校验后的进一步编辑。
3结论与分析
综上所述,手稿与图纸档案数字化后的数字图像转换的理想程度与准确程度不仅仅取决于需要转换、处理以及编辑软件的选择,还取决于在数字化过程中硬件设备的选择。特殊纸质档案数字化处理中应用的硬件设备一般包括计算机、扫描仪、数码相机、各种图形、图像处理软件、文字识别软件以及存储设备,正确地选择硬件设备,是档案数字化顺利进行的有力保证。一些人认为,将特殊纸质档案数字化后会失去原始档案的风格和魅力,降低其真实性和可信度。[7]因此,为了保证这些特殊类型的纸质档案数字化后仍能忠于原稿,就要克服档案数字化过程中许多技术障碍,而对于特殊纸质档案数字化扫描设备的选择,扫描参数的设置及后期处理技术的进一步研究也非常重要。特殊纸质档案数字化技术的障碍的解决办法,最关键的是制定有效的技术实施方案,对于手稿而言,数字化过程中,文字处理技术和语言兼容技术,主要在档案数字化的前期阶段完成,利用前端控制思想,保证手稿档案的原始性和文字的正确性;[8]而对于图纸档案而言,扫描后的图像的处理技术,这部分技术处理是在数字化过程中应用,直接影响档案数字化的效果和质量。除此之外,特殊纸质档案数字化是一项很复杂的系统工程,只有不断地探索各种特殊环节的关键扫描及处理技术才是档案数字化的可靠保证。
*本文系中国博士后科研基金面上项目(2016M600763)、陕西省社科信息学会青年培植项目(SHXHX2015011)的研究成果之一。
参考文献
[1]张志惠.细菌纤维素在纸质档案修复中的应用研究[D].昆明:云南大学.2015:7.
[2]杨凌波,柴绍东.工程图纸扫描数字化[J].城建档案.2008(3):433-434.
[3]张丽梅.馆藏档案数字化的技术策略探析[D].哈尔滨:黑龙江大学.2009:39.
[4]傅荣校.档案数字化扫描与存储格式比较研究[J].档案学通讯.2007(2):61.
[5]蒋宏毅,王红蕾等.地震模拟图纸数字化存储的实现[J].地震地磁观测与研究. 2005(6):136.
[6]李明杰,肖秋惠.中国古籍数字化资源调查与分析[J].图书馆杂志.2002(5):28.
[7]唐跃进.档案保护技术试验教程[M].北京:中国人民大学出版社.2013:28.
[8]卢森林.基于网络环境下馆藏档案数字化、编研与利用研究[M].北京:北京理工大学出版社.2015:89.
[作者简介]
庞莉,陕西师范大学档案馆馆员,研究方向是档案数字化研究、档案资源建设。