刘娉婷
(国家图书馆,北京 100081)
我国是历史悠久的文明古国,拥有卷帙浩繁的文献典籍。据统计,我国现存古籍总数3千余万册,其中善本古籍超过250万册[1]。这些古籍是中华文化的瑰宝,但它们具有不可再生性,因此如何保护和利用好珍贵文献典籍,是现阶段工作的当务之急。为进一步加强古籍保护工作,2007年1月19日,国务院办公厅下发《关于进一步加强古籍保护工作的意见》(国办发[2007]6号)(以下简称《意见》),对全国古籍保护工作进行总体部署,正式实施“中华古籍保护计划”,这是我国历史上首次由政府主持开展的全国性古籍保护工程。《意见》提出了“制定古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库”这一明确要求[2]。在此背景下,国家古籍保护中心积极地开展古籍数字化工作,于2012年启动了“中华珍贵典籍资源库”建设项目。
在2016年发布的《“十三五”规划纲要》中,国务院将中华古籍保护计划列为文化领域的重大工程,《纲要》中明确提出推动古籍原生性和再生性保护、建设国家古籍资源数据库[3]。随后,文化部于2017年发布《“十三五”时期全国古籍保护工作规划》(以下简称《规划》),这是我国古籍保护工作方面的首个五年规划,《规划》中将数字化建设列为重点任务,将“中华古籍数字资源库”建设项目列为重点项目[4]。在国家政策的支持下,古籍数字化已经逐渐成为古籍保护的重点方向,古籍数字化工作正在全面有序地进行。笔者将阐述中华珍贵典籍资源库的建设实践,对实践中存在的问题进行分析和探讨,以期为古籍数字化工作提供有益的借鉴和参考。
自2008年至今,国务院先后公布了五批《国家珍贵古籍名录》,12274部古籍入选,包括汉文和少数民族古籍、简帛古籍、敦煌遗书、碑帖拓本、古地图和外文珍贵古籍[2]。中华珍贵典籍资源库,以《国家珍贵古籍名录》为基础,从五批名录中遴选出1115部珍贵古籍进行数字化,优先选择古籍价值比较大、存世量比较小、卷次比较少的古籍。
秉持古籍数字化标准先行建设的原则,国家古籍保护中心于2012年组织编制了《古籍数字化工作手册》(试用本),并将其作为中华珍贵典籍资源库建设的标准规范,在全国范围内推广执行,珍贵典籍数字化工作于2013年全面开展。随着数字化工作的进行,针对数字化实践中发现的问题,国家古籍保护中心于2014年推出了《古籍数字化工作手册》(V.1修订版),对手册进行了修订完善。
数字化图像分长期保存级和发布服务级两个级别。“中华珍贵典籍资源库”建设项目的长期保存级采用不压缩或无损压缩的TIFF格式,分辨率为400DPI,出于保真原则,一般采用24位真彩图像。为了保证图像输入设备、输出设备的色彩匹配,实现不同显示器的色彩显示的一致性[5],在每部古籍数字化前,需要先扫描或拍照IT8标准色彩导表(以下简称色卡),用来准确还原图像颜色。同时为了记录古籍开本大小,每部古籍第一册封面数字化时需要在原件左侧放置直尺。
数字化图像由三级结构保存,第一级文件夹为加工记录标识号,由4位单位代码和4位古籍流水号构成;第二级文件夹为册号,由4位数字构成,从0001开始,按流水号命名古籍册数;第三级为古籍图像文件和色卡图像文件,古籍图像文件名由4位数字构成,从0001开始,按流水号命名,色卡图像文件命名依色卡数字化方式而定,如果古籍使用单台设备进行数字化,需要数字化一个色卡,色卡图像命名为“seka”,如果古籍同时使用两台设备进行数字化,即古籍两个半叶同时数字化,需要数字化两个色卡,色卡图像分别命名为“seka1”和“seka2”。
“中华珍贵典籍资源库”建设项目的元数据包括文献整理登记表、描述元数据、管理元数据3个部分,使用ACCESS数据库来保存。文献整理登记表包括《文献整理登记表(全书)》和《文献整理登记表(各卷)》,记录了古籍原件的书况信息。描述元数据包括《书目数据表》和《卷目数据表》,记录了书目信息和卷目信息。管理元数据包括《外字表》和《管理信息表》,记录了古籍的外字信息和数字化加工过程中的管理信息。
为保障“中华珍贵典籍资源库”建设项目顺利进行,国家古籍保护中心共举办了三期古籍数字化培训班。第一期于2012年在国家图书馆举行,来自26个省、自治区、直辖市31个单位的53名学员,参加了培训班。第二期于2013年在乌鲁木齐市举办。第三期于2014年在天津图书馆举行,来自27个省、自治区、直辖市30个单位的44名学员参加了培训。培训班针对各个参建单位古籍数字化的实际情况和提出的问题,从古籍数字化的工作流程、元数据著录、实物扫描技术与方法等方面进行了培训,同时提供了实践机会,让学员们从理论和实践两个方面了解和掌握古籍数字化的流程,为“中华珍贵典籍资源库”项目建设奠定了基础。
“中华珍贵典籍资源库”建设项目的开展,极大地带动了全国公共图书馆古籍数字化项目工作的进展,该项目具体的数字化工作是由各个古籍收藏单位承担的,首批参建单位包括浙江图书馆、安徽省图书馆、南京图书馆等27家,截至目前已陆续收到全国21家单位约47万拍珍贵古籍影像资源。
古籍数字化工作分为古籍数字化加工准备、古籍元数据著录、古籍图像数字化、数据命名、数据提交、数据验收、数据发布利用7个部分,具体的操作流程如图1所示。
图1 古籍数字化操作流程
由于各古籍收藏单位的经济实力和技术水平参差不齐、图像采集的操作方法各有差异,导致古籍图像成品质量相差较大。《古籍数字化工作手册》(V.1修订版)(以下简称《手册》)中的规范要求可能并不适用于所有的古籍。下面从数字化加工准备、数字化加工和元数据制作3个方面讲述古籍数字化实践工作,并对古籍数字化过程中出现的若干问题进行探讨。
本阶段是指在古籍出库后核对题名、种数和册数,对古籍进行逐叶翻检,详细记录古籍的大小、缺叶、透字、皱折、夹框等情况,统计古籍的叶数信息,编制文献整理登记表。数字化加工准备阶段一方面对古籍的现状进行了比较全面的记录,另一方面可以根据古籍的开本大小、装帧形式、中缝宽度、透字等实际情况,确定数字化的方式和设备。部分古籍没有页码信息,为记录缺叶、透字、皱折、夹框等详细信息增加了难度。
古籍的装帧形式多种多样,难免存在特殊现象。例如《灌頂藥師經疏》这部卷轴装古籍,接缝处附有正反两面的注解,而使用《手册》中提供的图像采集方法并不能够完整、准确地反映出该部古籍的原貌。
2.2.1 数字化加工设备
古籍数字化的主要方式是扫描或拍照,设备为扫描仪或数码拍照相机。为了达到图像的分辨率要求,数字化设备的规格需要根据古籍的开本大小来选择。从各个古籍收藏单位提交的数据来看,使用的扫描仪的最大幅面大多是A3幅面,对于开本尺寸较大的古籍不能一次性完成扫描,如果分画幅扫描再进行拼接,得到的数字化图像与古籍原件将有一定的出入。
部分古籍收藏单位使用了V型扫描仪,对于V型扫描仪,由于玻璃压板是由两块玻璃板拼接而成,拼接处可能会遮挡古籍原件部分文字,造成部分信息缺失,如图2所示。由于各古籍收藏单位的经济实力有差异,购置的数字化加工设备规格参差不齐,部分早期的数字化加工设备已经不能满足现在的古籍数字化要求,对于具有一定使用年限的数字化加工设备,存在着部件老化等现象,如果不及时进行维护和保养,将严重影响数字化图像的质量。
图2
2.2.2 数字化加工环境
数字化加工环境需要注意防护光源,避免透光或反射光影响数字化图像。相机本身不具备光源,一般需要人工设置光源,如果光源设置不合理,容易造成数字化图像亮度偏高或局部有阴影,影响图像质量。扫描仪一般自带光源,但自带光源的位置固定、不可调节,往往也需要增加光源,否则可能造成数字化图像色彩不均或局部有阴影。
2.2.3 数字化加工过程
古籍收藏单位中专门从事古籍数字化加工的工作人员较少,一般也没有经过系统的培训,数字化加工的经验不足,数字化加工的过程并不完全符合规范,影响了数字化图像的质量,具体的不规范现象有下面几种。
(1)数字化时古籍没有添加衬纸,图像透字现象严重。古籍原件年代久远,可能存在透背叶字迹、虫蛀、局部破损等现象,这种情况下需要垫上古籍适用的衬纸后再进行数字化。添加衬纸这一项操作,一方面需要古籍相关的专业人员来进行,另一方面降低了古籍数字化的加工效率,所以古籍收藏单位通常省略这一步骤,造成数字化图像有透字现象,如图3所示。
图3
(2)数字化图像上有异物、背景杂乱。扫描仪上的玻璃压板如果不注意保护,久用之后会产生划痕,如果不定期清洁,玻璃压板上会有污渍,扫描后划痕和污渍将显示在数字化图像上,影响图像质量,如图4所示,图像上有明显的划痕。古籍原件具有一定的厚度,翻开扫描时需要保证两侧叶面在同一水平线上,否则数字化图像的中缝处容易产生黑色阴影,影响图像质量,如图5所示。部分扫描仪自带的扫描背景不是纯色的,如果扫描时不使用背景纸,会造成图像背景杂乱,如图6所示。
图4
图5
图6
(3)数字化图像没有留白。为了尽可能地保留古籍原件的信息,图像叶面外围应该有一定范围的留白,由于操作人员的疏忽,存在图像没有留白的现象,可能造成图像中天头、地脚等原件信息的缺失,不能完整地反映古籍原貌,如图7所示。
图7
(4)色卡上有污渍。色卡是色彩管理的重要手段,可以准确还原图像颜色。在实际操作过程中,工作人员往往不注重色卡的清洁,多次使用造成色卡表面上有污渍,影响将来还原图像颜色。
(5)数字化时直尺放置不规范。数字化时使用直尺是为了记录古籍的开本大小,对每部古籍第一册封面进行数字化时,需要将直尺放置于古籍原件左侧,距离古籍0.1-1厘米。如图8所示,直尺放置在古籍的右侧和下方,右侧直尺紧贴古籍,下方直尺更是垫在了古籍下面。
图8
(6)数字化图像歪斜较大。古籍放置的位置不规范,可能造成数字化图像歪斜较大,如图9所示。
图9
“中华珍贵典籍资源库”建设项目的元数据制作较为复杂。尽管《手册》对古籍元数据著录进行了详细说明,国家古籍保护中心也举办了多期古籍数字化培训班,但古籍元数据著录不规范现象时有发生,一方面是由于工作人员对《手册》理解不透彻,未完全依照《手册》进行著录,另一方面是《手册》本身有不完善的地方,这里主要列举《手册》中不完善的地方。
《手册》主要针对线装类的古籍数字化进行了规范要求,实际上古籍的装帧形式多种多样,《文献整理登记表(各卷)》中的“开本”字段是要著录古籍原件的大小,对于卷轴装古籍来说,开本大小如何定义没有明确说明;“板框”字段是要著录书叶正面图文四边的围栏大小,并不是所有的古籍都有板框,对于没有板框的古籍来说,该字段是否著录没有明确说明;“叶数”字段是要著录各卷的叶数,对于卷轴装古籍来说,叶数如何统计没有明确说明;对于线装类古籍,存在着上一卷卷终和下一卷卷端在一个筒子叶的现象,这两卷的“叶数”字段如何著录也没有明确说明。
针对前述古籍数字化过程中出现的种种问题,笔者提出了几个处理策略。
古籍数字化对设备的要求一直是比较高的,对于分辨率、数字化幅面、光源等都有较高的要求,部分早期的数字化设备已经无法满足现在的古籍数字化要求,这就需要增加资金的投入,购买能够满足数字化要求的设备。设备在日常使用中,也应该注重保养和维护,及时更换老化的零部件,定期进行设备的校正,以保证数字化图像符合要求,尽量避免对古籍反复数字化,以保护古籍原件。
古籍数字化是集多种知识为一体的工作,纵观古籍数字化的各个流程,需要古籍文献、图像采集、图像处理等多个领域专业人员的参与,单一领域的工作人员不足以支撑整个数字化工作,需要多个领域的工作人员相互配合,才能保障数字化工作的顺利开展。
古籍数字化是一项繁杂的工作,对工作人员的要求较高,应该加强对工作人员的培训,规范数字化的操作流程,以提高古籍数字化的整体水平。例如,在数字化加工准备阶段,对于透字严重的古籍需要添加衬纸;在数字化加工前,需要对设备进行校准;使用色卡时,需要佩戴手套以保证其清洁;数字化图像应该有一定范围的留白;数字化图像歪斜较大时,需要进行图像纠偏处理。工作人员不但要精通专业知识,还应该具有较高的责任感,才能保障古籍数字化成品的质量。
随着古籍数字化的全面开展,相关问题也会不断出现。国家古籍保护中心举办了古籍培训班,不仅可以对数字化工作人员进行培训,也提供了一个很好的交流途径,各数字化单位的人员可以相互交流数字化经验,讨论数字化中遇到的问题。与此同时,应该召集各个相关领域的专家成立专家组,以解决数字化工作人员在实际操作中遇到的问题,为其提供技术支持。
中华珍贵典籍资源库项目打破了以往古籍数字化的一些限制,由国家古籍保护中心统一规划并制定统一标准、全国古籍收藏单位合作共建,最终实现数字化成果的资源共享。它让古籍数字化项目向前迈进了一大步,但中华古籍博大精深,只进行抢救性的数字化是不够的,还有待于古籍工作者对数字图像进行内容挖掘。同时,这种深挖掘需要基于图像的处理,具有较强的技术性,因此从事这项工作的工作人员,不仅要有责任感和使命感,还要有较高的技术水平。