古籍数字化实践与探讨
——以《国家珍贵古籍名录》数字化为例

2018-01-28 10:54计思诚云南省图书馆
图书馆理论与实践 2018年7期
关键词:古籍页面检索

计思诚(云南省图书馆)

2017年2月28日,国家图书馆(国家古籍保护中心)与上海图书馆、天津图书馆、浙江图书馆、云南省图书馆等4家单位在国家图书馆首次联合在线发布古籍数字资源,本次发布的古籍资源均为各馆所藏特色资源,加上此前已发布资源,总量达到2.4万部,读者实名注册后便可免费查阅使用。本文在前人研究讨论的基础上,结合《国家珍贵古籍名录》数字化实践中的体会,对数字化过程中出现的问题作出分析、总结。

1 云南省古籍入选《国家珍贵古籍名录》概况

从2008年3月1日第一批《国家珍贵古籍名录》开始公布,到2016年3月27日公布的第五批,我国已公布《国家珍贵古籍名录》12,274部。国家珍贵古籍包括甲骨文、简帛古籍、敦煌遗书、宋至清汉文古籍、少数民族文字古籍、碑帖拓本、舆图和外国文字古籍等,是最珍贵、最具代表性的中华民族典籍文化遗产。云南省内共14家古籍存藏单位及个人共235部珍贵古籍入选《国家珍贵古籍名录》,包括汉文珍贵古籍174部,少数民族珍贵古籍61部。在汉文珍贵古籍里,有现存云南最早的写本——大理保安八年(1052)大理国写经《护国司南抄》;有存世不多的、装祯形式为旋风装的大理保天八年(1136)写本《诸佛菩萨金刚等启请》;有云南大理國刻本《佛說長壽命經》,元延佑五年(1318)中庆路清凉山报国禅寺刻《大华严方广普贤灭罪称赞佛名宝忏》;约在元代至顺三年到至元二年(1332-1336)前后,徽政院主持,在大都弘法寺刻《官刻大藏经》和明万历十七年至清康熙十五年刻的一万二千六百余卷《嘉兴藏》等大藏经典;有北宋哲宗二年绍圣二年(1095)刻本《春秋经传集解》;有宋刻递修本《南齐书》《北齐书》《周书》;有元至正二十三年(1363)朱元佑刻《鄂国金佗粹编》;有代表性的稿本《东塾着稿》;有顾炎武纂辑的钞本《肇域志》。

2012年8月国家古籍保护中心开始国家珍贵古籍数字化试点工作,启动“中华珍贵典籍资源库”项目的同时,编制了《古籍数字化工作手册》(试用本)作为本次试点工作的标准规范。《古籍数字化工作手册》 (试用本)规定了珍贵古籍数字化的范围、规范性引用文件、术语定义、工作流程、加工准备、元数据著录、图像数字化、数据命名、数据提交、数据验收、数据发布利用等,作为古籍数字化依据。由于入选古籍的珍贵性,在数字化加工中,从设备的选择、元数据的著录、图像的扫描采集、图像处理到资源发布,每一个环节都必须做好充分的调查研究。

2 《国家珍贵古籍名录》数字化的实践与讨论

2.1 古籍数字化加工准备

古籍数字化工作大致分为七个步骤实施,依序为古籍数字化加工准备,元数据著录,图像数字化,数据命名,数据提交,数据验收,数据发布利用。

2.1.1 古籍数字化的工作流程

古籍数字化的总原则是:严格管理,明确责任,落实安全保密管理机制、质量管理机制,确保古籍文献原件和数字化信息的安全,确保各环节工作符合质量要求,建立完整、规范的工作记录。具体包括以下几个方面。

(1)书目的确定。为最大限度地避免数字化的重复建设,在书目的选定上,一定要坚持珍贵性、地方性、系统性的选择标准。如国家古籍保护中心开展的珍贵古籍数字化试点工作,从已入选《国家珍贵古籍名录》的古籍中进行遴选,选定了云南省图书馆珍贵古籍44种,这其中包括国内罕有的大理国时期的写本11部、存世不多的元官藏23部、稿本5部、刻本5部。

(2)场地的选定。为确保古籍的安全,数字化过程中古籍不得被擅自带离保管单位,因此加工场所应选定在古籍存藏机构的内部,便于古籍的监管。云南省图书馆古籍由历史文献部负责管理,部门有两个阅览室,面积都较大,因此将加工场地设在不接待读者的善本阅览室。

(3)古籍的交接。核查书目中古籍的保存状况,制作古籍文献交接清单,由加工人员从古籍库房管理人员处领取待加工古籍,需要根据加工工作进度安排按规定领取,领取时需要对古籍数量进行清点,并填写交接登记表,当日出库的古籍当日入库。在扫描前,加工人员按照索书号、册次及卷次进行整理登记,并统计每册书的页数及制作卷端目录。对于虫蛀、破损、残缺、褶皱等书品比较差的书籍进行相应的记录并及时通知古籍管理人员协调处理。

2.1.2 古籍数字化扫描设备

古籍数字化扫描设备的配置是进行古籍数字化的关键环节,是古籍数字化的主要硬件。珍贵古籍数字化,首先考虑的是古籍在无损害或最大限度减少损害的情况下进行。现在市场上有很多古籍数字化扫描的设备,经过考察比较,云南省图书馆选择使用法国i2s公司生产的专业古籍数字化扫描设备,该公司提供了CopibookA2、Suprascan QuartzA1及 Suprascan QuartzA0三种类型古籍数字化扫描仪,扫描的古籍书影均能达到或者超过《古籍数字化工作手册》(试用本)的要求。这三种类型扫描设备,首先解决了不同尺寸、不同装帧形式对设备的要求。在幅面上由A2到A0,且可以根据古籍尺寸大小做出调整,可以满足不同幅面古籍的数字化扫描需求,避免了较大幅面古籍分段扫描后拼接效果不理想和费时费力的问题。其次解决了翻页中不同厚度对设备的要求。扫描设备的操作平台具备作业独立升降功能,解决了古籍扫描过程中因古籍左右厚度不一而需要垫板的问题,也利于对古籍实体的保护。再次,解决了古籍扫描过程中对光源的特殊要求。扫描时的照明系统均使用冷光光源,无紫外线和红外线。照明光线由上方漫射至整个操作台,并通过软件调整整个操作台的亮度,保证了数字化过程中古籍受光的均匀,最大限度地降低对古籍的影响,保证了采集图像的精度和色彩还原度,实现所见即所得的效果。

选择古籍数字化的软件,首先,要能对各种古籍扫描参数设置进行保存,可根据不同大小、类型的古籍选择最佳的扫描参数。其次,要根据古籍页边距的尺寸,设置精确尺寸,在扫描成像过程中自动裁切。再次,软件要支持多幅面图像的同时采集、多种格式输出保存。云南省图书馆使用的古籍数字化软件有i2s Copibook系列设备自带软件和i2s Suprascan Quartz系列的yooscan软件,能够满足以上的要求。

2.2 古籍元数据的著录

古籍元数据的著录是古籍数据库建设的基础,必须是统一的标准才能使数字化成果达到合作共建、资源共享的目标。2012年国家古籍保护中心编制《古籍数字化工作手册》,2014年做了修订。建议古籍数字化过程中的元数据著录,以此做为标准。

《古籍数字化工作手册》元数据的著录包括文献整理登记、描述元数据、管理元数据三部分,需要制作6张库表,包括文献整理登记表(全书)、文献整理登记表(各卷)、书目数据表、卷目数据表、外字表、管理信息表。[1]各表对数字化珍贵古籍整体、卷次、题名、卷名、责任者、版本、存卷、册数、页码、批跋、板式、透字、夹字、皱折、馆藏号、馆藏单位、制作单位等信息进行客观准确的著录。对古籍题名、卷次、责任者、版本、页码、批校题跋等详细记录是建立数据库的基础,也是读者快速查阅所需文献的重要依据。对古籍的夹字、透字、虫蛀、褶皱、破损、霉变、残页等进行著录,反映珍贵古籍损坏状况,便于及时发现破损情况,为下一步的修复提供依据。

2.3 古籍数字化图像的扫描采集

古籍书页图像扫描采集时参数的选择与设置对采集图像、后期图像的处理速度、制作电子图书的质量以及后续制作仿真本有直接的影响,[2]且在古籍书页扫描操作过程中可能出现页面修整、古籍放置、透字衬纸、拆卷装订等方面的问题,若处理不当,会对古籍造成二次损坏。

(1)扫描参数设置。《古籍数字化工作手册》中规定,数字扫描参数应设置为彩色扫描色深24、光学分辨率600dpi、半页型页面、输出无压缩的TIFF格式、冷光光源扫描,亮度、曝光度、白平衡等需根据环境的变化时时做出调整。

(2)古籍放置。在古籍书页扫描时,书籍放置在承书操作平台上书页应与扫描仪确实成为垂直角度,并固定好使之不可移动。由于古籍年代久远,存在纸质脆化、老化、破损等状况,扫描放置古籍时工作人员须轻拿轻放,同时须避免古籍因过分挤压拖动、反复放置,造成人为的古籍实体损坏。

(3)古籍页面修整。馆藏古籍存在纸张卷曲,页面褶皱、折角的现象,在图像扫描采集前如不对古籍页面进行修整,玻璃压板挤压便会造成古籍损坏加重,也可能因书面文字受到遮挡进而影响古籍文字内容的识别阅读,甚至还会影响古籍图像的美观,因而,云南省图书馆在古籍图像扫描采集时对书页卷曲、褶皱、折角进行轻微的抚平,确保页面的平整。

(4)古籍透字处理。古籍数字化中出现透字情况,是每一个负责扫描的工作人员最不愿意遇见的,不是怕麻烦,而是方法使用不当容易对古籍造成二次损坏。[3]云南省图书馆部分古籍纸质薄,页面文字可透过纸张,古籍图像扫描采集时形成重影,不便于阅读使用。目前云南省图书馆处理古籍透字的情况主要采取衬纸的方法,在书页间加入衬纸,并选择柔软的宣纸进行托衬。然而加入衬纸很容易划破书口,因此在扫描时遇到透字古籍时需要工作人员谨慎细心对待。

(5)古籍拆卷处理。原则上古籍一般不进行拆卷处理,若因特殊情况需要拆卷,必须经过专家核定,由专业人员进行操作。[4]云南省图书馆古籍数字化中拆卷主要是因为部分古籍书脊距文字太近,扫描时出现夹字现象,图像页面文字内容不完整。还有部分透字古籍,纸质老化、脆化、破损严重,衬纸的方法会对古籍造成二次损坏,这时,需要对古籍进行拆卷处理。这项工作必须慎之又慎,如遇到非拆不可的,必须由修复专业人员对古籍进行拆卷、修整。

2.4 古籍数字化图像处理

完整清晰再现古籍原貌,是整个数字化工作成功的关键。在古籍数字化过程中,大部分图像需要后期进行处理,所有后期处理工作都仅在未改变原扫描或拍照图像的色彩、分辨率、格式、压缩的情况下进行,包括纠偏、拼接、去污、裁切及水印等。

(1)纠偏处理。古籍扫描图像需要纠偏处理,主要有两个原因:一是扫描工作人员在扫描时未能将古籍左右放置平行整齐;二是部分线装古籍在装订时装订线没有与书口平行出现倾斜,古籍扫描时展开书籍页面很难达到四边垂直平整。以上情况导致古籍成像偏斜,需要后期进行纠偏处理,使版心居中、页面端正清晰。

(2)图像拼接。图像的拼接在字画、碑帖及地图等数字化时较为常见,古籍图像是否需要拼接主要由古籍的装帧形式而定,一般线装古籍页面图像多在A2幅面内,较少需要拼接,而旋风装、经折装、卷轴等装帧形式的古籍图像均需拼接。古籍图像的拼接是将分段扫描的图像整合以还原古籍原貌和内容,便于阅读和使用。

(3)去污处理。古籍图像采集后一般不做任何页面内容修改,以保留古籍的原汁原味。去污处理是针对古籍原件边缘背景页面的洁净处理。扫描时不论使用什么底色作为背景,古籍数字化图像使用高分辨率、高精度的成像采集,空气中较大颗粒的灰尘、古籍脱落的纸屑等掉落在操作平台上都将会呈现在图像里,当图像需要放大时许多的脏点便会出现,严重影响了古籍的美观和阅读效果。因而在保存古籍原生性图像条件下,需要做背景的洁面处理。

(4)裁切与水印处理。古籍采集图像所占内存较大,除了保证古籍原件的完整性需要留存少量的页边距外,不能保存太大无关幅面,因而在古籍页面进行拼接、纠偏处理后将多余的页面背景进行裁切。再者,古籍数字化的成果不断地对读者开放,读者可通过网络阅读和下载数字化的珍贵古籍。为防止恶意下载或进行商业牟利,在古籍资源提交发布前将古籍图像页面添加馆藏水印。古籍水印的添加必须能与古籍文字颜色进行融合,从而不影响古籍的阅读。

2.5 古籍数字化资源的发布

古籍数字化是古籍保存、整理和利用的必然趋势,也是数字图书馆建设的重要组成部分。目标是使所有的古籍数字化成果可以在最大范围内给读者提供服务,真正实现古籍资源的共建共享。[5]古籍数字化的成果只有建立相应的数据库发布平台才能实现共享的目标。古籍数据库发布平台技术的运用,可以使文献数据库最大限度地发挥其检索、存储功能,从而使得文献数据库达到存储信息量大,信息密度高,涉及信息范围广,数据连续性、积累性强的效果,使用户能在短时间内查询到最有效的信息。[6]古籍数据库根据现在的技术处理情况,可以将其分为图像版、文字版、图文版。云南省图书馆根据馆藏古籍现有条件的实际情况进行以数字图像为主的数据库建设,即通过扫描古籍全文,建立图像数据库,同时著录相应的元数据,形成基于元数据的古籍全文数据库。[7]

(1)采用形式。古籍数据库采用的形式包括C/S模式、APP模式和B/S模式。[8]C/S(客户机/服务器)模式的产品需要客户下载一个数十MB的客户端,然后进行安装配置。APP模式,用户也需下载客户端。B/S(浏览器/服务器模式),用户只需要在浏览器中打开该网站网页进行检索和浏览,不需要下载任何客户端。我馆与中国古籍保护网发布的数据库均采用B/S模式。

(2)开放方式。古籍数据库可采用不同的开放方式。如中华古籍资源库、哈佛大学哈佛燕京图书馆善本特藏资源、东京大学东洋文化研究所汉籍全文影像数据库、天津图书馆古籍数字资源都需要注册该馆的账户才能阅览;云南省图书馆古籍数字资源数据库只需进行实名注册即可查询和阅览,上海图书馆家谱全文数据库、古籍善本刻本库,浙江图书馆馆藏珍贵古籍数据资源都是进入数据库网页便可查询和阅览。

(3)检索设置。查询检索是数据库的基本功能,能使读者在瀚如烟海的数据中快捷地查询阅览所需古籍资源。但在中国古籍保护网发布资源数据库的检索设置有着较大的差别。首先,检索字段设置不同。如中华古籍资源库通过题名、善本号、责任者进行检索,哈佛大学哈佛燕京图书馆善本特藏资源通过题名、责任者、出版年代、出版地、出版者、附注项进行检索;上海图书馆藏家谱数字资源通过题名、姓氏、居地、堂号、著者、名人、丛书、索取号进行检索也可以通过全部索引进行合并检索;其次,检索方式有精确检索、模糊检索、高级检索、二次检索、分类检索的差别;再次,检索结果的浏览方式不尽相同。中华古籍资源库、哈佛大学哈佛燕京图书馆善本特藏资源、东京大学东洋文化研究所汉籍全文影像数据库可对检索古籍进行题名、责任者的升序或降序排序,也可以选择图文结合或者列表方式阅览古籍的著录信息。

(4)阅览设置。古籍阅览是古籍数字化的最终目的,目前在古籍资源数据库发布时,在古籍阅览界面及功能的设置上各具风格。共同的是每个数据库阅览古籍图片时都可以对图像进行缩放、上/下翻页、目录设置、古籍册次选择及当前页显示。不同的是部分数据库的古籍图像阅览还可以进行指定页面跳转、附件查找、添加随笔、全屏阅读、缩略图、首末页跳转等,并且数据的目录仅限于册次选择,而不能达到卷次内容的点击进入。

古籍数据库发布平台除了上述异同外,还具有其他一些特色功能设计,如云南省图书馆数字资源库设置了云南古籍分布的动态图,并以中国朝代为时间轴线显示各历史时期的古籍上线状况,使馆藏古籍在空间和时间上更具直观立体。哈佛大学哈佛燕京图书馆善本特藏资源可将阅读古籍资源分享至QQ、微博、豆瓣网等。但是因为目前全国古籍发布平台数据库并没有统一规划和功能标准,所以还存在开放方式、检索字段不统一,显示古籍描述信息不一致、阅览界面功能差异大等一些问题,读者换一个数据库必须重新学习才能更好的使用,千差万别的数据库模式容易让人混淆,给读者带来了不便。

3 未来古籍数字化的展望

随着古籍数字化理论研究的深入与实践的阅读推动,我们应不断加强对古籍数字化工作的创新与完善。

3.1 促进全国古籍普查与古籍数字化的结合

我国古籍数量众多,馆藏分散,需要进行全面的普查。从2007年开始实施“中华古籍保护工程”,启动了全国古籍普查工作。目前,中国古籍保护网已陆续将古籍普查的数据发布在“全国古籍普查登记基本数据库”,便于读者了解古籍、利用古籍。但是古籍数字化工作却是各单位独立进行,容易造成选目重复及人力、物力资源的浪费。在古籍 数字化资源共建共享的原则下,应加强古籍数字化与古籍普查的紧密结合,避免资源重复建建设。

3.2 实现古籍数字化的标准化

古籍数字化是一项系统的工作,必须在统一的基本原则的指导下才能有效健康地运行。国家古籍保护中心编制《古籍数字化工作手册》作为全国古籍数字化参考原则,对古籍数字化基本流程、元数据的著录、图像的采集、图像处理等做了规范,但不足的是《古籍数字化工作手册》的指导原则还未能涉及到古籍数字化数据库平台的发布建设,导致了独立研发的数据库互不兼容、只能在各自的平台上运行。因而,古籍数字化的工作指导原则还需进一步的完善,达到统一的标准,便于所有数字资源的整合与读者的查询利用。

3.3 加强古籍数字化设备与技术的完善

先进的科学技术在文化产业发展中的比重逐步提升,因此,古籍数字化也应该在实践的基础上加强对设备与技术的创新。一方面要求图书馆及图书馆员要及时关注和了解国内外最新的古籍扫描设备发展的科技动态;另一方面,要实现对现有应用软件程序及时的更新升级。加强硬件设备与软件技术的完善,实现古籍数字化工作与国际顶尖科技的接轨。

猜你喜欢
古籍页面检索
刷新生活的页面
中医古籍“疒”部俗字考辨举隅
答案
关于版本学的问答——《古籍善本》修订重版说明
让Word同时拥有横向页和纵向页
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
关于古籍保护人才培养的若干思考
浅议专利检索质量的提升
我是古籍修复师