□姚伯岳 沈芸芸
“学苑汲古——高校古文献资源库”是一个汇集高校古文献资源的数字图书馆。最初是作为CALIS二期专题特色库的一个重点项目而于2004年6月正式批准立项,由北京大学图书馆牵头,联合南京大学、北京师范大学和四川大学3所大学图书馆的古籍部共同建设,到2006年6月项目验收时,取得了如下成果:
(1)建立了我国第一个高校校际古文献资源库。“高校古文献资源库”验收时,4个参建馆提交的古籍元数据量达202449条,书影和全文图像数量达5467幅,电子书1万余册。
(2)设计开发了基于新型元数据标准的网络型古籍联机编目系统,系统设计合理,实用高效。借助该著录系统,在项目实施后不到2年的时间,4个参建馆就都迅速完成了各馆所藏古籍的计算机回溯编目工作。
(3)推出了具有古文献特色的检索服务平台——“学苑汲古”,检索途径多种多样,系统运行良好。
(4)制订了一套适用的古文献数字化标准,包括:古籍元数据规范、古籍著录规则、古文献数字加工标准。
“高校古文献资源库”在验收通过并正式对外开放服务后,受到社会的普遍好评,并受到国内外高校图书馆的关注。它的建设方法和模式,适时地迎合并满足了各高校图书馆当前的急迫需求。可以说,这个项目对于每个参建馆来说,都是其想做而且不得不做的工作。加入该资源库,不仅可以共享其他成员馆的大量编目数据和书影图像及电子图书,而且还可以无偿得到一个经过实践检验的较为完善的古籍数字化编目、整理、加工平台。于是,加入到“高校古文献资源库”的建设中,成了许多高校图书馆的迫切愿望。故在项目验收结束后又陆续增加了香港中文大学图书馆、华东师范大学图书馆、吉林大学图书馆3个成员馆。截止到2010年9月底,该库已成为包含7个成员馆共31万条古籍元数据、2.6万幅书影和全文图像、8.3万册电子图书的网络型古文献数据库。
“高校古文献资源库”的初期建设成果,虽然超过了预期的目标,但这只是一个开始,它的使命还远没有完成。首先,它的成员馆还太少,相较全国上百所高校图书馆有相当数量的古籍收藏的现状,它的覆盖面太小,代表性不够强;其次,它的书目记录数量、书影、全文电子图书的总量还不够多,还没有具备一个大型古籍数字图书馆的规模;第三,它的数据库系统的设计,包括编目平台、发布平台、管理平台都还不够完善,需要继续加以改进。这就是说,“高校古文献资源库”在完成它的初期建设之后,就自身而言,还有很大的发展空间,应该继续和扩大建设。
作为CALIS二期专题特色库中唯一的一个校际合作项目,“高校古文献资源库”项目从一开始就受到CALIS管理中心的高度关注。2010年9月20日,CALIS三期建设正式启动,鉴于“高校古文献资源库”前期建设的成功进行和突出地位、以及许多高校图书馆不断主动申请加入该资源库的现实需求,CALIS管理中心决定在CALIS三期建设中,将“高校古文献资源库”升级为与专题特色库项目平行的重点建设项目,继续提供资金和技术上的大力支持,并为之设立了新的建设目标,即:
联合更多的收藏古籍有一定规模的高校图书馆,扩大建设高校古文献书目与全文图像资源库,尽可能多地反映我国高校古籍收藏情况,在为参建馆提供馆藏古籍回溯编目服务的基础上,建立全文图像加工与共享服务机制,促进高校图书馆藏古籍的编目整理与资源共享,在读者与图书馆之间建立方便快捷的沟通管道。
具体的建设目标是:
(1)继续由北京大学图书馆作为牵头单位,在现有基础上吸纳古文献收藏丰富或有特色、技术力量好的高校图书馆加入,扩大联合建库的范围,使成员馆扩大到24个。
(2)建立集中而规范的古文献资源库,采用元数据、书影、全文图像、电子图书多种形式并重的建库方式及相应的共享服务机制。预计在2012年4月项目验收时,达到元数据总量55万条,书影21万幅,全文图像和电子书近10万册。元数据和中精度书影图像向全社会开放、电子图书在参建馆范围内向读者免费开放。
(3)试验进行古文献传递服务。挑选几个条件较好的图书馆为服务馆,在CALIS成员馆范围内开展古籍的文献传递服务,在试验期内对相关用户予以经费补贴。试验成功后,将进一步推动使资源库成员馆均成为古文献传递的服务馆。
(4)努力构建一个技术先进、功能强大、服务机制完善的古文献数据发布和交流平台,加强与用户的交流互动。
“高校古文献资源库”继续和扩大建设的消息一经征询,各馆无不欣然同意,踊跃加入,并且都以高昂的热情和积极的工作态度投入到日后的项目建设中。复旦大学、中国人民大学、清华大学、中山大学、山东大学、武汉大学、南开大学、苏州大学、郑州大学、河南大学、厦门大学、辽宁大学、南京师范大学、内蒙古大学、浙江师范大学、宁夏大学、澳门大学,共17所国内知名高校图书馆积极申请加入,加上前期的7个参建馆,CALIS三期“高校古文献资源库”项目的参建馆很快就达到了24个。元数据的建设也进展神速,到本文脱稿的2011年10月中旬,“高校古文献资源库”中的古籍元数据总量已经达到62万条,远远超出了55万条的预期建设目标。“高校古文献资源库”的扩大建设胜利在望!
也许有人会问,在目前国内外中国古籍数据库风起云涌的情形下,“高校古文献资源库”的价值何在?地位如何?其建设究竟有无必要?
为此,我们对国内外已有的综合性古籍数据库作了一个初步调查,基本情况见表1。
这些数据库,按开发单位性质,可分为商业性数据库和学术性数据库两大类。按付费方式,可分为收费和免费数据库。商业性数据库多为封闭式的静态数据库,内容相对完整、独立、有限;由于收费,一般都限于局域网的服务范围。学术性数据库由于基本是免费的,大多都采用广域网的形式,开放性和公益性是其特点。
“高校古文献资源库”是免费的学术性数据库,所以我们暂时略去那些商业性数据库不讲,仅在这里重点对比一下有关中国古籍的国内外公益性学术性数据库。
在中国高校系统,大学数字图书馆国际合作计划(简称CADAL)利用中美百万册图书项目的支持,已经建立了一个包括155910册中文古籍的全文数据库。但是,CADAL古籍全文数据库有以下不足:一是其数据库建设缺乏明确的整体规划,书种的选择存在很大的随意性,数据组织混乱,缺乏学术逻辑性;二是其元数据缺乏对古籍版本和藏址等事项的著录,影响了其学术利用价值;三是用户终端只有检索功能,没有分类浏览功能,读者使用很不方便。
中国国家图书馆近年来开发了许多对全社会开放的古文献全文数据库,如《甲骨世界》、《碑帖精华》、《西夏碎金》、《敦煌遗珍》、《数字方志》、《年画撷英》、《中华寻根网》等。国外也有一些有关中国古籍的专题数据库,如加拿大麦吉尔大学开发的《明清妇女著作》网站等,但这些数据库都属于专题数据库,规模有限,与高校古文献资源库宗旨不同。
表1 国内外综合性古籍数据库调查表
日本京都大学的“日本所藏中文古籍数据库”收录了日本67所公私收藏机构所藏中文古籍书目记录约80万条,虽然数量可观,但没有书影和全文图像,仅仅是一个二次文献数据库,资源类型显得单一。此外,这个数据库只是一个发布平台,没有供各馆进行古籍编目的编目系统,只有共享,没有共建。
日本东京大学东洋文化研究所汉籍全文影像数据库是一个可供借鉴的良好模式,即在提供规范的目录数据的基础上,提供原文图像。但全文图像只有4000多种,数量过少,继续投入乏力。
台湾“中央”图书馆主持建设的“中文古籍书目数据库”,发端于1999年,目前已有30余所合作单位,范围涉及台湾地区、大陆、日本、北美等海内外重要的中国古籍收藏机构,数据库收录书目已逾62万条,目前美国芝加哥大学图书馆、哈佛燕京图书馆等都已向其提交了馆藏古籍书目数据。但是中国大陆各图书馆提交的书目数据除国家图书馆外,大多是象征性的少量试验数据,所以虽然数据总量看起来不少,但对于中国大陆的古籍收藏机构来说,并不具备实用价值。
美国由艾思仁博士(Dr.Soren Edgren)主持的中华善本古籍国际联合书目(Chinese Rare Book Project),是一个国际性的中国古籍联合目录系统。该数据库现已在中国国家图书馆网页上以“中华古籍善本国际联合书目系统”的名义对外服务,但实际上目前只开放了美国哥伦比亚大学图书馆和普林斯顿大学葛思德图书馆等少数几个馆所藏中国古籍善本的书目数据和部分书影,数量只有几千条,规模有限。
对比上述国内外各种中国古籍数据库,“高校古文献资源库”的优势在于:
(1)在反映高校图书馆系统古籍收藏情况方面具有代表性。高校图书馆是我国公共图书馆系统之外,收藏中国古籍数量最大的图书馆系统。例如北京大学图书馆藏古籍150万册,居全国高校之首,在全国图书馆中排名第三。中国人民大学图书馆、中山大学图书馆收藏古籍均达40万册,南京大学图书馆藏古籍大约39万册,北京师范大学图书馆藏古籍37万余册,四川大学图书馆、华东师范大学图书馆藏古籍也在30万册以上。其他如清华大学图书馆、吉林大学图书馆、郑州大学图书馆、武汉大学图书馆等,都有20万册上下的古籍收藏。国内这些收藏古籍规模较大的高校图书馆目前都已加盟到作为CALIS三期重点建设项目的“高校古文献资源库”中,今后还会有更多的高校图书馆加入进来,“高校古文献资源库”将不断增加其规模,越来越全面地反映高校图书馆系统的古文献资源收藏。
(2)反映参建馆古籍收藏的整体性和完备性。“高校古文献资源库”的建设宗旨之一,就是全面反映每一个参建馆完整的古籍收藏,所以要求每个参建馆都尽可能地提交全部馆藏的古籍书目记录。这就使该资源库可以完整地反映各个参建馆的古籍收藏情况,使读者的检索结果更加精准和肯定。
(3)数字资源的针对性和规范性。“高校古文献资源库”中对书目记录的著录是以每个藏本为单位,资源库中所有的书影图像,也是分别挂接在每一藏本的书目记录之上,反映该藏本的面貌。这样的设计,有助于各馆编目人员以及读者比较和鉴别版本,统一认识,提高各馆古籍书目记录的准确性和规范性。在进行规范的版本著录并尽可能多地挂接书影图像之外,“高校古文献资源库”的书目记录还揭示古籍藏本的馆藏地址和典藏号,为学术研究提供可以查考的物理依据,这是商业性数据库难以做到的。
(4)高效便捷的检索与目录组织体系。“高校古文献资源库”没有限制性检索,其高级检索所设的10多个检索途径都可以单独进行检索,同时还允许各种复杂的组配检索,甚至还提供对整条书目记录的全文检索。其发布平台“学苑汲古”更是在检索结果之下,又设计有二次检索的功能,还提供了古籍版本类别、出版年代、出版地的浏览功能,题名和责任者的索引功能。这些独特而完备的检索手段的设置,大大方便了用户的使用,提高了数据库的价值,赋予了检索结果以很高的学术含量,成为学者治学的得力助手。
(5)资源库的动态性。“高校古文献资源库”是一个动态的网络数字图书馆,其上的各种书目数据都会经历不断的修改和完善,质量将逐步提高,各种数字资源的数量也在不断的增加丰富中。此期建设还将在修改后的发布平台上增加与用户的交流互动功能,随时吸纳读者和用户的批评建议,对各类数字资源进行修改和调整。
(6)资源库的开放性。“高校古文献资源库”是一个开放性的数据库,表现在:一是成员馆数量的开放。“高校古文献资源库”的建设方针是:“自愿参加,合作共享,开放服务。”海内外收藏中国古籍稍具规模的高校图书馆只要有参加的意向,并签署参建协议,承诺履行一定的义务(如愿意提交馆藏古籍的元数据等),随时都可以加入该资源库,成为参建馆,享受参建馆的种种优惠待遇。二是资源类型的开放。“高校古文献资源库”现在的古文献类型基本是以古籍为主,兼有少量舆图。随着古文献数字化建设的深入,“高校古文献资源库”还准备将拓片、契约文书等古文献类型逐步列入,成为一个囊括各类型古文献资源的大型综合性数据库。
(7)资源库的公益性。该库为公益性数据库,建成以后全部完整的书目记录及中精度书影图像向全社会开放,电子图书将在参建馆范围内免费共享,这将使古籍数字化的受益人群大为扩展,必将有力推动对中国古代典籍的深入研究和充分利用。
“高校古文献资源库”的建设机制分为运维机制、资源建设、服务机制、技术支持等4个方面。
作为CALIS三期重点建设项目的“高校古文献资源库”,已经在CALIS管理中心的指导下,以北京大学为首,联合若干主要高校图书馆组成项目管理组,实施项目管理,以及聘请专家对项目进行专业咨询、立项评审、中期检查及验收等。在项目管理组下又设立业务工作组,其职责包括制订建设方案、拟订相关规范和标准并进行质量监控,协调资源建设,承担对参建馆的相关技术指导和业务培训,以保证该项目的顺利实施和圆满完成。
资源建设包括元数据加工和书影、电子图书的数字加工。
元数据由参建馆依据统一的元数据标准著录,并提交至项目中心数据库存贮。考虑到古籍版本的多样性,各馆古籍元数据的提交不以查重为前提,不进行数据合并,系统的设计也不支持不同成员馆之间的数据合并。
元数据的建设在采取联机编目方式的同时,将充分整理利用各参建馆已有的古籍数字化成果,尽可能地将各馆已有的各种格式电子化的古籍书目数据批量导入到“高校古文献资源库”系统中,然后由各馆逐条进行校对修改。
作为“高校古文献资源库”本期建设的重点内容之一,项目管理组鼓励各参建馆提供古籍书影图像的扫描、上传和链接,并予以相应的经费补贴。书影一般只选择古籍的卷端、内封、牌记等少数几个页面进行扫描,每书原则上不超过3幅,本馆复本一般不再提交书影。书影扫描工作由各参建馆进行,书影图像可由各馆利用“高校古文献资源库”古籍著录系统上的“图像编辑”工具提交并与相应的元数据挂接,也可以批量提交到项目管理组集中加工和上传、链接。
电子图书完整反映古籍全书面貌,但文件格式和精度与书影、全文图像不同,可以采用CEB格式,也可采用PDF格式。电子图书的提供基于两种情况:一是由图书馆主动进行古籍全文数字化而提供的电子图书。一种是应读者具体要求进行全文数字化而产生的电子图书。CALIS欢迎电子图书的提供,而且是越多越好,但由于电子图书不是本期建设的重点内容,所以暂时不予以经费补贴,这项建设内容完全基于各参建馆的自觉自愿。
“高校古文献资源库”提供给各参建馆一个富有古文献特色的服务门户,并采取以下共享服务机制:
(1)元数据共享
参建馆在以下层面共享元数据:参建馆可以上载、修改、复制、删除、下载本馆的元数据;参建馆可以检索、浏览、套录其他馆的元数据,藉以生成本馆元数据,但无权修改和删除其他馆的元数据。
(2)书影、全文图像、电子图书共享
书影的中精度图像随元数据对全社会开放;参建馆编目用户则可以浏览其他馆的各种精度的浏览级书影。
对于全文图像和电子图书,有条件的馆可以按本项目提出的数字化标准规范扫描本馆古文献资源,经转换为发布格式后提交项目中心服务器,按各馆政策或在CALIS成员馆范围内共享,或在本资源库参建馆范围内共享,或只供本馆用户使用。
(3)暂时有限的文献传递服务
服务馆暂时仅限复旦大学、南京大学、四川大学3个图书馆,在资源库发布平台设计相关功能,利用CALIS文献传递机制,在CALIS成员馆范围内开展古籍的文献传递服务。试验期内CALIS对相关用户予以50%的经费补贴。
在项目管理组的领导下,由业务工作组负责组织,本期“高校古文献资源库”将建立和完善相应的标准规范,包括古文献元数据规范和著录规则、古文献数字加工规范等,同时建立质量监控机制,保证数据质量。
在项目建设期间,CALIS将为参建馆提供古文献资源加工、管理和服务诸系统,并根据本项目业务工作组提出的各项需求,及时完成对这些系统的修改、完善和维护工作。
“高校古文献资源库”是一个可持续的建设项目,它初步搭建了一个网络型古籍联机编目平台,为开展高校间大规模的古籍联合编目创造了必要的条件,并且可以向数字图书馆的方向发展,进行纵深建设。这样一个网络型古文献数据库的建成和使用,其意义和作用是:
(1)对于那些尚不具备单独开发古文献数据库条件的高校图书馆来说,“高校古文献资源库”可以给他们提供一个现成的平台,帮助其尽快实现馆藏古文献各类型数据的数字化。
(2)实现各成员馆之间的古文献联机编目,有助于古文献书目数据的完善和规范。
(3)可以帮助读者方便地了解国内高校范围内古文献的收藏情况,满足其检索阅览需求。
(4)有助于满足读者对古籍的文献传递需求,促进古籍的流通利用。
(5)引导读者更多地阅读电子版古籍,间接地保护古籍原书,减少其在使用中造成的损坏。
应该说,“高校古文献资源库”的建设,既有对国内高校图书馆所藏古文献资源的系统整合效应,也有对成员馆古籍整理工作的促进和规范作用,而且也为国家各类古籍整理项目在各高校图书馆的顺利实施创造了有利条件。我们将不断努力,争取将“高校古文献资源库”建设成为一个富于古文献特色、内容丰富、功能完备、理念先进、占有重要地位的全国性甚至世界性的高校古文献数字图书馆!