费愉庆
广义的古籍应该是包括甲骨文拓本、青铜器铭文、简牍帛书、敦煌吐鲁番文书、唐宋以来雕版印刷品,即1911年以前产生的内容为反映和研究中国传统文化的文献资料和典籍;狭义的古籍是专指唐代自有雕版印刷以来的,1911年以前产生的印本和写本。
随着信息数字化及网络技术的发展,数字图书馆的兴起,以及人们对历史文化的重视,图书馆珍藏的历史文献成为数字化的重要对象,古籍的整理、组织与利用逐渐成为图书馆的重要职责。古籍的数字版本可以无限复制,是取之不尽、用之不竭的资源,并可以进行网络实时传播,突破了时空的限制;数字化古籍因为其传播便利和易用性,读者使用数字化古籍更方便,也较容易汇集知识从而产生新的价值;数字古籍容易储存,体积小,便于检索、应用及处理,所以数字化的古籍是使古籍保持生命力发挥价值唯一的选择。
保护古籍的目的是为了能让更多的人利用它。因此,图书馆在采取一切必要措施保护古籍外,更要关注对古籍内容进行发掘性的保护,并据此传播古籍中的知识,以达到弘扬传统文化,促进知识的传播和利用的目的。对古籍中知识进行获取,首先需要先整理出其“线索”,所以古籍的“内容”及“线索”是整理工作的两个重要对象,而数字图书馆中的古籍整理也以此两者为目的。古籍数字化是采用计算机技术对古籍文献进行加工、处理,制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献中所蕴涵的极其丰富的信息资源,为古籍的开发利用奠定良好的基础。
数字图书馆提供古籍的“内容”所用的方式包括数字化及建设全文数据库,前者重现古籍原貌,以便即时阅览、传递及打印,后者将古籍全文转为电子文本,以便检索、储存及编辑。此外,图书馆描述、揭示古籍的“线索”所用的方式包括机读编目、编制索引及编制古籍的诠释资料,三者皆为组织及检索网络古籍资源的必要方式。
数字处理系利用扫描技术将古籍或文献数字化,可将图书馆所典藏的珍贵原件以最接近真实的数字形式复制保存,有效地发挥数字图书馆的保存功能。美国国会图书馆的国家数字化图书馆计划,其数字化的对象不局限于古籍,还包括图书、文献、图片、录音资料、电影片等。这个计划推动了全世界数字图书馆对文化及文化历史遗产的重视,其后出现许多保护文化资产的计划,图书馆也纷纷以珍藏文献作为数字化的主题。例如:联合国世界文化遗产数字化计划,大英图书馆的11世纪盎格鲁—撒克逊史诗手稿数字化计划,IBM公司的梵蒂冈图书馆计划,北京图书馆、上海图书馆的古籍数字计划等。
古籍在数字化的过程中会遇到诸如古籍的文字过小或虫蛀严重等问题。也会遇到扫描后的古籍,虽然可以在网上供读者进行即时阅览,但是由于未经过光学字符识别无法进行全文检索,无法提供读者进行编辑以及其他格式的文本存储。
如果要达到古籍最好的使用效果,让其发挥最大效益,我们需要将古籍的全文扫描后并转成电子文本。既往建立古籍全文数据库一般有以下两种方式:(1)将古籍的文字以键盘输入,进而达到数字化的目的;(2)利用文字识别系统,由系统自动作数字处理、文件分析、文字识别、建立索引等,建立古籍全文数据库提供查询与阅读。
北京大学善本书数据库计划就是采用了上述第一种方式,该计划除了将北京大学图书馆所藏善本书扫描为图像外,并将内容输入文档,再加上标点,制成全文检索系统。一般来说,古籍系统提供文件原貌重现、全文检索、查询与阅读等功能,特色包括可以处理多种颜色的文件,不需打字或校对来进行文件的数字化。
自上世纪以来,国内外已陆续编制古籍机读目录。1980年美国研究图书馆协会提出中国古籍善本国际联合目录计划,将中国清嘉庆(1796年)以前的印本及抄稿本编制成机读形式的中国古籍善本国际联合目录,1991年正式启动,现已有18所学术机构的图书馆参与提供书目资料,包括美加地区13所,中国5所,该目录提供多项检索点,具有网上检索功能。目前,该工作是属于美国普林斯顿大学东亚研究所的一个独立计划,称为中文善本书计划。OCLC使用中日韩文自动化系统建立数据库。国内进行古籍机读编目的图书馆除了上述参与中国古籍善本国际联合目录的五所(中国科学院、复旦大学、北京大学、湖北省图书馆、辽宁省图书馆)外,另北京图书馆已根据机读格式著录宋元版古籍,南京图书馆也已建立了中国古籍总目、南京馆藏书目、南京馆藏方志目录等三个古籍书目数据库。
编制书目、索引是图书馆整理资源、为读者服务的重要方式,利用电脑编制机读书目长期以来一直受到图书馆的重视,并且发展成为馆际、甚至国际间的合作系统,而索引在这方面的开发较慢。事实上目前的全文检索系统已取代了过去的逐字索引,以前人工编制索引时代所有的标引项目(如:书名、人名、地名、文章篇名、事物名等)都可以输入电脑并快速检索。过去对于查阅方志、类书中的资料以及检索古籍中的篇名颇为困难,但目前借助电脑都可以有效解决。
古籍资源在网络上使用元数据来进行组织与检索,元数据是对馆藏资料属性的一组描述,目的在于促进资料系统中对资料的检索、管理与分析。元数据在传统图书馆中就是以目录卡片或网上公用目录中的机读编目格式的形式,扮演了资料找寻工具的重要角色。元数据具有传统目录中著录的功能,目的在于使资料的管理维护者及使用者,可通过元数据了解并辨识资料,进而去利用和管理资料。简单来说,元数据对网络数字资源提供定位、探索、文件记录、评估及选择等功能。在目前的元数据中,都柏林核心集(Dubline Core)及电子文献编码记录(TEI header)受到广泛的重视,Dubline Core包括15个栏位,现有的机读书目格式可以经过转换成为Dubline Core,TEI header的功能是以标准交换格式来记录电子文件,以供检索。
图书馆馆藏古籍一般来说都是属于图书馆的珍藏品,具有很高的收藏价值和学术价值;再者,图书馆所藏古籍距今年代久远,历经岁月沧桑,且由于当时的纸质问题,不易保存;此外图书馆馆藏古籍具有很强的稀缺性,随着时间的推移,因为保存的条件等其他的人为因素,古籍的数量只会越来越少。囿于以上因素,古籍一般很难被广大读者所利用。这严重违背了图书馆的办馆理念,也不利于知识的传播和文化的传承。为了更好地履行图书馆职能,促进古籍的保护与传承,我们可以采取建立数字化加工处理的标准,研发古籍检索与管理系统,大力推进古籍的合作编目、制订适合古籍的元数据标准等措施来保护和传播、利用古籍这一人类文化的珍贵资源。
“标准化”是指制定技术标准并就其达成一致意见的过程。古籍数字化的标准化建设主要是在古籍数字资源库开发过程中,对于多样、相关的重复流程或加工环节制定需要共同遵守的准则和依据,以获得古籍整理领域较大的认可度。作为文献的一种类型,古籍的数字化与其他文献的数字化相比,有共性,但也有个性。古籍数字化应该根据古籍的特点来进行,并通过数字化的加工使古籍中所包含信息进行再现与重组。因而,构建古籍数字化标准体系应遵循以下原则:开放性、系统性、实用性及拓展性。
我们在加工处理古籍的时候不可避免地牵涉到若干标准化的问题,例如:图像在制作及呈现时分别有不同的解析度,以满足不同的需求;另外黑白及彩色图像的储存格式也不同。例如上海图书馆扫描古籍目前采用TIFF格式存储黑白图像,采用JPEG格式存储彩色图像,黑白扫描设定为200-300dpi,彩色扫描设定为100-150dpi。建立古籍影像数据库的技术瓶颈包括:中文文字辨识系统、储存媒体、文件影像分析处理技术,其中中文文字辨识技术为最大技术瓶颈所在,也是系统自动化处理的最大障碍,今后应该寻求能够辨读各种语文、字形、字体的技术,并且开发失真率低、压缩比高的影像压缩技术;在文件影像分析处理方面,也要针对古籍的特性及需求加以考虑;此外,预计将来制作古籍影像的资料相当大,所以为了将来的管理及资源共享,有必要对其储存的格式、媒体及相关环境的控制等问题建立标准化。
古籍全文数据库解决方案,应当具备数字处理、文件解析、文字识别、容错性检索等,经过上述加工后的全文,可以以完全不失真的方式重现古籍原文,并且可以实现全文检索。由于汉字的别体存在,也就是古今字、通假字、异体字以及新旧字形等问题,会导致多检和漏检。目前的技术尚不能对手写或木刻的古籍进行有效辨识。同样,语义的切分及别称等问题,也都会导致漏检或多检。对于古籍数据库的检索与管理,希望将来能开发出一套最适合制作古籍影像及全文数据库的理想方案。在全国范围内实现古籍全文检索与管理,应打破馆藏壁垒,整合各个图书馆乃至研究所、高校以及商业机构的资源,积极鼓励各方协同参与数据库建设,实现古籍资源的检索便捷性与兼容性,全面扫清古籍数字化发展的障碍,实现古籍信息资源共享。
合作编目应该是现有建立书目数据库的可行方式,合作建立中文古籍书目数据库涉及以下两项因素:设法整合建档的书目资料;共同探讨各种相关的规范。尤其后者是建立中国古籍书目数据库的基本工作。具体而言,古籍的合作编目所牵涉到的问题包括:收录范围及类型、著录规则、分类及标题方式、建档格式、中文内码等,这些问题的解决有赖共同制订合适的标准并付诸实施。
当前主要古籍书目数据库著录标准基本依据《CALIS古籍联机合作编目规则》《古籍著录规则》(GB/T3792.7-2009)等。CALIS联机合作编目中心是中国高等教育文献保障体系的两大服务中心之一,2000年3月CALIS联机合作编目系统正式启动,以高校为主要服务对象,开展了联机合作编目、编目数据批量提供等业务,一些高校图书馆采用了CALIS著录古籍,但仅限于成员馆,而且仅针对高等学校。CALIS古籍联机编目使用统一的编目客户端、统一的著录标准、统一的数据格式、统一的分类法,对国内古籍联合目录的建设具有示范作用,但应进一步增加成员馆,尤其是吸收公共图书馆等古籍单位加入进来。
目前,古籍文献逐渐成为建设数字化图书馆的重要内容,和馆藏古籍数字化相比,后期的检索功能和实现显得更为重要,需要不断完善数据库的信息检索。元数据是对馆藏古籍属性的一种描述,其目的在促进数据库中对馆藏古籍数据的检索、管理与分析。所以馆藏古籍的数字化和网络化,除了对古籍本身进行数字化外,还需要建立书目信息并作适当的信息组织,以便提供有效的检索方法。古籍既然是图书馆馆藏文献中比较珍贵和难得的资源,所以我们在数字图书馆的环境中来探讨古籍整理与利用,首先需要重视元数据的发展及其和古籍的关系。
北京大学数字图书馆古籍元数据就是在此领域的良好尝试,它基于先进的网络技术和最通用的XML网络传输语言,用户不必安装任何软件,即可实现WEB界面的联机编目;具有强大的图文管理功能,从而方便地实现目录、图像、全文之间的连接和管理;简化了MARC格式中的定长字段,使编目界面变得直观而简洁,无论是专业编目员还是非专业编目员,都可以参与古籍编目工作。除了主题和分类之外,它一般不再另行设置为检索而用的字段,最大限度地将著录与检索结合在一起。
古籍数据库建设的标准化主要表现为两个方面:一是数据库管理系统的标准化;二是数据库数据著录的标准化。
3.5.1 数据库管理系统的标准化
在执行标准化和规范化的过程中,特别是在描述语言和标引语言方面,必须尽可能采用国际、国内通用的数据著录标准、数据格式标准、数据标引标准、规范控制标准及协议进行系统化、逻辑化组织。主要标准包括:通信标准(TCP/IP)、字符编码标准、标准通信置标语言/可扩展置标语言(SGML/XML)、元数据(METADA2TA)标准、检索语言标准、安全标准等等。这样既有利于实现本校数字图书馆系统与其他系统数据库之间的转换和互联、互访,同时又为用户节约了检索时间和费用,提高了检索效率,实现共建共享的目标。
3.5.2 数据库数据著录的标准化
(1)在对古籍进行数字化时,根据版本的优劣来进行选择,这势必会严重影响古籍数字化的质量,尽可能选用善本来数字化。然而在对不同版本进行比较、校勘外,也要尽可能提供其他未被选用的版本信息,以供研究者参考。
(2)对文献的文本内容进行校勘整理,保留前人留下的校勘记、批注等内容,为读者提供其他版本异同的内容,了解版本整理的经过。就形式方面,应将各版本的版本信息,诸如版本类型、版刻年代、刻工姓名、牌记、卷端、行款、字体、墨色等通过技术手段加以保留。
(3)对古籍的内容进行深度标引就非常有必要,在实际标引过程中不应放过任何含有学术信息的关键词,比如文献中的人名、官阶、地名、年号、典故、制度、族属、语词、范畴和其他专名等都应制成索引,力求做到从任何角度都能检索到读者所需要的信息。对于存在的同书异名、同名异书、同一作者的不同称谓等问题,可借鉴传统文献整序时采用的“名称及主题规范档”“权威档”等方法对关键词进行规范控制。例如添加年号与公元纪年对照表、历代官阶序列表、家族世系表、姻亲关系表、地名沿革表、人名字号表等。
(4)古籍数字化一定要注意文件格式标准化问题。当前数字化古籍的文件格式可谓五花八门,种类繁多。除了常见的txt、doc、html格式外,还有exe、pdf等为核心的全方位电子文献全文检索格式。这些不同格式的文件,往往需要各自专门的阅读器才能进行浏览,相互之间难以兼容,给读者造成了不少麻烦。而且,由于许多图书采用了图片格式,也给使用者提取资料带来了许多困难。我们需要正确处理好版权保护盒便利使用之间的关系。
综上所述,随着信息技术的不断发展,随着网络的迅猛普及和发展,数字图书馆中的古籍整理不只是技术的变革,更意味观念的更新。新的信息技术和网络技术将会使古籍以更为便捷的方式服务读者,是图书馆为读者提供更深层的服务,并通过网络来传承文化弘扬国粹。面对经济全球化的到来,面对数字时代的降临,图书馆应抓住机遇迎接挑战,通过馆藏古籍的数字化来保存祖国文化瑰宝,传承和弘扬传统文化,是图书馆人义不容辞的责任和义务,图书馆应当重视古籍保护和整理开发的意义,积极开展多种多样的数字化工作来真正实现对古籍的保护。
[1] 郭金钟,唐玉斌.基于高校图书馆古籍保护工作的思考[J].价值工程,2011(14):319-320.
[2]方敏.高校图书馆古籍文献开发利用策略研究[J].江西图书馆学刊,2011(5):27-28.
[3]史岩松.谈高校图书馆古籍文献的开发与利用[J].河北科技图苑,2012(6):84-86.
[4]李虹.浅谈高校图书馆古籍的保护与利用措施[J].文学界:理论版,2012(5):352-353.
[5]谢清俊.中央研究院古籍全文资料库的发展概要[EB/OL].[2013-10-08].http://www.sinica.edu.tw/~cdp/.
[6]高娟,刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013(5):110-119.
[7]姚伯岳,等.古籍元数据标准的设计及其系统实现[J].大学图书馆学报,2003(1):17-21.