古籍数字化浅谈

2023-09-03 14:45:35韩伟
客联 2023年5期
关键词:检索系统书目著录

韩伟

摘 要:作为一个具有四千多年历史的文明古国,我们拥有浩如烟海的古代典籍。据粗略统计,我国现存古籍达十万种以上。这些典籍经过历史的选择和淘汰,饱经战火和灾难流传至今,凝聚了我国古代人民的智慧和经验。它们不仅是国家的宝贵文化遗产,也是今人做学问、搞研究取之不尽、用之不竭的丰富宝藏。随着科学技术的飞速发展,利用现代科技整理和研究古籍,使其数字化、网络化是大势所趋。

关键词:古籍;数字化

一、从古籍特点看古籍数字化的必要性

所谓古籍数字化,就是利用数字技术将古籍转换成数字信息,存贮于计算机或光盘上,以利古籍的使用与保护。中国古籍与其他文献相比,有其特殊性。一、分布分散。现有古籍主要分布于全国各地图书馆、资料室、科研单位及私人藏书家手中。也有一部分由于历史原因藏于海外其他国家。其分散性造成利用不便。二、重藏轻用。由于古籍的文物价值及保管不易,古籍普遍存在重藏轻用现象。尤其是一些善本、孤本价值较高,收藏者往往秘不示人,给古籍的利用带来困难。三、数量多,内容复杂。历代学者搞研究都离不开对前人成果的利用,但是面对汗牛充栋的古籍,究个人力量爬梳、挖掘,耗时耗力,常有力不从心之感。虽然学术界已进行大量整理工作,编纂了多种引得、通检等工具书,但对于数量庞大的古籍文献来说,整理只是少数,这是传统的手工作业难以解决的问题。

二、利用现代科技整理古籍,使其数字化、网络化的可行性

(1)技术上的准备。现代科技的飞速发展为古籍开发和整理带来了良好的契机。早在1983年,全国语言学学科规划会议上就指出:“随着电子技术的发展,加上古籍整理工作者和计算机工作者的合作,计算机一定能够帮助我们在古籍整理研究方面做更多、更复杂的事情。”十几年过去了,大家有目共睹,计算机及网络技术等日新月异,为古籍现代化铺平了道路。如今,利用计算机及网络技术等在资料存储、整理、检索、传输等方面的优势对古籍进行有计划的系统的发掘整理,使其数字化、网络化从而达到保存、利用与共享的目的是完全可能的。首先,新一代高性能计算机的海量存储和秒级运算能力惊人,大容量、高密度的硬盘和光盘及光盘塔、光盘库的面市,使古籍庞大的数量不再成为难题。其次,新的计算机应用技术大大降低了古籍数字化的难度,使古籍数字化不仅成为理论上而且是技术上的可能。非键盘输入技術使文献载体转换方式发生了一场革命,如自动识别输入技术(ODR)使海量信息输入工作量大大降低。数字挖掘技术(简称KDD)是一种可从大量数据中提取可信的、新颖的、有效的知识的高级处理过程,尤为适合古籍的数字化处理。另外如OCR光学识别技术可将古籍转化为文本,可自动从图像文件中抽取题名、著者等检索点,较之人工标引快捷、简单。其他如数字图像技术、多媒体压缩与传输技术、安全保密技术等都为古籍数字化提供了有力的支持。第三,网络技术的迅猛发展使信息资源的共享成为可能,为数字化古籍的共享和远程利用提供了方便。国际互联网不断拓宽的网带已将世界连接为一个地球村,数字化古籍的服务范围从理论上说可以扩展到每个人的家门口。

(2)实践中的经验。中国古籍是世界文化遗产的重要组成部分,分散于世界各地的古籍早已被各国学者所重视和研究。用现代科技整理开发古籍已积累了大量的实践经验。美国借助其技术的先进,首先建立起古籍数据库,如著名的联机系统OCLC和RLIN,使一些流传海外的古籍被许多学者所研究和利用。日本于1980年便开始本国古籍的自动化系统研究,十年后其数据库正式运行。我国的古籍数字化工作始于八十年代中期,主要表现在对重要古籍数字化和编制专书专题检索系统方面。例如中国社科院《全唐诗》、《全唐文》、《十三经》、《先秦魏晋南北朝诗》检索系统、《论语》逐字索引、南京师范大学的《全宋词》检索系统、四川大学古籍所《全宋文》资料检索系统、陕西师范大学古籍整理研究所《二十五史》全文检索系统、河南大学《宋人笔记检索系统》、《南宋主要历史文献全文数据库》等。尤为值得一提的是,我国古代卷帙最大的综合性丛书《四库全书》也已有数种电子版问世。其中济南汇文科技开发中心研制的《四库全书》原文电子版囊括了《四库全书》三万余册所有文献,不仅能阅读原文,而且能够按书名、著者、书号和指定卷、册、页进行检索;上海人民出版社与香港迪志文化出版有限公司联合开发的《文渊阁四库全书》光盘版在保持原书原貌的基础上,同时为读者提供了快速有效的检索、整理和编辑功能。另外,我国一些大型图书馆还都纷纷投入一定人力、物力,进行本馆古籍书目数据库的建设。

三、关于古籍数字化的思考

(1)面临的困难。放眼古籍数字化工作,多年的研究成果令人欣喜。但是相对浩瀚的古籍资料,用现代技术开发整理的只是极少一部分,远远不能满足抢救和利用古籍的需要。透过看似繁荣热闹的古籍数字化表面,我们不能不正视存在的困难。

(2)关于古籍数字化的思考。鉴于目前古籍数字化的现状和存在问题,不能不引起我们的理论思考。进行统一的有计划的古籍全面数字化,必须兼顾古籍书目数据库与全文数据库两个层次的建设。

①首先谈谈古籍书目数据库。中国传统目录学相当发达,历来公藏私藏之书都有编制目录的传统,历代学者无不依赖目录作为治学津梁。因此,建立统一的中国联合古籍书目数据库,全面反映中国古籍现状,为研究者提供便捷的古籍书目检索系统,是当今图书馆界人们的共识,也是古籍数字化、网络化的基础。

第一,实行标准著录,统一著录规则。中国传统著录有一定程式,但并不标准。例如对书名随意穿靴戴帽,对版本著录不提供客观依据,著者有著其名者、有著其号者,还有挂带官名、籍贯的等等。八十年代以来,中国古籍有了标准著录规则,前几年又进一步做了修订,并出台了标准著录条例。这一标准的制定结合了我国古籍特点,同时考虑到计算机著录的要求。统一和推广标准化著录是建联合书目数据库的基础。

第二,要规范中国古籍分类法。对于古籍,我国藏书单位采用了不同的分类法,有用科图法的,有用人大法的,也有用中图法、刘国钧十五大类分类法的,但大部分单位采用的是传统的四部分类法。四部分类法沿用一千余年,其分类标准是依据我国古籍的内容、学术发展和目录学体系而设置的,影响广泛,使用也合习惯。因此将四部分类法加以细化,对不合理的地方加以调整,并给予科学配号,以此作为统一书目数据库的分类标引应当是可行的和易于接受的。

第三,必须制定统一的古籍书目机读格式。书目机读格式必须统一,如果格式不统一,任何软件都将难以处理。目前大部分图书馆古籍编目采用的是国内图书馆界中文图书计算机著录的通用格式CNMARC。但CNMARC格式中,有关古籍著录方面的内容相对欠缺,依据这些粗线条的规定,即使不同单位都采用,仍会在数据中出现差别。国家图书馆在CNMARC基础上,根据多年实践经验,由馆内外专家研究制订了比较详细的《汉语文古籍机读目录格式使用手册》,已交由北京图书馆出版社出版。国家图书馆于今年10月还面向全国各地图书馆举办了机读目录格式培训班,在全国图书馆界推广统一的MARC标准,为建立标准的可共享的古籍书目数据库打下了基础。

古籍数字化赋予了传统文化以新的生命。作为一个当代人,站在祖先遗留下来的古老墨香与现代科技的炫目光彩之间,我们肩负的是继往开来的责任。虽然大规模的可共享的古籍数字化、网络化绝非一朝一夕的事,但我们毕竟看到了希望。

参考文献:

1.王纯.古籍数字化之趋势.图书馆理论与实践,2020(3)

2.王雪迎.杨慧.计算机古籍编目初探.人大复印报刊资料.图书学.信息科学·资料工作,2021(9)

3.李致忠.再论建立中国古籍书目数据库·北京图书馆出版社,2020

猜你喜欢
检索系统书目著录
常用参考文献著录要求
常用参考文献著录要求
推荐书目《初春之城》
都市人(2022年3期)2022-04-27 00:44:57
常用参考文献著录要求
收录《信号处理》的检索系统及数据库
信号处理(2018年1期)2018-09-03 07:53:04
收录《信号处理》的检索系统及数据库
信号处理(2018年5期)2018-06-28 02:16:02
本刊被以下检索系统及数据库收录
信号处理(2018年4期)2018-06-27 03:34:16
本刊被以下检索系统及数据库收录
信号处理(2018年3期)2018-06-27 03:30:18
本刊参考文献著录要求
本刊参考文献著录要求