徐 变 云
(咸阳师范学院图书馆 咸阳 712000)
数字图书馆进程中的古籍数字化发展现状研究*
徐 变 云
(咸阳师范学院图书馆 咸阳 712000)
结合数字图书馆的相关理论,总结古籍数字化的丰硕成果;指出古籍数字化存在的如资源重复建设、数字化格式繁多、数字产品价格昂贵等问题;探索我国古籍数字化的发展趋势,即地域特色的古籍文献与大部头典籍是今后古籍数字化的主流;指出古籍数字化技术和相关政策法规将会更加完善。
数字图书馆 古籍数字化 趋势
计算机技术在图书馆信息系统中的广泛应用,使传统图书馆向新型图书馆转型,图书情报现代化进入了一个新的发展时期,数字图书馆应运而生。数字图书馆,即将图书馆文献信息以数字化的形式表现和获得[1]。数字图书馆是图书馆现代信息技术发展的高级阶段,代表着未来图书馆的发展方向。数字图书馆的功能之一即各种文献内容的数字化。古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,制作成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作[2]。古籍作为图书馆的特藏文献和中华文明的瑰宝,其数字化是数字图书馆的重要组成部分,颇受人们关注。
1978年美国人P·J·Ivanhoe运用计算机编制了《朱熹大学章句索引》、《朱熹中庸章句索引》、《王阳明传习录索引》等,开始了古籍索引编制的计算机实践。台湾从20世纪80年代开始研发包括《二十五史(全文资料库)》、《阮刻十三经注疏》在内的大型古籍资源库“翰典全文检索系统”;1989年提出“数字典藏计划”,其数字化包括善本古籍、金石拓片、古籍附图、台湾地方文献及期刊报纸等。从1989年开始,香港中文大学中国文化研究所开展有关中国传世典籍数据库的研究工作,正式成立了“古文献数据库中心”(CHANTCenter),并先后推出《先秦两汉古籍逐字索引丛刊》及《汉达古籍数据库检索系统》。自1999年起,香港中文大学再获香港政府研究资助局拨款资助,开始着手金文全文电脑化资料库计划,其主要资料来源于中国社会科学院考古所编著的《殷周金文集成》,总计收录12 021件铜器上的铭文,14万字隶定释文和另约100万字器物资料说明[3]。大陆古籍数字化初期发展缓慢,成果甚少。上世纪90年代后,北京超星公司主持的“超星图书馆”,录入了包括《古今图书集成》、《二十五史》、《资治通鉴》、《清实录》、《中国古典名著大系》等大量数字化全文。1999年底由上海世纪出版集团上海人民出版社、香港迪志文化出版有限公司推出的《文渊阁四库全书》电子版及之后推出的《四部丛刊》电子版,无论从规模还是技术上来说,都是史无前例的。另外北京大学《中国基本古籍光盘库》,计划收录古籍1万种;国学公司推出了《国学宝典》等系列产品。截止2011年,网上可见的中文古籍数据库约70多个。继《四库全书》与《古今图书集成》全文数字化、甲骨文和金文全文资料库之后,我国古籍数字化整理迈上了新台阶,以国家图书馆为首的各收藏单位也已开始启动更大规模的古籍数字化工作。我国古籍数字化的代表性成果详见《中文古籍数字化的进展与主要成果述评》[4]一文。
从当前古籍数字化的研究论文数量和发表时间来看,古籍数字化理论研究稍晚于古籍数字化实践。20世纪90年代开始,古籍数字化理论出现;进入21世纪,古籍数字化研究成为热点,理论研究日趋成熟。这些论文主要包括古籍数字化发展概况、存在问题、发展趋势;古籍数字化资源的开发、共享和利用;古籍数字化技术研究,比较集中在古籍数字化的检索系统、书目数据库、全文数据库;古籍数字化在中文、历史学科中的重要作用;少数民族古籍数字化研究;古籍数字化的版权归属等方面。
目前,国内古籍数字化硕果累累,理论研究方兴未艾。古籍数字化是由多个学科互相结合、多方共同支持协调实现的,然而在其发展过程中仍存在诸多问题。
2.1 资源重复建设
由于古籍数字化缺乏统一的规划,无论是科研机构还是商业公司,重复开发古籍资源会造成不必要的人力、物力、财力资源浪费,如《四库全书》和《二十五史》最少有4种以上电子版本[5]。《四库全书》就有湖南电子音像出版社、岳麓书社与湖南华天集团合作出版的全文检索电子光盘版,武汉大学出版社出版的电子版,上海人民出版社与香港迪志文化发展公司联合开发的光盘版,台湾“中央研究院”的电子版等。重复开发古籍带来的市场无序化问题也逐渐显现。
古籍资源的重复开发,所依据的古籍版本不尽相同,古籍数字化版本的选择关乎古籍数字化的质量。经过长时间的保存和流传,古籍形成了不同的版本,如《草堂诗余》仅存世本就有35种之多[6]。古籍整理者必须掌握每本书的目录版本,了解各种版本的优缺点,依据较好的版本作为校勘底本进行古籍整理。古籍数字化结束了把古籍“束之高阁”的命运,采用网络、光盘、数据库等形式将古籍内容展现在读者面前,扩大了古籍的传播面,其数字化产品更应该精致准确,尽可能减少讹误,以免给读者传播错误的信息,造成负面影响。基于此,古籍的数字化整理,应对古籍的版本做出严格筛选,数字化处理技术也要更加完备,以确保古籍数字化产品的质量。一般来讲,科研机构、图书馆出于学术研究的需要,根据自身的知识涵养、职业经验,对古籍版本比较重视,开发了学术性较强的数据库或是有特色的馆藏古籍数据库,如中国社科院文学研究所的《元代文献数据库》、《<红楼梦>研究资料数据库》,国家图书馆的《国图善本古籍书目数据库》、《国图普通古籍书目数据库》、上海图书馆的《上图藏宋元善本全文资源库》、西安交通大学的《西安交通大学古籍特藏》、广西壮族自治区图书馆的《太平天国史料库》等。而商业性的数字出版公司,为了迎合市场的需求,多选择读者普遍喜欢的大型丛书或已经整理好的经典文献,如北京书同文数字化技术有限公司开发的“文渊阁《四库全书》”全文检索电子版光盘、《四部丛刊》、《康熙字典》,加利华公司制作的《唐诗三百首》光盘、《宋词三百首》光盘。这些古籍是已经整理过的文献,其所采用的版本已经很难查询,读者在阅读时要仔细甄别,慎重引用。
2.2 缺乏统一的标准和规范,数字化格式五花八门
我国地域广博,古籍数量众多,古籍数字化任重道远。古籍数字化还未达成共识,开发单位众多,各自为政,造成数字化格式五花八门,且互不兼容。撇开数字化产品的存储格式和系统标准不说,仅阅读器一项,目前常见的有txt、doc、html、exe、pdf、wdl、pdg、ceb、ebk、edb、nlc、chm、xml等格式。读者在阅读不同开发者的古籍电子版时需要下载不同的阅读器,给学习、科研造成诸多不便;对于数据共享也是一大障碍,直接影响了古籍数字化产品的使用性能。
2.3 价格昂贵,制约了消费市场
尽管古籍数字化蓬勃发展,前景可观,但其所耗费的人力、古籍资源、技术成本高,造成数字化产品费用昂贵。如中国知网的《国学宝典数据库》是一套中华古籍全文资料检索系统,收录了上起先秦、下至清末两千多年的所有用汉字作为载体的历代典籍。《国学宝典》每年的包库费昂贵,只有高校图书馆和科研单位有能力购买;对于个人用户而言,尤其是从事文史方面的研究人员来讲只能望洋兴叹。因此,古籍数字化产品只能局限在一定的区域范围内,很难实现其大众性、通用性功能,难以满足个人用户的需求,制约了古籍数字化产品市场的扩大。
古籍数字化过程中,还存在诸多问题,如怎样实现古籍电子版的版本保存、怎样解决字形混乱的现象,从技术上维持古籍原貌;古籍电子版的共享与利用;电子版古籍的法人归属;古籍数字化技术人员缺失,急需既懂古籍知识又精通计算机技术的复合型人才;古籍分类法如何统一等。
从当前古籍数字化成果看,大部头典籍倍受青睐,如《四部丛刊》、《四库全书》、《永乐大典》、《古籍图书集成》、《全唐诗》等;今后,它们依旧是古籍数字化的主流,而且会更加专业化、系列化,数据库质量更加精良,检索系统更便捷,使用更放心。
总结古籍数字化的经验教训,古籍数字化的选题至关重要,特色古籍数据库成为新的热点。一些有地方特色的古籍近年来也被纳入数字化的视线。地方图书馆或古籍开发者应着眼于本地区的历史、地域特色,选题坚持“人无我有”、“人有我专”的原则。如中国农业大学的《农书古籍图片数据库》;北京中医药大学的《馆藏中医古籍数据库》;陕西师范大学的《西北地方志数据库》、《历史地理学科文献数据库》;西北大学的《馆藏古籍书目数据库》;西安交通大学的《古籍特藏数据库》;江苏古籍出版社的《江苏地方文献丛书》;苏州图书馆《地方文献数据库》包括苏州名人、老照片、古籍阅览以及民间文艺等内容;浙江古籍出版社的《两浙文献丛编》、《浙藏稿本丛刊》;绍兴图书馆开发的《绍兴方志数据库》收录了中国方志史上的重要作品如《(嘉泰)会稽志》、《(宝庆)续会稽志》、《(万历)绍兴府志》、《(乾隆)绍兴府志》等,并与绍兴其他历代方志一起构建了独具特色的古籍数据库;中山图书馆的《广东地方志》包括族谱等。高校图书馆应发挥自身的人才、资源、技术优势,结合本馆的特藏文献,本地的历史文化与风土人情,开发特色古籍数据库。笔者认为,未来古籍数字化发展趋势是地域特色的古籍文献与大部头典籍并驾齐驱。从学科建设来看,古籍数字化产品主要集中在文、史、哲方面,自然科学类的古籍资源本身就少,且散见于其他史料中,整理起来难度大,但其实用价值高,如古代天文、历法、算术等,应逐步整理开发。
同时,古籍数字化技术也在不断完善。目前,国内缺少一个统一的古籍数据库平台,导致古籍重复开发,电子版本多,多种数字化格式并存,制约了古籍数字化向科学有序的方向发展。因此,打造一个统一的数据库共享平台,将是古籍数字化发展的最终目标。汉字字库也在不断完善中。由于古籍最关键的技术是繁体字如何展现、贮存,繁简字的转化和使用等问题,GB2312-80和GBK标准难以达到古籍字库的用字量需求,而Unicode字符集含字广泛,基本解决了古籍的用字量问题。将古籍用扫描的方法录入电脑,是古籍数字化的最佳途径。OCR自动识别技术能够成功地将文字的手工录入转变为自动录入,但由于古籍文献字体本身的复杂性,OCR的识别率低,技术有待于提高。随着古籍数字化的发展和古籍书目数据库的建立,古籍数字化的检索系统、分类标准也在不断完善中。
古籍数字化不仅需要科研机构、高校图书馆、数字出版公司的参与,它还涉及到社会的方方面面,需要大家共同关注。国家要对古籍数字化进行统一规划,建立古籍数字化共享平台和古籍联合书目数据库,实现古籍检索网络化;在技术上要建立古籍数字化整理的标准和规范,如古籍数字化后应能保持字体原貌;培养新型古籍整理人才,使古籍整理从理论到实践、从人才到技术,都朝着科学有序的方向发展。
[1] 王大可. 数字图书馆[M]. 深圳:海天出版社,2002:15.
[2] 毛建军. 古籍数字化的概念与内涵[J]. 图书馆理论与实践,2007(4):82-84.
[3] 郝淑东,张 亮,冯 睿.古籍数字化的发展概述[J].情报探索,2007(7):114-116.
[4] 吴家驹. 中文古籍数字化的进展与主要成果述评[J]. 南京师范大学文学院学报,2004(3):178-183.
[5] 王立清. 略论我国古籍数字化的选题[J]. 图书情报工作,2005(3):62-64.
[6] 刘军政. 明代《草堂诗余》版本述略[J]. 南京师范学院学报,2004(2):49-54.
ResearchontheDigitizationofAncientBooksintheDevelopmentofDigitalLibraries
Xu Bianyun
Xianyang Normal University Library,Xianyang 712000, China
The present article summarizes the great achievements in digitization of ancient books by using the related theory of digital libraries and meanwhile reveals some problems such as duplicated construction of resources,too many formats of digitization and high price of the digital products. It also studies the developmental trend of the digitization of Chinese ancient books and points out that digitization of the ancient literature with local features and voluminous books will become the mainstream and that digital technology and the related policies and regulations will be further improved.
digital library; digitization of ancient books; trend
G255.1
徐变云,女,1981年生,研究生,助理馆员,研究方向为地方古籍整理,发表论文4篇。
*本文系咸阳师范学院专项科研计划项目“数字图书馆进程中的图书馆古籍数字化发展研究”(项目编号:11XSYK343)研究成果之一