我国大陆地区古籍数字化发展探讨
魏豫州1张梅2
(1.华北电力大学图书馆河北 保定071000;2.河北大学生命科学院河北 保定071002)
摘要:古籍是我国历史文化遗产最为重要的物质载体,具有多重价值。目前由于自然老化以及保护和利用不当,所存古籍正在加速消亡。古籍数字化是古籍保护与利用的重要途径,论述了我国大陆地区古籍数字化实践中存在的问题,提出进一步发展古籍数字化的策略。
关键词:古籍数字化;古籍整理;统筹规划;图书馆;中国大陆
中图分类号:G256.3
收稿日期:(2015-08-06 责任编辑:张静茹)
1引言
古籍是我国历史文化遗产最为重要的物质载体,广义古籍不仅包括辛亥革命前手抄或印刷的著作、文书、卷册、碑铭、拓本以及后人经过整理而成的本子等,还包括民国时期出版的线装图书(古人所著)。古籍是研究我国社会历史发展变化最重要的原始资料,具有历史、文物、艺术等多重价值。但古籍年代久远,历经战乱、天灾尤其是近代以来侵略者的掠夺,破坏严重,我国现存的古籍总数只有1 000万册[1]。目前又由于自然老化、保护以及利用不当,古籍正在加速消亡,给古籍利用与保护带来巨大困难。而以利用和保护古籍为目,利用计算机技术,将古籍中的文字或图形符号转化为能被计算机识别的数字符号,从而支撑古籍文献数据库,用以揭示古籍文献信息资源系统工作[2]的古籍数字化,不但利于资料查找和中国传统文化的传播,还有利于古籍整理;古籍数字化以古籍整理为基础,反过来数字化古籍又为古籍整理提供了高效工具,促进古籍的整理和整理后研究成果的出版。
2我国大陆地区古籍数字化现状
20世纪80年代,我国香港、台湾地区开始研发大型古籍资源库。如台湾地区的 “翰典全文检索系统”,香港的“先秦两汉古籍逐字索引丛刊”、“汉达古籍数据库检索系统”等。大概在20世纪70年代中期,中国内地开始古籍数字化工作的尝试,80年代初,大陆地区研发完成了“《红楼梦》检索系统”[3],自20世纪90年代开始, 随着计算机的普及及网络技术的发展,大陆地区一些公益机构和商业机构纷纷进行古籍数字化产品的开发。公益性机构如国家图书馆开发的古籍数字产品包括“数字善本”、“宋人文集”、“前尘旧影”、“年画撷英”、“西夏碎金”、“民国法律”,南开大学的“二十五史全文阅读检索系统”、上海图书馆的“上图馆藏家谱目录”等。商业机构主要有出版社、文化公司等开发的“文渊阁四库全书”、“大成老旧刊全文数据库”、“中国基本古籍库”、“中国历代石刻史料汇编”等。其中“文渊阁四库全书”是古籍数字化的品牌产品,该产品最大程度地保持了原书真迹,原文图像页功能齐全,具有多种显示模式,检索起来十分方便,直接促进了“四库全书学”的发展[4],为中国历史研究提供了巨大方便。据不完全统计,2010 年,我国大陆地区有179家单位(含隶属于某机构的个人) 从事古籍数字化,形成各类数据库( 包括各种古籍书目数据库、古籍全文数据库等) 415 个,许多数据库的字数都在1亿以上[5]。据统计,2012 年我国公藏机构已经拥有超过20 亿字的数字化文本格式的古籍[6],一些已成规模的大型古籍数据库还在原有基础上不断拓展和完善[7],当前由于古籍数字化技术的进步、经验的积累以及国家政策、资金的支持,古籍数字化产品的建设机构、建设成果以及建设质量又取得更大进步。
国际化合作不断加强,合作项目不断增多。如:中国国家图书馆与法国远东学院合作的“徽州善本家谱数据库”,收录了国家图书馆馆藏善本古籍中徽州家谱243种286部。中国国家图书馆与美国哈佛大学图书馆协议共同开发的“哈佛大学哈佛燕京图书馆馆藏中文善本古籍特藏”将完成中文善本古籍4 210种51 889卷的数字化拍照。国际敦煌项目是由大英图书馆发起,自1994年正式运行的包括英国、中国、德国、日本在内的20家国际敦煌文献收藏机构共同参加的一个敦煌文献保存和数字化项目。2001年,国家图书馆开始加入,共同致力于敦煌文献的数字化工作,对敦煌文献的保存、利用、教育开发以及世界范围内的资源共享做出了成就。
3大陆地区古籍数字化发展存在的问题
古籍数字化是涉及历史学、文学、文献学、计算机信息科学、传播学等多学科的系统工程,是用现代技术手段在数字媒体上展现出古籍中蕴含的丰富文化内涵。虽然有相当一部分学者认为它是古籍整理在信息时代的新形式;但是由于种种原因,在真正进行古籍数字化实践时,并没有以古籍整理的态度来进行,人们的潜意识里仍然认为数字化古籍就是把古籍转换成电子出版物或是可以通过计算机信息查询系统,只不过内容是古代图书文献。这种认识实际上是对古籍数字化的误导。古籍数字化的实质属于古籍整理的范畴,代表着古籍整理的未来方向。
(1)我国大陆地区古籍数字化机构基本是各自为政,缺乏整体性、持续性和规划性,信息、技术、成果难以共享[3]。商业古籍数字资源开发的单位为了商业利益,更是具有局部性。如“文渊阁四库全书”数字化由香港迪志文化出版公司、北京书同文电脑技术开发有限公司和上海人民出版社重复开发[4]。而《二十五史》的数字版本竟达到了七种之多,这无疑会造成人力、物力、财力的极大浪费[8]。而公共图书馆和高校图书馆主要根据其馆藏特色进行开发,具有鲜明的馆藏特色。如国家图书馆的“馆藏石刻拓片数字化资源库”是以国家图书馆藏有的历代甲骨、青铜器、石刻等类拓片23万余件为基础建设的数据库,内容涉及历史、地理、政治、经济、军事、民族、民俗、文学、艺术、科技、建筑等方面,现有元数据23 000余条,影像29 000余幅。河北大学图书馆由于收藏了多个时期的河北旧方志而建成了“河北地方志数据库”,又在收藏的大量家谱基础上建立“家谱书目数据库”等。但河北大学馆藏的河北地方志中缺乏明朝以前的版本,版本大都集中在清末民初,由于馆藏所限,没有增加这些版本数字化的内容,另外由于馆内技术问题,“家谱书目数据库”没有继续发展而建立全文数据库,查找时仍需翻阅原来的古籍,依据馆藏特色进行的古籍数字资源开发往往缺乏持续性和系统性。科研教学机构主要根据本单位教学和科研所需进行古籍数字化工作,如北京大学中文系的全宋诗分析系统、全唐诗检索系统等。由于缺乏长远规划和整体考虑,使许多单位热衷于将目前研究较热、易于数字化或者易于销售的古籍数字化,而对于那些数字化难度大,目前还未引起足够重视的古籍没有进行数字化,这使有些珍贵的古籍不能数字化或者错过古籍数字化最佳时期,这也许会使历经战火保存下来的古籍永远的消失。
(2)古籍数字化产品格式不统一,难以共享。由于古籍数字化机构众多、分散发展,缺乏统一的标准,使数字化的古籍产品的格式不统一,除了常见的txt、html以外,还有pdf、exe、wdl、pdg、Ebk、edb等。如山西省图书馆的“地方志”采用的是pdf格式,南京图书馆的“中国近代文献图像数据库”采用JPG格式,而北京天安亿友公司的“二十五史”采用的是exe格式。由于标准不统一、格式繁多,不同机构开发的古籍数字化产品大多都需要自己单独的阅读器才能使用,而在将来古籍数据集成化管理中,许多机构的古籍数字化产品,可能难以与国际标准对接,而无法利用。此外,由于各单位资金、技术实力以及人为因素等使已经完成的古籍数字化数据得不到妥善的维护,或者由于介质损坏或技术的更新换代无法读出而成为数据垃圾。
(3)对古籍的保护意识不强。由于缺乏整体的古籍数字化规划,同一古籍尤其是比较好的版本可能被反复数字化,另外随着技术的进步,原来古籍数字化数据因技术原因而读不出或随着古籍校勘整理的发展,难以满足当前科学发展的需要需重新开发,会导致对古籍尤其是珍贵版本的古籍反复数字化。这将会加重对古籍的破坏[9]。
古籍版本有善本、珍本、孤本、普及本等之分,查阅古籍版本对于整理古代文化遗产,读书治学都有重要意义,所谓“读书不知要领,劳而无功,知某书宜读而不得精校精注本,事倍功半。”传统古籍出版始终把版本问题放在最重要的地位,如民国时期由上海商务印书馆出版的《四部丛刊》,以宋元佳椠为底本,进行影印出版,出版取得巨大成功,至今余泽犹存。但有的古籍数字化单位忽视古籍整理工作,使用版权已经进入公共领域的抄本刻本古籍,没有任何专家校勘、标点;有的单位缺少古籍整理人才,也不愿意在此花费太多精力,古籍注释不严谨,甚至存在许多错误;还有一部分单位侵权出版,会给使用者带来法律风险[10]。
古籍字库字符集数量少。由于古籍文献所使用的文字是与现代标准汉字不同的繁体字,同时含有大量的异体字、俗体字、罕用字。一旦古籍数字化所依据字库字符集所收之字不够全面,古籍中很多字就无法正常显示。如业内使用的大多是国际标准的unicode字符集,但目前该字符集仅涵盖七万多汉字,这在古籍的数字化中远远不够。有些公司为了简化手续,对于字库中没有的字造字解决,以贴图的方式处理,虽然保持了古籍用字的原貌,但失去了检索功能,古籍字库的发展是古籍数字化发展的关键[10]。
古籍数字化需要花费大量的资金,如计算机、服务器、光纤电缆研发或购买软件,网站建设经费和网络维护费用以及人力资本的投入等。而我国是一个发展中国家,目前我国图书馆、科研院所、博物馆等普遍存在资金困难的问题,能够用于信息资源数字化的资金并非十分充足,用于古籍数字化的专项资金更是有限。
4我国大陆地区古籍数字化发展的策略
由于古籍数字化的特点,其领导机构应具有政府行政管理职能和丰富的古籍数字化业务经验, 2007年5月15日,中央机构编制委员会办公室批准国家图书馆加挂“国家古籍保护中心”牌子,将在文化行政部门领导下,负责全国古籍普查登记工作,同时负责汇总古籍普查成果,建立中华古籍综合信息数据库,形成全国统一的中华古籍目录。“国家古籍保护中心”依托古籍最为丰富的国家图书馆,而且具有古籍数字化工作的丰富经验,因此,政府可以委派“国家古籍保护中心”作为古籍数字化的行政领导机构进行全面管理,为对古籍数字化进程中的标准、规划以及质量控制等难题进行重点攻关,建立一个由古籍整理专家、历史学家、计算机专家、文学家、法学专家、数学家等组成的专门的研究委员会进行咨询。
(1)制定国内统一,且与国际接轨的古籍数字化的标准。“国家古籍保护中心”应依据我国古籍数字化工程的目标与任务,结合我国大陆地区古籍数字化的实际,参照国内外已有古籍数字化相关的国际标准、国家标准、行业标准等进行全面分析评价,建立符合我国实际又和国际接轨的为各数字化主体认可的标准规范体系框架以及可以共同遵守的统一标准。实现古籍数字化成果的国内、国际资源共享,提高古籍数字化产品的使用效率和中华文化的传播。
(2)加强对全国古籍数字化的规划。现在大陆地区古籍数字化规划可以借鉴我国台湾地区的做法。台湾地区古籍数字化从单位内部进行规划到全地区进行规划,其古籍数字化工作发展迅速。1984年台湾就已经开展“史籍自动化计划”,自1998年起,台湾地区开始有规划、有规模的进行,同年台湾又制定了 “数位博物馆专案先导计划”。之后分别在2000年、2001年、2002年、2008年,制定全区性的古籍数字化规划,将图书馆、博物馆馆藏的古籍进行数字化[11]。
(3)加强对各机构古籍数字化的调控。首先,公益性机构的古籍数字化项目应向国家古籍保护中心进行项目申报,严格筛选。国家古籍保护中心负责组织相关的专家、学者对项目进行论证、审批、以及有效的监督、指导与评价。这可以有效避免古籍数字化项目的重复建设、提高产品质量,调控国家资金有效分配,加强我国大陆地区古籍数字化系统工程的整体规划。其次,鼓励古籍数字化商业化开发。古籍数字化商业化开发应以国家古籍保护政策、法律为指导,鼓励公平竞争、反对地域垄断, 以市场调节为主,实现优胜劣汰,鼓励更多机构和资本参与古籍数字化开发,形成国内外、政府机构与民间机构共同参与的多元化投资结构,全面推动古籍数字化发展[12]。
古籍蕴含着广袤无垠的知识和智慧,古籍整理是对我国古代书籍进行审定、校勘、注释等加工整理工作,使新出版的古籍便于现代人阅读。古籍整理的工序和方法有:选择底本、影印、校勘、标点、注释、索引、序跋和附录等,经过这些工序保证古籍整理的质量。
(1)古籍数字化要注意版本的选择和内容的揭示。每种古籍都有自己的特点,包括版本类型(如写本、刻本或活字本等)、版本特点(如版刻年代、钤印、栏线、牌记、卷端、行款、字体、批注、序跋、墨色、品相等)。精良的版本是古籍数字化产品的基础,古籍数字化之前应广罗异本,加强校勘,择善而从,力求将最好的底本收入数据库。文献蕴含丰富的内容:时代背景、风俗人情、政治制度、文化特点、地名变迁、历史典故、宗族制度以及历史人物的名字、官阶,及其相互关系等。这些对科学研究具有重要的意义,对文本内容进行校勘整理时,都应进行深度标引,通过对古籍文本内容的深入揭示和关联重组,达到知识发现的目的,使古籍数字化产品成为一个增值的信息库[3]。古籍电子化时应将版本内容,以及与其他版本异同的内容和版本整理的经过等通过技术手段加以保留。
(2)古籍整理应适于阅读和使用。古籍不仅是字词难于理解,还有很多专业知识难以理解,会给一般读者造成阅读障碍,为便于使用,在古籍数字化中除了提供最好的善本之外,还需附上其他相关的版本,以方便版本研究人员进行多文本参考。此外,为了便于阅读可以提供适合现代文本阅读的方式,为了准确起见可以采用两人或多人同时输人的方式,并有专业人员认真校对,除了正题名、责任者、出版者、出版年、出版地、版本、典藏地等检索外,要实现全文检索以及所属字词的关联检索功能。再就是古籍数字化应出版文本和图像两套内容, 使用者既可以检索所需内容,也可浏览古籍的原貌。
(3)进一步丰富字库文字数量,彻底解决古籍数字化字库问题,建立一个先进的古籍文字处理系统,使其能够正确辨别隶书、楷书、甲骨文、篆体字以及通假字、俗体字、避讳字等形式的汉字,增强字符识别能力,扫除电子化古籍的阅读障碍,为读者对古籍进一步笺注以及内容整理做好铺垫。
首先,古籍数字化是国家一项公益事业,公益文化单位的图书馆、科研院所、博物馆应在资金方面积极支持,另外向国家争取专项资金进行古籍数字化开发。鼓励民间资本、海外华人华侨资本对古籍数字化事业的投资与经营。其次,对古籍数字化从业企业在准入、信贷、税收等方面实施优惠政策,鼓励商业古籍数字化开发[10]。再次,进行古籍数据库电商化运作。对于不同的古籍数据库,尤其是公益性的单位开发的古籍数据库,可以链接与该数据库相关的产品,如出版的古籍图书、有关人物著作、旅游地、小吃、甚至服装等,数据库制作单位获得一定的资金收入。
参考文献
[1]王冠中.中文古籍数字化成果与展望[D].长春:东北师范大学,2005:3.
[2]毛建军.古籍数字化的概念与内涵[J].图书馆理论与实践,2007,(4):82-83.
[3]蓝永.古籍整理的新方式——估计数字化[D].济南:山东大学:2007:18-20.
[4]孙建越.中华古籍的数字化〈文渊阁四库全书〉电子版[J].中国电子出版,1999,(4):18.
[5]李明杰.中文古籍数字化实践及研究进展[G]//陈传夫. 图书馆学研究进展. 武汉: 武汉大学出版社,2010:12.
[6]屈菡.古籍数字化将走向规范化[N]. 中国文化报,2012-
05-23(002).
[7]钟哲,李慧子.第三届古籍数字化国际学术研讨会在京召开[N].中国社会报,2011-08-18(001).
[6]贾宇.古籍数字化:风景背后[N].光明日报,2011-07-18(015).
[8]林竹鸣,朱翠萍.古籍数字化的历史、现状及问题探析[J].淮北师范大学学报:哲学社会科学版,2014,06:192-194.
[9]高娟,刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013,39(4):110-119.
[10]洪涛.古籍出版不易,古籍数字化更不易[N]. 中国出版传媒商报,2015-04-14(013)