张伟娜等
摘要:本文结合我馆在中医古籍数字化工作中的实际情况,对选书过程、扫描过程和检索系统建立过程中的若干细节问题进行逐一分析探讨,介绍了我馆在处理这些问题的具体方法和经验。
关键词:中医;古籍;数字化
随着计算机技术的快速发展,古籍数字化已经成为古籍文献保护和利用的重要手段。采用数字化技术对中医古籍进行抢救整理,既能使这些珍贵文化遗产原书原貌得到永久保存,又可以通过网络使这批珍贵文化遗产不受地域和时空等的限制,及时迅速地提供给广大研究人员和其他使用者。
中医古籍数字化,就是利用数字化技术将中医古籍进行扫描、文字识别与转换或录入,并经专门软件使之结构化,制作出新的电子版中医古籍。数字化的中医古籍可用计算机进行方便的检索与阅读,也可在网络上传输、共享。我馆自2001年开始先后建立馆藏中医古籍的书目检索数据库和中医古籍阅览管理系统,实现中医古籍书目和内容检索。目前我馆的中医古籍数字化工作已有了很大进展,但是也仍然存在许多问题。本文按照数字化加工的流程,对其中的若干细节问题进行探讨。
1 选书过程中的问题
1.1学术价值高和版本精良的中医古籍应优先数字化 现存历代中医古籍品种数量众多,版本和流传情况复杂。例如:《中国中医古籍总目》收录了中医古籍13455种,大部分古籍都有两个以上的版本,有的甚至多达几十个版本。因此中医古籍数字化工作应该先对其中学术价值高、版本精良的中医古籍进行抢救保护,可以制定具体的中医古籍数字化选目标准,注重中医古籍保护与利用的双重目的。
1.2没有必要对所有馆藏古籍都进行数字化 我馆的馆藏中医古籍书目数据库,共有1万多条数据。我们在进行数字化工作时,没有必要对每本书都进行数字化。这是因为以下方面。1.2.1每种古籍往往存在多种版本,版本情况复杂多样。这些版本中,有的是不同的刻板印出来的,有的是相同的刻板印出来的,只是收藏者或年代不一样而已。对于前者,可以对版本精良的中医古籍进行优先处理,其它版本可以依据平时使用的情况进行数字化,这样在版本校对时也可以使用。对于后者,也称之为"副本",这种情况只要选择其中一种保存比较完好的来扫描即可。
1.2.2国内中医图书馆普遍经费有限,而且数字化的过程需要一定的时间,因此将所有的馆藏古籍全部数字化并不现实。
1.3建立的数字化古籍书目要与馆藏书目相关联 数字化古籍书目的建立是本馆数字化加工工作的重要环节。这个看似简单的过程,如果没有科学、准确地录入,也会在古籍书目的检索利用时产生一些问题。比如我馆在进行数字化扫描古籍之初,数字化古籍书目是单独建立的,与馆藏古籍书目之间是没有联系的。在读者借阅古籍时,对于扫描过的古籍,本来可以只提供扫描图像而不用再提原书,但是我们的馆藏古籍书目没有注明哪些是扫描过的古籍,只能还是提供原书给读者。这样非常不利于古籍的保护。因此有必要将数字化古籍书目与馆藏书目相关联,或者数字化古籍书目由馆藏书目派生出来,或是在馆藏书目中注明扫描过的书目。总之两个书目在格式、繁简字体上要保持一致,保证在检索书目时可以快速准确的得到结果。
2 扫描过程中的问题
2.1古籍扫描人员的培训 古籍,与一般的书籍不同,不仅具有重要的学术价值,而且具有重要的文物价值和历史价值。因此,在扫描工作之前,要对古籍扫描人员进行专门的培训。要让扫描人员树立保护古籍,保证质量的意识,确保原件的安全性。要让扫描人员熟悉操作环节,可以用仿照的古籍进行试扫,尽量避免对古籍的损伤,确保加工环节的规范化。
2.2古籍扫描规范
2.2.1检查全书 在扫描之前要检查全书。一看是否需要拆除装订线进行扫描。一般情况下,尽量不拆除古籍的装订线,保持古籍的原貌。但是对于有的装订线已经断开,或是原有的装订线装订的太宽,致使部分内容无法看到,这样的情况最好拆除装订线进行扫描,待扫描后立即进行重新装订。如果馆内不能进行修复,最好不要拆除装订线,以免古籍散落或丢失。二看古籍中有无散落的书页。如果有散落的书页,要记下书页所在的位置,最好夹条进行标记,以防弄乱书页顺序。
2.2.2扫描标准 古籍扫描时,图像采集分辨率应不低于300dpi,色彩模式选用RGB全彩,具体利用时可根据需求进行调整。我馆是按分辨率300dpi,24位RGB色彩模式扫描。而且将扫描后的图像文件分别存储为典藏版和阅读版。古籍典藏版图像扫描分辨率300dpi,以尽量满足保存古籍图像原貌的目的,但文件较大;阅读版图像扫描分辨率为72dpi,文件较小,但可以保证阅览的需求。一般来讲,图像分辨率为300dpi,就可以满足印刷出版的要求,对于字太小或颜色太淡的书籍,可以适当增加扫描分辨率。在进行数字化加工时,没有必要设置过高的扫描分辨率,虽然图像会更加清晰一些,但是所占的空间也很大,积累到一定程度时,也不利于使用和保存。
文件可存储为高品质TIFF/JPBG格式。我馆的文件是存储为JPG文件格式;文件命名为"册号"+0+"页码",如第一册第一页,文件名为010001。每种古籍按其名称设总文件夹,再按其具体册数设分册文件夹,每页图片分别存放在所在的册文件夹中。
2.2.3扫描校对 扫描图片文件保存完成后,要与原书进行逐册、逐页校对。删除其中重复扫描文件,增补遗漏扫描图片。保存文件命名的书名要与数字化古籍书目上的书名相一致,以方便搜索利用。
2.2.4图像处理 扫描得到的图像,会存在边缘大小不等,位置不正、或色彩偏差等问题。所以必需对扫描图像进行裁边、纠偏、调色等处理。对于文件格式存储不统一者也要进行统一调整。
3 检索系统建立过程中的问题
3.1图文关联是中医古籍数字化的较好方式 图文关联的方式不仅可以弥补单纯"图像"在检索和内容编辑上的不足,而且可以校对单纯"文本"的准确性,使读者既能看到原书原貌的古籍文献信息,又可以快速准确地查到所需的内容。其中,文本数据的准确度是影响用户使用的重要因素。目前文本数据的获取方式有对古籍图像进行OCR识别、人工录入和两者结合3种方式。我馆在实际工作中多采用直接人工录入的的方式,并加以标点。为达到图文对照和符合现代阅读习惯的目的,文本数据可分为横排、竖排两种版式。我馆自主开发建立的中医古籍阅览管理系统即采用这种方式。通过古籍的图文关联和版式还原可以实现"图文互校",图像和文本在同一界面内页对页、行对行、列对列、字对字的校对,减少校对者的视觉疲劳。
3.2检索系统要进行适当的标引 图文关联虽然是中医古籍数字化的较好方式。但是由于花费时间很长,并且全文检索存在固有的一些缺点,因此为了更好的有效利用,检索系统需要进行适当的标引。这样基本能实现古籍中主要知识点的检索。
我馆自主开发建立的中医古籍阅览管理系统采用自由标引加后控词表的方式来实现检索。其中自由标引以目录的深加工为总原则。目录的深加工是指在对中医古籍图片进行标引时,先以全书目录中的各条内容作为标引内容,在此基础上,将正文中明确写到而目录中没有的各级标题和各段主题也作为标引内容进一步予以标注。其中,各级标题是正文中客观存在的,在标引时一般按原文照录即可。而各段主题则需要根据中医专业知识予以提取,一般仍采用中医专业术语,而且也要尽量使用原书中的词语。后控词表是通过参考相关的工具书或教科书,对标引用词进行聚类分析而创建。词表共设八个字段,即类号、标识词、同义词、近义词、上位词、下位词、关联词和现代医学对照词。这样就形成一个集数据加工与检索利用于一体的中医古籍智能检索系统。
3.3古籍生僻字的处理 古籍生僻字问题是中医古籍数字化的一大障碍。解决好这个问题有利于保证数字化工作的统一性。我们可以通过手写输入法、拼凑法、造字法、图片替代法、描述法等多种方式进行处理。在实际工作中可以几种方法综合应用。我馆的检索系统通过对中医古籍数字化中遇到的生僻字问题进行深入研究并对生僻字进行分析统计后,对其进行编码、造字,建立繁简字体对照表,增加繁简字体关联互检功能,从而有效提高了检索准确率。
总之,中医古籍数字化需要一个逐步发展和完善的过程。在这个过程中,我们还会不断的遇到新问题。只要我们保持科学认真的态度,一定能够不断地解决新问题,将中医古籍数字化工作做得更好。
参考文献:
[1]李兵,刘国正,符永驰,等.从中医古籍数据库建设看中医古籍数字化[J].中国中医药信息杂志,2009,16(03):92-93.
[2]符永驰,李斌,郭敏华,等.中医古籍电子化系统的研究与实现[J].中国中医药信息杂志,2008,15(02):103-104.
[3]薛清录.中国中医古籍总目[M].上海辞书出版社,2007:2.
[4]符永驰,刘国正,李斌,等.中医古籍数字化研究[J].中国中医药信息杂志,2004,11(06):563-564.
编辑/哈涛