,,
中医古籍是中医学术研究成果的载体之一,记载了数千年积累的中医药学理论知识以及临床治疗经验,因此开发和利用中医古籍具有重要意义。然而中医古籍因书名繁杂、语言晦涩、版本众多、分类独特等特点,导致其不易被研究人员使用。
计算机技术及网络技术发展迅猛,中医古籍的数字化处理为其更高效率使用开辟了新的道路。目前我国的中医古籍数字化建设工作的研究成果很多,但从选题控制、版本选择、质量标准与规范、数字化技术等方面来看,仍然存在许多弊端。
我国古籍数字化工作起步于20世纪80年代。1984年,钱钟书先生就曾提出古典文献整理和研究应尽早与计算机联姻[1],随后史睿、李运富、彭江岸、毛建军等学者从不同角度对古籍数字化的性质、要素、特征等进行了深入研究。国内专家针对中医古籍的特殊性对其数字化工作模式进行了探讨[2],如吉聪指出要以善本古籍作为工作重点,分析比较了“全文版”和“图像版”两种录入方式;柳长华通过分析古文献中的信息,对若干语句进行知识结构和语义分析,提出“知识元”的概念; 裴丽对中医古文献中的书名、文字信息障碍进行分析,通过解析全文和逐级标引实现智能化的高级检索,构建中医古籍信息平台系统;王振国分析了中医药古籍的信息结构,提出了一种开发方式为自底向上的信息构建方法IA[3]。此外,还有部分专家学者探讨了古籍文字的处理、数据加工方式、信息平台的构造模式以及知识发现等,但这些研究没有达成共认,还有许多见解需要通过具体的实践来验证。
20世纪90年代以来,中医古籍数字化实践成果与日俱增,如由中国中医药学会、湖南电子音像出版社、嘉鸿科技开发有限公司合作编制的《中华医典》,由北京爱如生数字化技术研究中心开发制作的《爱如生医书集成》,由北京龙戴特信息技术有限公司开发的《龙语瀚堂中医药文献数据库》,由台湾汉珍数位图书股份有限公司开发制作的《本草纲目》等。这些中医古籍大多通过大字符集录入、OCR识别、扫描等方法实现数字化实践,属于表层加工。
随着数字化工作不断深入,出现了诸如中国中医科学院开发的“中医药古文献知识库”、“中医药珍善本古籍多媒体库”、“温病大成数据库”、“中医古籍资源数据库及阅览系统”,北京中医药大学所开发的“方剂数据库”、“中医古籍养生数据库”、 “消渴古代文献数字资源库”等中医古籍数字化成果,这些中医古籍知识库通过对古籍内容进行多级标注,可基于网络进行检索操作或实现超文本阅读环境。
中医古籍始于秦汉,鼎盛于明清,其数目不胜枚举。但是国内的研究者在选择数字化加工对象时却有失偏颇,热门古籍重复建设,冷门古籍无人问津。一般出版社、IT公司等商业机构常常选择热门古籍进行重复建设,忽略研究院等学术科研机构的需求,完全以盈利为目的,导致资源浪费,耗费不必要的人力物力和财力。此外,中医古籍流传千年,后人不断的校对、整理、翻刻,导致版本繁多。不同的版本具备不同特点与优势,需要对每一版本的价值做出客观评判,应尽量选择善本作为数字化处理对象,使该种数字化古籍成果为最优。
当前国内的中医古籍数字化产品的质量参差不齐,有一小部分数字化产品口碑较高,得到了广大用户好评。然而有相当一部分产品的质量不尽如人意,在质量标准和规范制定上没有统一标准。主要原因有:中医古籍数字化工作的认知度差,开发团队素质较低,导致开发时没有认清动机及终极目标,忽略了数字化工作的重要部分;对中医古籍的版本选择过于随意,注释、校点不严谨;部分产品对古籍数字化工作的要求停留在影印和大字符输入初级阶段,没有考虑更高阶段的逐级标引和高级检索;开发团队为了保护版权,随意设定自己数字化产品的格式,导致相同或相近的古籍产品没有统一固定格式,给读者利用带来诸多不便。
中医古籍数字化初始阶段的大多成果主要以单机版为主,资源有限、不能共享,极大地限制了用户的使用。随着网络技术的发展,网络版中医古籍数字化产品应运而生,不同用户可以在不同地点同时使用这些产品。但是大多数中医古籍数字化成果的后台数据库不能升级和改造,共享性差,在建设过程中没有考虑信息平台未来的升级、淘汰等问题,因此需要找到适合中医古籍数字化的最优框架和模式解决产品的扩展性问题。
中医古籍数字化工作的意义除了保护古文献外,主要是为了学者和专家充分揭示和利用中医古籍,因此实用性是中医古籍数字化建设应遵循的重要原则。若要使产品充分发挥实用性,需要考虑以下两点:一是保真度,将中医古籍原貌展示出来充分揭示古籍中蕴含的信息;二是版本的选择,一般原则是以善本作为中医古籍数字化的加工对象。
中医古籍数字化建设是一项全国性的工作,从事这项工作的群体主要包括古籍收藏机构、学术研究机构、出版机构、IT企业等。由于各机构间的性质差异,其数字化建设的动机和目的也不尽相同。认知上的偏差必然会影响到数字化产品的策略和侧重点,缺乏统一标准,容易导致资源重复建设[4-5]。因此,相关研究机构应事先进行沟通和协调,从中医古籍数字化工作中的具体环节出发,制定出相关的评价体系和工作标准,严格控制不同机构在数字化建设中产生的数据垃圾,真正意义上实现中医数字化产品资源共享。
可扩展性是评价成果优劣的重要原则。为了使其流通时间更长,范围更广,不被淘汰,需要从技术角度选择一个最适用的模式进行数字化处理。
目前比较推崇的模式为B/S,其易用性好,用户使用统一的浏览器入口进行阅览;工作人员容易维护,方便数据的添加、删减及更新;信息资源共享程度高,可多地点同时段使用某数字化产品;通过配备防火墙、网络安全协议使数字化产品具有较高安全性;使用的TCP/IP协议,具有较高的扩展性。
平台建设的总体思路主要参考已有的中医古籍数字化建设成果,根据现有相关技术以及古文献信息资料特点,将满足用户的不同需求作为出发点进行平台设计。
首先,选择适合的系统框架结构,使平台实现两种界面浏览满足用户基本阅读需求,一般为古籍图像扫描界面和文字录入界面;其次,设定框架中的系统及子系统中各模块,考虑各模块中的功能设计;再次,鉴于中医古籍数字化信息量大及平台需要处理海量数据,平台服务器模式应该基于B/S。此外,还需要保证平台系统安全及数据的完整性,平台与主流操作系统相兼容。本文以《本草经集注》为例介绍中医古籍数字化信息平台的建设。
4.2.1 框架及开发模式设计
《本草经集注》为南朝本草名著,其体例统一,各条药文的格式固定,其数字化平台的系统框架是可重复使用的设计构件。通过框架进行平台系统和子系统的设计,提供基本模块功能,进行实例化操作,满足用户需求。该系统平台的框架为应用型框架,这种框架结构使用广泛,注重软件设计的重复性和系统的可扩展性,该平台的系统框架结构设计分为用户界面层、业务处理层和数据存贮层。这种三层结构不是指物理上的三层,而是指逻辑上的三层。
用户界面层是用户和管理员进入《本草经集注》系统平台的窗口,包括类目导航、检索服务,还提供注册、登陆、修改资料、后台管理、退出系统等链接。业务处理层是数字化系统框架体现核心价值的部分,它处于用户界面层和数据存储层之间,起到了数据交换承上启下的作用,业务处理层遵循相关的业务规则来响应用户和管理员通过界面层发出的所有请求,并在数据存储层抓取相关数据,再将匹配的数据传送给界面层;数据存储层中存储了经过整理后的所有数据,在保证数据完整性和安全性的前提下进行数据的维护,如添加、删除、修改等操作。
4.2.2 模块设计
系统模块是具有一定功能的子程序,是整个程序的一部分。一个模块可以实现单个功能,也可以实现有紧密联系的多个功能。根据《本草经集注》数字化系统平台的需求,我们把整个系统分为原版古籍模块、数据库模块、辅助功能模块、用户模块、系统管理模块等5个模块。其中,核心模块为原版古籍模块和数据库模块,包括《本草经集注》原书图像以及后台录入古籍全部文字;辅助功能模块是此系统的辅助模块,主要实现使用者和设计者相互交流和类似工具书功能;系统管理模块和用户模块服务于核心模块。系统模块设计的最大特点为多个系统管理员按照系统应用框架提供统一的数据加工平台,可同时在不同IP地址对古籍进行数字化加工,并且保证了数字化工作规划统一,提高了工作效率。此外,所有用户均可从任意地点或者时间通过浏览器访问该系统平台,实现真正意义上的资源共享。
4.2.3 功能设计
《本草经集注》数字化系统平台主界面中设计了原版及现代版古籍的浏览功能、检索加工功能和辅助功能等三大功能。《本草经集注》原版图像版的图像均为.jpg格式,该图片内嵌入主界面中,用户无需返回就可以随时应用或进入其他功能。现代版本是重新经过整理加工录入到系统平台中的,其文字内容与检索加工平台中所检索到的相关药文是一致的。因此将古籍现代版链接到检索加工平台中的药文示范中,不仅节省了空间,而且简化了系统界面,使其应用界面更加友好。检索加工平台是《本草经集注》整个数字化平台的核心部分,是实现管理员的数据加工、修改、维护等功能的平台,还是实现用户访问、检索等操作的平台。
《本草经集注》数字化平台的辅助功能包括古汉语词典、平台使用帮助和论坛功能。古汉语词典是古籍系统平台辅助功能中的“外挂软件”,给阅读者扫除了基本的语言障碍,极大地方便了读者的阅读与研究。此外,用户通过该模块中的“论坛”功能,既可发表评论,也可与系统管理员或者平台其他用户随时沟通,从而完善系统平台。
中医古籍数字化的宗旨是为了深入挖掘中医古籍的信息价值,它不仅起到保护中医古籍的作用,更为使用者利用古籍开辟了广阔空间。