2004—2014年中医古籍数据库建设研究进展

2015-09-10 21:11漆胜兰
中国中医药图书情报 2015年1期
关键词:综述数据库建设

漆胜兰

摘要:中医古籍是中华民族几千年防病治病的智慧结晶,是我国传统文化的宝贵财富。本文综合了2004-2014年中医古籍数据库的发展状况,提出存在的问题,并对未来研究思路进行了阐述。

关键词:中医古籍:数据库:建设:综述

中医古籍是中华民族几千年防病治病的智慧结晶,是我国传统文化的宝贵财富。古籍数字化是指利用现代技术将古籍中的文字或图像信息转化为能被计算机识别的数字符号,形成书目数据库、全文数据库和知识库,从而实现古籍整理、存储、检索、阅读、传输等目的,达到保护、利用和挖掘古籍知识的功效。通过数字化处理,既可以实现对珍贵古籍的保存,又可实现资源共享,传承中华文明。古籍数据库建设是古籍数字化的一种方式,本文对2004-2014年间国内外中医古籍数据库的建设进行综述。

1 中医古籍数据库现状

1.1 中医古籍数据库的建设形式及现状

陈力认为中国大陆古籍成规模的数字化工作基本上是由教学和研究机构、图书馆、商业机构这3个类型的部门完成。从目前的数字化成果来看,中医古籍数字化建设形式主要有书目型数据库、全文型数据库、全图像型数据库、图文型数据库、古籍知识库。

1.1.1 中医古籍书目型数据库书目型数据库是将古籍书名、著者、版本、卷次、摘要、出版年等信息输入计算机而形成的数据库,读者可以通过书名、著者等检索到某古籍的相关信息。该类型的代表是中国中医科学院中医药信息研究所的“全国中医药珍善本古籍档案管理系统”、“海外古籍书目数据库”,及中国中医科学院图书馆的“馆藏中医古籍目录数据库”。

目前国内有一定中医药古籍藏书规模的医学院校、科研机构、图书馆也都相继进行了书目数据库的建设,如北京中医药大学图书馆的“中医药古籍书目数据库”、上海图书馆的“古籍书目数据库”和“中医古籍善本书目提要”、大连图书馆的“特色馆藏古籍线装书目库”、北京大学及多家图书馆的“CALIS(中国高等教育文献保障系统)古籍联合目录”、上海中医药大学图书馆的“善本书目提要数据库”、浙江中医药大学图书馆的“馆藏古籍目录数据库”、山西中医药大学图书馆的“古籍书目数据库”、山东中医药大学图书馆的“占籍书目数据库”等等。但因国内没有统一的建库标准,各种书目数据库揭示的深度不一样。

1.1.2 中医古籍全文型数据库全文型数据库是将古籍全文手工录入,形成电子文本,供用户查询。这种数据库存储空间小,便于检索和阅读,但是没有保持古籍原貌,且文字录入有难度,容易出错。中医药古籍含有穴位、图谱等信息,数字化的困难更大。台湾高雄市立中医院的“中医古籍文献全文检索系统”和由湖南电子音像出版社出版的光盘版《中华医典》就是典型的全文型数据库。

1.1.3 中医古籍全图像型数据库 全图像型数据库是将古籍直接以图像格式扫描存储,加入简单标题和分类,能保存古籍原貌,有助于专业研究,但是这种数据库存储空间大且不方便检索。如武汉大学出版社开发出的《四库全书》光盘版就是以文渊阁本《四库全书》为底本,扫描全书,手工录入总目。

1.1.4 中医古籍图文型数据库 图文型数据库是利用图像处理技术与超链接技术结合形成的数据库,即在古籍书页图像化的基础上,将书中具有检索意义的信息转化为电脑可识别的文字,并加以合适的软件工具,为用户提供快捷有效的检索、统计、整理和编辑功能。这种数据库能再现古籍原貌、方便检索,是目前古籍数字化的最佳方式。中国中医科学院中医药信息研究所的“中医药珍善本占籍多媒体数据库”和由北京大学刘俊文教授总策划、总编纂的《中国基本古籍库》(医书集成)可为此类代表。

1.1.5 古籍知识库 古籍知识库是人工智能和数据库结合的产物,它以统一的形式存储知识。知识库的知识是高度结构化的符号数据,用户可以进行深层次的知识挖掘,实现由书目到全文等多个知识点的关联检索,也可以由一个作者检索到其他相关作者等。中国中医科学院中国医史文献研究所中医古籍数字化研究室的“中医药古文献知识库”是其代表。该知识库构建了我国第一个中医古籍知识库系统,目前已经建成中医古籍本草知识库、中医古籍方剂知识库,以及张仲景、陈士铎、新安医学、妇科、医案、蒙医药等6个中医古籍专题知识库。

1.1.6 国外中医古籍数据库 国内的中医古籍数字化取得了一些成就,国外中医古籍数据库也在建设中。虽然在建设规模和涵盖资源上与国内有些差距,但是也具有非凡的意义和价值。例如日本的全文数据库“全国汉籍数据库一一子部医家类”“数字化善本书——医学”“民族药物资料馆——证类本草”,加拿大的“中医在线图书馆”以及美国的全影像数据库“YiJing: The mlrror of medicine”等等。

1.2 中医古籍养生数据库的现状

古今往来,健康长寿是人类的美好愿望,养生保健是人们永恒的话题和社会关注的热点。特别是近年来,随着科学的发展和生活水平的提高,人们自我保健意识和养生要求逐渐提高,中医养生学显示出强大的生命力,中国数千年积累的养生法备受世界青睐。我国养生学内容广泛,方法众多,养生论著卷帙浩繁,有的是养生专著,有的则是部分章节论述养生,更多的是散见于各类著作中,如道教、佛教、史学典籍等,未形成一个全面、系统的学科。中医古籍数据库的建设方兴未艾,取得了一定成果,如《中华医典》以及“中国中医药数据库”“中国古籍资源数据库”“龙语瀚堂典籍数据库”都收录了大量中医古籍,但是关于养生类的专题数据库发展还比较缓慢。如目前中医古籍数据库当中收录最全、范围最广的电子资源文献库“龙语瀚堂典籍数据库”所收录的中医药文献达700多部近10000册,只在中医药类收录养生类古籍35种。巨型数字古籍丛书《中国基本古籍库》收录了上自先秦、下至民国的历代典籍10000余种,其中休闲养生目收录28部,武术技击目收录14部,气功健身目收录11部。目前,南京中医药大学的“气功基本古籍提要库”是以专门的气功、导引、养生著作为主要内容的数据库,属于气功养生的专题库。中国中医科学院中医药信息研究所建设开发的“中医古籍养生数据库”收录养生古籍110种,并可浏览全文图片。

2 中医古籍数据库建设存在的问题

2.1 中医古籍书目收集及录入

中医古籍数量大,版本多,全面收集版本优良的古籍是古籍数字化中的一大课题。古籍图书印刷格式多样,出版方式随意,多处标有正题名且各处书名不尽相同,编目人员需要对各种书名信息进行分析、思考,方能准确而规范地著录正题名。另外,摘要由编目人员编写,编目人员的责任心和相关专业知识,如对古籍中同药异名、异药同名,古籍中的病证和现代病名等知识的掌握,也直接影响书目数据的质量。

2.2 中医古籍用字

古籍数字化建设难度大,其中面临最多的问题是有关用字的问题。据查,《康熙字典》收字就达49 030个。汉字在漫长的演变过程中产生的繁简字、异体字、古今字、通假字就更数不胜数了。中医古籍数字化目前面临着无古籍大字库、古籍生僻字录入、古籍光学字符识别系统(Optical Character Recognition,OCR)识别、古籍排版等几个难题。陈进等认为产生这些现象的原因主要是对字体的认知障碍和技术障碍。高晶晶认为可以通过私用区造字法、图片代替法、自然语言描述法、动态组字法等方法在一定范围内解决古籍阅读和检索用字的问题。

2.3 中医古籍数字化标准尚未建立

合作与共享是中医古籍数字化发展的趋势,文献标准化是文献资源共享的前提和基础。古籍数字化,需要规范的著录条例、数据库格式、编目软件使用字库,还要统一的古籍分类法。但是中医古籍数字化标准尚未建立,国内至今未形成统一的古籍分类法。曾燕认为应以《四库法》(即按经、史、子、集分类)为基础,制定完善的古籍分类法。刘文波等认为《全国中医图书联合目录》的分类体系,基本上包括了现存中医古籍的主要种类,比较符合读者“以类求书”的使用习惯。李兵认为中医古籍数据库内容、检索功能、辅助功能和服务功能这4个要素可以作为中医古籍数据库的评价要素和一级指标。

2.4 中医古籍数字化的开发深度

符永驰等认为中医古籍数字化不应仅仅满足于对古籍的阅览和查询。刘毅认为在数据库和网络普及的时代,利用现代技术手段,挖掘中医古籍的内涵知识很重要,但是目前由于各种因素的影响,数据库不具备古籍知识深度挖掘的功能,从这方面来说,专业的中医古籍数据库尚处于初级阶段。古代中医药文献是一个知识宝库,在数字化的基础上挖掘古籍中的宝贵知识财富,实现知识发现和知识拓展,更好地为中医药事业的发展和人类健康服务是中医古籍数字化的最高目标。

除上述内容以外,技术手段落后、经费制约等等也是中医古籍数据库建设中存在的问题。

3 总结与展望

中医古籍数字化已经取得了一定成就,建立了不同类型的数据库,在很大程度上实现了保护和利用中医古籍的目的。但是数据库建设中的用字问题、数据库建设标准及数据库知识的深度挖掘问题仍然有待研究。同时,养生学作为中医的一个重要学科,其数据库建设仍有待加强,构建数量多、版本齐全、信息涵盖量大的古籍养生数据库有着重要的现实意义和学术研究意义,对中医养生学科的内涵外延的界定具有促进作用。在建立信息涵盖量大的古籍养生数据库的基础上,从小处着眼,着重研究新安医籍中的养生古籍,建立数据库,研究其与前人、同时代及后世之间的学术继承、借鉴和影响,可操作性强。作为中医古籍数据库建设的一部分,养生类古籍文献的整理与数据库开发有待进一步拓展与深化。总之,在计算机及网络技术不断发达的今天,中医古籍数据库的建设会有更大的发展前景,会为中医传承做出更大的贡献。

猜你喜欢
综述数据库建设
SAPHO综合征1例报道并文献综述
基于迁移学习模型的小样本学习综述
寒露
知识追踪综述
共指消解技术综述
保障房建设更快了
数据库
数据库
数据库
数据库