中医古籍在线深度标引实践研究

2013-05-30 16:37尚文玲张华敏侯酉娟蒋丁孟凡红
长春中医药大学学报 2013年3期
关键词:麻黄汤异体字标引

尚文玲,张华敏,段 青,侯酉娟,蒋丁,孟凡红

(中国中医科学院中医药信息研究所文献资源研究室,北京100700)

中医古籍是中医药学信息资源的重要组成部分。也是祖国医学的宝贵遗产和财富[1]。2007年由上海辞书出版社出版的《中国中医古籍总目》共收录全国56个省市150家大型综合图书馆和中医药专业图书馆的中医古籍藏书13 455种,包括影印本、复制本以及民国时期的出版物。其中约有4 000余册是孤本。[2]近几年国家非常重视中医古籍的保护、开发与利用。并不断加大投资力度开展中医古籍数字化建设。从2002年始,中国中医科学院图书馆对馆藏中医典籍进行了数字化再生性保护和利用研究,到目前为止,建成了“中医药珍善本古籍多媒体数据库”和“中医药古籍资源数据库”。[3]其目的就是要传承中医药文化,加强中医古籍的再生性保护,提升中医古籍的利用价值。而做好中医古籍的深度标引是引导专家学者实现快速检索和提高利用率的关键。

1 在线标引的含义

中国中医科学院中医药古籍资源数据库现已收录2 057种中医古籍的元数据信息,其中有850种中医古籍是原文图像。在线深度标引:就是通过网络直接登录由中国中医科学院自主研发的数字中医古籍平台—古籍资源数据库,进入古籍在线编辑系统,通过对每一张原文图像内容的阅读及分析,将中医古籍文献的标题和主题相结合,以自然语言为基本词汇,来对中医古籍图像文献中的知识点进行标引。实际上是一种不依据词表的主题标引方法。标引完成后,图片无需上传,用户就可以通过中医古籍阅览系统,搜索所需内容,直接在线阅读了。中医古籍的在线深度标引,实现了对每一张图片内容的检索和快速定位,缩短了因数据转换、上传等工作环节使用户等待的时间,中医古籍在线标引是古籍标引的更高阶段,为中医药古籍数字化的开发与利用开辟了新的篇章。

2 标引原则的制定

由于中医古籍文献数量庞大、收录杂散。而现有的主题词表均不适合做中医古籍标引,要编制适用的词表也比较困难,因此中医古籍图像的标引基本上属于自由标引。[4]在做标引前,由中医古籍专家组及古籍开发的相关人员制定了元数据的标引原则。首先以全书目录中的各条内容作为标引内容,在此基础上,将正文中明确写到而目录中没有的各级标题也要进行标引,对各段主题如图像中反映的病名、证名、方剂名称和药等,更要作为标引内容进一步予以标引。这种标引方法不仅可以全面反应每本古籍图书的具体框架,更可以使用户能够通过快速浏览和快速定位,全面了解整本书的内容。标引原则的制定是为标引人员提供的标引依据,它不仅可以提高标引速度和标引质量,更有利于提高标引的一致性,对提升检索效率,提供了高效便捷的服务保障。也为今后研究古籍深度标引提供了示范与参考作用。

3 标引元数据的提炼

做中医古籍标引要根据中医本身的特点,一般将理、法、方、药、病、证(或症)以及病案等这些关键词作为标引用词,而且要尊重原文,尽量使用原书中的词语标引。标引人员还要把握好优先标注的原则,先将各级标题按顺序标注出来,然后从每一张图像中找出有记录的病症、有药物组成的方剂名称、描述每一味药物的性味、归经、作用的中草药以及针灸书中记载的经络穴位等等,都要标注出来。这种标引提炼出的词语基本能够反映出中医古籍文献的全部特征,也能够确保中医古籍标引的一致性,更便于准确检索定位。因为标引与检索密切相关,标引只是手段,目的是为检索,而最终目标是促进利用,促进中医学的知识发现与知识创新。

4 实践标引示例

一般中医古籍图书都有封面、扉页、序(叙)、跋、目录、凡例或附录等项,在标引时,只要将这些项的名称,如“封面”“扉页”序等分别标出即可。如本草类古

图1

图2是《医门棒喝正续集》中的一叶,此页阳明篇经病脉证治法是一级题目应标出,而阳明病脉浮无汗而喘者发汗则愈宜麻黄汤。麻黄汤是针对阳明病证脉浮无汗而喘而提出的治法方药。下面是对阳明病证和麻黄汤的具体诠释。如果只标麻黄汤,而后面很多篇幅都在论述什么证宜用麻黄汤或麻黄汤加减,就不能具体反映出脉浮无汗而喘的病证宜用麻黄汤。所以笔者认为应把阳明病脉浮无汗而喘者发汗则愈宜麻黄汤这句话全部标出。这样提取的标引用词是十分客观的,既尊重原文,也符合中医辨证用方的理论原则。不会存在标引人员由于主观原因而对用户造成的不便与误导。

5 标引中的问题及解决策略

在做中医古籍标引的过程中,经常会遇到两个问题。一是有很多繁体字、异体字和通假字,按照标引规则都要用简化字标引,如果不能确认正确读音,可以借助逍遥笔输入法先把字写出来,然后再借助繁简字体工具转换,或通过对照异体字字典或古典汉语通籍图像文献的标引:完整本草书的正文结构一般先分卷(如卷一或卷上等)),再分大类(如草部、木部、果部等或上品、中品、下品),然后再列药名(如丹参、当归等),然后阐述药物的性味归经和功用等。在标引时,只要将“卷一”或“卷上”“草部”“木部”“果部”“上品”“中品”“下品”,单味药等分别标出即可[4]。以《本草征要》一书为例。见图1,图2。

图2

根据本页内容,题目本草征要上卷,中草药分部,单味药人参,在标注时都要一一标注出来,即给:本草征要上、草部、人参等三个主题标引即可。但是有些论述性的古籍图书,除了一般封面、扉页、目录、序(叙)、跋等,卷上、卷中、卷下等需要标引外,对于内容的标引要依据每张古籍图片的具体内容而定,如图2。假字大字典等工具书,将正确的简化字标引出来。如果用上述方法还不能辨认,则需要由专家在进行斟校。如常见繁体字:“转筋”的“转”即“转”,“证候”中的“证”即“证”,中药“龟甲”即是“龟甲”等。异体字如:“例”即是“凡例”,是凡的异体字。“鹅口疮”即“鹅口疮”,“鹅”是“鹅”的异体字。目是“眦”的异体字。通假字如:“四支”即“四肢”,“支”通“肢”,“方齐”即“方剂”,“齐”通“剂”,“齿龈肿”即“齿龈肿”,“龈”通“龈”等;二是古籍文献的写作很不规范,如《辨证录》一书,标注时一定要通读全文才能完成准确标引,此书的著录并不是把所有方剂名称都作为标题先列出来,然后再叙述病症或是辨证,而是在论述病症的过程中提出什么证用什么方或什么方加减。如果只看标题标引,一定会漏标很多该标注的方名主题,所以一定要仔细通读全文,才能完成正确的标引。

总之,作为中医古籍标引人员,不但要具备一定的中医药学专业知识,医古文知识。还要熟练掌握计算机操作技能、以及熟悉网络系统性知识,还要具备严谨认真的工作态度,才能高质量地完成中医古籍的在线标引。通过对每张古籍图片文献的标引,进一步挖掘中医古籍内在的隐性知识。为加强中医药古籍研究,传承中医药古籍文化,发展中医药事业,提供更高质量的古籍资源保障。

[1]赵宏岩,闫桂银.中医古籍CNMARC格式编目著录之我见[J].长春中医药大学学报,2009,25(6):997-998.

[2]薛清录.《中国中医古籍总目》[M].上海:上海辞书出版社,2007:1347.

[3]李兵,刘国正,符永驰,等.从中医古籍数据库建设看中医古籍数字化[J].中国中医药信息杂志,2009,16(3):92-93.

[4]张伟娜,刘国正,符永驰,等.试论自由标引在中医古籍图像文献标引中的应用[J].国际中医中药杂志,2008,30(2):101-102.

猜你喜欢
麻黄汤异体字标引
异体字字形类似偏旁的互用类型综合字图构建
偏旁省略异体字研究
档案主题标引与分类标引的比较分析
论麻黄汤不是发汗峻剂※
麻黄汤证与伤寒的对比研究
本刊对来稿中关键词标引的要求
常用隶书异体字表(二)
《音同》中的异体字与讹体字
本刊对来稿中关键词标引的要求
以《伤寒论》为纲探析麻黄汤新用❋