于彤 贾李蓉 刘静 杨硕 董燕 朱玲
摘要:中医药学语言系统(TCMLS)是由中国中医科学院中医药信息研究所联合全国13家中医药科研单位和高等院校于2002年开始研制的大型术语系统。它是在统一医学语言系统(UMLS)的基础上,根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成。经过10余年的发展,TCMLS的技术体系日趋成熟,相关研究也越来越深入和系统化。通过回顾TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和未来的发展方向。
关键词:中医药;语言系统;中医药学语言系统;本体
中医药学经过几千年的发展,在临床实践和医学研究过程中产生了大量的概念和术语。朝代更迭、语言变迁、地域差异、学科融合等多种因素的综合影响,使中医药学术语体系变得极为复杂。针对中医药文本中大量存在的同物异名、同名异物等现象,中医药工作者往往无法做出正确判断。通过建立一个完整、准确的语言系统,能够有效处理词义模糊、一词多义、一义多词等复杂的语言现象,可以解决长期困扰中医药信息化领域的术语使用不规范、术语组织不系统、信息检索效能低下等问题。为此,中国中医科学院中医药信息研究所(以下简称“信息所”)联合全国13家中医药科研单位和高等院校,从2002年开始研制中医药学语言系统(traditional Chinese medicine languagesystem,TCMLS)。本文回顾了TCMLS的发展历程,对相关研究文献进行综述,分析存在的问题和发展方向,为中医药学语言系统的研究、编制和使用人员提供参考。
1概述
TCMLS原名为中医药一体化语言系统。它是参照统一医学语言系统(LMLS),根据中医药领域的语言特点及学科体系特色,采用本体(ontology)的设计理念和方法研制而成的大型术语系统。其目的在于利用现代信息技术,逐步建立规范化的中医药术语体系,从而支持中医药信息资源的合理组织和有效检索。
TCMLS主要包括语义网络(semanticnetwork)和基础词库两大部分。其中,语义网络定义了中医药领域最基本的语义类型(semantictype)和语义关系(semantic relation),构成TCMLS的顶层框架。基础词库则以概念为单位对中医药术语进行系统梳理和准确诠释,建立科学合理的概念分类体系以及概念之间的语义关系。经过10余年的研发,TCMLS的技术体系日趋完善,建立了成熟的术语采集系统;组建了由300多名专家组成的术语加工团队;收录了约12万个概念、30万个术语和127万条语义关系,涵盖了中医药学科体系及与之相关的生物、化工、哲学等学科的专业术语,在文献检索、文本挖掘、术语集成等方面得到了实际应用。
2中医药学语言系统发展历程
从20世纪90年代开始,本体技术在医学领域得到广泛应用,在知识获取、知识管理和信息检索等方面发挥了积极的作用。UMLS是其中的一个代表性本体,它集合了来自100多个词表中的100多万个概念,用于提高计算机“理解”医学信息的能力,促进医学信息系统之间的互操作。注意到UMLS在医学领域取得的成功,中医药工作者开始考虑将本体技术引入中医药领域,以中医药学科为主导且遵循中医药发展思路,研发基于本体的大型术语系统。2002年,信息所联合全国13家单位正式启动了TCMLS的建设工作。TCMLS从建立之初到目前为止,大体经历了3个阶段。
2.1建设初始阶段(2002—2005年)
在建设初期,尹爱宁等提出了建立TCMLS的方法学,制定了TCMLS的技术标准。Zhou XZ等则从信息技术角度提出了TCMLS的技术方案。这些研究为TCMLS的建设给出了科学合理的顶层设计和路线图,为其长期健康发展奠定了基础。在此阶段,各单位加工人员采用单机版的Protege软件分别加工各自的部分,再由信息所统一汇总。这一加工模式促成了多单位数百人协同共建,但所加工的数据难免有所重复和矛盾。
2.2迅速成长阶段(2005—2009年)
从2005年开始,基于万维网(Web)的加工平台成功部署并投入使用。各单位加工人员得以在统一的网络平台上协同共建,免去了数据汇总的环节。基于网络的协作方式显著提升了加工效率,使TCMLS的规模得以迅速增长。但加工人员的主观性和专业水平差异等因素造成TCMLS的数据存在很多质量问题,因此数据质量保证和数据清洗技术成为研究重点之一。在系统建设的同时,学者们也针对系统设计和架构等问题进行了反复研讨,提出了一系列调整和改进方案。
2.3稳定发展阶段(2009—2014年)
经过上一阶段的大规模数据加工,TCMLS已收集了现代中医药文献中出现的大部分概念和术语,其数据增量开始逐年放缓。在2009年,信息所与维思比科技(北京)有限公司合作,在成熟的商业软件的基础上,搭建了更为稳定的网络加工平台。在完成平台改造和数据清洗等工作之后,TCMLS系统的数据质量得以显著提升。随着TCMLS的发展成熟,其在文献检索、文本挖掘、术语集成等诸多方面的应用研究渐趋活跃。TCMLS的设计理念和成功经验,也在中医古籍语言系统、传统针灸知识体系语义网络等系统的建设中得以推广。
3中医药学语言系统相关研究
中医药术语系统具有鲜明的语言、文化和学科特色,没有现成的解决方案可以照搬。在TCMLS的建设中,从中医药特点和需求出发,开展了许多创新性的研究工作。下面从方法学研究、标准化研究、分析与评价研究以及应用研究等方面,对相关文献进行综合分析。
3.1方法学研究
学者们针对TCMLS的建设,开展了系统性的方法学研究。尹爱宁等提出“复杂度约定与限定方法”“多学科交融与碰撞方法”以及“本体论与诠释论关联应用方法”等3种方法,为TCMLS的设计和构建提供了新思路和新方法。尹爱宁等还完成了TCMLS的顶层设计,包括概念分类框架、语义类型以及语义关系等内容。方青、曾召、谢琪也针对TCMLS的设计理念、设计原则、系统架构和构建方法开展了研究和讨论。
学者们还针对TCMLS所涉及的信息科学方法与技术开展了研究。Zhou XZ等、方青提出了TCMLS的技术方案,包括系统架构、数据存储、概念编码方式、编辑工具、查询服务等内容。汤萌芽研发了基于Web的TCMLS加工平台,支持多单位大量人员的协同加工。Mao YX等针对TCMLS的管理和维护开展研究,提出了基于子本体模型的本体演化方法,以支持大型本体的重用。崔蒙等研究如何通过自动化方法逐步提升TCMLS的数据质量,提出了基于语义网络的数据清洗策略。
3.2标准化研究
为协调多机构大量人员的编审工作,需要建立科学合理的技术标准。早在2003年,尹爱宁等就为TCMLS制定了包括收词原则、收词标准、一级类目、语义类型、语义关系在内的技术标准。这项标准在系统建立过程中发挥了重要作用。但其适用范围仅限于TCMLS,其他中医药本体均不完全符合这套标准,由此造成本体系统之间的异构性。可见,为使一套技术规范具有广泛的影响力和约束力,需要在权威的标准化组织的框架下开展工作。
鉴于此,信息所于2008年,代表我国向国际标准化组织(ISO)健康信息学技术委员会(TC 215)提出了技术规范“Health informatics Semanticnetwork
framework of traditional Chinesemedicine language system”的项目提案,致力于在ISO框架下推进TCMLS语义网络框架的国际标准化工作。该项目于2012年得到成功立项,于2013年3月形成草案并进入评审和投票环节,并于2014正式发布。它在多术语系统融合、术语服务以及术语系统互操作等领域将发挥基础性作用。
3.3分析与评价研究
学者们针对TCMLS各方面进行分析与评价研究,以期发现其中存在的问题,促进TCMLS的发展与完善。例如,贾李蓉等对TCMLS中语义类型的使用情况进行分析,找出不合理的语义类型并建议删去。杨阳等、贾李蓉、曹莉等针对TCMLS语义关系进行了深入的分析和探讨。贾李蓉还建议对TCMLS语义关系进行调整,如增加“开窍于……”“与……相表里”等中医特有的语义关系。李莎莎指出TCMLS分类框架存在问题,提出了分类指导原则以及改进的分类框架,使TCMLS词库分类更加合理。贾李蓉等从术语的收词范围、术语完整性等方面对基础词库进行了分析,提出了改进意见。
2012年,贾李蓉等针对TCMLS开展了较为全面、系统的评价研究。结果表明,该系统学科分类非常合理,语义分类基本合理,系统完整性较好,但语义关联的准确性较差。可见,TCMLS设计合理且具有相当规模,适合开展应用研究,其数据质量问题可在实际使用中逐步完善。
另外,谢琪、曾召等先后对TCMLS与UMLS进行比较分析。结果表明,TCMLS虽然借鉴了UMLS的设计方法,但其结构和内容均有鲜明的中医药特色,从而充分肯定了TCMLS的独特性和创造性。
3.4应用研究
TCMLS作为中医药学规模最大的本体,在中医药信息化的发展中发挥着重要的作用。如何利用如此大规模的术语资源成为现阶段研究的重点问题。TCMLS在文献检索、文本语义关系发现、术语集成等方面已经取得了实际应用,初步验证了TCMLS的实用性。
3.4.1文献检索 TCMLS能解决中医药学中同一概念具有不同表达形式、同一种表达形式表达意思不同的问题,从而改进文献检索的效果。贾李蓉等研发了基于TCMLS的中医药文献检索服务平台,它能提供术语检索、文献检索及互联网资源检索等服务。该平台利用TCMLS的术语信息实现了同义检索、相关概念检索等高级功能,提升了检索结果的全面性和准确性。
3.4.2文本语义关系发现 在中医药文献中蕴含着大量的关联性知识,体现为概念之间的关联关系。若能实现从文献中自动抽取语义关系的技术,则可大幅提升知识获取的效率。陶金火等、张小刚、于彤等开展了基于TCMLS从文本中发现语义关系的一系列尝试。挖掘出来的语义关系可与TCMLS的语义关系相结合,得到更为全面、准确的语义关系,从而扩充TCMLS的数据。
3.4.3术语集成 术语系统的应用实践表明,单个术语系统往往难以满足科研或临床应用的需求,多术语系统的融合已成为实现术语系统实用化的先决条件之一。鉴于此,于彤等采用本体技术研发中医药术语集成系统,将TCMLS、中医古籍语言系统等多个术语系统集成在同一个平台中,通过Web提供一站式的术语信息检索与访问服务,支持语言学家对语义网络进行归纳、浏览和比较研究。
4中医药学语言系统发展方向
TCMLS已趋于成熟并取得成功应用,但仍存在许多值得研究的问题。例如,随着TCMLS系统规模的扩大,如何对本体进行有效管理?如何通过自动化方法提升TCMLS的数据质量,逐步实现数据规范化?TCMLS等中医药本体皆自成体系、互不兼容,如何实现各系统之间的关联、协调与融合?现就TCMLS加工及应用2个方面讨论其研究思路及发展方向。
4.1大规模本体工程协作
TCMLS是由全国多家单位、数百名领域专家合作加工的大型本体系统,如何支持多机构的大规模协作始终是一个重要的技术问题。TCMLS建设之初,使用Protege进行加工。Protege是由斯坦福大学研制的一款本体编辑软件,具有开源免费、安装方便、用户界面友好等优点,因此得到了广泛使用。但它是一款单机版的软件,需要各单位人员分别加工,再将数据统一汇总,这一加工方式导致数据合并时出现大量重复和不匹配的问题。随着系统规模逐渐扩大,这个问题变得越来越严重。
2005年,浙江大学研发了基于Web的TCMLS加工工具,使各单位人员可以通过网络进行实时同步加工,从而提升了加工效率和数据的一致性。此后,网络化加工工具经过多次升级,与之配套的审校机制也不断完善,形成了相对成熟的虚拟协作模式。
在未来的研究中,可将单机版Protege与Web平台相结合,进一步优化大规模本体工程的协作模式。未来可实现TCMLS的模块化,使用Protege开发独立的本体模块,使用Web平台维护共享的本体框架。用户可将个人开发的本体模块导入Web平台中,与共享本体相融合;也可从平台中导出本体模块,通过Protege进行编辑、推理和查询。简单知识组织系统(simple knowledge organizationsystem,SKOS)为本体在Web上的发布和交换提供了一项推荐标准,能支持上述目标的实现。将TCMLS转换为SKOS本体,为在Web平台上完成本体发布、导入导出、本体融合等任务奠定了基础。
4.2推进中医药学语言系统实际应用
TCMLS在中医药信息化中具有巨大的应用潜力。中医药领域已积累了大量的数据库和海量文献,但仅提供简单的检索功能。如何基于TCMLS整合中医药数字资源,建立一站式知识服务平台,面向中医药工作者和社会大众提供完整、准确、智能的知识服务,是TCMLS应用研究的核心问题。
近年来,谷歌知识图谱(Google knowledgegraph)的巨大成功,使“知识图谱”成为知识服务领域的新的研发热点。TCMLS的大型语义网络为构建大型中医药知识图谱奠定了基础。在今后的研究中,可基于TCMLS将中医药领域主要的术语系统和数据库集成在一起,形成以“语义网络”为骨架的大型知识图谱。知识图谱是TCMLS的一种自然的扩充,其知识内容更加丰富,因此更具服务价值。
在知识图谱的基础上,可进一步搭建语义维基系统,面向网络用户提供百科全书式的知识服务;并参考维基用户的编辑结果和反馈意见,不断完善和丰富TCMLS的内容,进而实现一站式的知识检索服务,为用户提供异构数据库和文献库的统一检索。在此基础上,可逐步实现知识推荐、知识地图、知识问答、决策支持、关系推理等高级服务。
5小结
TCMLS是基于本体技术研制的大型术语系统,它对中医药领域的概念和术语进行了系统梳理,为中医药术语规范化提供了基础性工具。目前,TCMLS已初具规模,其应用推广工作也在稳步进行之中。TCMLS的建立是一项创新性工作,对于中医药术语标准化以及信息数字化的实现具有重大意义。TCMLS的成功表明,本体能很好地处理中医药领域中各种复杂的语言现象,是构建中医药术语系统的有效手段。在国内外尚缺乏构建本体的成熟流程、方法和技术规范的情况下,TCMLS也为本体工程方法学的发展与完善做出了贡献。