于彤+杨硕+李敬华+高宏杰
摘要:语义网将是一个全球共享的智能信息空间,能实现各种数据资源的互联互通,支持机器推理、知识发现和智能问答等各种智能应用。本文旨在探讨在中医药领域中构建语义网基础设施,并在此基础上模拟中医思维的过程,挖掘中医医案中的知识,构建中医临床智能系统,从而支持中医科学研究和临床决策。
关键词:中医药:语义网:临床智能系统:临床决策:知识发现
doi: 10.3 969/j.issn.2095-5 707.2015.02.002
1 语义网技术概述
新兴的语义网( Semantic Web)技术能实现各种数据资源的互联互通和全球共享,支持机器推理、知识发现和智能问答等智能方法,为实现中医药领域的智能系统提供了理想的基础设施。语义网对万维网(World Wide Web)的架构进行了系统性的扩展,使其支持结构性数据的发表、共享和关联,从而提升万维网的有序性和智能性。语义网将是一个机器可理解、人与机器共享的智能信息空间。
近年来,人们已开始利用语义网技术,在万维网上发表开放性的数据集,逐渐形成了一个相互连通的巨型数据集,被称为“关联数据”(Linked Data)。其核心特征是通过语义链接(Semantic Link)将数据集互联起来。语义链接能明确表达不同领域的概念之间的关联关系,辅助用户对各种数据进行便捷的浏览和分析,在不同的数据集之间进行连贯的跳转。
关联数据将催生出能在互联网上进行浏览、编辑和互动的机器,它们被称为“智能代理”(IntelligentAgent)。智能代理将在人类主人的指令下,代表主人在语义网上活动,辅助主人解决各种问题。它们能够根据主人预设的命令、偏好和约束,搜寻相关的信息资源,揭示各种事物之间错综复杂的关系,发现有意义的模式和规则。近年来基础科学的进展,尤其是描述逻辑和推理等领域的突破,使得在万维网上实现智能代理成为可能。语义网和智能代理将在机器推理、智能问答、信息抽取和知识发现等智能应用中发挥核心作用。
2 中医药智能系统的应用背景
循证医学的理念是在医疗保健的决策中,以有意识、明确、严谨的方式使用现有的最佳证据,循证保健服务的成功倚重于最佳证据的可及性。近年来,在互联网上出现了UpToDate、DynaMed、EssentialEvidence Plus、MD Consult,Clinical Evidence等一系列医学信息资源,它们能为医学决策提供医学知识和证据支持,在循证医学的实施和发展中发挥了重要的作用。
Haynes RB于2006年提出了一种用于对循证医学服务进行分类的“5S”模型,它包括研究、综述、摘要、总结、系统等5个层次。其中,处于最高层次的“系统”,是指能对应用情景做出判断,按需提供知识服务,以支持临床决策的智能系统。这类系统能够将个体患者信息与相关研究的最佳证据相结合,根据患者的特征和具体情况,自动链接至相关的最佳证据,并提醒或告知医护人员治疗的关键所在。这些智能系统在后台需要知识库、推理机(即规则引擎)和知识发现等智能方法的支持。
在中医领域推广循证医学的理念,也同样需要智能系统的支持。中医学者从20世纪70年代就开始尝试将名老中医的临床经验表示为计算机程序,从而使计算机具备专家水平的诊治能力。在中医诊疗技术现代化的背景下,研发智能化辅助诊疗系统成为中医药信息化建设的热点。如何通过计算机来模拟中医的思维过程,目前仍是中医知识工程研究的一个核心问题。中医专家头脑中的隐性知识在中医临床诊疗中起到了关键性的指导作用。为模拟中医思维,首先需要将中医头脑中的知识转换为计算机能够管理和处理的数据。也就是说,需要建立数字化的中医药领域知识模型,进而实现辅助中医诊疗的智能系统。
3 中医药语义网的智能应用
语义网技术为构建中医药智能系统提供了潜在的解决方案。为构建面向中医药领域的语义网基础设施,首先需要构建中医药领域本体,继而整合中医药领域知识和数据资源。在中医药语义网的基础上,可通过机器实现知识推理以模拟中医思维的过程,挖掘中医医案中的知识,构建中医临床智能系统,从而支持中医科学研究和临床决策。
3.1 构建中医药领域本体是发展中医药语义网的前提
本体(Ontology)是构建语义网的基石。本体是针对某个领域的概念体系的精确规范,用以明确概念的定义以及概念之间的语义关系。可通过本体技术将领域知识表示成计算机可读写、可处理的知识模型。本体可通过万维网在领域团体中共享,为语义网提供标准术语,使得语义网上的数据具有规范的表达方式,便于数据资源的互联、共享与重用。因此,发展中医药语义网的前提是构建中医药领域本体。
近年来,本体技术被用于病因、病机、脏腑、证候、中药、方剂、疗法、养生等诸多领域,本体建模的对象涉及阴阳五行、辨证论治、方剂配伍等各种理论学说。其中的一个典型应用是中医证候本体。中医证候是中医辨证论治思维的基础,是中医内科学的核心内容。中医证候知识建模,是研发中医临床知识库和决策支持系统的基础。可通过构建证候本体,梳理中医证候的概念体系,对证候进行系统分类,准确表达证候的含义和特征。
证候本体的重点之一是梳理证候及其相关概念之间的语义关系,包括等价关系、从属关系、包含关系、相关关系等。(1)等价关系:在中医药领域,某些不同的术语实质上指称同一事物。这些等价关系对中医专家而言是简单的常识,但对计算机是陌生的。领域本体能完整列举概念之间的等价关系,有助于计算机实现不同知识源的整合,改进知识发现等应用的效果。(2)从属关系:证候之间的从属关系用于建立证候的分类体系。本体将证候定义为类型,将证候之间的从属关系表示为父子类关系。本体将某证候相关的症状集合定义为它的等价类,使子证候相关的症状集合能自动继承父证候的相关症状集合。(3)包含关系:中医证候之间存在着包含关系。例如,证候“肺肾阴虚证”意味着两个证候“肺阴虚证”和“肾阴虚证”同时发生。在本体中,可将证候“肺肾阴虚证”表示为“肺阴虚证”和“肾阴虚证”的并集,从而帮助计算机识别这种包含关系。(4)相关关系:中医证候与疾病、症状、中药、方剂、出处等概念之间存在错综复杂的相关关系。例如,“证候”与“中药”存在“被治疗”关系。本体中定义了“现象表达”“组成”“治疗”等一组典型的语义关系,对概念之间的相关关系进行系统性梳理与规范化表达。
采用本体建模方法,可对证候层次结构、证候特征以及证候加减等复杂情况进行清晰表达,建立以语义网络为主体框架的中医证候知识体系。实践证明,本体为中医药领域复杂知识建模提供了有效的手段。构建中医药本体,有助于对中医药理论知识进行辨认、梳理、澄清和永久保存,还能支持机器实现知识推理并模拟中医思维过程。
3.2 整合中医药领域知识和数据资源
为实现智能应用系统,需要计算机掌握尽可能丰富、全面的领域知识和数据资源。经过多年的中医药信息化建设,已积累了丰富的中医药数据资源,但这些资源也存在着独立封闭、零散分布、异质异构等问题,缺乏有效的整合,阻碍了知识的共享以及智能应用的发展。
可通过语义网的标准格式表示中医药数据,实现中医药数据资源的网上发布,以及中西医领域的数据互联。Chen H.等采用这一技术策略,建成了一个大型的数据集成系统,内容覆盖中医疾病、中药、方剂、针灸等几乎所有的中医药门类,面向中医团体提供丰富的知识内容和强大的检索功能。
又如,“开放性中药关联数据(LODD)”是一个大型的国际合作项目,它旨在利用语义网技术框架,整合医药学数据资源,加速新药研发的进程。LODD已将大量中医药知识发布在互联网上,其中记录了草药的知识(如化学成分、疗效等),以及疾病、基因、草药之间的关联关系。LODD能辅助研究人员找出能够治疗某种疾病的草药,理解草药的性质和疗效,支持中药新药研发等应用。
上述工作表明,语义网具有强大的数据集成能力,能有效解决中医药领域的“数据孤岛”问题,建立中西医之间的知识关联,为构建中医药智能系统,实现知识服务模式创新提供有力的技术支持。
3.3 从海量医案数据中发现知识
中医医案记载了中医名家的宝贵经验,蕴含着丰富的中医临床知识。中医医案是分析中医临床用药规律的重要依据,极具研究价值和临床指导作用。可从中医专业期刊等各类文献中抽取医案,或通过临床数据采集系统对医案进行实时采集,从而构建中医医案数据库。通过使用科学的数据采集方法,并建立严格的数据审校制度,能够保证中医医案数据的准确性和可信性。大规模、高质量的中医医案数据,为知识发现提供了可靠的知识来源。
中医医案是中医经验性知识的核心载体,记载了症状、疾病、证候以及临床用药等关键信息。通过大量医案的联合分析,往往能够揭示出各种临床现象之间的相关关系,以及中医专家的用药模式。但中医医案一般通过自由文本描述,临床信息的表述方式非常复杂,无法被常规的数据挖掘方法直接处理,这严重影响了医案知识发现的效果。因此,需要通过文本信息抽取方法,从医案中抽取关键性的特征信息,实现医案数据的结构化。
本体对领域术语进行了系统梳理和准确表达,提供文本挖掘所需的背景知识(如同义词、词汇语义类型等)。本体可被用于处理医案用语的复杂性,因此能在医案信息抽取发挥关键作用。可通过基于本体的文本挖掘方法,从中医文献中提取结构化、语义化的医案知识,以提升中医医案结构化加工的效率。
通过语义网技术,可以将分布于各种文献的医案知识集成在一起,构成中医临床事实的陈述集合。进而实现医案知识与相关中医药知识库的关联,将中医文献中的“知识碎片”拼接组合起来,整理和完善中医药领域知识体系。接下来,采用频繁模式、关联规则等方法,从医案知识中发现潜在的、具有启发性的知识。医案挖掘所得到的知识以及机器推理所得到的规则,可被存入中医药领域知识库中加以保存。
总之,经过医案知识提取、知识组合和知识发现等环节,可将中医文献资源转换为智能医案。智能医案以及中医药领域知识库中的知识,可被导入推理机中以辅助医疗决策,或通过知识服务平台进行检索和浏览。
3.4 构建中医临床智能系统
面向中医临床实践的智能系统,旨在支持中医临床决策,促进循证医学在中医药领域的推广和实施。中医辨证是中医临床思维的核心环节,它是根据患者的一组可识别的病理特征(如症状、体征等)来判断证候的过程。中医辨证依靠的是中医药基础知识与临床经验的结合。与之对应,需要将计算机知识模型与海量临床数据相结合,以支持智能系统的实现。
中医临床智能系统是建立在临床知识库之上的应用,它的后台是一个规则引擎。该系统以临床知识库和海量临床数据作为知识来源,通过数据挖掘方法来发现医学证据和规则,对医学证据、指南和规则进行表示和管理,支持专家对知识的浏览和审查,并将医学规则导入规则引擎中辅助医疗决策。
为构建中医临床智能系统,首先要实现海量临床数据(如文献、病例等)的语义集成,构成临床事实的集合。继而,建立临床知识库,对医学语言、医学概念系统、医学证据、医学指南和规则进行形式化表示、专家审查以及有效管理。临床知识库是与文献和病例相独立的知识服务,支持规则发现与规则推理,是决策支持系统的核心部件。接下来,基于临床数据和知识库,通过机器学习等方法实现规则的发现和验证。最后,实现推理机(即规则引擎),将医学知识和事实导入推理机中,从而辅助医疗决策。
中医临床智能系统根据用户输入以及知识库中定义的事实和规则,推理出包含证候、治法和方剂等内容的推荐性诊疗方案。该系统的交互模式为:用户输入一系列的症状和体征,并提交;系统将推出的方案呈现给用户。系统将推理过程本身以图形化、交互式的方式展示出来,使用户了解机器推理的依据和过程,获取更充分的信息,从而做出更可靠的决策。
4 小结
数千年来,中医思想和知识体系更多的体现为中医头脑中的隐性知识。在循证医学的背景下,中医界开始注意将隐性知识转换为医案、指南和规则等形式的显性知识,对医学证据进行系统整理以支持临床决策,并尝试在临床实践中使用智能辅助系统。语义网为构建中医药领域本体和知识库,实现面向中医临床的智能系统提供了基础设施,在中医药领域具有广阔的应用前景。在中医药语义网的基础上,能对中医药领域的复杂知识进行建模、浏览和处理,实现中医临床智能系统以及中医医案知识发现等应用。这些智能应用能辅助中医药领域专家完成临床决策和知识发现等任务,促进中医药知识资源的利用以及中医科学研究的发展。