知识图谱及其在中医药领域应用研究进展*

2020-03-13 03:09孙华君李海燕甄思圆
世界科学技术-中医药现代化 2020年6期
关键词:本体图谱语义

孙华君,李海燕,聂 莹,甄思圆

(中国中医科学院中医药信息研究所 北京 100700)

1 引言

近年来,互联网高速发展,我们迎来了大数据的时代。因为大数据存在体量大、增长速度快、种类多、价值密度低等特点,基于以上特征,如何有效地利用数据,是人们目前面临的严峻挑战,以及亟需解决的问题。自从知识图谱在谷歌首次发布以来,世界研究的热点逐渐聚焦到领域知识图谱的构建。知识图谱也随着智能信息服务应用的不断发展,逐渐被应用于中医药领域的智能搜索、深度问答、知识推荐、辅助决策等方面[1-2]。随着我国经济和科技的快速发展,中医药的发展也迎来了新的春天,发展过程中遇到的很多难题,都需要依靠科技的支持才能得到有效解决。同时中医药领域的知识存在量大且繁杂的特点,也决定了其在知识表示与存储等方面的局限性,因此知识图谱与中医药的结合已成为必然的趋势。

2 知识图谱的概述

2.1 知识图谱的概念

知识图谱在中医药领域的应用主要以中医图书情报领域的科学知识图谱和知识工程领域的以本体为构建工具和方法的中医药领域知识图谱两种形式存在,本文主要对后者进行综述。关于知识图谱的定义,刘峤等[3]指出知识图谱本质上是表示实体之间的概念网络,把实体和其属性之间进行关系划分并关联,从而形成大规模的关系型知识库。知识图谱是指由相互关联的广义实体及其属性构成,包括“实体、关系、实体”、“实体、属性、属性值”两个类别的关系类型[4]。从图的层面讲,知识图谱可以显示知识之间的关系和知识发展进程,通过可视化技术可以对数据源知识进行简单描述,然后通过数据挖掘、分析、构建、展示等环节实现知识的可视化[5-6]。李新龙等[7]认为知识图谱主要通过数学算法构建知识结构和关系,利用可视化技术达到可视化的目的,是一种有效的知识管理工具。于彤等[8]提出知识图谱是一种以语义网络为核心,基于图的知识表示与组织方法,通过关键技术对各种结构化知识、半结构化知识、非结构化的领域知识进行有效组织,最终实现知识的检索、推荐、问答等可视化的智能应用。知识图谱分为采用自底向上构建的通用知识图谱和自顶向下构建的领域知识图谱两类,二者各有特点,通用知识图谱包含多而广的常识性知识,而领域知识图谱包含更多精而准的知识,对行业发展具有重大的意义[9]。

2.2 知识图谱的价值

知识图谱作为大数据时代知识工程发展的代表性产物,富含实体、概念及其之间的各种语义关系,并通过一系列相关技术支持实现知识的深度利用,大大提高了知识的利用率和工作者的效率。知识图谱的价值可以从研究价值和应用价值两方面进行论述,知识图谱的研究价值在于,它是在当前Web 基础之上,构建一层覆盖网络,通过知识图谱的构建,可以将各种数据源知识进行有效组织,从而建立概念实体之间的相关关系,最终形成有用的知识以供利用[3]。知识图谱的应用价值在于通过知识推理的方式实现对概念的检索,改变了之前的知识检索方式;它以图形化的形式将被分类整理的结构化知识加以可视化[3,10]。

知识图谱具备以下特点:知识图谱可以赋予字串新的定义;可以综合各个学科领域的知识,从而保证搜索结果的连贯性;通过总结信息及相互间的关系为用户提供更精准的信息;知识图谱呈现给用户的知识具有相对完整性[10-11]。

2.3 知识图谱与本体的关系

知识图谱与本体的概念内涵和构建目的有所区别,知识图谱强调实体关系和实体属性值,而本体更强调概念关系;知识图谱的构建目的在于用图谱的形式形象而准确地描述各种实体、概念及其关系;本体的构建目的主要体现在通过术语集和统一的术语概念提供检索功能和模拟人脑构建领域内的知识体系,运用本体技术构建语义网络的最终目的是实现知识共享[12]。

知识图谱与本体之间的联系紧密,本体的构建可以为知识图谱奠定良好的基础内容,而知识图谱的构建则可以更好地体现本体关系。根据Gruber2001 年提出的定义,本体作为语义网的基础,在描述基本概念的同时更重视描述概念之间的关系,随着语义网技术的不断推广与应用,在各个领域都出现了共享的本体,尤其是在生物医学领域,本体具有广阔的应用前景[13],例如中医药本体服务系统能够支持基于本体的知识展示、决策支持、知识发现等中医药领域的应用,这些知识应用的实现都离不开前期知识体系的构建作为支撑。知识图谱在智能搜索方面,基于搜索引擎,储存了大量的实体以及实体之间的关系,可以根据用户查询返回答案;在自动问答、知识推荐、决策支持方面,知识图谱在各个领域已经有了相关的应用[14]。通过知识图谱的构建,可以充分体现领域本体中的各种关系。

3 知识图谱构建的关键技术

3.1 知识抽取技术

知识图谱的数据源通常来自文本、图像、视频等,知识获取的方法根据知识图谱数据源的不同而有所差异,其目的是运用信息抽取的方式从文本等数据中抽取相对有意义的知识以供利用[15]。对知识图谱数据源中的非结构化文本数据的信息抽取能够为知识图谱提供大量较高质量的三元组事实,但是其涉及的自然语言分析和处理技术难度较大,因此知识抽取是构建知识图谱的核心技术[13]。

医学数据作为大数据的一部分,其知识抽取同样分为实体抽取、关系抽取和属性抽取这三种类型。实体的抽取作为知识抽取最基本的内容,其抽取的准确率直接影响着最终形成的知识库的质量,因此医学实体的抽取在医学知识图谱的构建中起着关键性作用;医学实体关系抽取的目的是为了解决实体间语义链接的问题,其方法也逐渐发展到建立医学实体与实体之间的关系模型;根据实体与其属性的名称性关系可以认为医学实体属性抽取和实体关系抽取同理[16]。

3.2 知识表示技术

知识表示是基于知识的人工智能应用中的核心部分,Randall Davis 教授等[17]于1993 在AI Magazine 上发表了影响力极大的文章“What is a Knowledge Representation?”该文指出,知识表示作为一种高效计算的媒介,也是智能推理的一部分,其目的是不通过行动而是通过对实体的思考实现对世界的推理,从而产生与之相应的结果作为一种本体约定的集合。知识应用的难点在于知识体系的构建,知识体系构建的目的在于知识表示。目前,知识表示体系主要包括XML:可扩展标记语言(Extensible Markup Language)、RDF:资 源 描 述 框 架(Resource Description Framework)、OWL: 网 络 本 体 语 言(Web Ontology Language)三个层次。

XML 作为最早的语义网表示语言,以文档为单位进行表示,它的扩展版本XML Schema 定义了XML 文档的结构,指出了XML 文档元素的描述形式;RDF 一般作为语义网标准中的第一层,当前知识图谱中的数据也采用RDF 数据模型进行描述,不同于RDF 的是RDFs 是一种描述RDF 的轻量级语言,主要关注类别和属性的层次结构以及继承关系等,但是RDF 局限于二元谓词,RDFs 局限于子类和属性层次及其属性的定义域、值域;而OWL 解决了RDF 和RDFs 语言的局限性,在RDF 和RDFs 的基础上自定义了包括头部和主体两部分的语法,本体是通过对象类型、属性类型以及关系类型对领域知识进行形式化描述的模型,这种模型需要与之相适应的建模语言[13]。XML、RDF、OWL 等语言可以为描述概念之间的关联关系提供丰富的建模元素[18],为后期知识体系的构建奠定基础。

表1 知识图谱在中医药领域的应用实例

3.3 知识推理技术

知识推理主要可以分为对实体属性的推理和对实体关系的推理,因此所对应的推理规则也包括针对实体属性的规则和针对实体关系的规则两种[19]。知识推理不仅仅能够应用于已有知识图谱的补全,同时也可以直接应用于自动问答系统等相关智能应用。

知识推理的主要方法目前大致分为三种:基于传统方法的推理、单步推理、多步推理。混合多步推理比混合单步推理,可以实现更好的推理结果[15]。徐增林等[2]将知识推理方法主要分为基于逻辑的推理与基于图的推理两种类型,部分研究者把跨知识库的推理方法作为研究重点。知识推理技术作为知识图谱的关键技术之一,在知识的深度挖掘和智能应用中起到了重要的作用,因此领域知识的推理过程中能获取更多潜在的关系和内涵。

4 知识图谱技术在中医药领域的应用

知识图谱技术在中医药方面的应用主要体现在科学知识图谱和领域知识图谱,科学知识图谱主要运用citespace、cytoscape 等工具实现对中医情报领域的数据进行聚类分析和共引分析等相关应用,而本文主要讨论基于本体的技术和方法建立中医药领域知识图谱,通过对中医基础、中医临床、中医养生保健等中医药知识图谱的构建,从而实现智能搜索、自动问答、知识推荐、决策支持等智能医疗方面的应用。知识图谱在中医药领域的应用实例归纳如表1所示。

4.1 中医基础

在中医基础研究方面,周孜恒等[20]基于本体的方法和构建工具protégé,以李东垣的《脾胃论》为例,在已有的“中医方证研究与决策开发服务平台”术语标准库中提取用法、功用、中药、病证和加减化裁等术语,并参照中医药一体化语言系统(TCMLS)中的语义关系,分析术语之间的内涵,选取《脾胃论》中的补中益气汤为例,构建了完整的语义网络,实现了中医方剂本体构建方法的初步探索。

崔家鹏等[21]以脾脏象理论的相关古籍、中医权威辞书、高校教材等为本体构建素材;确立脾脏象理论核心术语等领域概念,并通过人工知识抽取的方法构建脾脏象理论语义关系;构建了“生理”、“病理”、“诊疗”的脾脏象理论生理知识体系,然后利用本体构建工具protégé 构建脾脏象理论知识图谱,为脾脏象理论的继承和发展做出了贡献。

田甜[22]基于本体技术通过对“肺与大肠相表里”的中医藏象理论进行知识建模,将中医认识方法、中医生理、中医病理、辨证论治之间的语义关系分为等级关系和相关关系,前期的中医药知识建模为后期的中医药知识挖掘与利用提供了良好的支撑。最终构建了以五脏为中心的中医药知识体系,并通过知识推理技术挖掘分析“肺与大肠相表里”的相关古籍医案,得出肺与大肠在生理和病理上都相互关联,相互影响,因此临床治疗中应用肺与大肠同治的治疗方法。

王斯琪[23]以中医诊断学为蓝本,以本体论为指导理论和方法,采用本体构建的七步法等,将舌象之间、脉象之间的类和属性值进行有效关联,构建了舌象、脉象的本体库,后期还对中医舌象、脉象进行了本体验证和相关应用,设计出中医舌象脉象规范化辅助软件。确保舌象、脉象的完整性和规范化的同时还可以促进中医药的标准化。

4.2 中医临床

在中医临床研究方面,可以利用知识图谱的自动问答功能,将实体及其关系进行推理得到答案。阮彤等[24]在研究国内外通用和医疗行业专用知识图谱的基础上剖析中医药知识图谱,并建立中医药知识图谱的6 步构建流程,最终实现了中医药知识服务体系的建立。通过该流程构建了包括疾病库、证库、症状库、中草药库和方剂库的中医药知识图谱[16]。最后将中医药知识图谱数据与推理技术结合起来,从而实现中医药知识的智能应用--中医药知识问答和辅助开药。

朱玲等[25]通过抽取中医文献中与“哮喘”相关的知识,并基于本体的技术和方法构建中医哮喘领域知识体系,实现了哮喘这一疾病的领域知识建模,构建了中医哮喘领域本体并实现知识的共享以及简单的推理,基本实现了对中医哮喘领域知识的语义化表达。

方芳等[26]基于本体的方法和技术,以中医糖尿病医案为例进行分析和描述,基于改进简化的六步法,去除了插件相关的内容,加上了对本体的检验和存储。通过搜集医案书籍和相关资料获取糖尿病相关领域的知识,定义糖尿病医案的类、属性及其关系,从而建立糖尿病医案本体,最后实现了糖尿病医案的语义化检索并建立糖尿病医案智能检索平台。

知识图谱不仅能够通过知识抽取、知识推理等过程精确地描述领域内的知识,还可以描述知识的演化过程和规律,从而为研究和决策提供准确、可推理的知识数据。聂莉莉等[27]运用自底向上的知识图谱智能构建方法,直接从抽取到的数据中提取实体间的关系并更新到知识图谱中,将疾病知识库和症候知识库融合形成了以支气管扩张症为例的“疾病-症候-特征”3 层结构模型的医学诊断知识图谱,然后通过自然语言处理方法自动构建医学诊断知识图谱。

李新霞等[28]基于本体的理论和方法,构建了“疾病”、“证候”、“症状”、“治法”、“病例”等本体。将医学领域本体作为知识库的表示方式,实现了有效的脾胃病辅助诊断方案。推理方面,在系统通用规则的基础上,还自定义了疾病的推理规则、证候的推理规则、治法方药规则等其他规则,更大程度上地提高了中医辅助诊断系统的共享能力、推理能力和扩展能力。

在中医师辨证论治个体化诊疗方面,何丽云等[29]运用知识建模技术将辨证论治知识体系中显性知识与隐性知识综合分析,在中医师个体辨证论治及理、法、方、药的知识体系基础上,实现“病-证-治-效”等层面的个体诊疗规律,有利于提高中医师辨证论治的水平,为名老中医经验传承与创新的可视化研究奠定了良好的基础。

4.3 中医养生保健

在中医养生方面,可以利用知识图谱的知识推荐功能,通过对实体的关系分析向用户推荐相关信息。于彤等[30]搜集整理了大量有关中医养生相关的知识资源,运用知识图谱这一知识管理技术实现了三大主要的应用:通过展示概念间的关联关系,实现复杂知识体系的可视化;使知识检索更加实体化、语义化和智能化;建立用户个人健康信息模型与中医药知识体系之间的关联,建立起科学的中医养生知识推荐机制。

在中医保健方面,郝伟学[31]介绍了构建知识图谱的5 个环节和具体操作步骤,定义了“西医疾病”、“证候”、“中药”、“症状”4 类实体概念;实现了包括实体、属性关系、语义关系3类数据获取;将获取的实体和关系有机地融合在一起;将融合后的数据生成本体;利用基于规则的知识推理方法,利用Jena 读取规则,最终完成知识推理,实现中医健康知识图谱的构建。

在疾病防治和保健方面,曹馨宇等[32]参照统一医学语言系统、医学系统命名法-临床术语、中医临床术语集中的规范化术语及术语间的语义关系,采集与中医养生有关的多种信息来源,梳理面向中医养生的与冠心病相关的语义关系,构建面向中医养生的冠心病知识本体,对提高冠心病的诊疗水平和为老年人对冠心病的防治与保健都具有非常重要的意义。

4.4 其他

在中药药效关系的知识表示方面,朱彦等[33]以中药药效为研究目标总结出中药药效间相互作用的方式有协同,有抑制,有互不影响。根据中医基础理论和临床医师用药配伍规律,分析概括出中药功效概念间的促进、抑制、上下位、相似等4种语义关系;然后通过计算功效间语义距离的方法,完成功效语义网络的构建。

朱玲[34]等采用美国斯坦福大学提出的七步法构建传统针灸知识本体,参考古籍语言系统中的语义关系,建立针灸概念术语中复杂、多元的关联关系,从而将针灸传统知识结构化,层次化。在此基础上对传统针灸知识本体的应用进行了探索,开发出了相关的语义检索软件。

5 结语

在中医药领域中,随着医学信息化水平的显著提高,积累了大量中医药数据,中医药数据的有效利用对精准医疗、疾病防治和中医保健等工作具有非常重要的指导意义。构建中医药领域知识图谱主要通过从大量中医药学古、现代文本和图像中抽取结构化知识,通过这种方法可以充分利用中医药丰富的古籍资源。目前,知识图谱在中医基础、中医临床、中医养生保健等多个领域已经获得了一些成果,但是,基于本体的中医药知识表示方面研究地比较多,而且较为深入。虽然有少量研究开展了知识问答、辅助决策等方面的探索,但从总体上来说,在中医药领域的应用还不够广泛和深入,例如中医骨伤、中医针灸推拿、中医儿科、中医急症等方面的知识应用有待进一步开发。

猜你喜欢
本体图谱语义
真实场景水下语义分割方法及数据集
基于图对比注意力网络的知识图谱补全
眼睛是“本体”
绘一张成长图谱
一种基于社会选择的本体聚类与合并机制
图表
主动对接你思维的知识图谱
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析
汉语依凭介词的语义范畴