卜景旭
自从Google公司于2012 年5月发布知识图谱(Knowledge Graph)技术以来,人们从谷歌精准快速的搜索技术中看到了知识图谱所蕴含的巨大科学的力量,因此在各个领域都引发了一股研究知识图谱的热潮。国内外的各大公司纷纷推出自己相应的产品,例如:微软的Sator,百度的“知心”、搜狗的“知立方”等产品。
一、将知识图谱引入中医的教学工作
作为一名在中医药教育领域的从业者,笔者认为,中医发展到现在,已经积累了大量珍贵的临床经验,形成了无数经典理论。如何借助先进信息科学与技术来对中医药理论和知识体系进行整理和分析,从而有助于教学工作是值得中医教育工作者探索的一个重要问题。随着知识图谱的出现,这个工作的可能性和是实用性越来越重要。
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。它本质上是语义网络。
针对知识图谱这一特点,引用知识图谱解决中医学在知识表达、共享和应用方面的问题也受到中医界的重视。在中医学中的本体可以易经和阴阳五行学说为指导,从认识、生理、病理、辨证论治基本部分开始构建。
整个中医的概念体系中,类关系、整体与部分的关系是概念体系的主要关系,所以中医知识图谱的结构分为了两大类关系,一类是概念层级关系、一类是实体关系。
二、知识图谱的逻辑架构
知识图谱的逻辑架构,分为两个层次:数据层和模式层。知识图谱的数据层是指:知识以事实(Fact)为单位存储在图数据库.例如谷歌的Graphd和微软的Trinity都是典型的图数据库。存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的“图谱”。
知识图谱的模式层在数据层之上,是知识图谱的核心。在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则、约束条件来规范实体、关系以及实体的类型和属性等对象之间的联系。
三、知识图谱的逻辑构建方法
知识图谱的构建主要有自顶向下和自底向上两种方法。所谓自顶向下的方法是指首先为知识图谱定义数据模式(即为其定义本体),在定义本体的过程中,首先从最顶层的概念开始,然后逐步进行细化,形成结构良好的分类学层次结构;在定义好数据模式后,再把实体一个个往概念中添加。自底向上的方法则刚好相反,首先从实体开始,对实体进行归纳组织,形成底层的概念,然后逐步往上抽象,形成上层的概念。两种方法在具体的构建过程中通常都不是从零开始的,前者可以利用一些现有的结构化的知识库,而后者则可以从开放链接数据或在线百科中得到很多实体。在实际的构建过程中,通常采用两种方式结合的方法。
本文接下来把知识图谱的构建分成两步,数据模式层的构建(本体定义)和实体层的构建。
(一)数据模式层的构建的过程
本体的构建步骤通常都是依据图中的层次结构来进行的,自底向上依次实体抽取、概念抽取和关系抽取
实体抽取,也称为命名实体识别是指从文本数据集中自动识别出命名实体。这是本体构建的基础工作,语抽取通常釆用基于语言学规则的方法和使用统计的方法,实体通常是单字或多字的组合,它们在特定的领域或上下文环境中有特定的含义。
概念抽取,作为概念,通常需要具备如下三个层面的信息,内涵、外延和词汇实现。概念抽取的常用方法包括基于语言学的方法、基于统计的方法和混合方法。基于语言学的方法通常依据特定的词法结构或模板,因此基本是与语言相关的。基于统计的方法主要依据概念与一般的词汇之间不同的统计特征,区分概念和普通术语。
关系抽取,其中包括同义关系抽取和分类关系抽取。同义关系抽取的目标是寻找那些代表同一概念、实体或属性的术语。分类关系抽取指分析概念之间的层次关系。通常采用的方法有:基于词法模式的方法,基于共现分析的方法,基于语言学的方法,以及近年来兴起的基于开放链接数据和在线百科的方法。
(二)实体层的构建过程
实体填充,对于一个实体,如果仅拥有实体名称,该实体的意义则非常有限;通常需要通过一定的方式来描述实体,使得实体可以被人和机器理解。描述实体的数据包括实体的描述,图片,同义名称,以及属性等。同义名称学习的相关研究通常被称为同义关系学习,而实体属性学习的相关研究通常被称为实体属性关系学习。
构建实体链,实体链接(entity linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。实体链接的基本思想是根据给定的实体,从知识库中选出一组候选实体对象,然后通过相似度计算将其链接到正确的实体对象。
四、应用和展望
知识图谱是一个新概念,从2012年提出到现在不过5年时间,然而通过对知识图谱构建技术体系进行深入观察和分析,可以看出它事实上是建立在多个学科领域研究成果基础之上的一门实用技术。尤其结合中医學之后,有着实际的应用场景:
中医知识检索,作为中医知识图谱的基本检索服务,关于中医单个术语、多个术语、术语间关系、术语间指定关系的路径查询等基本的知识检索服务。
辅助诊断教学,根据症状信息,基于知识图谱,结合多种中医辨证方法,进行辨证论治策略的推荐和分析,可以实现学习实践模拟。
同时我们也要看到构建知识图谱目前也面临一些挑战。如面向开放域的信息抽取方法研究还处于起步阶段,技术不太成熟。 存在多种数据源,每个数据源的数据格式多种多样,知识的融合比较困难。
尽管面临这些困难,知识图谱在中医教学方面的发展和应用的前景还是很广阔的。
参考文献:
[1]韩轶,李鹏.试论中医教学方法与内容的与时俱进[J].新疆中医药,2013,31(04):78-80.
[2]孙保木,罗明.多媒体技术在中医教学中的应用[J].解放军医院管理杂志,2013,20(06):578-580.
[3]姜德友,鲁美君.案例式教学在中医教学中的应用研究[J].中华中医药学刊,2010,28(08):1582-1583.