陈月月 李燕
甘肃中医药大学信息工程学院 甘肃 兰州 730101
知识图谱的概念于2012年5月被美国Google公司正式提出,用以提升搜索引擎的能力。知识图谱本质上是一种以三元组的形式来对数据进行表示,用以揭示万物之间关系的语义网络。它能够对领域的异构知识进行结构化处理,并能够很好地描述实体间的交互关系,解决领域中分散、复杂和孤立的数据问题,在医疗、生物、金融等领域得到广泛应用[1]。
知识图谱技术提供了一种从海量文本和图像中提取结构化知识的方法,运用可视化技术对知识资源及其载体进行描述,挖掘、分析、构建、映射和显示知识及其之间的相互关系,是近年来互联网领域中出现的一项新兴技术。知识图谱与大数据技术、深度学习技术相结合,正在成为推动人工智能发展的核心驱动力[2]。
医学是知识图谱应用最广泛的领域之一,医学知识图谱可以利用信息技术对海量医学数据中的信息进行提炼,实现对知识的快速储存和增加[3]。构建医学知识图谱,抽取医学领域的相关知识并对其进行合理的管理和应用,能够解决当前医疗数据庞杂、知识管理困难等问题。
特定的医疗服务需求通常需要构建特定的医疗知识图谱[4]。国内部分学者针对某种疾病的治疗对医疗知识图谱进行了研究。例如,牟梓君[5]利用西安中医脑病医院电子医疗记录和中医儿科常见病诊疗指南等数据作为参考,构建了小儿脑瘫中医诊疗知识图谱,对小儿脑瘫中医辨治的相关的隐性知识进行挖掘和可视化管理,为小儿脑瘫中医诊疗方案做出优化。孙敏敏等人[6]以医学资源网站数据为基础,设计构建肺部疾病知识图谱,旨在帮助医生或患者及时发现病情,为医学决策提供技术支持。杨江[7]在现有知识图谱的构建基础上,构建了以影像检查为中心的医疗知识图谱,并根据构建完成的医疗影响知识图谱进行了应用平台的搭建,为用户提供了相应的医疗影像知识查询以及疑似疾病推断等功能,促进了医疗影像知识的应用。
知识图谱的构建是利用知识表示、知识抽取、知识融合、知识推理和知识存储等自然语言处理技术对海量异构数据进行整合和抽取,从中提取精准的知识,并将知识低冗余的进行存储的过程。知识图谱的构建过程如图1所示。
图1 知识图谱构建过程
知识图谱中,知识表示是描述知识的一种方式,其运用计算机可以理解和接受的数据格式将真实世界中的海量信息转化为符合计算机处理模式的结构化数据。医学知识表示主要是以形式化和模式化的语言来对医学知识进行表示,提高计算机在医学知识获取、处理、存储以及应用上的效率。近年来,本体表示法已成为最常用的知识表示方法。
知识抽取是从异构数据中抽取出实体、关系和属性的过程。知识抽取包括命名实体识别和关系抽取两个核心任务。在医学领域,知识抽取工作包括从医学文本中识别出疾病、症状、药物等实体(如图2所示),并对这些实体间的交互关系进行提取,这对于医学数据挖掘和知识发现研究的开展有着重要的意义和应用价值[8]。
图2 医学文本中的实体
命名实体识别是知识抽取和知识挖掘的第一步,其目的是识别出文本中的实体,并将其按照统一的规范进行表示。医学实体抽取是从医学数据中抽取出特定类型的命名实体,比如疾病、药物、症状等。近年来,随着深度学习的兴起以及深度学习在命名实体识别任务中的出色表现,使得基于深度学习的实体识别方法得到广泛的应用。
实体关系抽取的目的是为了将抽取出来的实体间的语义关系表示为实体关系三元组。医学实体关系抽取可以分为医学实体层级关系抽取和非层次关系抽取两个层级,对于不同类型实体层级关系抽取而言,关系类型通常分为两种,一种是上下位关系、一种是部分和整体的关系[9]。例如,“卒中”与“缺血性卒中”是上下位关系,“偏瘫”与“卒中”是症状与疾病的关系,属于部分和整体的关系。由于医学领域知识的严谨性和规范性,这部分关系往往在医学词典、标准化指定中进行专家构建[10]。由于深度学习方法具有自动提取特征、泛化能力强等优点,随着医学领域数据集的不断扩大,针对医学领域实体关系的抽取,多采用深度学习的方法。
医学知识融合的目的是将医学信息抽取中获得的不同来源、不同结构、不同表示方式的数据进行整合,最终实现多源异构医学数据在同一框架下的标准化表示。知识融合建立在知识抽取的基础上,通过医学知识融合技术,从知识抽取中提取的事实可以减少歧义、冗余和错误。医学知识融合的关键技术有实体对齐技术、实体链接技术和关系推演技术。其中,实体对齐技术用于消除本体和数据源的异构性;实体链接是医学知识融合的基础,通过消歧等操作消除知识中的不一致;关系推演用于发现隐含知识,从而扩展和完善医学知识库。
知识推理是根据已有知识库,采用相关算法,实现对知识图谱的探索和挖掘。通过知识推理,可以发掘并推断出缺失和隐藏的医学知识,自动地把医学知识图谱中的旧知识进行更新,并为知识图谱补充新的知识。在医学知识图谱中,知识推理要有搜集数据、诊断疾病、提供治疗方法的功能。
知识存储的目的是确定合理高效的知识图谱存储方式。如图3所示,知识图谱主要有基于资源描述框架(Resource Description Framework,RDF)的存储、传统关系型数据库(Relational Database,RDB)存储和基于图数据库(Graph Database,GDB)的存储。
表1 知识存储
基于医学知识图谱更侧重于实体之间的关系(例如药物-疾病、疾病-表征、药物-药物及药物-表征)的特点,医学知识图谱的存储基本采用图数据库,其中应用最广泛的为Neo4j系统[11]。Neo4j是一个高性能的、开源的非关系型图形数据库系统,具有完整的ACID支持,是构建知识图谱的可视化工具。Neo4j将数据存储在一个超大型的网络上,不仅可以将数据中的知识存储成直观的图模式,还可以通过Neo4j的遍历工具对图模式进行知识检索与数据分析[12],非常适用于基于图结构的知识图谱的存储。
医学知识图谱以特有的技术优势顺应了医疗信息化时代的发展,高效地将知识图谱应用于医学领域将给人类的医疗卫生带来革命性的变化[13]。
随着医疗信息化的发展,以医学知识图谱为核心的医疗信息搜索引擎已经成为最重要的医学信息检索方式。知识图谱与医疗信息搜索引擎相结合,可以提高搜索引擎的检索效率,优化搜索结果,为用户的查询工作和搜索引擎的更新发展提供了有力的支持和保障[14]。目前,主流的医疗信息搜索引擎包括Web Md、Pub Med等,它们聚合了权威的医疗知识,可以为用户提供真实可靠的医疗信息知识,很好地解答了用户的医疗知识疑问。
随着互联网医疗的兴起,各种提供医疗健康信息的在线咨询平台迅速发展起来。基于知识图谱的医疗问答系统可以快速响应医患用户提出的问题,并给出准确、有效的解答。由于该方式具有快捷、方便、隐私等特点,使得各医疗平台的问答数据激增,有限的医生资源无法对这些问答数据做出及时的解答[15]。因此,基于现有的网络问诊数据,构建医学智能问答系统可以有效减轻医生的负担,合理配置医疗资源,提高患者的使用体验。医疗问答系统是知识图谱在医学领域中典型的应用场景,正在改变着医疗生态的发展,知识图谱与医疗问答系统相结合是目前的研究热点,具有重要的应用前景。
随着医疗数据的快速增长,人们越来越重视医疗决策工作的效率,应用知识图谱辅助医疗决策工作的开展,可以有效提高决策效率,逐渐成为医疗决策支持系统开发的研究热点。医疗决策支持系统可以根据患者的症状表现和检查数据模拟医生的诊断,给出合理的治疗方案,还可以对医生给出的诊疗方案进行评估和分析,辅助医生诊疗。医疗决策直接影响到患者的健康状况和疾病的治疗效果,因此,医疗决策必须保持真实性和正确性。在医疗决策系统的实际应用中,由于其仍然存在知识不完善和决策结果可靠性不高等方面的问题,因此,基于知识图谱的医疗决策系统在实际应用中更多的还是扮演辅助诊疗的角色。
知识图谱为医疗信息系统中海量、异构、动态的医疗大数据的表达、组织、管理及利用提供了一种更为有效的方式,使医疗系统能够更加接近于人类的认知思维,提高了医疗系统的智能化水平。利用知识图谱技术,可以更好地理解各种各样的知识,从而为用户提供智能化、结构化的数据源和服务。构建医学知识图谱,可以解决医学领域知识数据复杂、知识管理困难的问题,未来将具有广阔的应用和发展前景。