知识图谱在医疗领域的构建及应用

2023-03-24 15:26刘月冯佳鑫张晓孪
电脑知识与技术 2023年4期
关键词:医学知识知识图谱深度学习

刘月 冯佳鑫 张晓孪

关键词:知识图谱;医学知识;构建;深度学习

1 概述

2006年万维网之父Tim Berners-Lee提出了数据链接的思想,旨在推广和完善RDF和OWL技术,不断掀起了语义网络(Semantic Network)的研究热潮。2012 年5月,美国的谷歌(Google)公司为了提升搜索引擎的能力,进一步改善用户良好的搜索体验提出了知识图谱(Knowledge Graph, KG)的概念,并发布了基于知识图谱的智能化语义搜索引擎产品。知识图谱是用图模型来描述知识和建模世间万物之间的关联关系的技术方法,表示形式有多种。在大数据环境下,现代知识图谱具有规模越来越大、表达直观易理解、语义表达能力强的特点,对可解释人工智能具有非常重要的作用[1]。近年来,知识图谱也成为人工智能最热门领域之一,各大互联网公司纷纷推出了自己的知识图谱产品,例如百度的“知心”和搜狗“知立方”。目前知识图谱已经在语义搜索、数据分析、智能问答、自然语言理解、视觉理解等多个方面发挥出越来越大的价值。比如在推荐系统中引入知识图谱技术,可以较好地解决在没有大量用户数据的情况下数据稀疏性与冷启动问题[2],有效地提升推荐系统的效果。

2 医学知识图谱

知识图谱从不同角度有多种分类方法,按照适用的范围分为通用知识图谱和领域知识图谱,两者在知识来源、规模和对质量的要求方面有区别。医学知识图谱是知识图谱在医疗领域的落地和实际应用,知识图谱能够有效地整合和组织医疗知识,解决医疗大数据中诸多问题,比如知识复杂且分布分散、异构、知识的重复和碎片化等。知识图谱构建可以对海量医学数据中提炼出的医学知识实现高效的管理、共享及应用,对当今医院的智能化、信息化管理和智慧医疗有着非常重要意义。

2019年12月,新型冠状病毒感染(COVID-19)席卷了全世界,给全世界多个国家的经济和金融造成了巨大影响,同时给人类生活很多方面也都带来了巨大影响。在新冠疫情不断多点暴发和防控等级不断提升的情况下,越来越多的人投入这场战“疫”中。为了对上层应用提供可靠的知识来源与大数据支持,相关领域的大数据及知识被迅速整合构建为知识图谱。国内多个大学和研究机构积极助力抗击疫情,相继发布了多个新冠病毒知识图谱;中文开放知识图谱OpenKG共享了多个涵盖临床、诊疗、物资、英雄等方面COVID-19 知识图谱。知识图谱在病患轨迹跟踪、疫情大数据筛查、药物推荐等方面发挥着积极的作用[3]。

当前,国内外也不断研究和开发出了很多优秀的医学知识图谱和知识库系统,国外在医疗领域著名的医学知识图谱有一体化医学语言系统UMLS、医学系统命名法-临床术语SNOMED CT、解剖学基础模型本体FMA、人类表型本体HPO、基因本体GO、关联生命数据集LLD等。与国外相比,国内在数据管理、数据规模、数据维护模式和知识信息整合层面相都还有一定的差距。国内目前比较完善的有中国医学科学院医学信息研究所开发研制的中医药学语言系统TCMLS、中文一体化医学语言系统CUMLS、医药卫生知识服务系统、中文医学知识图谱CMeKG和开放医疗与健康联盟的OMAHA医学知识库等。

国内也有不少的学者针对某种疾病的预测和诊疗对医疗知识图谱进行了研究和实现。总体来说,将知识图谱用于医学领域不仅能提高医学数据智能化处理水平,而且将助力上层医学的应用和落地,有望将来成为打开医疗AI市场的主钥匙。医学知识图谱具体落地的表现形式是构建专科疾病知识图谱,如心脏病知识图谱,并在此基础上才能进一步开发其智能化应用。医学知识图谱是今后实现更精准的医疗服务和智慧医疗的基础,但是目前构建知识图谱的技术在医学领域中普遍存在来源复杂、专业性较强、效率不太高、限制多、拓展性不高等问题[4]。

3 医学知识图谱的构建流程及方式

医学领域知识图谱目前是很活跃的一个研究领域,学术界和工业界针对其构建方式以及应用场景已经开展了许多研究工作。其构建方式有人工构建和机器构建两种,从实现技术角度上分析构建过程,该过程会涉及多方面的技术,而医学知识图谱的利用则涉及描述性数据分析、语义搜索、知识问答、自动推理等多个方面。要构建并利用好知识图谱并非单个领域的单一技术,要求系统性地综合利用多个相关交叉领域的技术。目前,医学知识图谱构建还面临着一些挑战和困难。在构建流程上可以分为以下几个步骤。

(1) 医学知识建模。知识图谱由节点和边组成,从逻辑结构角度一般可分为数据层和模式层(也称本体层),模式层在数据层之上构建。三元组G = (head, relation, tail)是知识图谱的一種常用表示形式,数据层中存储的是知识图谱中的三元组信息,模式层对数据层知识结构进行提炼和概念约束。医学知识建模是构建医学知识图谱的基础,其目标是建立概念模式,良好的模式定义可以减少医学数据的冗余并实现对医学知识的合理组织。知识建模一般有自顶向下和自底向上两种途径,由于医学领域的知识结构比较复杂,知识类型特殊且知识专业性很强,因此医学领域的图谱构建一般采用自顶向下方式进行,首先定义数据模式即本体(Ontology),这个过程一般需要领域专家人工编制,从最顶层的概念开始定义,然后逐步细化,最终形成结构良好的分类层次结构。本体构建之前,一般需要选择合适的本体描述语言和本体建模工具。目前比较有代表性的本体描述语言有XML、RDF、RDFS 和OWL 等。常见的本体建模工具有Protégé、OntoStudio、TopBraid Composer、Semantic Turkey等,其中Protégé是最熟悉最常用的开源工具。

(2) 医学知识抽取。医学知识抽取是构建医学知识图谱的重要环节和核心技术,是分析、识别和理解医学知识的过程。不同类型的医学数据源所涉及的抽取技术和需要解决的问题也有所不同。知识抽取根据目标任务主要分为医学实体识别、医学实体关系抽取、医学事件抽取。在医学领域相关实体和实体之间的关系也比较复杂,医学实体涉及症状、疾病、药物、解剖结构、化学成分等, 而这些实体之间又互相关联。为了有效表达这些概念和关联, 产生了很多的医学知识库。医学实体识别的研究开展最早,已有的研究方法可分为基于规则的方法、基于统计模型的方法和基于深度学习的方法。关系抽取方法可分为基于模板的方法和基于监督学习的方法。目前医学事件抽取在医学领域应用还不是很广泛,已有的事件抽取方法可分为流水线方法和联合抽取方法。医学领域知识抽取的难点在于如何提高开放领域的知识抽取的正确率以及如何实现多模态医学大数据处理和特征提取。

(3) 医学知识融合。由于多个医学知识图谱之间存在异构性和多样性,为了解决异构和冗余问题出现了医学知识融合技术,旨在对不同来源的知识进行对齐、合并工作。医学知识融合包含数据模式层融合和数据层融合两个方面,研究内容涉及医学本体映射、医学实体对齐以及实体链接等。目前已有的知识图谱融合技术可归结为基于自然语言处理(NLP)进行术语比较、基于结构进行匹配和基于实例的机器学习等方法。

(4) 医学知识存储。医学知识图谱数据管理的挑战是如何面对日益增长的知识图谱规模,实现高效的知识存储和信息查询。目前有三类知识图谱存储方案分别是基于关系数据库存储、面向RDF的三元组数据库和原生图数据库存储。关系数据库技术出现最早且发展成熟,RDF的三元组数据库优点是直观、格式统一,原生图数据库存取效率最高。当前医学知识图谱主要采用图数据库进行存储,近几年,以Neo4j为代表的图数据库因具有高性能、轻量级等优势,越来越受到关注。

(5) 医学知识推理。医学知识推理是基于知识图谱中的已有事实和关系推断出未知事实和关系的过程。基于医学知识图谱的推理能够支持人工智能医疗领域的很多应用,在医学知识图谱的发展演变过程中有重要的作用,已成为近年来的研究热点。在医学知识图谱中,医学知识推理能够协助医生完成疾病诊断和提高医生的工作效率。知识推理在知识图谱构建过程中主要应用于图谱补全和图谱质量的检验。典型的推理策略包括基于演绎的推理和基于归纳的推理策略,每种推理策略又包含了多种推理方法,未来两种不同推理方式将逐渐融合和互相补充。今后如何利用多模态、多种来源的医学数据融合技术提高知识推理的完整性、可靠性以及实现医学知识推理的可视化是下一步的研究趋势。

4 医学知识图谱的应用

随着医疗信息系统智能化水平的提高,知识图谱为医疗信息系统中的医疗大数据组织、管理及利用提供了一种更为有效的方式。目前医学知识图谱技术应用广泛,主要用于语义搜索、公共卫生事件响应、医疗决策和医疗问答等。

(1) 基于语义的医疗信息搜索:传统的基于关键词的搜索缺乏对知识的理解和处理能力,语义搜索则是不拘泥于用户所输入请求语句的字面本身,而是准确地捕捉到输入语句后面的真正搜索意图,从而更准确地返回最符合用户需求的搜索结果。将知识图谱应用于搜索是当前实现语义搜索的有效解决方案。知识图谱描述了事物的分类、属性和关系,具有丰富的语义信息,可以为语义搜索提供极大的底层支持。基于医学知识图谱的语义搜索目前被用于医学百科知识、医学健康资讯、临床指南/文献、医疗保健信息等内容的推荐。语义搜索主要包括搜索意图理解、目标查找、结果呈现和实体探索四个步骤。

(2) 公共卫生事件的快速响应:2020年新冠疫情席卷全球后,全世界各国对突发公共卫生事件的关注度日益提高,事件预警和快速响应机制成为今后研究的重点,该领域是一个新的研究方向。知识图谱在公共卫生事件的一些场景中采用图存储数据的方式可以协助实现流行病调查中的人员分布、人员活动轨迹、发病时间等信息的收集。收集出的信息能方便地用于病例之间相关性分析,进而梳理出感染源头。另外可以构建疫情相关事件知识图谱,分析疫情发生事件脉络,查找到多个事件存在的因果关。事件知识图谱可以有效预测网络舆情,帮助发现潜在的公共威胁并降低舆情风险。

(3) 医疗决策支持:知识图谱技术推动了搜索模式从传统的网页搜索转变为基于深层语义的搜索。相较于传统搜索,知识图谱在搜索中实现了三方面的优化:一是提高搜索结果准确度;二是搜索到的相关联结果呈现更详细;三是可以通过互动、点击拓展搜索的深度和广度。今后,知识图谱技术可以在医疗大数据分析、管理与决策方面发挥重要作用,可以根据病人的症状和检查等医疗数据,快速生成诊断说明和治疗方案,对医生给出的诊疗方案进行智能化分析,大大降低医生的误诊率。

(4) 醫疗问答系统:基于知识图谱的问答系统能利用其丰富的结构化语义信息,深层次理解用户提出的问题并给出较准确的答案。知识图谱问答系统的目标是通过查询知识图谱获得相关知识,自动回答人类提出的自然语言问题。早期知识库问答系统由于受到知识资源数量及自然语言理解能力的制约,被限制在一个封闭的领域内。近年来,随着知识图谱的发展和开放领域问答数据集的不断提出,基于知识图谱医疗问答系统用于开放领域问题已成为可能。知识图谱问答主要有语义解析和信息检索两种解决方法。基于知识图谱的问答系统创建过程一般为三个阶段,首先是对用户给出的自然问句进行信息抽取;其次是将抽取出的实体映射到知识图谱中;最后涉及知识推理过程,搜索知识图谱获取答案并显示结果。

5 结束语

在人工智能和大数据时代,知识图谱的发展迅速已成为大数据分析和表示的重要手段之一。近年来医疗领域产生了大量的医疗数据,如何利用海量的医疗信息资源更好地为人们服务,引起很多人的关注。随着智能医疗时代的到来,通过大数据和知识图谱将各种医学数据的聚合,构建综合智能医疗系统,不仅可给患者、临床医生和科研工作者提供帮助,成为未来医疗的发展方向,而且也为医疗事业发展提供更有力的保障和支持,因此在医学领域的知识图谱的探究有着重要的现实意义和价值。今后的一个研究方向是如何将深度学习技术和知识图谱技术相互融合,对医学文本信息抽取方式进行优化,提高医疗知识抽取的覆盖率与准确率[5]。未来医学知识图谱将会朝着数量更大、质量更高、标准化程度更好和分级应用更明显的方向发展。

猜你喜欢
医学知识知识图谱深度学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
加强班级凝聚力建设,激发学生学习的积极性
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
新环境下《解剖学》教学资源开发探讨分析
卫校化学教学中渗透医学知识的实践