医学知识图谱构建研究进展

2018-03-21 01:33,,,,
中华医学图书情报杂志 2018年10期
关键词:医学知识图谱语义

,,,,

随着我国医疗信息化的发展,医学科学文献、网络文档、电子病历等非结构化数据正以指数级的速度增长,其中包含海量未被挖掘的医学知识。借助人工智能技术,在充分吸收专家经验基础上,构建医学知识图谱,分析、挖掘医学实体之间的潜在关联,加强数据反哺机制,对发展循证医学、支持临床决策、提高医护人员的工作效率和患者的就诊体验有着重要意义。

知识图谱(Knowledge Graph)自2012年被提出以来发展迅速,得到了来自学术界和工业界的广泛关注,医学领域是知识图谱应用最广的垂直领域之一。知识图谱是由节点(实体)和标注的边(实体间的关系)组成的一种基于图数据结构的新知识表示方式,旨在描述真实世界中存在的各种实体或概念,及其之间的关系或关联[1]。从技术角度来看,知识图谱是一套工程技术,包括知识抽取、知识表示、知识存储、知识推理等一系列技术。随着知识建模、动态本体、自然语言处理、深度学习、图数据库、知识推理等技术的发展,医学知识图谱的构建渐趋成熟。然而,由于医学数据专业性强、结构复杂等特点,现有医学知识图谱构建存在数据和知识源稀缺、效率低、拓展性差等问题。

本文解析了医学知识图谱构建的关键技术,介绍了利用机器学习和深度学习的方法识别医学命名实体和抽取实体链接和语义关系,以及医学知识图谱在当今医疗服务中的应用,总结了中文医学知识图谱构建所面临的问题和挑战,提出了相应的对策和建议。

1 医学知识图谱构建

医学知识图谱是一个以实体为节点的巨大知识网络,包括实体、实体属性及实体之间的关系。实体是知识图谱的核心单元。根据研究目的和技术路线的不同,医学知识图谱的构建流程也不尽相同。本文根据医学知识图谱的组成部分将其归纳为命名实体识别、实体链接、语义关系抽取、知识图谱绘制和评估5部分(图1)。

以下重点介绍基于非结构化医学文本,利用命名实体识别、实体链接技术和语义关系抽取技术构建医学知识图谱。

图1 医学知识图谱构建流程

1.1 命名实体识别

医学领域命名实体识别[2]是指从临床文本中识别感兴趣的医学实体(如疾病、症状、药物等),以支持临床研究。目前常用的医学命名实体识别模型有条件随机场模型、BiLSTM-CRF模型和迁移学习。

1.1.1 条件随机场模型

20世纪90年代以来,统计模型一直是实体识别的重要方法,常用的统计模型有最大熵模型、隐马尔可夫模型、条件随机场模型等,其中最具代表性的是条件随机场模型。

条件随机场模型(Conditional Random Fields,CRF)将命名实体识别转化为序列标注问题,具有很强的特征融合能力,可识别医学文本中的实体。在CRF模型中,常见的特征工程有字特征、词(性)特征、词典特征[3]、词聚类特征、位置特征、N-gram特征、语法特征、语言符号特征、规则特征、上下文窗口大小等。但传统的CRF模型主要依赖两个实体之间的外部标签传递信息,当有多个外部标签传递时,易发生梯度消失的问题。针对这一问题,Lee等[4]利用precursor-induced CRF模型,将记忆元素增加到外部子序列实体的隐藏变量中,利用记忆元素引导信息传递,以降低使用长距离标签依赖性的计算成本。此外,分词和命名实体识别分步进行容易造成下层错误向上累加传递,且不能充分利用融合信息。郁小玲等[5]针对这一问题提出了一种基于两位一体的字标注方法,将命名实体识别过程看作是序列的字标注过程,利用CRF模型进行电子病历的实体识别时发现,基于两位一体的标注方法的性能比单字标注方法的性能提高了约2%。

医学术语专业性强,医学文本书写具有一定的规律,特征工程对医学实体识别结果影响很大,但人工构建特征工程费事耗力,成本较高。

1.1.2 BiLSTM-CRF模型

为了减少人工构建各种复杂的特征工程,学者提出使用神经网络模型识别医学命名实体。在各种神经结构中,使用最广泛的是基于双向长短期记忆网络的条件随机场(Bidirectional Long Short-Term Memory Network Conditional Random Field,BiLSTM-CRF)模型[6]。

BiLSTM-CRF模型共包含3层,自下而上依次为输入层、隐含层和输出层,其作用分别为将数据嵌入到模型中,利用长短期记忆神经网络(Long Short Term Memory,LSTM)解决长距离依赖问题,解码输出结果。李丽双[7]为了近一步减少人工特征工程,提出一种基于CNN-BiLSTM-CRF的神经网络模型,即利用卷积神经网络(CNN)训练出具有形态特征的字符向量和具有语义特征信息的词向量,将二者结合起来输入到BiLSTM-CRF模型中。为引入句子层面的潜在语义信息和句法的一般特征,Lishuang等[8]将语言模型和句子层面的阅读控制门(SC)整合到BiLSTM-CRF模型中,利用SC集成句子的隐含信息和语言模型提取更丰富的潜在特征。但无论是基于传统的机器学习方法还是深度学习方法,均只是停留在句子层面,没有很好地利用篇章信息,造成了实体标签全文非一致性的问题。针对这一问题,杨培等[9]将注意(Attention)机制引入BiLSTM-CRF模型中,利用Attention机制获取当前词在全文范围内的上下文表示。实验结果表明,相比之前的方法,该模型提高了同一篇文章中实体识别的一致性,并在BioCreative IVCHEMDNER数据集上取得了更好的结果,F值达90.77%。

实体识别训练语料的质量和数量对基于监督学习的实体识别结果影响很大,而医学领域金标准语料较少,且构建医学标准语料成本较高。为减少对标注语料的需求,不少学者试图利用迁移学习的方法识别医学命名实体[10],以期利用少量目标领域标注语料获得较好的医学命名实体识别性能。

1.2 实体链接技术

医学领域存在着大量的简写、缩写、不规范或模糊的表达及一词多义或多词同义的情况,严重影响了医学实体的整合及医学知识图谱的构建与补全。实体链接主要解决实体歧义性和多样性的问题,即将文本中的实体指向其所代表的真实世界实体。实体链接的核心是计算实体提及(mention)和知识库中实体的相似度,并基于上述相似度选择特定实体提及的目标实体,将抽取的实体与知识库中对应的实体进行链接。具体的研究内容包括识别文档中的目标提及,针对每一个提及,识别该提及在知识图谱中可能指向的候选目标实体,然后基于提及的上下文等信息对目标实体进行排序,最后进行空实体检测与聚类。目前常用的实体链接技术包括基于统计模型和深度学习的方法。

基于统计模型方法的核心是挖掘可用于识别提及目标实体相互关联的证据信息,并将这些信息处理成可供计算机处理的形式,综合不同证据构建高性能的方法进行链接决策。常见的统计模型包括SVM、朴素贝叶斯、马尔可夫逻辑网络和图模型等。统计模型主要使用的证据信息包括实体统计信息、名称统计信息、上下文词语分布、实体关联度、文章主题等信息,但手工构建特征较为繁琐且往往忽略了实体的内部含义,适应性较差。规范、健全的医学知识库较少,为减少对外部资源的依赖,AndresDuque 等[11]提出了一种基于图形的无监督技术,即使用PubMed数据库中的摘要构建图形知识库,模糊实体的上下文,然后使用个性化PageRank算法执行实体消歧。实验表明,在应用于nlm数据集时,该方法优于最先进的基于知识和无监督方法,准确率可提升10%。

相比传统的统计模型方法,深度学习方法是指数据训练过程为一个“端到端”的过程,无需人工定义相关的特征,减少了人工构建特征的成本[12]。而且,可学习任务特定的表示,建立不同模态、不同类型、不同语言之间信息的关联,通过将不同类型的信息映射到相同的特征空间,并通过提供高效的“端到端”训练算法,取得更好的实体链接性能。目前相关工作包括多源异构特征的向量表示学习以及不同特征之间的相似度学习,如Angen等[13]将字符级别的匹配、单词的上下文和实体的语义匹配引入双向长短期记忆网络(BiLSTM)。Hui Chen[14]将实体链接视为排名问题,利用双线模型模拟不同空间中的词与实体之间的相互作用,该模型有效提高了实体链接算法的性能,在基准数据集CoNLL和TAC KBP 2010上获得了最佳性能。但是,如何在深度学习方法中融入知识指导(如语言学结构约束、知识结构)解决任务依赖问题和如何利用深度学习的方法解决实体标注资源缺乏等问题,成为学者研究的热点和难点。

1.3 语义关系抽取

语义关系抽取是知识图谱构建的关键环节之一,利用语义关系抽取技术,可根据结构化的抽取结果自动生成知识图谱。医学领域常用的3种语义关系抽取的方法为基于机器学习、深度学习和混合的方法。

1.3.1 基于机器学习的语义关系抽取

基于机器学习的方法将语义关系抽取视为分类问题,常用的方法包括基于特征(Feature-based)和基于核 (Kernel based)2种。

基于特征的方法是从文本中生成句法和语义等特征,以向量的形式呈递给分类器,利用分类器判断句子中实体对之间的关系。常用的分类模型包括最大熵模型 (MaxEnt)和支持向量机 (SVM)[15],常用的特征工程为词性特征(POS)、句法关系对(Sync Pair)、依存路径、实体类型[16]及句法特征和文档级特征[17]等。基于核的方法是将实体关系对编码为某种结构,如序列、树、图、依存关系路径等,核是计算对象之间相似度的函数。为提高从多句表达中提取关系的性能,Panyam等[18]修改了ASM 内核模型,使其在化学物质致病关系(Chemical-induced diseases,CID)抽取中的性能比其他机器学习的方法提升了4%。

基于特征进行语义关系抽取的效果较好、速度很快,但该方法的重点不在于机器学习方法本身而在于如何选择合适的特征描述训练数据的局部和全局特征,特征选取的好坏直接决定语义关系抽取结果的优劣。此外,构建特征工程和选择最佳的特征工程组合需耗费大量的时间和精力,并且很难找到新的有效特征进一步提高医学语义关系抽取的性能。不同于基于特征的方法,基于核的方法为多项式计算提供了较大的特征空间,不需要构造固有的特征向量空间,不用枚举所有的特征也可计算向量的点集,可灵活地利用多种不同的特征,弥补了基于特征方法的不足。但利用基于核的方法抽取医学语义关系的速度较慢,不适合于大数据集的语义关系抽取。

1.3.2 基于深度学习的语义关系抽取

近年来,利用深度学习的方法抽取语义关系,在医学语义关系抽取任务上占据了主导地位。常见的深度学习模型有卷积神经网络(CNN)和递归神经网络(RNN),两种神经网络之间存在着显著差异。CNN 模型可以捕获基于卷积运算的局部特征,更适合于短句子序列的语义抽取;RNN模型善于学习长期依赖特性,更适合处理长句子,如Lee等[19]基于卷积神经网络提取概念之间的同义词和下位词之间的关系。

利用深度学习的方法抽取医学语义关系,可大大减少人工特征工程的构建。为进一步提高模型的性能,还可在模型中引入位置特征、依赖关系[20]、先验知识和注意力机制等附加特征。例如,Lim S等[21]开发了一种包括位置特征和子树包容特征等几个附加功能的树状长短期记忆网络 (TreeLSTM) 模型,用于提取化合物与基因之间的关系。Jianfeng等[22]将词级别的注意力机制引入PCCN模型,以增加关键字的注意力权重。Huiwei等[23]提出一种基于依赖关系和先验知识的化学-疾病关系(Chemical-Disease Relations,CDR)抽取模型,即首先提取句子中化学和疾病对之间的最短依赖路径 (SDP),包括词语、依赖项的方向和依赖关系;在SDP上执行卷积运算,产生深层语义依赖特征;利用注意机制和知识库对每个语义依赖向量构建权重;结合依赖信息和先验知识,利用含有加权语义依赖表示和知识表示的softmax层进行分类。

1.3.3 基于混合方法的语义关系抽取

不同的模型在进行语义关系抽取时各有优势。为更好地发挥各模型的优势,提高医学语义关系抽取的性能,近年来学者将研究焦点转移到基于两种或多种模型的混合方法,即结合2种或以上不同模型的优势构建医学语义关系抽取系统。李智恒等[24]将基于特征、基于图核和基于规则的方法结合起来,利用半监督的机器学习方法进行句子级别和文档级别的CID关系抽取,利用规则将句子级别和文档级别的抽取结果进行整合,生成最终结果;赵哲焕等[25]将基于深度学习和规则的方法结合在一起,利用句法卷积神经网络模型抽取存在某种关系的蛋白质实体对,而后基于句法模板和词典匹配的方法抽取当前两个蛋白质实体间的关系类型;Zhang Y等[26]人将 RNNs 和 CNNs模型结合,用于学习句子序列和依赖序列中的特征;Peng Y等人[27]将SVM、CNN和BiLSTM共3种模型结合在一起,构建了一个化学-蛋白质语义关系抽取系统。

将各模型混合在一起用于医学语义关系抽取,可很好地利用各模型的优势,提高医学语义关系抽取的性能,基于大规模的人工标注语料可进一步提高模型的性能。但人工标注耗时费力、成本高,很难大规模推广;基于无监督的关系抽取得到的知识缺乏语义信息,很难归一化;弱监督虽然可以自动生成大规模的训练预料,但需要使用已有的知识图谱作为种子,且生成的语料也存在噪音数据的问题。可见,目前构建高性能、低语料依赖的医学语义抽取模型仍是一难题。

2 医学知识图谱应用

医学知识图谱主要应用在以下几方面。

2.1 医院智能导诊

当前患者“知症不知病”“知病不知科”,医院分诊护士较少、工作量大的矛盾突出。基于大量权威的医学先验知识和实时更新的患者健康及医疗数据,以NLP技术(自然语言处理)为核心,结合医学图像图像文字识别(Optical Character Recognition,OCR)能力和深度学习算法,构建权威、完整、动态的医学知识图谱,可将医院导诊服务从传统的“依图找科室”转变为“精准找医生”。基于底层构建的知识图谱,在患者挂号就诊前,通过人机对话,帮助患者找到最适合的医生,辅助医生筛选出与其专业方向相匹配的患者,可有效改善患者就医体验,提高后续医疗服务的精准度和效率与患者就诊满意度。

2.2 疾病筛查和预测

疾病筛查和预测,是医学知识图谱典型应用场景之一。利用人工智能技术构建医学知识图谱,借以疾病诊断、预测模型,既可大量节省医生查阅资料的时间,使其将主要精力和时间放在问诊上,提高工作效率、缓解医患关系,同时又能在疾病发生之前,提前进行预警和干预,减少治疗成本,这对减轻我国医疗经济负担具有重要意义。目前,许多企业已利用人工智能技术构建了医学知识图谱,参与疾病筛查和预测。如“平安医疗科技”依托医疗大数据、知识图谱平台及疾病预测、影像分析与诊断、治疗推荐和医学自然语言理解四大引擎建立了智能眼部筛查、智能影像质控、诊断、疾病风险预测及智能医疗助手五大智慧医疗解决方案,构建了传染病、慢性病智能预测和筛查模型,并为深圳、重庆等城市建立了疾病防控、预测体系。

2.3 辅助临床诊断

我国正大力推广分级诊疗政策,但目前医生资源和患者数量供需严重不平衡,距离每2千人1名家庭医生的目标缺口还有50多万,这很难在短时间内填平;而且现在的家庭医生普遍缺乏良好的培养体制,医疗水平有限,误诊率高达40%以上[28],这为医学知识图谱留出了很大的发挥空间。通过对诊断学、药理学、心理学、传染病学、遗传病学、社会学等多学科的电子病历、教科书、真人对话语料等数据进行萃取、提炼、处理和加工,构建多学科交叉医学知识图谱和利用知识图谱的语义推理功能辅助医生对儿童和成人的常见疾病进行诊断,有助于优化当前疾病诊断和治疗模式,弥补部分医生医学知识的不足,提高标准化诊疗水平和医生工作效率及质量。

2.4 医疗保险风险预测

当前医疗保险种类众多、价格较贵,人们难以找到适合自己的医疗保险类型。为让更多人买到更高保额、更低保费、更多保障范围的保险产品,提高产品的利润率,保险公司纷纷进行“AI+保险”的技术升级;通过将临床医学知识图谱与人工智能相结合,精准地分析投保人当前风险,预判未来风险趋势,帮助保险公司有效降低风险保费,提升保险公司的产品竞争力和客户体验。平安医保科技通过构建“药品”“疾病”“处方”“健康因子”“医生画像”五大知识库,构建了精准、全面的知识图谱和数据湖,为用户提供专业化、个性化、动态化和集成化的智能医保服务。

2.5 医学知识科普

由于医学知识专业性强,医患之间医疗信息不对称的问题突出,部分患者难以理解医生,而医生也没有足够时间为患者讲解,造成医患关系恶化。在患者就诊前,对其进行相关的医学知识科普宣传,可有效地降低医患之间的沟通成本,提高医生工作效率,缓和医患关系。利用医学知识图谱,可从患者视角出发,将教科书式的医学知识和治疗方案解读成患者易懂、实用的内容,为患者提供疾病预防、治疗的全流程参考意见,缓解治疗过程中医患信息不对称的问题。此外,医学知识图谱还可将疾病治疗费用、常用药品等关键信息嵌入其中,增加患者治疗决策的参与度,提高就诊体验。

3 结语

知识图谱具有强大的语义处理和开放获取能力,是语义网和知识库的升华[29]。人工智能技术的发展和应用,提高了医学知识图谱的构建效率和知识推理的准确率,减少了构建成本,为医疗行业的发展带来了新的机遇,同时也带来了一系列挑战。

在数据层面上,医疗数据利用率不高。随着我国医疗信息化的发展,各机构虽然已积累了丰富的电子病历和医学科学文献数据,但各机构之间数据壁垒高,数据无法实现互联互通,大量数据停滞在一些浅层的应用层面,难以向更深更广处推进,公开获取的中文医学训练语料稀缺,医疗数据利用率不高。虽然大量高质量的训练语料是进行医学知识图谱构建研究的基础,但当前却罕见可公开获取的中文医疗标注语料,增加了学者研究医学知识图谱构建的成本和难度。中文医学词典和知识库较少,中文医学术语词典和知识库的稀缺,增加了中文医学知识图谱本体构建或schema构建的难度。此外,由于医学术语别名众多,临床医生病历书写不规范,也为医学实体消歧带来巨大阻碍。

在技术层面,中文医疗文本工具相对缺乏。中文医疗数据以半结构化和非结构化形式为主,需利用NLP技术对其进行数据处理,但由于中文医疗语言独特的语用规律,如中文、英文、符号、数字等多种字符混合使用,以及大量的缩略语、语法省略、医学专业术语、特殊意义的符号等,致使很多英文文本处理工具不能很好地适用于中文文本的处理,增加了知识抽取的复杂性。同时可复制性差,医学知识图谱的技术栈比较长,图谱构建和运维成本高。

对于今后医学知识图谱的研究,在数据源方面应突破机构间的数据壁垒,利用众包技术,增加可开放获取的中文医疗标注语料;专业机构应加强中文专业术语词典和知识库的构建,为医学领域提供更多规范化的词典和知识库。而在技术层面,可与人工智能技术相结合,利用深度学习、语音识别、图像识别等技术,构建一个半自动化或自动化的、可自主学习和人机交互的医学知识图谱构建和应用的闭环系统,以减少医学知识图谱构建和运维成本。

猜你喜欢
医学知识图谱语义
绘一张成长图谱
语言与语义
补肾强身片UPLC指纹图谱
思维导图在医学中的应用
批评话语分析中态度意向的邻近化语义构建
加强班级凝聚力建设,激发学生学习的积极性
“社会”一词的语义流动与新陈代谢
主动对接你思维的知识图谱
“吃+NP”的语义生成机制研究
新环境下《解剖学》教学资源开发探讨分析