PICO 元素检测研究综述

2021-11-22 10:09易红
现代计算机 2021年7期
关键词:分类器循证语义

易红

(四川大学计算机学院,成都610065)

0 引言

循证医学(Evidence-based Medicine)是一种临床实践方法,通过主要证据(如随机对照试验(RCT)的结果)为医疗决策、课题研究提供信息。医生或相关从业人员在进行循证医学实践时,需要有效地获取这些证据的信息,检索并分析与特定临床主题相关的文献。循证医学从业者在判断RCT 是否与给定问题相关时会使用特定的标准,通常为PICO 标准。而随着医疗资料的海量增长,人工地根据PICO 标准从海量的医学资料中筛选出合适的医学文献作为研究依据也越来越耗时耗力,想要精准、快速地筛选、获取合适的文献更是尤其困难。因此,医学文献中PICO 元素检测受到越来越多的重视。PICO 元素检测是循证医学领域一个重要且具有挑战性的任务,目标是从非结构化文本(摘要或全文)中检测出包含PICO 元素的句子或者短语,检测出的这些信息可以以多种方式加以利用,例如,提高搜索性能,以结构化方式查询特定类别,帮助用户更快速地根据特定的PICO 标准做出判断。

1 PICO元素检测的定义

在循证医学中,精心设计的、结构化的文档和问题可以帮助医生有效地收集合适的资源并找到最佳的医学证据[1]。实际上,临床研究和临床问题总是明确或隐含地包含四个方面:对象/问题(Population/problem,P)、干预(Intervention,I)、比较(Comparison,C)和结果(Outcome,O)。利用这种结构来帮助大型医学引用数据库中医学证据的信息检索(IR)是流行且有利的[2-4]。PICO元素检测即是自动检测出医学文摘中包含PICO 元素的句子或者短语,来帮助医生或相关从业人员进行医学证据的检索,以便为其拟议的研究自动筛选出可能相关的文章。如例句1,P 元素为“middle-aged women suffering migraines”(患有偏头痛的中年妇女),I 元素为“Botulinium toxin type A”(A 型肉毒杆菌毒素),C 元素为“placebo”(安慰剂),O 元素为“decreasing migraine frequency”(降低偏头痛频率)。

2 PICO元素检测研究现状

2.1 基于规则的方法

Demner 和Lin[5]在2007 年首次提出了PICO 元素检测任务,并提出了一种使用人工制定的模式匹配规则和统计分类器的方法,来检测医学摘要中与PICO 元素相关的句子或短语。基于对统一医学语言系统(UMLS)中领域的理解,该模式匹配规则使用了由MetaMap 标记的生物医学概念和SemRep 抽取的概念之间的关系。实验显示该方法可以将相关的摘要放到较高的排名位置,帮助循证医学从业者检索出相关的文章作为医学证据,检索效果大大优于PubMed 提供的基础检索。

2.2 基于机器学习的方法

基于规则的方法需要大量的人工操作,并且无法覆盖所有的语言规则,存在耗时耗力、覆盖率低的缺点。与基于规则的方法相比,基于机器学习的方法不需要人工构造、更新大量的规则,因此,许多著名的机器学习技术被用于PICO 元素检测任务。

首先,Hansen 等人[6]在2008 年提出了使用支持向量机(SVM)进行监督分类以提取试验参与者的数量,该方法着重于提取试验参与者的总数,使用了一个二分类器对摘要中的整数进行分类,正类代表试验参与者人数,负类代表所有其他候选人数。该方法存在很大的局限性,只针对摘要中的试验参与者的总数进行抽取。Boudin 等人[7]在2010 年利用统计特征(如句子的位置、句子长度、标点符号的数量、句子中含有的数字的数量等)和基于知识的特征(如提示词的数量、提示动词的数量、MeSH 语义类型等)将每个句子转化为一个特征向量,在不同的分类器(如随机森林(RF)、支持向量机(SVM)、朴素贝叶斯(NB)、多层感知机(MLP)等)上进行了实验,实验结果表明MLP 优于其他的分类器,且他们发现大多数重要信息都包含在每一节的第一句话中。

上诉工作都把PICO 元素检测看成是多个二分类任务,使用单个分类器一次对一个类别进行分类,为了检测所有的PICO 元素,需要构建和训练四个独立的分类器,这是很低效的。此外,这种多个二分类的方法很难消除不同分类器对同一句子预测的标签的冲突。2011 年,Kim 等人[8]直接对EBM 感兴趣的标签进行了处理,将PICO 元素检测看成多标签分类任务,而不是二分类任务,并将与PICO 元素无关的句子标记为other,解决了多个二分类的限制。他们利用词汇、语义、结构、顺序等信息,使用条件随机场(CRF)进行多分类的PICO 元素检测。其中,词汇特征包括词袋、二元词组等;语义特征,使用统一医学语言系统(UNLS)的元词表中提供的一系列本体,用来捕捉医学术语之间的语义关系;结构特征为句子在摘要中的位置(绝对位置或相对位置);序列特征:利用文本中不同句子之间的依赖关系,特定部分(如,背景)的句子通常连续出现,在判断当前句子的类别时,可分析摘要中前句的类别来进行推断。之后,Dympna 等人[9]在2013 年利用医学摘要中嵌入的结构信息对数据集进行了扩展。他们发现一些作者在编写摘要时,明确地标出了一些特定的小标题,如“patient”(患者)、“sample”(样本)、“outcomes”(结果)等,这些特定的小标题可以用来定位对应的PICO 元素句子。因此,成千上万个来自PubMed 数据库的包含了PICO 元素的摘要可以被自动地处理为一个注释良好的数据集,能够将数据集的大小增加两个数量级。使用这样大规模数据集能够训练出更好的模型,模型的泛化能力也能有进一步地提升。

以上所有的模型都严重依赖于人工设计的特征,包括词汇特征,如词袋(BOW)、提示词、提示动词;语义特征,如词性(POS)、命名实体(NE);结构特征,如句子的相对位置或绝对位置;以及序列特征,如每个类别的相对位置。

2.3 基于神经网络的方法

基于规则和机器学习的方法都只是在句子的词汇特征或者浅层的语义特征进行分析和提取,没有捕获到句子深层的语义信息,导致PICO 元素检测任务的效果不是很理想。神经网络模型由于其自动学习特征、擅于捕捉深层语义信息的优势,越来越多的研究人员使用神经网络模型来解决PICO 元素检测问题。

Dernoncourt 等人[10]在2016 年提出了基于深度人工神经网络架构的模型,实验证明利用长短期记忆神经网络(LSTM)可以进一步提高性能,并消除人工筛选特征的需求。随后,Di Jin 等人[11]在2018 年首次利用深度神经网络的方法(双向长短期记忆神经网络,BiLSTM)解决PICO 元素检测问题,该模型首先使用BiLSTM 获取句子中每个词的隐藏表达,然后利用注意力机制计算每个词的权重,加权求和获取到每个句子的表示向量,然后整个摘要中的所有句子的表示向量输入到序列优化层(即条件随机场,CRF)中,对整个摘要进行序列标注,优化整个标签序列。该模型称为“BiLSTM+CRF”架构,取得了很大的进展。2019 年,Di Jin 等人[12]在2018 年的模型上进行了两点改进。首先,他们认为应该把PICO 元素检测看成一个连续的句子分类问题,可以利用周围句子的上下文信息来推断当前句子的标签。因此,基于先前的“BiLSTM+CRF”架构,他们将另一层bi-LSTM 叠加在句子表示向量上,以聚合周围句子的特征,使得输出的句子的隐藏状态向量不仅携带当前句子的信息,还包含相邻句子的信息。其次,他们认为深度学习模型在较小规模的数据集上容易出现过度拟合的情况,导致训练数据较小时,与浅层机器学习模型相比,深度学习模型对PICO 元素检测的性能不理想。为了解决这个问题,他们采用了两种策略来增强模型的泛化能力。一种是使用对抗和虚拟对抗训练对模型进行正则化稳定分类器的性能,从而提高模型的泛化能力;另一种是先使用大规模生物医学文献语料库对语言模型进行预训练,然后在目标数据集进行微调,即利用迁移学习方法提高模型的泛化能力。实验证明两种策略都能进一步提高PICO元素检测性能。

3 结语

本文对PICO 元素检测的研究进展进行了介绍,简单介绍了PICO 元素检测任务的具体内容,重点介绍了解决PICO 元素检测问题的三大主要方法,分析了这几类方法的改进思想。PICO 元素检测可以运用到许多下游的医学任务中去,如:医疗方案制定、系统性分析、医学文献的信息检索等,具有极高的研究价值和应用价值。PICO 元素检测是循证医学领域一个重要的研究方向,随着深度学习的发展,近年来越来越多的研究者尝试将深度学习的各种模型和方法应用到PICO 元素检测任务中,并取得了较好的成效。但目前对于PICO 元素检测的效果仍然有一定的提升空间,还需要更进一步的研究和改进。

猜你喜欢
分类器循证语义
真实场景水下语义分割方法及数据集
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
循证护理在上消化道出血护理中的应用效果观察
循证医学教育在麻醉临床教学中的应用
学贯中西(6):阐述ML分类器的工作流程
循证护理在增强CT检查中减少造影剂外漏发生的作用
基于朴素Bayes组合的简易集成分类器①
探讨循证护理在急诊烧伤患者中的价值
基于AdaBoost算法的在线连续极限学习机集成算法
汉语依凭介词的语义范畴