一种基于多模态特征提取的医学视觉问答方法

2024-03-05 01:41吴松泽刘利军黄青松孔凡彦付晓东
小型微型计算机系统 2024年3期
关键词:医学影像特征提取残差

吴松泽,刘利军,2,黄青松,孔凡彦,刘 骊,付晓东

1(昆明理工大学 信息工程与自动化学院,昆明 650504)

2(云南省计算机技术应用重点实验室,昆明 650500)

0 引 言

近年来,随着计算机视觉在医学领域已经取得了显著的成功,医学视觉问答(Medical Visual Question Answering,Med-VQA)吸引了研究人员的广泛关注.Med-VQA通过医学图像推理给定的自然语言问题的答案,要求Med-VQA模型在解释医学相关的视觉概念时要并发地关联图像和语言信息.Med-VQA可以帮助病人针对他们的询问得到及时的反馈,以便做出更明智的决定.它也有助于减轻医疗系统的压力,从而节省宝贵的医疗资源,以满足人们更迫切的需要.它还可以帮助医生在诊断中获得第2意见,降低培养医学专业人员的高昂成本[1].

现有的Med-VQA任务根据其答案的形式分为生成式的Med-VQA,如Yangyang Zhou等人[2]和Abhishek Thanki等人[3]的研究,以及选择式的Med-VQA,如Fuji Ren等人[4]与Imane Allaouzi等人[5]的研究.然而,由于Med-VQA数据集较小,医学影像特征复杂,现有的一般领域的VQA模型[6,7]难以有效地应用于医学领域.因此,Zichao Yang等人[8]提出一种用于VQA的堆叠注意力网络(Stacked Attention Networks,SAN),他们在存储区域网络使用多层注意力机制,多次查询图像以定位相关的视觉区域并逐步推断答案.Jin-Hwa Kim等人[9]提出了双线性注意力网络(Bilinear Attention Networks,BAN),通过引入转置矩阵,使得注意力计算同时作用于两个模态,增强了跨模态特征融合中双模态特征的关注力,Binh D.Nguyen等人[10]引入了元学习,通过加入噪声干扰来强化图像特征学习;Liming Zhan等人[1]将问题分为Closed与Opened两大类,分别训练两类问题的推理网络,取得了更好的推理效果;Haifan Gong等人[11]将图像按身体部位分类,并在外部医学数据集上预训练ResNet网络,使用多次注意力特征融合策略更好地进行特征融合;Haiwei Pan等人[12]使用多视点注意力机制与综合损失算法使模型进行特征融合,从而更好的分析问题,提高问答的准确率.Sedigheh Eslami等人[13]在Med-VQA中引入了语言-图像对比预训练技术(Contrastive Language-Image Pre-Training,CLIP),在外部医学数据的支持下预训练了一个Med-VQA图像编码器,从而提升了Med-VQA模型的图像特征提取能力.上述研究工作对Med-VQA模型做了不少改进,但都未注意到Med-VQA中不同模态医学影像的特征差异性对模型性能的不利影响,故本文提出针对不同模态医学影像的特征差异进行研究.

在目前的医学视觉问答中,常见的图像成像方式有X射线检查(Digital Radiography,DR),电子计算机断层扫描(Computer Tomography,CT)以及核磁共振成像(Magnetic Resonance Imaging,MRI)等.其中,X光医学影像存在条纹状和颗粒状的噪声,影响X光医学影像的清晰度,对诊断和识别的准确性产生阻碍[14].CT对密度差异较大的组织成像效果较好,对于钙化、骨皮质及骨折等现象更为直观,但软组织对比度差.且CT成像使用电离辐射,辐射剂量本质上是累积的,为了减少电离辐射的影响,现代CT扫描大都采用低剂量辐射扫描协议,低剂量扫描协议往往导致重建图像退化与非平稳条纹伪影和噪声增加[15].MRI图像中软组织对比度高,获得的诊断信息丰富,但其空间分辨率不及CT,且扫描期间易因病人移动而产生伪影[16],MRI信号的噪声分布是两个独立高斯变量平方和的平方根,其噪声遵循固定的莱斯分布,每个体素有恒定的噪声功率[17].传统的算子去噪方法难以适应目前的深度学习研究,随着卷积神经网络技术的发展,利用卷积网络为图像降噪已经取得成功,如Lovedeep Gondara等人[18]与Miao Chen等人[19]的研究,通过对图像进行多次下采样与上采样达到过滤噪声的目的.

不同模态医学影像的噪声分布存在差异,其关键特征的位置、大小以及特征形状都存在一定程度的不同.而现有的Med-VQA模型大都使用单一的特征提取网络对复杂的医学影像进行特征提取,这在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,并削弱关键特征的注意力.进而影响跨模态医学影像-文本特征的融合和答案推理.针对上述问题,本文提出利用模态标签指导特定模态图像特征提取网络的选择,强化模型对特定模态图像的特征提取能力.为此,本文提出一种多模态特征提取的医学视觉问答方法.在本文方法中:为区分不同模态的医学影像,提出在Med-VQA模型中利用影像分类器进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;为对多模态的医学影像进行降噪,提出一种面向Med-VQA的残差卷积降噪网络为不同模态的医学影像进行降噪处理,给后续特征提取提供良好特征信息;为提升Med-VQA模型对多模态医学影像关键特征的提取能力,提出在医学影像特征提取网络中引入了带有卷积注意力模块的残差结构,使模型更快更准确地提取到医学影像的图像特征.实验证明,本文方法有效提高了Med-VQA模型对多模态医学影像的特征提取能力,使本文模型相比于最新的Med-VQA模型的准确率有明显提升.

1 多模态特征提取的医学视觉问答模型

针对不同模态医学影像的差异性对现有Med-VQA模型特征提取性能的不利影响,本文提出一种基于多模态特征提取的医学视觉问答模型,总体结构如图1所示.模型首先通过对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.

图1 模型总体结构图Fig.1 Model overall structure diagram

如图1所示,本文的VQA模型由4个功能模块组成:问题文本编码器,图像编码器,跨模态特征融合网络以及答案预测网络.其中,问题文本编码器由GloVe语言模型(Global Vectors)[20]与长短期记忆网络(Long Short-Term Memory,LSTM)[21]组成;图像编码器由医学影像模态分类网络,卷积降噪网络,残差网络以及卷积注意力网络组成.

1.1 问题文本编码器

为了使VQA模型能够理解医学视觉问答中的问题文本并结合图像进行答案推理,需要对问题文本进行编码.首先,本文将输入的问题文本都处理为12个词的固定长度的句子,如果问题文本长度不足12个词,则对其做零填充(zero-padding)处理.然后,使用GloVe语言模型基于全局词汇共现的统计信息来学习词向量,该方法的词向量表示蕴含了丰富的语义信息和语法信息.据Jeffrey Pennington等人[20]的研究,GloVe语言模型在词向量维度为300时的语义准确度,语法准确度以及总体准确度较为优秀.而由于医学视觉问答文本中的词汇在一般语境中出现频率较低,为了使本文的词向量表示尽可能多地蕴含医学词汇在医学问答语境下的语义信息和语法信息,本文的词向量是由300维的常规语料库的GloVe词嵌入与300维的来自SLAKE数据集训练数据的增强GloVe词嵌入拼接而成.其次,使用LSTM模型对问题文本的向量表示进行语义信息、语法信息以及语句结构信息的提取.LSTM模型通过引入门结构与记忆单元优化了传统隐变量循环神经网络(Recurrent Neural Network,RNN)的长期信息保存和短期输入缺失问题,这使其可以更加准确与全面地捕捉到Med-VQA问题文本信息中的语义,语法以及语句结构信息.

综上所述,问题文本经过分词处理后,由GloVe语言模型得到词嵌入向量表示,然后将文本向量表示输入到1024维的LSTM模型中,由LSTM模型对文本的向量表示进行语义,语法以及语句结构信息的特征提取,最后得到一个1024维的问题文本特征表示fq.

1.2 模态分类网络

由于不同模态医学影像的特征存在较大差异,各自的噪声分布情况不一,为了强化模型对特定模态影像的降噪能力以及关键特征的关注力,本文提出将输入的医学影像送入到一个模态分类网络进行成像模式的识别,然后赋予该影像一个标签Lv.模型会根据这个影像标签选择不同的特征提取网络进行特征提取.该网络的具体结构如图2所示.其中,Dropout的系数为0.5.

图2 影像分类网络结构图Fig.2 Image classification network structure diagram

不同的医学影像在经过影像分类网络分类后,会被赋予不同模态标签Lv,然后模型会为其分配特定的特征提取网络.该计算过程可由公式(1)~公式(3)表示:

Lv=Mv(Img),Lv[CT,DR,MRI]

(1)

Lv[CT,DR,MRI]→[wCT,wDR,wMRI]

(2)

Vx=wCTVCT+wDRVDR+wMRIVMRI

(3)

其中,Mv(Img)表示影像分类,Img表示输入的医学影像,VCT、VDR以及VMRI表示不同模态的特征提取网络,Vx表示为输入影像最终分配的特征提取网络,wCT、wDR以及wMRI表示根据影像标签Lv赋予的权重,该权重值为0或1,例如影像分类结果为CT影像,便将wCT置1,wDR与wMRI置0.

多模态的医学影像在经过影像分类网络赋予模态标签Lv并分配对应模态的特征提取网络Vx后,可获得更好的特征提取效果,为后续的特征融合以及答案预测提供稳健的特征信息.

1.3 降噪网络

由于医学成像模式的差异,不同模态的医学影像存在不同分布的影像噪声,如X光影像中的条纹状和颗粒状的噪声;CT影像中的伪影;MRI影像中的高斯噪声、脉冲噪声、瑞利噪声和散斑噪声等,这使得传统的算子去噪方法难以适应目前的深度学习研究.随着卷积神经网络技术的发展,利用卷积网络为图像降噪已经取得成功.在卷积降噪网络中,对输入图像进行多次下采样与上采样,通过权重参数的学习使模型更关注有效信息的同时忽略噪声信息的影响,以达到对原始图像的降噪效果.而深度卷积降噪网络易导致Med-VQA模型梯度爆炸以及网络退化,为了对多模态医学影像进行降噪,本文提出一种小巧的面向Med-VQA的残差卷积降噪神经网络,该残差卷积降噪网络具体结构如图3所示.

图3 残差卷积降噪网络结构图Fig.3 Residual convolution noise reduction network structure diagram

如图3所示,原始图像在降噪网络中经过卷积与最大池化实现两次下采样,然后以反卷积的方式进行两次上采样,其中进行了两次残差和连接,最终达到还原特征并抑制噪声的目的.该过程可由公式(4)~公式(6)表示:

F1=subsamp(F)

(4)

F2=upsamp(subsamp(F1))⊕F1

(5)

Fd=upsamp(F2)⊕F

(6)

其中,F表示输入图像,subsamp()表示一次最大池化与卷积组成的下采样计算,upsamp()表示一次以反卷积实现的上采样计算,⊕表示残差和计算,F1,F2表示中间变量,Fd表示最终降噪后的图像.

在卷积降噪网络中,输入图像首先经过一次卷积后,将会做两次下采样.再经过一次上采样后与第一次下采样得到的特征F1做残差和运算得到特征F2,F2经过一次上采样后再进行一次卷积,然后与输入图像的原始特征F做一次残差和运算得到最终完成降噪的图像特征Fd.

1.4 残差网络与注意力网络

医学影像结构复杂,关键特征不明显,传统卷积神经网络模型(Convolutional Neural Networks,CNN)难以有效捕获关键特征信息.为了更好地学习医学影像中的关键特征,受Kaiming He等人[22]与Sanghyun Woo等人[23]研究的启发,本文在CNN模型中加入了残差结构与CBAM(Convolutional Block Attention Module).残差结构使得CNN在利用深层网络提取特征的同时加快模型收敛速度,通过CBAM在通道与空间维度上运用注意力机制,使得CNN获得更好的对医学影像中微小病症特征的定位识别能力,其具体结构如图4所示.

图4 特征提取网络结构图Fig.4 Feature extraction network structure diagram

本文的CNN中有4个残差模块,每个残差模块的参数设置有一定变化,如图4中所示,C表示输出通道数,S表示卷积核的步长,P表示边界零填充数.经过4次残差模块提取特征后的原始特征将送入CBAM网络模块进行注意力强化.CBAM由通道注意力模块(Channel Attention Module)与空间注意力模块(Spatial Attention Module)组成.输入特征F分别经过全局平均池化(global average pooling)与全局最大池化(global max pooling)后送入一个两层的多层感知机(Multi-Layer Perceptron,MLP)得到两个特征图,将这两个特征图合并后再与F做同位元素相乘得到通道注意力特征Fc.对Fc分别做全局平均池化与全局最大池化后将两个特征图做通道拼接,拼接得到的特征图经过卷积再与Fc做同位素相乘,得到空间注意力特征Fs.其计算过程可由公式(7)~公式(10)表示:

Fc=Mc(F)⊗F

(7)

(8)

Fs=Ms(Fc)⊗Fc

(9)

(10)

在图像编码器的最后,本文使用一个连接层将输出维度处理为1024,最终得到图像特征表示fv.

1.5 跨模态特征融合网络

在本文模型中,为了实现文本特征Fq与图像特征Fv的跨模态特征融合,本文采用了双线性注意力网络(Bilinear Attention Networks,BAN)[9]来进行特征融合.BAN通过引入转置矩阵,将注意力图(attention map)同时在两个模态上计算,从而实现对跨模态信息的关注.如公式(11)所示:

output=Fq⊗billinearattentionmap⊗Fv

(11)

其中,对于billinearattentionmap的计算可以表示为公式(12):

A=softmax(((1·PT)⊗XTU)VTY)

(12)

其中,A表示billinearattentionmap,X和Y表示两个输入,X∈RN×ρ,Y∈RM×Ø,ρ和Ø分别表示两个输入的通道数.U和V是线性向量嵌入,⊗表示同位素乘法运算.而A中元素Ai,j的计算可表示为公式(13):

Ai,j=PT((UTXi)⊗(VTYj))

(13)

其中,Xi表示X的第i个通道,Yj表示Y的第j个通道,P是一个可学习的投影向量.

得到了billinearattentionmap便可以同时在两个输入上做注意力运算.该运算过程可以表示为公式(14):

(14)

(15)

即可将BAN运算过程表示为公式(16):

f=BAN(X,Y;A)

(16)

该BAN的网络结构可表示为图5.其中,Transpose为转置运算.

图5 BAN结构示意图Fig.5 BAN structure diagram

问题文本特征表示fq与图像特征表示fv被送入双线性注意力特征融合网络中经过运算得到一个维度为1024的联合特征表示fa,fa将被输入到答案预测网络中进行答案预测.

1.6 答案预测网络

本文Med-VQA模型的答案预测网络为一个两层的多层感知机,其两层网络之间以ReLU(Rectified Linear Unit)激活函数连接.在输入跨模态融合特征fa后,经过模型计算得到答案预测的结果.其计算过程见公式(17)和公式(18):

H=ReLU(faWh+bh)

(17)

OUT=HWo+bo

(18)

其中,H表示隐藏层(hidden layer),ReLU(*)表示激活函数,W表示权重,h表示隐藏单元(hidden unit)数,b表示偏差参数,OUT表示输出,o表示输出单元数.

分类的答案集是根据SLAKE[24]数据集预先定义的答案分类,模型将选取OUT中预测得分最高的答案作为问题的回答.

2 实验与结果分析

2.1 实验数据集

目前公开可用的Med-VQA数据集有SLAKE[24],VQA-RAD[25],RadVisDial[26],PathVQA[27]数据集,但只有VQA-RAD与SLAKE数据集是由专业的医疗从业人员人工标注并校对.最新发布的SLAEK数据集是目前Med-VQA研究领域中经由专业人员人工标注的最大的公共数据集.故本文的模型选择在SLAEK数据集上进行评估.该数据集为中英双语数据集,本文选取了其中的英文子集进行试验,其包括642张图像和7000多个问答对.这些图像由3种成像方式(CT,MIR,DR)生成,均经过了专业的人工注释,其中包括12种疾病和39种器官,这些疾病主要包括癌症(如脑、肝、肾、肺癌等)和胸部疾病(如肺不张、积液、肿块、气胸等).这些图像由282张CT,181张MRI和179张DR组成,其中包括了140个头部CT或MRI,41个颈部CT,219个肺部DR或CT,201个腹部CT或MRI,以及41个盆腔CT.为了方便比较,本文的训练,验证和测试数据集均使用该数据集的原始划分.

2.2 模型实验设置

本文的模型使用Python语言在Pytorch框架下进行实现,实验的硬件环境为GPU NVIDIA TITAN Xp单个GPU,Intel Corei7处理器.模型训练过程中使用了学习率衰减算法,并采用了Adamax优化器.经多次调整,模型最终的超参数设置如表1所示.

表1 超参数设置表Table 1 Hyperparameter setting table

在训练过程中,模型的损失函数设置为交叉熵损失(Cross Entropy Loss)函数,其计算过程如公式(19)所示:

(19)

2.3 评价指标

在目前的Med-VQA研究中,最重要的也是唯一的评价指标为模型回答问题的准确率,这是Med-VQA模型的主流评价标准.本文模型同样使用准确率指标作为模型评价标准,其计算过程如公式(20)所示:

(20)

其中,Sc表示正确回答问题的数量,Sall表示问题的总数.

为了更好的衡量Med-VQA模型对多种问题的鲁棒性,在评价Med-VQA模型的准确率时,通常会从3个角度进行分析,即总体准确率(Overall),开放性问题准确率(Open),以及封闭性问题准确率(Closed).其中,Open被定义没有固定答案的问题类型,即答案的类型随问题的改变而改变,而Closed被定义为固定答案的问题类型,即不论问题如何改变,答案类型始终不变,如Yes/No.而之前研究表明,Open类型的问题相较于Closed类型的问往往需要更多,更精细的特征信息.

2.4 模型训练过程

由于Med-VQA数据集的数据量较小,而迁移学习可以优化医学影像分析领域的小数据集问题[28],因此,本文对图像编码器中的影像模态分类网络与残差网络进行了预训练,其中模态分类网络使用了VQA-RAD数据集与SLAKE数据集的训练集图片数据进行训练,本文将图像按其成像方式赋予标签,然后对模态分类网络进行训练,设置迭代次数(epochs)为20次,在图像分类准确率达最高时冻结模型参数并保存.对于3个残差网络,本文为其加载ImageNet预训练参数后在SLAKE数据集上分别只使用单一模态的图像进行问答训练,其中CT、MIR、DR类型的问答训练epochs分别为120、80、80,同样在模型准确率最高时冻结模型参数并保存.模型在最终训练时,将先加载影像模态分类网络与残差网络的预训练参数,训练的epochs被设置为80.

2.5 模型对比与分析

本文选取了同样在SLEAK数据集上以相同评价标准评估的现有主流的Med-VQA模型进行对比.本文模型与这些对比模型均采用LSTM作为文本编码器,VGG+SAN[24]使用了VGG特征提取网络作为图像编码器,采用SAN进行跨模态特征融合.VGGseg+SAN[24]则是对其中的VGG特征提取网络进行了预训练.MEVF[10]在图像编码器中引入了编码解码器和元学习思想,通过外部医学数据的支持,在训练过程中迭代训练图像编码器,训练模型学习图像的关键元数据.PubMedCLIP[13]在图像编码器中引入了对比语言-图像预训练思想,在ROCO数据集[29]上使用医学图像及其对应的文本描述通过语言-图像对比训练的方法对图像编码器进行预训练.其中,MEVF和PubMedCLIP均使用BAN进行跨模态特征融合,PubMedCLIP与本文同使用残差网络.虽然MEVF,PubMedCLIP以及VGGseg的图像特征网络与本文同样的均经过了预训练,但值得注意的是,MEVF和PubMedCLIP均使用了大量的外部医学数据来进行预训练,MEVF使用了11779张未标记的医学影像训练图像编码器和解码器,PubMedCLIP使用了ROCO数据集中包含的超过80000份图像字幕对来训练图像编码器,而本文的特征提取网络模型与VGGseg+SAN一样,只在SKLAKE数据集中的642张问答图像上进行了预训练,大大减少了训练所需的数据量.对比实验结果如表2所示.

表2 不同Med-VQA模型准确率对比表Table 2 Accuracy comparison table of different Med-VQA models

其中,CDN表示本文模型在其他条件不变下采用传统降噪方法进行降噪.

如表2所示,在Med-VQA中,相较于没有经过预训练的VGG+SAN,对练特征提取网络进行预训练可以显著提升模型的图像特征提取能力,提高模型的回答准确率.MEVF通过元学习迭代训练,使模型对图像关键特征的学习能力增强,但缺乏了对特征的广度包容性.PubMedCLIP利用了大规模外部数据进行预训练,提升了模型广泛的特征提取能力,但同时也引入了与医学视觉问答无关的噪声信息.而本文模型,通过区分不同模态的医学影像,为其预训练特定的注意力特征提取网络,使其获得更好的针对多模态医学影像的深度特征提取能力,同时因对模态做了区分并针对不同模态的图像进行了降噪,有效抑制了噪声信息的干扰,从而提高了模型的准确率.

在多模态医学图像降噪方法上,与传统降噪方法[18]相比,本文提出的残差卷积降噪网络通过加入残差计算和反卷积上采样的方法有效抑制了图像中噪声信息对特征提取的影响,提升了模型对关键特征的关注力,提高了模型问答的准确率.为了验证残差连接与反卷积在面向Med-VQA的卷积降噪网络上的有效性,本文分别进行了实验,实验结果如表3所示.

表3 降噪网络消融实验结果对比表Table 3 Comparison table of experimental results of denoising network ablation

其中,CDN表示使用传统的插值上采样降噪网络,CDN_R表示在传统的插值上采样降噪网络中加入残差结构,CDN_D表示用反卷积上采样代替插值上采样.

如表3所示,在卷积降噪网络中加入残差结构可明显提升模型的准确率,而使用反卷积上采样代替传统的插值上采样造成了准确率的下降.这应是由于反卷积层的加入,使模型的深度加深,导致了模型的训练难度加大,更难拟合.在最终模型中,虽然采用了反卷积的上采样代替了插值上采样,但是由于加入了残差结构,其在一定程度上可以缓解深度网络的难以拟合问题,并充分发挥由反卷积层的带来的深度优势,使得模型准确率获得明显提升.

在图像特征提取注意力增强方法上,本文利用CBAM注意力机制增强了模型在通道上以及空间上的特征关注力,并进行了不同注意力模型的对比试验,试验结果如表4所示.

表4 不同注意力模型实验结果对比表Table 4 Comparison table of experimental results of different attention models

其中,None表示本文模型在其他条件不变下不使用注意力模型,SEnet表示使用Squeeze-and-Excitation Networks[30]注意力模型,SKnet表示使用Selective Kernel Networks[31]注意力模型.

实验证明在面向Med-VQA的多模态特征提取网络中加入注意力模型可以有效提高VQA模型对医学特征的提取能力.SEnet通过在通道上对特征信息进行Squeeze和Excitation操作来学习每个通道的重要程度,然后据此提升与当前任务关联较强的特征并抑制关联较弱的特征.SKnet通过Split、Fuse以及Select运算实现了让模型根据不同的输入信息自适应地选择不同的卷积核感受野,增强了模型对不同特征信息的关注力.如表4所示,在Med-VQA模型中加入SEnet可明显提高Closed类型的问答准确率,而SKnet则对Open类型的问答有明显的提升,但他们都缺少了对特征信息中空间信息的注意力.本文采用CBAM同时进行通道注意力与空间注意力的计算,这使Med-VQA模型获得了更强的针对当前任务的特征提取能力,在两类问答中取得了更高的回答正确率.

2.6 方法有效性分析

为了验证本文提出方法以及各个模块的有效性,本文在SLEAK数据集上进行了一系列的消融实验,实验结果如表5所示.

表5 消融实验结果对比表Table 5 Ablation experiment results comparison table

其中,Resnet表示使用原始Resnet提取医学影像的特征的基础模型,amResnet表示具有CBAM的残差网络结构,CD_amResnet表示在amResnet上加入残差卷积降噪网络,MG_amResnet表示在amResnet上加入模态标签指导输入参数不共享的特征提取网络.

如表5所示,Resnet为基础模型,其使用原始Resnet作为图像特征提取网络,利用LSTM进行文本特征提取,并采用BAN作为跨模态特征提取网络.通过amResnet可以看到,利用CBAM在通道维度与空间维度上使用注意力机制可有效提升特征提取网络对通道以及空间维度上特征的关注力,从而提高模型对的医学影像特征的提取能力.通过CD_amResnet可以看到,在模型中加入残差卷积降噪网络对图片噪声信息进行抑制,可显著提升模型对医学影像中噪声信息的抗干扰能力,增强模型关键特征的提取能力.通过MG_amResnet可以看到,对多模态医学影像进行模态识别从而获得模态标签,并以模态标签指导选择特定的特征提取网络,可有效抑制多模态特征信息之间的干扰,增强对特定模态图像特征的提取能力.而通过对上诉模块的综合使用,使得本文的Med-VQA模型同时获得了对多模态医学影像中关键特征的较高的关注力与对多模态医学影像中噪声信息以及多模态图像之间信息干扰的抑制能力,这使本文模型达到了一个较高的,优于目前主流模型的回答准确率.

3 结 论

本文对Med-VQA研究中的医学影像特征提取方法进行了探索研究,为了对多模态的医学影像特征信息实现更好的特征提取效果,本文提出一种基于多模态特征提取的医学视觉问答模型.该模型使用影像分类器对医学影像进行模态分类,使用残差卷积降噪网络对不同模态的医学影像进行降噪,利用残差网络与卷积注意力网络对不同模态的医学影像进行特征提取.本文的方法有效提高了医学视觉问答准确率,为Med-VQA的研究工作提供了思想启发.随着Med-VQA研究的不断进展,Med-VQA模型的可解释性越来越引起人们的关注,因其在将来的临床应用上有着迫切的需要,故本文的下一步工作将围绕Med-VQA模型的推理能力以及模型的可解释性等方面进行研究.

猜你喜欢
医学影像特征提取残差
基于双向GRU与残差拟合的车辆跟驰建模
医学影像技术在医学影像诊断中的合理运用
《当代医学影像误诊学》出版
《当代医学影像误诊学》正式出版
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
平稳自相关过程的残差累积和控制图
基于MED和循环域解调的多故障特征提取