DRT Net:面向特征增强的双残差Res-Transformer肺炎识别模型

2024-04-08 07:30彭彩月杜玉虎刘凤珍陆惠玲
光学精密工程 2024年5期
关键词:全局残差注意力

周 涛,彭彩月*,杜玉虎,党 培,刘凤珍,陆惠玲

(1.北方民族大学 计算机科学与工程学院,宁夏 银川 750021;2.北方民族大学 图像图形智能处理国家民委重点实验室,宁夏 银川 750021;3.宁夏医科大学 医学信息与工程学院,宁夏 银川 750004)

1 引言

肺炎作为一种常见的胸部疾病,是由微生物和其他环境因素引起的呼吸道感染。它导致肺部积液和呼吸困难,对人体的呼吸系统造成了严重的危害。2019 年下半年爆发的新型冠状病毒感染(Corona Virus Disease2019,COVID-19),已影响全球人口的健康[1]。传统的肺炎诊断手段主要依赖于医生多年的临床经验,可能存在主观误差,且难以大规模实施。胸部影像学在肺部感染性病变的诊断中具有重要的价值,对患者进行疗效评价可利用高分辨率胸部CT[2]及X 线检查[3]。利用深度学习技术对患者肺部影像特征进行分析,从而进行病情评估,能够降低复杂的医学数据给医务人员带来的负担,提高诊断效率,辅助医生尽快形成针对性诊疗方案[4]。

残差神经网络(Residual Neural Network,ResNet)[5]广泛应用在医学图像领域,目前在肺部疾病的临床辅助诊断方面取得了良好的效果。Zhou 等[6]提出一种基于CT 图像的改进的注意力ResNet 新冠肺炎识别模型,以适应新冠肺炎病灶区域的特性,实现对于新冠肺炎的识别。Chen等[7]提出一种基于Inception-ResNet的COVID-19诊断三分类模型,在Inception-Resnet 中使用自注意力机制对肺部病变进行分类,进一步提升了卷积神经网络的分类性能。Huang 等[8]提出了一种名为非局部通道注意力ResNet 的深度学习神经网络,将ResNet 与非局部模块和信道注意力机制相结合,用于监测COVID-19 PN 患者的肺水肿程度,帮助临床医生为患者制定适当的治疗方法。Rajpal 等[9]提出了一种注意力瓶颈残差网络(ABResNet)对COVID-19 的正常和异常病例进行分类,并通过提出的基于边缘的图切割分割(EGCS)来定位疾病感染区域,在精度更高的同时实现了有效的网络性能。Chen 等[10]提出双非对称特征学习网络DualCheXNet,用于多标签胸部疾病分类,通过结合ResNet 和DenseNet,从胸部图像中捕获更多的判别特征,提高胸部疾病分类性能。吴宣言等[11]提出一种深层聚合残差密集网络(DLA-RDNet),用于超声图像左心室分割,在下采样部分,结合ResNet 与DenseNet 的优势提出残差密集网络(RDNet),充分利用所有卷积层的层次信息,实现了较高的增长率。李锵等[12]提出一种结合三重注意力机制的双路径卷积神经网络(TADPN),将ResNet 和DenseNet 结合的双路径网络(Double Path Network,DPN)作为骨干网络,并利用3 种不同形式的注意力机制改进DPN,在维持参数量稳定的同时提高网络复杂度,进而提升对胸片疾病的分类精度。

肺部X 射线图像病变区域多样化,存在分布广泛、形状复杂、大小不一等特点,且图像中病灶区域存在与周围组织对比度有限、边界不清晰的问题,肺炎感染症状的特异性会导致模型不能很好地关注图像中的病变区域,难以充分提取病变区域的有效特征进行分类。针对上述问题,本文设计了组注意力双残差模块(Group Attention Dual Residual Module,GADRM),采用通道混洗、通道注意力与空间注意力进行高效的特征提取,融合不同通道之间的特征信息,使用两个不同操作的残差连接同时对特征进行重复挖掘利用,增强单个模块对病变区域特征的提取能力;设计了全局局部特征提取模块(Global Local Feature Extraction Module,GLFEM),在特征提取网络末端结合CNN 和Transformer 的优势,使得网络同时关注全局以及局部的高语义特征信息,进一步增强网络的语义特征提取能力;构造了跨层双注意力特征融合模块(Cross-layer Dual Attention Feature Fusion Module,CDAFFM),利用空间注意力增强浅层网络的纹理、形状等低语义信息,对深层网络的高语义信息进行通道增强,将二者融合获得更丰富的上下文信息,对网络提取到的跨层特征进行增强。

2 整体网络结构

ResNet 的出现有效缓解了由于网络深度增加带来的梯度消失和网络退化问题,能够加快神经网络的训练速度,并且大幅提升深度网络的泛化能力和稳定性,常用于医学图像的肺部分类。然而,肺部X 射线图像的病灶区域较小、形状复杂,与正常组织间的边界模糊,模型常常无法提取图像的全局特征和局部特征,且难以聚焦于病灶区域。此外,原始残差网络采用卷积操作进行特征提取,无法获得病灶的全局信息。

为了有效利用X 光图像中的全局与局部病变区域特征,提高模型对于不同类型肺炎的识别能力,本文提出面向特征增强的双残差Res-Transformer 肺炎识别模型DRT Net。该模型的整体结构如图1 所示,包含GADRM(A)、CDAFFM(B)以及GLFEM(C)。DRT Net 利用Res-Transformer 结构对于肺炎图像的全局特征提取能力与局部特征提取能力,结合3 种不同的特征增强策略提升模型对于病变区域的感知能力。

图1 DRT Net 整体框架Fig.1 Overall framework of DRT Net

2.1 组注意力双残差模块

残差单元通过残差连接实现恒等映射,避免由于网络加深而造成的梯度消失问题。残差连接有Add 型残差连接和Concat 型残差连接[13]。其中,Add 型残差连接将尺寸相同的输入图像和输出图像进行元素级相加,从而进行特征重用;Concat 操作是在特征图尺寸相同的情况下进行通道拼接,对特征图进行通道方向的扩张,将特征信息进行融合。

基础的残差网络性能有限,对于图像特征感知不充分。本文设计的GADRM 如图2 所示,首先构造双残差结构,该结构结合两种不同方式的残差连接对特征进行重复挖掘利用与探索,提高模块对于病变区域特征的提取能力。其次,利用通道混洗操作将组卷积之后的特征图之间的通道信息进行融合,将融合后的特征图组划分为4个子组,执行不同的特征转换。然后,使用深度可分离卷积提取各组特征并进行融合,提高组内特征的可识别性。最后,结合挤压激励操作与空间注意力操作构造GADRM,增强模块的特征表达能力。

图2 组注意力双残差模块Fig.2 Group attention dual residual module

GADRM 模块的详细流程包括4 个阶段。

阶段一:将特征图M 按通道数划分为两组,M1包含四分之三通道数,M2包含四分之一通道数。特征图M 首先经过1×1 的卷积操作并在通道维度进行分组,得到8 组特征图Groupi,其中i=1,2,…,8,每组特征图通道数是输入特征图的1/8。

阶段二:将每组特征图Groupi在通道维度平均划分为4 组,每组特征图用Xr表示,其中r=1,2,3,4。该阶段主要有3 个步骤。

步骤一:首先将输入特征Xr进行通道混洗,其流程如图3 所示。首先通过Reshape 操作将输入通道从一维变成两维,其中一维表示卷积组数,另一维是每个卷积组包含的通道数;然后,进行Transpose 操作将扩展出的两维进行置换;最后进行Flatten 展平操作,将置换后的通道展平,完成最后的通道混洗。计算过程如下:

图3 通道混洗操作Fig.3 Channel shuffle operation

其中r=1,2,3,4。

步骤二:使用DWConv()表示GADRM 中3×3 深度可分离卷积(图2 中3×3DWConv),并使用Yr表示DWConv()的输出。计算过程如下:

式中r=1,2,3,4。

步骤三:利用通道映射之间的相互依赖性可以改进特定语义的特征表示。将第r组的特征图Yr输入到SE 模块[14]。首先,通过自适应全局平均池化(Global Average Pooling,GAP)将特征层的长宽进行压缩,只留下通道维度的信息。然后,使用两个全连接层FCSigmoid和FCRelu对通道信息进行加权,得到各分组通道的权重:

式中r=1,2,3,4。

最后将各通道的权重与各分组特征图相乘,得到通道加权特征图:

式中:r=1,2,3,4,i=1,2,…,8。

阶段三:利用空间注意模块来聚合空间关系,使网络更加关注图像的病灶区域,如图4 所示。首先将所有组得到的特征图Gi进行求和得到:

图4 挤压激励模块和空间注意力模块Fig.4 Squeeze excitation module and spatial attention module

式中i=1,2,…,8。

接着对特征图G使用全局平均池化(Global Average Pooling,GAP)和全局最大池化(Global Max Pooling,GMP)来获取两种不同的上下文信息;将两个特征图GAP(G)∈R1×H×W和GMP(G)∈R1×H×W拼接起来,再通过一个3×3 的卷积操作获得特征图G空间维度的权重:

式中,Concat 表示特征图拼接操作,Conv 表示一个标准的3×3 卷积操作。

最后在权重W和输入特征图G之间进行逐元素乘法运算,得到最终的空间注意力图:

阶段四:最后特征图N经过一个1×1 卷积层操作后,按通道数将其划分成两部分,四分之三个通道的特征图N1被添加到下方跳跃连接路径中,与初始特征图M1相加;另外四分之一个通道的特征图与上方跳跃连接路径的初始模块做拼接操作;最终将通道合并作为输出。其数学表示如下:

其中:Output 表示该模块的最终输出,Concat 表示特征图沿通道方向的拼接操作。

2.2 全局局部特征提取模块

CNN 具有平移不变性和局部敏感性等归纳偏置,可以很好地捕捉图像细粒度特征和局部信息,是计算机视觉领域的主流模型[15]。但是CNN 感受野有限,现有的CNN 方法通常只使用从网络深层提取的高级语义信息进行分类,不具备获取全局信息的能力,这会导致有用信息的丢失,使模型的分类效果不佳。Transformer 编码器解码器结构使并行计算得以实现,提高了模型的训练效率,并且利用自注意力机制能够捕获数据之间的长距离信息和依赖关系。

本文在网络深层设计了一个GLFEM 同时提取局部信息和全局信息。该模块对高层语义信息进行全局建模,同时融合CNN 和Transformer 的优势,提取更丰富的特征信息,能够使网络充分提取病变区域的有效特征,从而提升网络对于肺炎疾病的分类性能。GLFEM 的具体流程如图5 所示,该模块由局部信息编码模块、全局信息编码模块和特征融合模块3 个子模块组成,它们进行的操作分别为图像局部特征信息提取、图像全局特征信息提取以及特征信息融合。

图5 全局局部特征提取模块Fig.5 Global local feature extraction module

首先特征图X∈RH×W×C进入局部信息编码模块,通过一个卷积核大小为3×3 的卷积层进行局部信息编码,然后通过一个卷积核大小为1×1 的卷积层进行通道数的调整,通过学习输入通道的线性组合将张量投影到高维空间,此时X∈RH×W×d。

其次,通过Unfold,Transformer,Fold 结构进行全局的特征建模。为了使网络能够学习具有空间归纳偏置的全局表示,先将输入的特征图划分成Patch。此时特征图表示为XU,且XU∈RP×N×d。其中P=WH,N为Patch 的个数且N=HW/P,H和W分别为Patch 的高度和宽度。如图5 所示,通过Unfold 操作将相对位置相同的特征图拼接在一块,即图中颜色相同的位置,分别在每个块内进行自注意力计算,相应地减少计算量。然后将拼成的一个序列输入到Transformer进行建模。

然后,通过应用Transformer 来编码patch 间关系,其数学表示如下:

通过Fold 操作将计算完自注意力的特征图组重新按照相对位置还原为初始形状。与丢失像素空间顺序的视觉Transformer 相比,该模块同时保留了Patch 的顺序与每个Patch 内像素的空间顺序。

将全局特征建模后的特征块XG通过1×1卷积将通道数调整回原始大小,通过一个残差连接与原始输入特征图沿通道方向进行拼接,最后再通过一个3×3 的卷积层进行特征融合得到输出。

2.3 跨层双注意力特征融合模块

CNN 中的卷积操作在提取特征的同时丢失了底层的纹理细节,使得高层次特征和低层次特征分布在网络两端。高层次特征具有更强的语义信息,但分辨率低且对细节的感知能力较差;浅层特征分辨率高,包含更多位置细节、边缘和纹理等信息,但由于特征提取不充分,其语义性低且噪声多。此外,特征提取网络中不同层关注的信息也是有差异的,利用不同层的特征融合上下文信息能够提升网络的分类性能。然而,简单的相加易造成信息冗余,并不能充分利用二者的优势,因此本文设计了CDAFFM,用浅层语义信息弥补深层语义信息的缺失,如图6 所示。将浅层网络的纹理、形状等低语义信息利用空间注意力进行增强,将深层网络的高语义信息进行通道增强。筛选后的通道和空间信息相加,使图像浅层上下文信息与深层上下文信息进行高效融合,保留更多有用信息,提升模型的分类性能。

图6 跨层双注意力特征融合模块Fig.6 Cross-layer dual attention feature fusion module

对于原始输入的低层特征图A,经过3 个相同的1×1 卷积操作进行特征映射,得到特征图B,C,D。对于特征图B和特征图C,其原始尺寸为C×H×W,将二者从三维特征经Reshape 操作转换到二维特征,尺寸变为C×N(N=H×W),之后将特征图B进行转置,其形状变为N×C,并与特征图C相乘,获得空间注意力值Wspatial;特征图D同样经过Reshape 操作变为C×N,将特征图D与Wspatial相乘获得空间维度上筛选后的特征图,最后将特征图Reshape 为C×H×W。

空间注意特征图的计算过程如下:

式中:Sji度量第i个位置对第j个位置的影响,即第i个位置和第j个位置之间的关联程度,其值越大越相似。其输出为:

其中:α表示尺度系数,初始化为0,通过逐渐地学习分配到更大的权重。在每个位置处得到的结果特征M是所有位置上的特征和原始特征的加权和,它具有全局上下文视图,并根据空间注意力图选择性地聚合上下文,使相似的语义特征相互增益,从而提高类内紧凑性和语义一致性。

对于高语义的特征图E,则不经过1×1 卷积操作进行特征映射,直接进行Reshape 操作分别获得二维特征图F,G,H。将特征图F进行转置使得其形状变为N×C(N=H×W),转置后的特征图F与G相乘获得通道维度的注意力值Wchan-nel,将Wchannel与特征图H相乘获得通道维度上筛选后的特征图,最后将特征图Reshape 为C×H×W。

通道注意特征图的计算如下:

式中Xji为第i个通道对第j个通道的影响值。其输出为:

其中:β表示尺度系数,初始化为0,经过逐渐学习分配到更大的权重。每个通道的结果特征为N,表示所有通道特征和原始特征的加权和。

最后,将高低层筛选后的特征图相加获得特征结果图。

3 实验及结果分析

3.1 数据集及预处理

本文使用的数据集为公开数据集COVID-19 CHEST X-RAY DATABASE[16-17],该数据集由来自卡塔尔大学和达卡大学的研究人员以及来自巴基斯坦和马来西亚的合作者与医生合作创建。分类实验选取其中的COVID-19 阳性病例、正常肺部图像以及病毒性肺炎图像,如图7 所示。将数据集经简单筛选后重新分成训练集和验证集。其中,训练集包括2 893 张COVID-19阳性病例图像、2 400 张正常肺部图像以及1 076张病毒性肺炎图像;测试集包括723 张COVID-19 阳性病例图像、600 张正常肺部图像以及269张病毒性肺炎图像。将所有不同尺寸的原始图像缩放至224×224 像素,然后转换为向量格式并进行像素值归一化处理。

图7 数据集展示Fig.7 Dataset display

3.2 评价指标

通过对分类模型实验结果的定量对比,能够判断分类模型的优劣。本文主要以准确率(Accuracy,A)、平均精确率(Precision-Macro,P)、平均召回率(Recall-Macro,R)、平均F1 值(F1 score-Macro,F1)和AUC 值为评价指标,分析了改进的网络模型对肺炎分类效果的影响。

评价指标的数学表达式如下:

其中:TN,TP,TN 和FN 分别表示真阳性、假阳性、真阴性和假阴性的数量,TP 是正确标记为阳性的模型预测结果的数量,FP 是错误标记为阳性的模型预测结果的数量,TN 是正确标记为阴性的模型预测结果的数量,FN 是错误标记为阴性的模型预测结果的数量。

本文在三分类模型中单独计算每一类的评价指标,最后求评价指标的算术平均。此外,AUC 被定义为ROC 曲线下与坐标轴围成的面积,作为数值可以直观地评价分类器的好坏。AUC 越大,分类器效果越好。

3.3 实验环境

实验环境为Windows Server 2019 Datacenter 的64 位系统,搭载Intel Xeon Gold 6154,3.0GHz x36 CPU 处理器,计算机内存为256 GB,采用两块并行的TITAN Ⅴ显卡加速图像处理,程序编写采用Python 语言,基于GPU 版本的Pytorch 框架进行网络搭建和训练。使用Adam 优化器进行优化,学习率衰减值设置为0.000 1,对于肺部X 射线数据集的训练周期设为150,训练批处理大小设置为8。损失函数使用交叉熵损失。

3.4 消融实验与分析

为了评估模块的有效性,通过不同的网络模型来测试各个模块,评估指标包括准确率(A)、宏平均精确率(P)、宏平均召回率(R)、宏平均F1 值和AUC 值,如表1 所示。本文在DPN92 网络的基础上依次进行8 项实验。Network1:DPN92 网络;Network2:添加CDAFFM 的DPN92 网络;Network3:与GLFEM 结合的DPN92 网络;Network4:将初始特征提取块改为GADRM 的网络;Network5:使用 CDAFFM 以及 GLFEM 的DPN92 网络;Network6:使用GADRM 以及GLFEM 的网络;Network7:使用GADRM 以及CDAFFM 的网络;Network8:本文所提出的DRT Net。

表1 消融实验结果对比Tab.1 Result comparison of ablation experiments

与Network1 相比,Network2 在添加了CDAFFM 模块后的性能参数均有所提升,准确率、精确率、召回率、F1 值与AUC 值分别提升了0.33%,1.42%,1.29%,1.87%与0.17%,由此证明CDAFFM 模块能够将不同阶段的特征融合增强,增强了模型对特征的提取能力;Network3 在添加GLFEM 模块后的准确率、精确率、召回率、F1 值与AUC 值分别提升了0.49%,1.60%,1.79%,2.08%与0.28%,证明了GLFEM 模块的有效性;Network4 在添加GADRM 模块后的准确率提升了0.55%,精确率提升了2.35%,召回率提升了4.01%,F1 值提升了3.83%,AUC 值提升了0.44%,由此验证了GADRM 模块能够使网络具有更好的提取特征。

添加两个模块的Network5,6,7 的各项评价指标又高于只添加一个模块的Network2,3,4;添加GADRM,GLFEM 与CDAFFM 3 个模块的DRT Net 性能最好,且与初始的Network1 模型相比,肺炎分类的准确率从初始的96.92%上升到 98.41%,精确率从 91.28% 上升到94.42%,召回率从90.26%上升到94.20%,F1值从 90.03% 上升到 94.26%,AUC 值从98.84% 上升到99.65%。由此可知,本文所提出的DRT Net 性能最优,在肺部X 射线图像数据集上对于肺炎的分类性能最佳。为了更直观地进行实验对比,绘制消融实验结果雷达图,如图8 所示。DRT Net 折线位于最外侧,模型性能最优。此外,为了考察不同模型对于三类样本分类预测的标签(Y-Pre)和真实情况(Y-True)之间的差异,本文采用混淆矩阵对消融实验测试结果进行可视化,如图9 所示。通过混淆矩阵对比可以看出,DRT Net 对三类样本的识别更为均衡且分类效果更优,能够实现肺炎的准确分类。

图8 消融实验结果雷达图Fig.8 Radar chart of ablation experiment results

图9 消融实验中各模型的混淆矩阵Fig.9 Confusion matrix of each model in ablation experiments

3.5 对比实验与分析

为了验证本文模型对于肺炎的分类能力,在同一数据集[16-17]上 与 ResNet50[5],ResNet101[5],Res2Net50[18],DenseNet121[19],Resnext101[20],MobileNetV2[21]和DPN92[22]等网络模型进行对比,实验结果如表2 所示。在经过数据预处理的数据集上训练网络,本文模型的准确率为98.41%,精度为94.42%,召回率为94.20%,F1 值为94.26%,AUC 值为99.65%,性能优于其他网络,具有更好的分类性能。对比实验结果雷达图如图10 所示,DRT Net 折线位于最外侧,性能最好。本文采用混淆矩阵对各模型测试集的结果进行可视化,结果如图11所示。通过混淆矩阵对比可以看出,DRT Net对于三类样本的识别能力相较其他分类网络更为均衡且分类效果更优。

图11 各模型分类结果的混淆矩阵Fig.11 Confusion matrix of classification results for each model

4 结论

本文提出了一种面向特征增强的双残差Res-Transformer 肺炎识别模型DRT Net,设计了GADRM,采用双残差结构进行高效的特征融合,将通道混洗、通道注意力、空间注意力与双残差结构结合,提升模型对病灶区域特征的提取能力;在网络末端采用GLFEM,结合CNN 和Transformer 的优势使网络充分提取图像的全局特征和局部特征,对高层语义信息进行全局建模,获得高层语义信息的全局特征;设计了CDAFFM,融合浅层网络的纹理、边缘等空间信息以及深层网络的通道信息,进一步增强网络的特征提取能力。在COVID-19 CHEST X-RAY数据集上进行相关实验,实验结果表明,DRT Net 网络的准确率、精确率、召回率、F1 值和AUC 值分别为98.41%,94.42%,94.20%,94.26%和99.65%。该模型能够辅助放射科医生使用胸部X 光影像诊断肺炎病例,对患者及时展开针对性的治疗。

猜你喜欢
全局残差注意力
Cahn-Hilliard-Brinkman系统的全局吸引子
基于双向GRU与残差拟合的车辆跟驰建模
量子Navier-Stokes方程弱解的全局存在性
让注意力“飞”回来
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
落子山东,意在全局
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
平稳自相关过程的残差累积和控制图