马金林,欧阳轲,马自萍,毛凯绩,陈勇
1.北方民族大学计算机科学与工程学院,银川 750021;2.北方民族大学图像图形智能处理国家民委重点实验室,银川 750021;3.宁夏医科大学总医院放射介入科,银川 750004
随着卷积神经网络(convolutional neural network,CNN)的发展,深度学习(deep learning,DL)已经成为研究肝脏疾病诊断的主要方法。Che等人(2021)设计了一种多特征引导的多尺度残差卷积神经网络(multi-feature guided multi-scale residual convolutional neural network)来捕获不同感受野的特征,用于非酒精性脂肪肝(nonalcoholic fatty liver disease,NAFLD)分类,但忽视了模型参数骨架优化关系,且引入的3种大卷积核增大了网络的参数量和计算量。Guo等人(2019)采用深度学习模型Mask-RCNN(region convolutional neural network)对成团的脂肪变性液滴进行识别,用于检测边界框和预测对象掩码,但是该方法的区域建议网络生成的预选框对小物体检测效果不佳。Lee等人(2018)将分组卷积(group convolution)应用到单级多框检测器SSD(single shot detector)中,有效利用了多阶段数据的丰富信息,但无法解决低层病灶特征图语义性偏弱和高层病灶特征图对细节感知较差的问题。Tao等人(2019)提出了一种注意特征聚合机制,通过引入上下文注意模块(contextual attention module)和空间注意模块(spatial attention module)提取更重要的判别特征,并通过软重采样选择性地聚合不同肝肿瘤切片的信息,但忽略了病变与非病变特征之间的通道相关区域。Kesav和Jibukumar(2022)利用两通道卷积神经网络进行脑瘤检测,基于RCNN进行两阶段检测,但是双阶段的检测算法具有执行时间长和执行效率低的问题。Zhang等人(2021)提出基于蒙特卡罗dropout(Monte Carlo dropout,MC-Drop)的贝叶斯YOLOv4(you only look once version 4)网络,为乳腺肿瘤检测网络引入不确定性。由于特征提取阶段的理论感受野较小,该网络易遗漏大阴影附近的小肿瘤。可以看出,肝脏肿瘤检测存在以下亟待解决的问题:1)小病灶的检测能力较弱;2)模型参数量较大导致模型运行效率低、对设备性能要求高;3)模型对低层特征图病灶的语义特征描述能力偏弱,对高层特征图病灶的细节感知能力较差。
针对上述问题,为提升肝脏疾病的诊断精度,优化不同尺寸病灶的检测能力,本文提出一种用于肝脏肿瘤检测的多尺度自适应融合网络(multiscale adaptive fusion network,MAEfficientDet),本文主要完成以下工作:1)设计高效倒置瓶颈块(efficient inverted bottleneck convolution,EFConv)有效解决移动倒置瓶颈块的挤压激励网络维度和参数量较大问题;2)设计关注肝脏病灶区域特征的多尺度块(Multiscale-A,Multiscale-B),扩大网络有效感受野,提高了体积偏小病灶的检测能力;3)设计多通路自适应加权特征融合块(multi-channel adaptive weighted feature fusion block,MAWFF),自适应地融合肝脏肿瘤图像的高层语义特征与底层细粒度特征,提高特征的利用率和模型的检测能力。
随着深度神经网络的发展,基于深度学习的目标检测(object detection)成为目标检测的主要方法(Liu等,2020;Ma等,2020)。神经网络模型通过缩放网络宽度、网络深度或图像分辨率取得了更高的准确率。为了满足资源受限设备的需求,Google(Tan等,2020)提出轻量级、可扩展的高效目标检测网络(EfficientDet),如图1所示,该网络包括EfficientNet、加权双向特征金字塔网络(bidirectional feature pyramid network,BiFPN)、分类预测网络和边界框回归预测网络。
图1 EfficientDet模型
EfficientDet系列网络通过神经结构搜索算法(neural architecture search,NAS)(Zoph和Le,2017)对网络深度、网络宽度和图像分辨率复合缩放,并平衡3个维度的缩放比例,提出了包含EfficientDet-D0—EfficientDet-D7的8个模型,依次作为主干网络提取特征映射。BiFPN利用跨尺度连接在不增加过多计算成本的情况下融合更多特征,加权特征融合使网络学习不同特征的重要性,分类预测网络判定目标所属类别,边界框回归预测网络定位目标位置。与单维度检测网络(He等,2017;Lin等,2017a, b;Liu等,2016;Redmon和Farhadi,2018)相比,EfficientDet网络更容易提取更多的语义信息,在更少参数量的前提下获得更高的准确率。本文使用EfficientDet-D0和EfficientDet-D1作为基础框架。
特征融合(feature fusion)方法广泛应用于目标检测任务(尉婉青 等,2021;谢星星 等,2022),用于整合不同深度、不同层次的特征,充分利用多尺度特征缩小不同层之间的语义鸿沟,获得更具判别力的输出特征层,使检测器能够同时学习到足够的细节信息和语义信息。
特征金字塔(feature pyramid network,FPN)(Lin等,2017a)是一种典型的特征融合方法,采用自上而下等权重的特征融合方法,但存在以下两个问题:1)自上而下等权重的特征融合方法未区分不同特征层的重要程度;2)金字塔不同层对同一特征采取不同的处理方式易造成特征冲突,这种特征冲突在训练期间会干扰梯度计算,降低特征金字塔的有效性。
自适应空间特征融合方法(adaptively spatial feature fusion,ASFF)包括重新缩放和自适应融合两个步骤(Liu等,2019),旨在解决单阶段目标检测特征金字塔存在的不一致性问题。自适应空间特征融合方法通过学习有效权重,自适应地调整不同特征层的融合比例,优化融合过程,在空间上过滤其他层的无用信息,改善特征融合中的图像空间信息冲突和特征金字塔中的不一致性问题。
本文提出多尺度自适应融合的肝脏肿瘤检测方法MAEfficientDet,网络结构如图2所示。MAEfficientDet包括7个高效倒置瓶颈大结构块、2个多尺度块A、3个多尺度块B、1个多通路自适应加权特征融合块、肝肿瘤类别预测网络和肝肿瘤位置预测网络6个部分。与EfficientDet模型相比,MAEfficientDet进行了3方面改进:1)用高效倒置瓶颈块替换移动倒置瓶颈块,实现了跨通道信息交互,在显著降低模型复杂性的同时保证检测性能;2)使用多尺度块提高有效感受野,增强肝脏肿瘤区域识别能力和模型鲁棒性;3)用多通路自适应加权特征融合块替换双向加权特征金字塔网络,抑制不同尺度特征图之间的不一致性,同时,采用多通路自适应加权特征融合块选择性地整合多个特征层,保证特征的尺度不变性。
根据高效倒置瓶颈大结构块和多通路自适应加权特征融合块的层结构差异和多尺度块的特征维度差异,MAEfficientDet分为MAEfficientDet-D0和MAEfficientDet-D1两种网络,结构如图2所示。MAEfficientDet-D1模型的7个高效倒置瓶颈大结构块从1层到7层分别包含1、2、2、3、3、4、1个高效倒置瓶颈块。模型包含2个多尺度块A和3个多尺度块B。多尺度块A和多尺度块B均采用最大池化,从浅层特征层P3_in到深层特征层P7_in输出维度分别是(64,64,40)、(32,32,112)、(16,16,320)、(8,8,64)和(4,4,64)。模型的多通路自适应加权特征融合块中含有3个自顶向下特征提取块、3个自底向上特征提取块和1个自适应空间特征融合块。MAEfficientDet-D0的7个高效倒置瓶颈大结构块从1层到7层分别包含2、3、3、4、4、5、2个高效倒置瓶颈块。多尺度块A和多尺度块B从浅层特征层P3_in到深层特征层P7_in输出维度分别是(80,80,40)、(40,40,112)、(20,20,320)、(10,10,88)和(5,5,88)。MAEfficientDet-D1的多通路自适应加权特征融合块中含有4个自顶向下特征提取块、4个自底向上特征提取块和1个自适应空间特征融合块。
图2 MAEfficientDet的网络框架
图3列出了EfficientDet-D0、MAEfficientDet-D0和MAEfficientDet-D1的网络结构,描述了输入和输出特征的尺寸。
图3 EfficientDet-D0、MAEfficientDet-D0和MAEfficientDet-D1网络结构
挤压激励网络(squeeze-and-excitation networks,SE-Net)(Hu等,2018)的主要思想是增强提供更多有用特征的通道,抑制提供较少有用特征的通道。实际部署中,SE模块存在占用过多计算资源和网络推理过程较慢的问题。因此,本文在移动倒置瓶颈块(mobile inverted bottleneck convolution,MBConv)的基础上设计了高效倒置瓶颈块(efficient inverted bottleneck convolution,EFConv)。EFConv在移动倒置瓶颈结构中加入1维卷积和残差连接,用于替代挤压激励网络,其原理如图4所示。
图4 高效倒置瓶颈块结构
高效倒置瓶颈块的结构如下:通过扩展卷积扩展输入图像的通道,获得更多特征层;使用深度可分离卷积(Howard等,2017)提取各层特征;引入无降维的局部交叉信道交互策略实现跨通道信息交互,利用1维卷积显著降低模型复杂性的同时保持性能;使用降维卷积压缩通道数量;使用残差连接缓解梯度弥散的同时提高参数传递效率,使网络模型易于训练。
挤压激励网络使用全连接层捕获跨通道交互信息,使用降维操作减少模型复杂度,但维度减少对通道注意力预测产生了消极影响。另外,捕获所有通道之间的依赖关系是低效而非必要的。为解决此问题,本文在全局平均值池化后使用1维卷积捕获跨通道交互信息,在保证计算效率的同时,提升模型有效性。通过加入反向残差结构解决梯度弥散和梯度爆炸问题,加速网络收敛。为了尽可能保持图像特征的多样性,增强网络表达能力,高效倒置瓶颈块的最后一层使用线性激活函数有效保留低维输入信息。
MAEfficientDet-D0和MAEfficientDet-D1分别使用16个和23个高效倒置瓶颈块。其中,顶层块在保证特征图通道数的前提下降低分辨率,低层块在不丢失太多信息的情况下从高维特征图提取特征。将高效倒置瓶颈大结构块3、5、7最后一层输出特征作为多尺度块的输入特征。
深层卷积的有效感受野远小于理论感受野,多通路自适应加权特征融合块(MAWFF)的感受野不足以捕捉肝脏肿瘤图像的上下文信息。因此,本文设计多尺度块(Multiscale-A,Multiscale-B)添加在MAWFF之前,以扩展MAWFF的有效感受野。多尺度块的结构如图5所示。多尺度块A、B参考了Inception(Szegedy等,2016)的多分支结构,在其上加入残差连接和不同尺度的最大值池化操作,用于提取深层网络的上下文特征,从而使检测器更加准确、快速。多尺度块的内部结构可分为不同内核的多分支卷积层和最大值池化操作。其特点为:1)使用1 × 1卷积过滤无用信息;2)不同分支使用不同的卷积核获得多个不同大小的特征图,网络深度的增加和网络宽度的扩展提高了模型对网络规模的适应性;3)使用不同感受野的最大值池化操作减小特征图尺寸并防止网络过拟合;4)使用残差连接提高网络参数传递效率。
图5 多尺度块的结构
在卷积神经网络的参数学习过程中,标准方形卷积的参数是随机初始化的,因此内核矩阵可能朝着4个边(角)方向优化,忽略了平均重要性更高的中心点参数,易导致网络特征提取能力降低。本文采用非对称卷积(asymmetric convolution)结构,将水平卷积和垂直卷积添加到标准卷积中,形成非对称卷积块,其原理如图6所示。非对称卷积块通过中心十字组成的增强骨架关注中心点特征。
图6 非对称卷积块结构图
多尺度块使用1维非对称卷积增强平方卷积核,在不增加推理时间和计算负担的前提下,不引入额外超参数。3 × 3卷积总是学习每一层的中心十字增强骨架,突出了中心点参数的重要性。
MAEfficientDet-D0和MAEfficientDet-D1均包含5个多尺度块(2个多尺度块A和3个多尺度块B),用于提取图像的深层病灶特征,解决深层语义信息在向低层传输的过程中逐渐稀释的问题。
自顶向下的特征提取块是任务驱动型特征提取块,用于获取语义信息,结构如图7所示。
图7 自顶向下特征提取块
自底向上的特征提取块是数据驱动型特征提取块,用于将空间的细节信息从低层网络传递到高层网络,结构如图8所示。
图8 自底向上特征提取块
自适应空间特征融合块过滤空间冲突信息,以抑制不同尺度特征图之间的不一致性,提高特征的尺度不变性,并进一步解决因简单添加特征产生分类错误而导致的错误识别问题,结构如图9所示。
图9 自适应空间特征融合
图9中,α,β,γ,δ,η是网络通过反向传播自动生成的。
第i层自顶向下的特征提取公式为
(1)
第i层自底向上的特征提取公式为
(2)
自适应空间特征融合块位于自顶向下特征提取和自底向上特征提取块之后,用于融合特征层P3到P7的深层特征和浅层特征。自适应空间特征融合块自适应地学习不同尺度上的特征融合权重,其特征融合公式为
Ki=α×Vj+β×Vj+1+γ×Vj+2+
δ×Vj+3+η×Vj+4
(3)
MAEfficientDet-D0和MAEfficientDet-D1在多尺度块之后加入MAWFF,利用自底向上特征提取块将病灶的细节信息从底层特征矩阵传递到了高层特征矩阵,弥补了高级语义特征的空间信息不足,提高了肿瘤病灶边界检测的准确性;利用自顶向下特征提取块加强了网络对模糊病灶的类别检测精度;自适应空间特征融合块有效地融合两条路径的细节特征,突出重要病灶并抑制背景噪声。
使用肝脏肿瘤分割挑战数据集(liver tumor segmentation,LiTS)(Bilic等,2019)和3D-IRCADb数据集(3D image reconstruction for comparison of algorithm database,3D-IRCADb)(Ircad France,2020)开展实验。
3D-IRCADb数据集由3DIRCADb-01和3DIRCADb-02组成。3DIRCADb-01包含10名男性和10名女性的静脉期数据,其中15个患者有肝脏肿瘤。3DIR CADb-02数据集包含两组3D CT扫描数据。
实验以17∶3的比例将带有标签的CT图像划分为训练集和测试集。
LiTS和3D-IRCADB的分割标签的灰度级直方图具有明显的双峰特性,如图10所示。因此,用双峰算法进行数据预处理。首先,使用全局阈值245过滤图像。然后,使用高斯滤波平滑和Sobel算子得到梯度图。最后,将得到的图像进行拓扑结构分析、边界跟踪、提取边界轮廓,得到检测标签。
图10 肝脏肿瘤分割标签灰度直方图和肝脏肿瘤
实验采用搭载Intel i7处理器的Windows10 64位操作系统,内存为32 GB,英伟达2080 GPU。使用Adam优化器进行优化,不同网络模型在同一数据集上使用相同参数训练,达到固定周期时停止训练,最后选择损失达到稳定时的权重对模型架构进行测试评估。
使用K-means算法对数据集的真实框进行聚类,获得新的先验框。为减少聚类偏差,使用遗传算法对K-means聚类算法的结果进行随机改变,并将效果变好的结果赋值给先验框。最终生成的先验框尺寸如表1所示。表中特征图P3—P7对应的是高效倒置瓶颈大结构块③—⑦的输出特征层。
表1 K-means算法生成的先验框
为了客观全面地评价网络性能,方便与其他算法进行比较,选用精确率(precision,P)、召回率(recall,R)、F1分数(F1 score)、AP(average precision)和mAP(mean average precision)作为评价指标。
为了评估模型每个模块和组件的有效性,在肝脏肿瘤分割调整数据集上进行消融实验。本文模型是在EfficientDet的基础性加入高效倒置瓶颈块、多尺度块和多通路自适应加权特征融合块实现的。因此,首先考察在EfficientDet的两个子模型上分别增加高效倒置瓶颈块、多尺度块、多通路自适应加权特征融合块的消融实验。
4.1.1 高效倒置瓶颈块的有效性
实验使用高效倒置瓶颈块代替EfficientDet-D0和EfficientDet-D1模型的移动倒置瓶颈块,得到EIR_EfficientDet-D0和 EIR_EfficientDet-D1模型,实验结果如表2和表3的模型2所示。
由表2模型1、2对比可得,加入高效倒置瓶颈块后,EfficientDet-D0的精确率提高了4.19%,参数量下降了16.64%,运行总时间减少了4.73%,mAP值由0.811 0提高至0.854 6。
由表3模型1、2对比可得,加入高效倒置瓶颈块后,EfficientDet-D1的精确率提高了0.29%,参数量下降了17.13%,运行总时间减少了4.51%,mAP值由0.821 9提高至0.855 6。
由此可见,高效倒置瓶颈块能够提升模型对肝脏疾病的检测能力,并具有更高的效率和更少的参数。
4.1.2 多尺度块的有效性
实验在EfficientDet-D0和EfficientDet-D1模型上添加多尺度块,得到M_EfficientDet-D0和M_EfficientDet-D1模型,实验结果如表2和表3中的模型3所示。
由表2中模型1、3对比可得,EfficientDet-D0加入多尺度块后的精确率提高了4.49%,mAP值由0.811 0提高至0.849 8,AP值由0.760 1提高至0.801 0,参数量增加了16.64%,运行总时间增加了4.67%。
由表3中模型1、3对比可得,EfficientDet-D1加入多尺度块后的精确率提高了0.29%,mAP值由0.821 9提高至0.855 6,AP值由0.787 0提高至0.822 4,参数量增加了15.18%,运行总时间增加了8.61%。
由此可见,多尺度块能够有效提升网络特征提取和识别能力,对小目标识别检测有较好提升效果。
4.1.3 多通路自适应加权特征融合块的有效性
实验在EfficientDet-D0和EfficientDet-D1模型上添加多通路自适应加权特征融合块,得到EfficientDet-D0(MAWFF)和EfficientDet-D1(MAWFF)模型,实验结果如表2和表3中的模型4所示。
表2 MAEfficientDet-D0消融实验结果分析
表3 MAEfficientDet-D1消融实验结果分析
由表2中模型1、4对比可得,EfficientDet-D0加入多通路自适应加权特征融合块后的精确率提高了4.64%,mAP值由0.811 0提高至0.852 8,参数量增加了14.86%,运行总时间增加了5.84%。
由表3中模型1、4对比可得,EfficientDet-D1加入多通路自适应加权特征融合块后的精确率提高了0.28%,mAP值由0.821 9提高至0.858 6,参数量增加了16.28%,运行总时间增加了9.10%。
由此可见,多通路自适应加权特征融合块在提高少量网络复杂性的同时,可以有效提高网络对模糊图像的类别检测精度。
上述3个实验验证了高效倒置瓶颈块、多尺度块和多通路自适应加权特征融合块3个模块的有效性,其中,多通路自适应加权特征融合模块的性能提升尤为突出,原因在于该模块融合了含有上下文信息的深层特征和含有细节信息的浅层特征,提高了模型对病灶特征的表达能力。
本实验考察不同损失函数对分类结果的影响,分类任务常用的损失函数有交叉熵损失、焦点损失、合页损失、指数损失和softmax损失等。交叉熵损失函数利用梯度下降方法找到最优解,而焦点损失对交叉熵损失进行改进,解决了单阶段目标检测中正负样本比例严重失衡的问题。因此,本文方法选取焦点损失作为分类任务的损失函数。边界框回归损失都采用smooth L1 loss,分类损失和边界框回归损失按照1∶1等比例混合。表4为EfficientDet模型在肝脏肿瘤分割调整数据集上不同分类损失下的实验结果。
使用焦点损失替换交叉熵损失后,表4中模型1、2对比可得,EfficientDet-D0的精确率提高了1.06%,mAP值由0.807 6提高至0.810 8。表4中模型3、4对比可得,EfficientDet-D1的精确率提高了3.28%,mAP值由0.822 9提高至0.828 5。表4中模型5、6对比可得,MAEfficientDet-D0的精确率提高了1.56%,mAP值由0.854 7提高至0.863 0。表4中模型7、8对比可得,MAEfficientDet-D1的精确率提高了4.41%,mAP值由0.869 8提高至0.873 9。
图11描绘了基于EfficientDet的不同模型(对应表4中模型1—8)在种交叉熵损失函数和焦点损失下的雷达图。由图可知,采用焦点损失优化模型的mAP值均优于交叉熵损失函数优化的模型。本文基于EfficientDet-D1改进的MAEfficientDet-D1网络模型,采用焦点损失和Smooth L1损失作为总损失,在精确率、mAP值和F1分数3项检测指标上获得了最高数据。较表4中模型4在精确率、mAP值和F1分数上分别提高7.4%、5.48%和6.34%。较表4中模型7在精确率、mAP值和F1分数上分别提高了4.41%、0.47%和1.87%。采用交叉熵损失和smooth L1损失作为总损失的EfficientDet-D0网络模型,在召回率、精确率、mAP值和F1分数3个检测指标获得最低数据。较表4中模型2分别降低了1.06%、1.06%、0.4%和1.06%。
图11 基于EfficientDet不同模型在两种分类损失函数下的雷达图
表4 EfficientDet模型在两种分类损失函数下的实验结果
图12描绘了4种算法在肝脏肿瘤分割挑战数据集上进行肿瘤检测的PR曲线。由图可知,使用二分类焦点损失函数的EfficientDet-D0、EfficientDet-D0、EfficientDet-D1、MAEfficientDet-D0和MAEfficientDet-D1模型的召回率、精确率、mAP和F1都有较大提升,尤其是代表检测性能的mAP值。使用二分类焦点损失函数的模型更加关注困难样本和正样本,减少样本不均衡,检测性能明显优于交叉熵损失函数,精确率也更高。MAEfficientDet-D0和MAEfficientDet-D1模型检测性能整体上均优于其他模型,说明该模型能较好地识别形态各异的肝脏肿瘤病灶区域,对难于识别的样本也能进行更精准的检测。
图12 EfficientDet模型在两种损失函数下的PR曲线
为验证模型的检测性能,将EfficientDet-D0、EfficientDet-D1、MAEfficientDet-D0和MAEfficientDet-D1模型与其他6种SOAT算法(SSD512(single shot multibox detector)(Liu等,2016)、YOLOv3(you only look once)(Redmon和Farhadi,2018)、YOLOv4(Bochkovskiy等,2020)、YOLOv5、Faster-RCNN(faster region convolutional neural network)(Ren等,2015)和CenterNet(Zhou等,2019))在LiTS和3D-IRCADb数据集上的性能进行对比,探究不同算法在不同样本空间上的检测精度和检测效率。LiTS和3D-IRCADb数据中像素面积小于32×32的病灶目标为小目标,实验时均匀地从每个病例中随机挑选100幅包含肝脏肿瘤病灶小目标的图像,用于验证不同模型体积偏小病灶的检测能力,结果如表5和表6所示,雷达图如图13所示。
图13 不同模型在不同数据集上的雷达图
表5 不同模型在LiTS数据集上检测的结果
表6 不同模型在3D-IRCADb数据集上检测的结果
可以看出,采用MAEfficientDet-D0和MAEfficientDet-D1检测网络模型时,召回率、精确率、mAP、AP和F1等5项检测指标均高于其他方法。在LiTS数据集上,MAEfficientDet-D0较EfficientDet-D0分别提高7.48%、9.57%、6.42%、7.96%和8.52%。MAEfficientDet-D1较EfficientDet-D1分别提高3.47%、6.64%、6.33%、8.12%和5.02%。在3D-IRCADb数据集上,MAEfficientDet-D0较EfficientDet-D0分别提高5.51%、9.82%、6.16%、7.39%和7.63%。MAEfficientDet-D1较EfficientDet-D1分别提高5.87%、6.24%、5.81%、9.39%和6.05%。
MAEfficientDet-D0和MAEfficientDet-D1与双阶段检测网络Faster-RCNN(Res50)、Faster-RCNN(mobilenet_v2)和Faster-RCNN(Res50 + FPN)相比,在更少参数量、计算量和运行总时间下,能更精准地提取图像中具有区分度的特征,具有更高的模型效率。MAEfficientDet-D0和MAEfficientDet-D1与经典单阶段检测网络SSD512(VGG)相比,相同点是三者都结合来自不同分辨率的多个特征图进行预测,不同之处在于单级多框检测器SSD直接使用特征图进行类别和位置预测,而MAEfficientDet-D0和MAEfficientDet-D1使用多通路自适应加权特征融合块融合低层信息和高层语义,提升了检测性能。MAEfficientDet-D0、MAEfficientDet-D1的骨干网络和SSD相比,SSD借鉴VGG网络,层层堆叠卷积层和池化层,而MAEfficientDet-D0和MAEfficientDet-D1骨干网络引入高效倒置瓶颈块,使用跳跃连接缓解深度增加带来的梯度消失问题,使网络更易于优化。MAEfficientDet-D0和MAEfficientDet-D1各项检测评价指标较使用特征金字塔结构的YOLOv4(CSPDarknet)和YOLOv3(Darknet53)均有提升,进一步论证了多通路自适应加权特征融合能在一定程度上过滤冲突信息,抑制不同尺度特征图之间的不一致性,提高特征的尺度不变性,更好地识别肝脏肿瘤的病变区域,提升了模型检测性能。MAEfficientDet-D0和MAEfficientDet-D1与无锚框检测网络CenterNet相比,不同点是CenterNet构建模型时采用关键点估计来找到中心点,将目标用一个中心点表示(anchor free),而MAEfficientDet-D0和MAEfficientDet-D1使用基于先验框的检测算法,结合K-means聚类,并利用Genetic algorithm遗传算法对聚类结果上进行mutation变异,计算出适用于肝脏肿瘤检测数据集的锚框尺寸,取得了比anchor free技术更好的准确性和效率。MAEfficientDet-D0在参数量、计算量和运行总时间上均远小于CenterNet模型。
图14为12种网络的PR曲线,横坐标是召回率(查全率),纵坐标是精确率(查准率),由图可见,性能最好的3个模型依次是MAEfficientDet-D1、MAEfficientDet-D0和YOLOv5。3个模型的mAP值均大于0.85。Faster-RCNN(mobilenet_v2)的检测效果最差,mAP为0.682 78。另外,本文算法的目标检测性能明显优于其他模型,MAEfficientDet-D1具有更好的性能,能较好地学习和识别在空间尺度上差异较大的病变特征。MAEfficientDet-D1模型同时考虑骨干网络的分辨率、深度、宽度,进行混合缩放,在召回率、精确率、mAP、参数量和计算量方面均优于MAEfficientDet-D0模型。MAEfficientDet-D0和MAEfficientDet-D1模型增加了多尺度模块,扩展了MAWFF的有效感受野,聚集强相关性特征,并保持网络结构的稀疏性。另外,多尺度模块的残差连接缓解了梯度弥散和梯度下降问题。MAEfficientDet-D0和MAEfficientDet-D1添加多通路自适应加权特征融合块,进一步融合高级语义特征和底层病灶的细节特征,突出重要的肿瘤病灶并抑制背景噪声。MAEfficientDet-D0和MAEfficientDet-D1模型的检测性能明显优于EfficientDet-D0和EfficientDet-D1模型,进一步提高了肝脏图像中疾病检测的准确性。
图14 不同算法在肝脏肿瘤数据集上的PR曲线
图15显示了不同模型对肝脏肿瘤CT图像的检测结果图。如图所示,MAEfficientDet-D1的检测结果比EfficientDet-D1的置信度高,说明本文模型能更好地关注肝脏病变区域,可以有效检测病变位置和病变类型。进一步证明其在进行检测分析和病变类型识别时所依据的特征信息更加准确、有效。另外,病灶区域的可视化展示能够帮助医生在临床中进行快速精确诊断病情。
图15 肝脏肿瘤CT图像的检测结果
不同模型对肝脏小目标肿瘤CT图像的检测结果如图16所示。可以看出,本文模型对于小目标肿瘤同样有较好的识别效果,其结果优于现阶段其他主流检测模型。
图16 肝脏小目标肿瘤CT图像的检测结果
本文针对EfficientDet网络在肝脏肿瘤检测中效果不佳及小病灶无法精确识别问题,提出MAEfficientDet-D0和MAEfficientDet-D1网络。研究工作的主要内容包括:1)通过自适应融合各层特征图,解决了特征融合中图像空间信息冲突和特征金字塔中的不一致性问题;2)使用高效倒置瓶颈块降低模型复杂性,同时提升模型的有效性,解决EfficientDet模型的骨干特征提取网络参数效率低的问题,减少网络运行时间;3)使用多尺度块提升有效感受野,对病灶区域特征进一步关注,解决部分体积偏小的肝脏肿瘤病灶难以检测问题;4)使用先验框聚类和数据增强方法,从模型和数据两方面加强模型对肝脏肿瘤数据集的检测能力和泛化能力,解决肝脏肿瘤的形状大小不一及位置各异的问题。
然而,本文算法也存在不足:1)相比于当前检测速度最快的单阶段检测网络,存在提升空间;2)在更深的网络(例如EfficientDet-D7)上,本文算法可能比较难收敛。
在今后的研究中,一方面,针对肝脏肿瘤检测任务,将提升网络模型检测速度作为研究方向,进一步优化高效倒置瓶颈块结构的设计;另一方面,针对更深的网络,通过调参和优化提高算法普适性。