多模式特征融合网络肺结节良恶性分类方法

2023-12-11 07:11尹智贤夏克文武盼盼

计算机工程与应用 2023年23期

尹智贤，夏克文，武盼盼

1.河北工业大学电子信息工程学院，天津 300401

2.天津师范大学计算机与信息工程学院，天津 300387

由于侵袭性以及早期难以发现等特征，肺癌仍然是发病率和致死率最高的癌症之一。2022 年国家癌症中心发布的最新一期全国癌症统计数据显示，2016年我国新发肺癌约82.8 万例，占总新发癌症病例（406.4 万）的20.4%，高居癌症发病率榜首[1]。美国癌症协会发布的2022年美国癌症年度报告预测，平均每天会有350人死于肺癌[2]。数据显示，原位期、局部期和晚期肺癌的5年生存率分别为60%、33%和6%。因此，早诊断、早治疗对于提高肺癌患者生存率至关重要。早期肺癌多以结节征状存在，对结节良恶性的准确诊断成为肺癌预防和治疗的重要手段。病理学诊断是鉴别肺结节良恶性的基本依据。但其具有侵袭性，且耗时的问题。CT 扫描作为一种非侵入方法为肺结节诊断提供了有效补充。放射科医生通常逐层读取肺部CT图像来确定受试者是否含有恶性结节。然而，仅凭CT 形态学表现来区分结节良恶性仍然存在巨大的挑战，这通常高度依赖于放射科医生的经验。此外，放射科医生在高负荷状态下的疲劳或图像质量差可能导致的误判为人工阅片带来了严重困扰。因此，开发一种计算机辅助方法自动诊断肺结节良恶性具有重要临床意义。

当前针对肺结节良恶性分类的方法大致分为两类：基于影像组学的方法和基于深度学习的方法。前者根据任务需求，人工提取特征，例如结节的强度、形状、纹理、密度等，然后训练支持向量机（support vector machine，SVM）、随机森林（random forest，RF）、K近邻（k-nearest neighbor，KNN）等传统机器学习方法实现结节良恶性自动分类。Jacobs等[3]在传统的强度、形状、纹理特征外，引入新的上下文特征，为亚实性肺结节构建了一个含128个特征的集合以提升模型分类性能。Farag等[4]利用Gabor 滤波器、多分辨率LBP 以及融合LBP 的有符号距离提取了3 种类型的特征作为良恶性结节的特征描述符以指导KNN 和SVMs 的训练。Li 等[5]基于灰度共生矩阵、局部二进制模式（local binary pattern，LBP）和Gabor滤波方法，结合强度、几何和纹理特征，构建具有鉴别性的特征向量，利用改进的RF 分类器实现肺结节良恶性分类。Vanbang等[6]提出一种基于密度分布的特征提取方法，利用K-均值聚类计算肺结节像素值与聚类中心关系实现特征提取，进而使用随机森林分类器实现结节良恶性的鉴别。朱英亮等[7]利用改进的灰度-梯度共生矩阵提取了灰度熵、灰度分布不均匀性、混合熵等14 种纹理特征，利用改进的ReliefF 算法进行特征选择，最终使用K-means 算法实现肺结节良恶性分类。虽然以上方法能够达到较好的分类效果，但需要人工设计特征提取器，且训练样本大时易发生欠拟合现象。

近年来，深度学习技术在医学图像处理领域有了长足发展，相比于传统的基于人工设计特征提取器的肺结节分类方法，基于数据驱动的深度学习方法表现出更为优异的分类性能，并将用户从繁琐的手工特征提取中解脱出来。Zhang等[8]为捕获更多的高维语义信息引入了残差网络[9]，从不同尺度提取结节特征来提升模型分类精度。Xie 等[10]利用迁移学习，将在ImageNet 上预训练的三个ResNet-50模型转移到肺部CT图像中，以分别表征肺结节的整体外观、体素值异质性和形状异质性，有效地提升了分类精度。在此基础上通过将三维结节分解为九个固定视图来学习三维肺结节特征，联合训练了九个基于ResNet-50的模型实现了肺结节良恶性分类精度的提升[11]。但该方法需要训练多个模型，计算开销大。Sahu等[12]从多个视角获取结节横截面，设计了一种轻量的，基于多视图采样的卷积神经网络（convolutional neural network，CNN）分类结构。虽然该方法具有优异的分类性能，但一定程度上忽略了图像的全局特征。Al-Shabi等[13]研究了兼顾图像局部和全局特征的神经网络模型（例如Densenet[14]和Resnet[9]）在肺结节良恶性分类任务中的应用，并以残差网络为骨干网络，结合注意力机制[15]提出了一种能够使用全局特征提取器分析结节形状和大小，使用局部特征提取器分析结节密度和结构的新方法来预测结节恶性程度。虽然该方法在曲线下面积（area under the curve，AUC）指标上有了明显提升，但是在预测精度上还有欠缺。Wang 等[16]设计了不同尺度的滤波器提取结节局部特征，并构建多路径CNN结构，充分挖掘结节全局特征，实现了结节良恶性的精确诊断。汤宁等[17]从特征工程角度出发，对不同尺度、不同模式下肺结节图像对CNN 模型分类性能的影响进行了深入分析，提出了一种二维空间下的多尺度、多视图融合方法。孙浩天等[18]针对CT图像样本分辨率差异性问题，将标准三维卷积进行拆分，构建两种三维各向异性卷积以避免分辨率不同所带来的影响，并提出裁剪-非局部池化模块实现对结节区域和全局信息的兼顾，从而取得了不错的分类结果。Shi等[19]针对良、恶性肺结节样本不均衡问题，通过引入迁移学习策略，利用标记结节和未标记结节缓解样本不平衡问题，提出了一种基于迭代特征匹配的半监督方法以利用无病理信息的数据。

尽管以上基于深度学习的方法能够在肺结节良恶性分类任务中表现出良好的性能，但依旧存在一些不足。例如，基于多视图的分类方法需要大量的数据预处理操作，而基于多尺度的分类模型则需要同时训练多个模型，计算开销较大。此外，研究发现，当结节较小时，其周围组织会对结节良恶性判定带来干扰，此时所训练的模型易对该类结节产生误判。针对以上问题，本文设计了一种基于改进MobileNet V3[20]特征融合的肺结节良恶性分类方法来挖掘更多有用特征以提高算法的分类性能。本文主要工作如下：

（1）探讨两种图像模式，即带周围组织的原始肺结节图像和不带周围组织的肺结节图像对卷积神经网络模型分类性能的影响。

（2）构建一种双路径特征融合模型，在得到不同图像模式的判别性特征后进行特征融合，使得模型能够在充分挖掘带组织的原始肺结节图像信息的同时，有效提取肺结节区域的显著性特征，实现模型分类性能的提升。

（3）删除原MobileNet V3-small 骨干网络中最后四组bneck 模块，使模型参数量、计算复杂度和网络推理时间的大幅降低。引入convolutional block attention module（CBAM）[21]和ShuffleNet[22]通道混洗（channel shuffle）机制提升语义信息的提取效果和特征表达能力。

1 模型构建

1.1 总体结构设计

本文构建的多模式特征融合网络肺结节良恶性分类模型如图1所示。模型分为三个部分：

图1 本文所提网络结构模型Fig.1 Scheme of proposed network in this paper

第一部分（图1 中的Part 1）是数据预处理模块，该模块旨在制作合适的输入数据，由于同时使用原CT 图像和结节区域图像训练网络，因此需要将结节区域分割出来，本文利用U-Net[23]网络作为分割网络实现结节区域的提取。

第二部分（图1中的Part 2）是分类模型的特征提取及融合模块，该部分能够充分挖掘结节的全局信息以及结节自身的判别性特征，该模块分为上下对称的两个基于MobileNet V3 的子网络，但本文删除了MobileNet V3的分类器以及最后四组bneck模块，由于两个子网络结构相同，本文以其中一个子网络为例列举其具体参数，见表1。其中Input 表示输入图像或特征图的尺寸，Operator 对应图1 中特征提取网络的卷积层、bneck 模块、池化层，及卷积核大小，Exp size 为bneck 中第一层1×1卷积升维的通道数，Out是bneck输出特征图的通道数，CBAM 表示该层是否使用CBAM 模块，NL 为非线性激活函数（nonlinearity，NL），表示该层所使用的激活函数类型，HS 和RE 分别为HardSwish 函数和Relu 函数，s表示步长。

表1 特征提取子网络参数设置Table 1 Parameters setting of feature extraction subnetwork

第三部分（图1 中的Part 3）是分类模块，由两个全连接层（FC）组成，这两个全连接层的输入和输出通道数分别为（576，1 024）和（1 024，2）。最终通过训练，在判别性特征的引导下得出结节的良恶性分类结果。

1.2 基于U-Net的数据预处理模块

当结节较小或不明显时容易被复杂周围组织所干扰，因此提出了在使用含有周围组织的CT 图像训练的同时，再训练一个针对结节区域的特征提取网络，以抑制复杂背景对于结节良恶性判断的干扰。本文采用UNet 网络对结节区域进行提取，为了减小模型的计算开销，调整了U-Net 的通道数，令corigin和cnew分别为调整前、后卷积层输出通道数，那么调整后网络的卷积层输出通道数为：

如上式所示，所有卷积核输出通道数缩小为原卷积核输出通道数的四分之一，详细参数见表2。其中，c×f2表示特征的输入、输出尺寸，c和f2分别表示特征的通道数和特征图尺寸。ConvBlock 为U-Net 在Encoder 过程中每个阶段的卷积操作，每个ConvBlock包含两个卷积层，卷积结构统一采用3×3的卷积核，padding和stride均设置为1。采用一个2×2 的maxpooling 作为下采样模块。UpConv 为Decoder 过程中每个阶段的上采样模块，包含一个上采样层和两个卷积层。采样层使用双线性插值，卷积层的设置同ConvBlock。U-Net 的输入为1×642的肺结节图像，因此最后使用一个卷积层将64通道的特征图映射为1×642的分割结果。

表2 本文所用U-Net与原U-Net网络参数对比Table 2 Comparison between parameters of U-Net used in this paper and original U-Net

从表2 不难看出，当本文所采用的U-Net 网络的通道数c缩小为同一阶段的原始U-Net网络的1/4时，网络整体的参数量和计算复杂度显著降低。此外，为了尽量减小分割结果对后续训练精度的影响，将U-Net生成的结节掩码进行了膨胀（Dilate），以保证分割结果包含完整的结节区域。膨胀操作使用python 的cv2 库中的dilate函数，kernel设置为2×2。

1.3 基于改进MobileNet V3 的特征提取与融合模块

特征工程是深度学习模型的重要内容，良好的特征表示可以使模型用更少的资源更高效地解决问题。常见的基于深度学习的特征工程方法是从原始的肺结节CT 图像中提取所需特征，但当结节较小时其周围组织易对模型训练产生干扰。为提取更具判别性的特征，缓解结节较小时周围组织所带来的负面影响，本文还引入了另一图像模式作为训练集，即从含有大量组织的原始CT 图像中提取出对应的肺结节区域。一方面，将带周围组织的原始肺结节图像作为输入，有效提取原CT 图像的全局信息。另一方面，将提取的不带周围组织的肺结节区域作为输入，有效挖掘病灶区域的判别性特征。最后通过特征融合，使得模型能够在充分挖掘带组织的原始肺结节图像信息的同时，有效提取肺结节区域的显著性特征，以弥补结节较小时，网络过多关注其周围组织的从而产生误判的问题，从而实现模型分类性能的提升。

本文以轻量级网络MobileNet V3-small 为骨干网络，剔除了最后两层的全连接层，构建了上下对称的特征提取框架（如图1 Part 2所示）。其中，上面网络的输入图像模式是64×64 尺寸的原始肺结节CT 切片，下面网络的输入图像模式是对应的分割后的肺结节图像。两种模式的输入图像分别经过上、下两个网络后输出对应的特征图，经平均池化操作（average pooling，Avg-Pool）后在通道维度上拼接。由于MobileNet V3网络以RGB 图像作为输入，而CT 图像为灰度图像，因此在将CT 图像输入网络之前，复制CT 图像以生成RGB 通道图像。

本文虽采用MobileNet V3-small 为骨干网络做特征提取，但是对其中的结构做了一定的修改。首先，为了降低模型的参数量和计算开销，删除了最后四组bneck 模块。其次，原bneck 使用通道注意力（channel attention）实现了对不同通道的增强或抑制，却忽略了某一通道下不同特征在特定任务中的权重差异。本文引入CBAM 机制代替原通道注意力，其在通道注意力的基础上增添了空间注意力机制，这样在兼顾通道信息的同时，能够在空间维度上抑制不必要特征，图2 中的红色矩形框部分即为CBAM结构。NL，即nonlinearity，表示非线性激活函数，具体使用哪个激活函数参见表1。此外，借鉴ShuffleNet 通道混洗（channel shuffle）思想，在bneck 和特征融合过程中引入了channel shuffle 模块，通过对特征图的维度进行变换，捕捉通道之间的特征关系，实现信息在不同通道之间的交互，以更好地获得结节分类的判别性特征。

图2 改进后的bneck结构Fig.2 Structure of improved bneck

1.4 分类模块

分类模块（如图1Part 3所示）以混洗后的特征为输入。实现对输入样本良恶性的判别，实质就是一个二分类问题。经过混洗后的特征输入到由两个全连接层（即图1 中的两个FC 层）组成的分类器中，最终得到良恶性分类结果。这里并未在第二个全连接层后添加sigmoid函数将结果映射到0，1之间，分类模块的输出对应的是良、恶性的评分。

2 数据集与实验设置

2.1 数据集及预处理

数据集采用LIDC-IDRI[24]，该数据集由胸部医学图像文件（如CT、X 光片）和对应的诊断结果病变标注组成，共收录了1 018 个研究实例，对于每个实例中的图像，都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注，并对大于等于3 mm 的结节标注出三维轮廓坐标，且进行影像学特征评估，其中结节的恶性程度由放射科医生在等级1～5之间进行评判，评分越高则结节的恶性程度越高。由于患者的CT图像是由多名医师共同标注，所以同一个结节可能会有多个不同的恶性度评分。因此，参照文献[17，25]，对同一结节的恶性度评分取平均，结节评分大于3 定义为恶性，小于3 为良性，等于3代表恶性程度不确定，舍弃此类样本。最终从数据集中挑选出了1 559例结节，其中良性结节921例，恶性结节638例，具体样本分布见表3。

表3 不同样本的数据分布Table 3 Data distribution of different samples

本文所设计的网络针对的是2D的CT图像，首先根据专家标注结果提取包含肺结节区域的64×64 的图像块，对于每个结节，选取肺结节面积最大的切片作为代表构建数据集，并随机选取10%作为测试，90%用于训练和验证。各类实验及工程实践证明，训练一个高性能的神经网络需要大量的训练数据，因此数据增强方法被研究人员广泛使用。本文亦对训练数据集做了增广，方法如下：结节在肺部以3D形态存在，本文仅提取了其中一个横截面为代表，因此，可以将其他切片中标注好的结节提取出来加入训练数据中，以达到数据增强的目的。需要注意的是，在处理恶性结节时，过滤了结节面积较小的切片，以免对网络的训练带来干扰。数据增强后训练集和验证集的结节数量为7 235 个，其中80%用来训练，20%用来验证，增强后训练集和验证集总样本数量分布见表3。模型采用五折交叉验证进行训练，取平均值作为最终结果。

2.2 模型评价指标

为评估模型性能，采用准确率（accuracy，ACC）、敏感性（sensitivity，SEN）、特异性（specificity，SPE）、精确率（precision，PRE）、F1 值来评估模型的分类性能，其计算公式如下所示：

其中，TP、TN、FN和FP分别表示真阳性、真阴性、假阴性和假阳性结节。同时，为了更直观地评估模型性能，引入了受试者工作特征（receiver operating characteristic，ROC）曲线及其曲线下面积（area under the curve of ROC，AUC）。

3 实验结果与分析

本文组织了一系列实验来验证所提网络的性能。首先，探究不同输入图像模式对卷积神经网络模型分类性能的影响。其次，将本文方法与其他几种现有分类方法相对比，以直观体现所提方法的有效性。最后，描述了实验结果并进行了消融实验。实验仿真所用计算机硬件配置为Intel Core i7-9700K 处理器，NVIDIA RTX 2070S 显卡，内存16 GB，在开源框架Pytorch 上实现网络模型并进行训练。

3.1 训练参数设置

采用随机梯度下降（stochastic gradient descent，SGD）算法作为优化器进行梯度更新，动量设置为0.9，权重衰减系数5×10-4。设置输入数据的批量大小batch size为16，迭代次数为100，初始学习率为0.01，并采用余弦退火学习率调整每次迭代的学习率，损失函数采用交叉熵函数（cross entropy）。

3.2 不同图像模式对模型训练的影响

图1可以看出本文所提方法是双分支的网络模型，两条支路采用相同的卷积神经网络结构，但其输入图像模式不同。Path 1的输入是包含周围组织信息的64×64大小的肺结节CT 切片，Path 2 的输入是对Path 1 输入图像进行结节区域提取后的同尺寸的结节图像。本文评估了这两种图像模式下卷积神经网络的分类性能，见表4。可以看出输入图像模式的不同，使得分类模型在不同分类指标上确有差异，但总体来看，这两种模式的性能相当。相比之下本文方法融合了Path 1、Path 2两种模式，以多模型多角度特征融合方式充分利用两种模式的优点，最终实现分类性能的显著提升。

表4 不同图像模式下模型的分类结果Table 4 Classification results of models in different image modes 单位：%

为进一步观察不同图像模式下误判图像对模型训练的影响，利用文献[26]提出的类激活图（gradientweighted class activation mapping，Grad-CAM）绘制相应图像的热力图来观察给定类别条件下模型所关注的区域。图3（a）、（c）分别展示了结节1 和结节2 的原始CT 图像模式在Path 1 路径下的热度图，图3（b）、（d）则是对应提取出的结节图像模式在Path 2 路径下的热度图，每幅子图中从左到右分别是输入图像，及其在特征提取网络类激活热力图。其中，图3（a）为结节1 在Path 1 中被错误判定为恶性（即假阳性FP），图3（b）、（c）和（d）为结节被模型正确分类为恶性（即真阳性TP）。

图3 不同路径下真阳性和假阳性结节类激活图Fig.3 Class activation mapping of TP and FP nodules under different paths

由图3（a）和（b）可以看出，针对同一结节，单独使用Path 1 或Path 2 可能会得到不同的判别结果。对于结节1，不难看出相比周围组织，其面积较小，此时Path 1易对结节周围组织信息产生过多关注，从而会对结节良恶性判断产生干扰。反观结节2可以看出，其面积相对较大，在复杂背景中较为显著，此时Path 1 能够有效排除周围组织影响，准确聚焦结节区域。观察这两个结节在Path 2 的类激活图发现，由于对结节区域进行了提取，此时模型能够不受周围组织干扰准确聚焦结节区域，从而得到有效的判别性特征以实现结节的正确分类。

针对以上结节面积较小，分类时易受周围组织影响的问题，本文提出了一种双路径特征融合的肺结节良恶性分类模型，构建了Path 1 和Path 2 两条特征提取路径，有效挖掘带周围组织的CT 图像模式和不带周围组织的肺结节图像模式的信息。即，既能从原CT 图像模式中获取全局信息，也能够有效解决结节面积较小时特征提取网络难以对小结节的判别性特征进行提取的问题。最终的特征融合使得网络能够得到最终的判别性特征，为结节的良恶性分类提供坚实基础。

3.3 与其他分类方法比较

为进一步验证本文所提模型的性能，与其他模型进行了对比，各对比方法见表3。为确保实验结果的公平性，对比方法所采用的数据集与本文所构建的数据集相同。

文献[10]充分利用结节的形状、体素值等信息，使用多种类型特征进行决策级融合实现了算法精度上的提升，然而该模型计算复杂度较高，参数量庞大，且无法高效利用结节的有用特征以提升模型性能。文献[13]通过引入注意力和残差机制能够有效挖掘结节图像的全局和局部信息，虽然模型参数量较小，但较多的网络分支使得该方法计算复杂度较高，而且面临着周围组织信息干扰较大时无法有效提取结节特征的问题。而本文构建了双路径的特征提取网络，既能充分利用原CT图像信息，又能针对结节区域进行关键信息的挖掘，此外，CBAM 模块和channel shuffle 的引入使得网络能够更有针对性地提取两种输入图像模式的判别性特征，在一定程度上提升网络的分类性能，从表5中不难看出相比前两种方法本文所提方法的表现更佳。而且，本文以轻量型网络MobileNet V3 为骨干网络，这能够在保证分类精度的同时尽可能地降低网络复杂度，提高模型工作效率。

表5 不同模型分类性能比较Table 5 Comparison of classification performance of different models 单位：%

另外，还与本文所借鉴模型MobileNet V3-small、ShuffleNet V2-x0.5，以及采用传统残差结构的ResNet-50进行了对比。不难发现，本文方法在各项评价指标中表现更优。与ResNet-50 相比，文献[10]使用了三个ResNet-50从三个角度提取结节特征并实现了模型性能的提升，这同样印证了前文所说的多模型多角度特征融合方式在模型分类精度提升上的重要作用。需要注意的是，表5 中MobileNet V3-small 与表4 中的Path 1 在分类指标得分上有所差别。这是因为前者使用的是原始网络结构，而后者则在此基础上有所变动，因此结果会存在一定差异。虽然原始MobileNet V3能够在各项分类指标上获得不错的分数，但本文方法能够通过有效挖掘不同输入图像模式的判别性特征实现更好的结节分类结果。为更直观地对比各个模型性能，绘制了各模型的ROC曲线，如图4所示。可以看出本文所提方法的曲线明显高于其他分类模型，且AUC值最大。综合表5和图4，本文所提方法无论是在分类精度，还是其他度量指标中均表现出较强竞争力，进一步证明本文所提方法的有效性。

图4 各分类模型的ROC曲线Fig.4 ROC curve of each classification model

此外，本文从推理时所耗费的平均推理时间（即推理一张CT 图像时所耗时间）、浮点运算数（floating point operations，FLOPs）和模型的参数量三个方面对表5 中的各模型进行了考察，结果见表6。FLOPs 即模型计算量，可以用来衡量算法或者模型的复杂度，在一定程度上可以反映模型的时间复杂度。参数量则反映出模型的空间复杂度。通过表6 可以看出本文方法在这三个指标上均表现出较强竞争力。对比Path 1 和MobileNet V3-small，可以看出最后四个bneck 模块的删除使得网络的平均推理时间、FLOPs和参数量均有显著降低，即使本文构建双路径的特征提取网络，其在平均推理时间和参数量上也优于原MobileNet V3 网络。值得注意的是，虽然FLOPs 代表模型的计算复杂度，理解上讲，该指标越高模型的计算开销越大，耗时越长，但比较本文方法与MobileNet V3 来看，虽然本文方法的FLOPs 较大，但是其平均推理时间反而更低，这一现象在文献[10]和文献[13]之间也能观察到。这说明FLOPs虽然是反应模型计算复杂度的重要指标，但是不能完全衡量网络的推理时间，网络推理时间还受其他因素制约，例如网络结构，这也是本文引入网络平均推理时间这一度量指标的原因。

表6 各模型平均推理时间、FLOPs、参数量对比Table 6 Comparison of average inferencing time，FLOPs and parameters of each model

为更直观地考察各模型训练过程，本文展示了模型训练过程中的损失（loss）和分类精度（accuracy）的变化情况，见图5和图6。为公平比较各模型的收敛情况，初始学习率均设置为0.01，batch size为16，采用余弦退火学习率调整每次迭代的学习率。可以看出，随着迭代次数（epoch）的增加，各模型的Loss值不断下降，证明各模型在趋于收敛。随着模型的不断收敛，其分类性能即准确率不断提升，直至趋于稳定，见图6。

图5 各分类模型训练过程损失曲线Fig.5 Training loss curve of each classification model

图6 各分类模型训练过程精度曲线Fig.6 Training accuracy curve of each classification model

对比本文方法与Xie 等提出的文献[10]和Al-Shabi等所提文献[13]的Loss值变化发现，本文所提方法的收敛速度最快，且通过图6可以发现本文方法在训练过程中其训练精度一直处于领先。值得注意的是，虽然文献[13]在收敛时的训练精度低于文献[10]所提的方法，但通过表5可以发现前者的性能反而略优，这从侧面说明了融合全局-局部注意力机制的方法能够更有效地挖掘图像有用特征以实现模型性能的提升，且训练过程中的精度高低不能完全反映在测试集上。观察本文方和文献[10]所提方法发现，这两种方法的收敛速度均低于其所借鉴的网络，这在文献[10]和其所借鉴网络ResNet-50之间更为明显，这从侧面反映出网络参数的多少、网络结构的设计等原因也可能会成为网络收敛速度的影响因素。

3.4 消融实验

本文分别对比了不加入channel shuffle 和CBAM模块的模型A，仅加入CBAM 模块的模型B，仅加入channel shuffle 模块的模型C，bneck 数为11（即原MobileNet V3-small的设定值）时的模型D，本文方法在单通道输入图像下的模型E，以及本文方法的分类性能，实验结果如表7所示。

表7 消融实验结果对比Table 7 Comparison of ablation experimental results单位：%

当分别引入CBAM 或channel shuffle模块时，综合6个评价指标来看，模型分类性能均有所提升。如前文所述，模型B 中的CBAM 模块相较于原MobieNet V3-small 中的注意力模块多了空间注意力机制，这样模型能够在关注通道信息的同时对与分类任务相关区域进行重点挖掘。因此，相较于模型A，模型B 表现更佳。channel shuffle模块的引入使得模型能够将特征图之间的信息进行融合，将每一个组卷积的特征分散到不同的组之后，再进行下一个组卷积，这样输出的特征就能够包含每一个组的特征，从而增强了特征的表达能力。因此模型C 能够在一定程度上提升模型的分类性能。模型D 与本文方法的唯一区别就是bneck 数量为11，当bneck减少时，虽然分类结果有所波动，但综合所有指标来看，基本能够达到令人满意的效果。此外，当bneck为11 时模型的FLOPs 为11.98×109，参数量为3.04×106，平均推理一张图像的时间为16 ms。因此，相比模型在时间和空间复杂度上的优化，某些分类指标略微减小是能够接受的。最后，比较了单通道图像和RGB 图像对于本文方法的区别，通过实验发现当训练集图像为单通道时，本文方法的性能略逊。这可能是MobileNet 系列的模型设计采用ImageNet数据集。由于该数据集所含图像为RGB自然图像，所以网络的bneck模块以及整体网络结构在设计当初会更侧重于处理RGB图像。因此本文在将CT 图像输入网络之前，复制CT 图像以生成RGB通道图像。

4 结束语

本文提出了一种多模式特征融合网络肺结节良恶性分类方法。该方法通过构建一种双路径特征融合网络，在充分挖掘结节CT图像全局信息的同时，有效提取结节区域的特征。相比仅利用原始CT图像进行模型训练的方法，双路径特征提取网络能够充分挖掘不同图像模式的判别性信息，有效解决结节面积较小时其周围组织信息对判别结果产生干扰的问题。此外，为了进一步提升模型对有用特征的提取，采用CBAM 注意力模块替代原通道注意力模块，在保留模型对通道信息关注的基础上引入空间注意力对分类任务相关区域进行重点挖掘，并引入channel shuffle 技术实现特征图之间的通道信息融合以提升特征表达能力。最后，探讨了降低模型复杂度对模型分类性能的影响，为模型的实际部署提供支撑。实验结果表明，在LIDC-IDRI 数据集上，本文方法在较小时间复杂度和空间复杂度的情况下，在几乎所有评估指标上均表现出较强竞争力。在未来的工作中，将探索结节的三维特征在结节良恶性分类中的作用，并进一步探索肺结节类型的多分类问题，从而为医师提供更可靠的决策支持。