池洪泽,杨 静,2
(1.太原理工大学信息与计算机学院,山西晋中 030600;2.太原理工大学 信息中心,山西太原 030024)
肺癌是世界上致命的癌症之一,对人们的健康构成威胁[1]。肺结节早期诊断可以降低肺癌死亡率[2]。20 世纪60 年代,计算机辅助诊断(CAD)被提出并用于肺癌诊断,减轻了医生的压力,帮助他们更准确地诊断病例[3]。传统上,通过研究人员手工提取手工特征并设计分类器,但设计手工特征耗时且需要专业医学知识。特征提取的有效性取决于医生在肺癌诊断方面的专业知识以及他们对传统机器学习方法的理解。此外,手工制作的特征是主观的,它们的概括性很差。因此,开发一种自动特征提取算法是非常重要的。近年来,3D CNN 带来了比2D CNN 更好的表现[4]。3D CNN 可以提取结节的空间特征,这对结节分类非常重要。
人工提取的特征通常包括纹理、形状、密度和球形特征,分类器通常包括支持向量机(SVM)等[5-8],通常利用图像预处理和模式识别方法来区分恶性和良性结节。Costa 等人[9]使用平均系统发育距离和分类多样性指数来提取肺纹理特征。为了更好地对肺结节进行分类,研究人员通常会改进CNN 网络的特征提取器和特征分类器。沈等人[10]提出了一种多裁剪卷积神经网络(MC-CNN)来自动提取结节显著特征。多尺度特征图包含更多的语义信息,该策略在结节分类上取得了良好的效果。为了利用空间3D上下文信息,刘等人[11]提出了一种端到端的结构,称为密集卷积二叉树网络来分类结节。他们在DenseNet 中引入了中心裁剪操作,并利用过渡层上的分离和融合操作来丰富多尺度特征。虽然有一些方法解决了这些挑战,但这些方法并不全面,还可以进一步改进。例如,朱等人[12]利用3D 双路径网络(DPNS)来提取肺结节体积特征,这对于避免过拟合是有效的。为了捕捉细粒度的特征,张等人[13]将挤压-激发注意网络与聚集残差变换ResNeXt 相结合,并将他们提出的方法应用于肺结节的良恶性分类。蒋等人[14]基于DPNS 体系结构,在DPNS 中加入了空间和上下文注意模块,集合了多网络对肺结节进行分类。他们提出的注意机制在特征细化方面是有效的,但空间注意模块还可以进一步改进。空间注意网络没有考虑多尺度、多分辨率和残差连接问题,这些问题对于肺结节分类非常重要。谢等人[15]融合灰度共生矩阵(GLCM)特征、傅立叶形状特征和深度学习特征,利用AdaBoosted 反向传播神经网络来区分结节。Kaya 等人[16]融合了深层特征和手工制作的特征,这些特征包含结节的形态、颜色或文本特征。Jason 等人[17]融合了ApplSci 放射定量图像特征和3D深层特征。张等[18]融合了三维提取的基于局部二值模式的纹理特征、基于方向梯度的形状特征直方图和深度特征。最后,他们利用GBM 来区分良性和恶性结节。对于上述肺癌诊断的混合特征方法,已经证明将人工特征与深度学习特征相结合可以进一步提高肺结节识别的准确性[15-18],但人工特征的提取仍然存在与传统方法相同的问题。为了利用多属性特征和多尺度特征,赵等人[19]提出了一种多流网络的结核分类方法,并构造了一种新的损失函数来克服不同属性之间的不平衡。
虽然现有的深度学习方法在应用科学方面取得了很大的进步。由于肺癌数据集较小,设计一种能够自动提取丰富有用特征的新方法是非常重要的,并且该方法应该能够尽可能避免过拟合,从而保证方法的鲁棒性。
为了应对这些挑战,该文提出一种基于DPN 多尺度决策层融合技术用于肺结节分类。使用3D 双路径网络(DPN)作为主干网络,它集合了残差连接和密集连接的优势。基于DPN 的密集连接,提取了丰富的特征,避免了剩余连接的过拟合,主干网络确保了模型的整体性能。为了提取更全面的肺结节图像特征,使用多尺度作为输入后,对多个尺度的决策层进行融合,实验证明,改进的网络架构对于提高结节分类性能是有效的。
结节块的选取对网络性能有很大影响。如果输入的肺结节过大,在模型训练过程中会引入很多冗余信息,比如肺泡等,导致学习不到相关的特征信息,对网络性能有很大影响。相反,如果输入的结节块过小,网络在训练时提取的特征信息会比较有限,不够全面,会导致辨别能力不足。输入单一尺度的结节块很难满足网络性能需求。
因此,根据数据中结节块的大小,选取多个尺度作为数据的输入。结节直径通常在3~30 mm 之间,针对结节直径大小不同,设计了三种尺度来满足不同的结节。针对结节大小设计的三种尺度,分别为16×16×8、32×32×16、48×48×24 的结节块,由于CT 图像的Z维分辨率比较低,设计了Z维比X、Y维小的输入大小。
文中提出的多尺度决策层融合模型(Fusion-MDPN)如图1 所示,模型使用DPN 作为主干网络,每一尺度决策层使用四个DPB 块,该模型一共分为四部分,第一部分(如图1(1)部分)是DPN1(16×16×8)分类模型,对于较小结节块可以提取更全面的图像特征,第二部分(如图1(2)部分)是DPN2(32×32×16)分类模型,对于中等结节,可以提取更具辨别性的特征;第三部分(如图1(3)部分)是DPN3(48×48×24),对较大结节的特征可以充分利用;第四部分(如图1(4)部分)是决策层融合,以达到更准确的分类结果。
图1 中根据数据集的xml 文件裁剪出三种尺度的结节块(16×16×8)、(32×32×16)、(48×48×24),进而对图像进行预处理,3D Conv 表示卷积和池化,APL 表示平均池化层,FC 表示全连接层,每层DPB 分别有3、4、20、3 个双路径块。
决策层融合是基于DPN 网络,将三个分类结果进行融合。训练数据如下:
其中,Xj是第j个肺结节图像块的深度特征向量,Yj是第j个肺结节图像块的类标签,N是训练图像的总数。深度特征图经过Softmax 分类之后,能获得每个结节对应不同尺度恶性和良性的预测概率值。
每个结节有三种尺度,其恶性、良性概率值分别为P1i、P0i,i∈{1,2,3}。恶性与良性概率值和为1。将a(a≥2)个P1i≥0,0.5或P1i<0.5的概率平均值作为结节恶性最终预测概率值PFusion[1],同理可得良性最终预测概率PFusion[0]。最终预测标签公式如式(1)所示:
式中,y'是最终的预测标签,y'=1 为恶性结节,y'=0 为良性结节。决策融合流程如图2 所示。
双路径连接把残差学习和密集连接的优势结合起来。残差连接对解决梯度消失问题是有效的,同时可以实现特征重用,密集连接更容易学习新特征,可以避免重新学习冗余特征图,密集连接相对于残差连接,其参数更少。3D 双路径块结构如图3 所示,实现过程中,基于超参数d,输入特征映射被分成两部分。一部分F(x)[d:]用于残差学习,另一部分F(x)[:d]用于密集连接。双路连接可以表述如式(2)所示:
式中,x为双路连接块的输入,F(x) 为卷积函数,R为ReLU 激活函数,y为输出。
在训练时,训练数据集合为Z={(Xi,Yi)}(i=1,2,…,N),Xi是输入,Yi是输入标签,Yi,yi∈{0,1},0 代表良性结节,1 代表恶性结节,用w表示训练参数,损失函数如式(3)所示:
式中,N表示样本总数目,LC(P(Xi),y)=-lbpy(Xi)表示交叉熵损失,py(Xi)表示Softmax 层计算得到Xi属于类别yi的估计概率值。
1)数据集
该研究中使用的数据集是LIDC-IDRI 数据集,由1 010 名肺癌患者胸部CT 扫描以及标记注释病变组成。从结节收集报告中获取结节及其注释中心。由于图像的分辨率不同,使用具有固定分辨率的样条插值,沿所有三个轴的分辨率为0.5 mm/体素。每个结节片都是根据带注释的结节中心从重新采样的CT 图像中裁剪出来的。四位经验丰富的胸科放射科医生对每个结节的恶性怀疑度从1 到5,表明恶性怀疑度增加。取结节的平均分,大于等于3 为恶性,小于3 的记为良性。该文移除了ID 不明确的结节样本。最终得到886 套CT 图像和1 186 个结节,其中有650 个良性结节和536 个恶性结节。
2)数据增强
为了减少正负样本的不平衡,对数据集进行了数据扩充。通过将图像旋转90°和180°来增加阳性样本。为了进一步保持两个类别之间的平衡,对大多数类阴性样本进行了向下抽样。数据扩充减少了正则化的需要。数据扩充通过在数据集中创建变量来人为地扩展数据集,并可用于减少训练中的过拟合问题。其中80%作为训练集,20%作为测试集。
该实验的硬件环境是Intel(R)Xeon(R)Gold 5120 CPU 2.2 GHz 处理器,显卡为NVIDATeslaP4,内存容量128 G,使用语言为Python。使用小批量梯度下降法训练权值,将批量大小设为64,动量设为0.9,学习速率初始化为0.1,每2 000 次迭代衰减5%,使用5 折交叉验证策略来评估该方法的性能。
用准确率、敏感性、特异性、AUC(Receiver Operating Characteristic curve 即ROC 曲线面积)作为评估模型分类性能好坏的指标。其中TP 为真阳数,FP 为假阳数,TN 为真阴数,FN 为假阴数。评价指标计算公式如下:
把各个分类模型单独分类,使用Softmax 分类函数评估分类性能,如表1 所示。单路DPN1、单路DPN2、单路DPN3 和决策融合DPN 分类模型的精度分别为87.45%、88.62%、89.89%和92.58%。通过单独分类模型的比较,可以看出决策融合DPN 网络比其他分类模型性能要好,输入48×48×24 的模型分类性能总体优于32×32×16 的模型,因为大尺度图像块包括更多的结节信息,对结节的分类更有帮助,输入尺度为32×32×16 的模型分类性能总体比输入尺度为16×16×8 的要好一些,但对于一些较小的结节16×16×8 输入要优于其他模型。可以看出该文提出的子模型可以作为单独的分类器。
表1 不同尺度分类方法性能比较
决策融合模型(Fusion-MDPN)分类结果如表2所示,Fusion-MDPN 的总体准确率达到92.58%,实验结果表明决策融合方法可以提高分类性能。图4 所示是各个分类模型DPN1(16×16×8)、DPN2(32×32×16)、DPN3(48×48×24)和决策融合模型Fusion-MDPN 的ROC 曲线,决策融合模型Fusion-MDPN 的曲线明显高于单独分类模型,并且AUC 值最大,证明了决策融合可以提升分类模型的整体性能。
该文方法和其他分类方法的性能对比如表2 所示。基于比较结果,所提出的模型达到了最高的准确率和AUC 评分。通过3D DPN 提取大量的深度特征,有效地实现了特征的重用,并且由于残差连接和密集连接,可以尽可能多地捕捉到图像的原始特征。
表2 与其他分类方法比较
根据肺结节本身特征,该文提出了一个基于DPN多尺度决策融合的肺结节分类方法来区分恶性和良性肺结节。该模型以多尺度作为输入,3D DPN 作为主干网络,能够提取更丰富的特征信息,决策融合提升了模型的整体性能。该模型不需要手工提取特征,也不需要对结节图像进行分割,可以更高效地完成肺结节的良恶分类,可以给医师提供较有力的辅助诊断。下一步研究工作将引入注意力机制,增加细粒度表示,通过进一步优化网络结构,提高分类性能。