杨建利,朱德江,邵嘉俊,刘秀玲
1.河北大学 电子信息工程学院,河北 保定 071002
2.河北省数字医疗工程重点实验室,河北 保定 071002
肺癌是所有癌症中死亡率最高的,肺癌的早期诊断和治疗是预防死亡的关键。早期肺癌表现为肺结节。肺结节的准确检测和分类对于实现早期诊断和精确治疗至关重要[1-4]。计算机断层扫描(computed tomography,CT)是临床应用中最常用的诊断工具[5-6],肺结节的良、恶性界限难以区分,且放射科医生的诊断存在主观性,使得肺癌初期的精确诊断变得非常困难。深度学习已经成功地应用于包括医学图像分析在内的许多研究领域。与放射科医师相比,这项技术可以自动从医学图像中提取深层次的特征,并且能够发现有效的隐藏特征帮助人们自动进行肺结节的良性和恶性分类。
Xie等[7]将纹理和形状特征与深度卷积神经网络提取的特征相融合,以更好地表征肺结节。通过特征融合的方式,准确率和灵敏度分别达到了89.53%和84.19%。与人工选择的特征相比,深度神经网络自动提取的特征效果更好。Filho等[8]提出了两个拓扑指标,即基本分类权重和标准化分类权重之和,来描述肺结节的纹理特征,并使用卷积神经网络对这些特征进行分类。该方法使用50 580个肺结节进行验证并取得了92.63%的准确度和90.70%的灵敏度。徐久强等[9]针对数据集中肺结节良恶性样本数量不平衡的问题设计了生成对抗网络,实现肺结节良恶性准确分类。吴世洋等[10]先提取肺实质影响,利用深度神经网络提取结节特征,结合罗杰斯特分类器进行良恶性分类决策。Shen等[11]设计了多尺度卷积神经网络,可从交替堆叠层中提取特征来捕获结节的异质性。Shen等[12]还提出了多裁剪卷积神经网络,通过使用最大池化操作提取特征图中不同区域的特征,使结节语义属性得到有效的表征。Lei等[13]使用U-net网络结构来分别提取特征并对比分类结果,并将特征可视化来证明特征的有效性和可解释性。
上述研究仅关注肺结节二维特征,因此不能完全描述肺结节的整体特征。Xie等[14]后续提出了一种基于知识协同的深度神经网络来区分良性和恶性肺结节。从肺结节立体信息中截取不同视觉下的结节图像,并通过微调ResNet-50模型来学习每个视图中的特征。随后,这些来自不同视图的特征被融合以分类出良性和恶性肺结节,分类结果达到了91.60%的准确度和86.52%的灵敏度。
此外,从结节的立体特性考虑,引入了3D卷积神经网络[15-18],以便于提取肺结节的详细特征,为肺结节的良性和恶性分类提供了更符合实际的诊断结果。Jiang等[19]提出了用于提取结节细节特征的3D双路径卷积神经网络,并通过在网络中添加注意力机制来定位特征关键区域。其肺结节分类的准确率为90.24%,灵敏度为92.04%。为了解决关于肺结节的3D特征数据量的局限,Hussein等[20]应用迁移学习提取三维肺结节的判别特征,并引入多任务学习进行分类。
虽然基于深度学习的特征提取在肺结节分类中得到有效应用,但是深度学习网络的黑盒特性使得提取的特征无法具体解释。为了解决这个问题,Lei等[13]通过从包含结节的立体数据中分别选择四组不同切片数的立体数据作为初始特征,使用U-net网络结构来分别提取特征并对比分类结果,还加入特征可视化技术来证明其特征的有效性和可解释性。该方法的验证结果达到了99.13%的高精度,证明了深度神经网络提取的精细特征能够取得更好的效果。
虽然许多2D和3D深度学习网络已经被用于肺结节分类中,但特征提取过程中不可避免地丢失一些细节信息,从而影响肺结节分类效果。为了尽可能保留微小结节的有用信息,本文提出了一种深度三维多尺度交叉融合网络来挖掘肺结节的深层特征,提高肺结节分类算法的准确性。
本文中使用的肺结节影像数据来自图像数据库联合会图像收集(lung image database consortium image collection,LIDC-IDRI)[21],它包含1 018例肺部扫描数据。每例数据都由四名放射科专家医生独立注释,包括肺结节的位置、恶性程度和钙化程度等特征描述信息。其中结节恶行程度分为1~5级。平均恶性度为3的被视作不确定结节,平均恶性程度低于3的视为良性,平均恶性度高于3的为恶性。最后,得到了509个良性和635个恶性肺结节。为了消除肺部扫描切片厚度和像素距离差异的影响,在这三个轴向上使用样条插值重新采样到1 mm3/体素。随后,切片数据取[-1 200,600]之间的霍恩斯菲尔德值并标准化。在LIDC-IDRI数据集内,肺结节直径从2 mm到38 mm不等。因此,根据结节的位置构建了以结节为中心的48×48×48的三维体数据。本文通过旋转120°、240°和翻转数据来增强数据,使得数据量扩充了三倍防止训练出现过拟合现象。
图1 三维多尺度交叉融合卷积神经网络图Fig.1 Flow chart of 3D multi-scale cross fusion convolution neural network
本文构建深度三维多尺度交叉融合深度卷积神经网络用于肺结节的良恶性分类,其结构如图1所示。图中立方体上方符号@前后数字描述了特征图的大小和通道数。对角向下箭头表示下采样操作,对角向上箭头表示上采样操作,多箭头相交表示交叉融合其方式是加法融合,DBi是密集网络模块[22]。网络输入是以结节为中心从病例数据中截取大小为48×48×48的3D肺结节。网络输出的是结节恶性(M)和良性(B)的概率。
网络纵向由边长为24、12、6三种尺度特征层组成,网络横向通过多次密集连接模块和交叉融合两个关键操作提取特征。利用密集网络提取特征前后文信息,利用交叉融合获得上下文信息。以24@128特征图为例:首先将该特征图下采样与12@256特征图做加法融合得到新特征。然后12@256特征图通过上采样后与24@128特征图做加法融合得到新特征。再分别输入密集连接模块中继续卷积提取特征,分别得到通道数为256和512的特征图。特征交叉融合同时增强深层语义信息和浅层内容信息相互的表达能力。类似此过程,最后得到三种尺度有效特征组(24@256,12@512,6@768),分别将经全连接层后,使用softmax分类器进行分类,按投票方式得到分类最终结果。
网络中密集连接模块如图2所示。立方体表示结节三维特征。Lj由卷积核为1×1×1和3×3×3组成。在密集连接过程中,每层特征可以被描述为所有先前特征的融合,图中可表示为Nj=(L0,L1,…,Lj),其每层特征通道数Nj的计算如式(1)所示:
其中,N0是密集模块中初始特征输入的数量,k是特征通道增率,n是密集模块中的卷积层数。
图2 密集模块(DB)结构Fig.2 Dense block(DB)architecture
密集连接操作的优点是增强了特征前后文信息的传递和多尺度特征间的转移,深度三维多尺度交叉融合卷积神经网络各个密集模块的具体参数设置如表1所示。
表1 各密集模块中的参数设置Table 1 Parameter setting of DB
在本文训练模型中所用到的其他参数具体设置如表2所示。优化器使用小批量随机梯度下降算法,最小批量为32,动量为0.9,训练次数为100。初始学习率设为0.000 1,第50次后降为0.000 01。
表2 网络训练参数设置Table 2 Network training parameter setting
为了更好地评估分类结果,定义了四个常见的评估指标:准确性(Ac)、特异性(Spe)、敏感性(Se)和接收者操作特性曲线(receiver operating characteristic,ROC)曲线下面积(area under curve,AUC)。Ac、Spe、Se的计算公式如式(2)、(3)、(4)所示:
其中,TP为正确结节的个数,TN是未识别结节个数,FP是假阳性个数,FN是假阴性个数。本文的实验结果是通过取五次五折交叉验证的平均值来评价模型的好坏。
肺结节的分类与其形态特征和背景环境密切相关。在特征学习中丰富的背景信息对肺结节分类是否有重要作用,目前尚不清楚。为了验证,使用了三种方法来截取以结节为中心的体数据。第一种方法根据肺结节的大小裁剪得到体数据,背景信息扩充了10像素,并使用水的值(CT值为0)填充将其扩展到48×48×48,名为Nod_p;第二种方法通过以肺结节中心位置来截取得到三维数据48×48×48,名为Nod_d;第三种方式通过Nod_p和Nod_d像素相加融合得到结节灰度增强的数据,名为Nod_f。分别使用上述三种类型的输入数据来训练网络,结果如表3所示。Nod_p组的分类效果最好,Nod_f组次之,Nod_d最差。Nod_d组的特异性明显低于Nod_f组和Nod_p组,其主要原因是引入肺结节周围丰富的背景信息后湮灭肺结节本身的特征,致使假阳性比例上升,而通过Nod_p和Nod_d的融合后,能有效地凸显肺结节特征,降低背景信息影响,显著降低假阳性。Nod_p组在四项指标中皆是最优的,证明了丰富背景信息带来的影响和该网络能集中关注到结节主要特征。
表3 不同输入体积结节的分类结果Table 3 Classification results of nodules with different input volumes %
深度三维多尺度交叉融合卷积神经网络是一个多尺度特征融合的框架,它既有效地保留了肺结节详细的内容信息且又具有高级的抽象信息,网络学习过程中同时利用这两种信息来做分类决策。实验中,同时设计了三种网络结构来提取肺结节的最优特征。第一个网络是深度三维多尺度交叉融合深度卷积神经网络(DMFN_db)如图1所示;第二个网络是通过将图1中的密集模块更改为残差模块[23]而形成的(DMFN_res);第三个网络是在图1网络结构基础上去掉多尺度间的融合(DMN_db)。分别利用这三种网络结构的肺结节分类结果见表4,相应的ROC曲线见图3。从图和表中数据可以看出,DMFN_db在四项指标上皆优于DMN_db,表明网络中的多尺度融合对提升分类效果明显。DMFN_res虽然在敏感性上高于DMFN_db,但在其他三个指标上皆不如DMFN_db,特别是在特异性上差距明显,表明密集连接的卷积模块比残差卷积模块更能准确地提取肺结节的关键特征,能有效减少假阳性。DMN_db和DMFN_res的分类结果类似,也侧面说明了卷积的密集连接和多尺度的交叉融合能有效提取肺结节的关键特征,对提升肺结节的良恶性分类结果均有较大作用。
表4 不同网络结构的分类结果Table 4 Classification results of different network structures %
图3 三种网络结构的ROC曲线Fig.3 ROC curves of three network structures
Xie等[7,14]使用肺结节的2D和2D多视角图像作为数据输入,通过融合形状特征、灰度共生矩阵纹理特征和使用基于多视角知识协同卷积神经网络提取的深度特征,从2D角度实现了良恶性肺结节图像的高精度分类。然而,2D分类模型需要特殊的2D切片作为输入,这限制了算法在临床应用中的适应性和准确性。针对三维肺结节良恶性分类,Shen等[15]提出了一种深度层次语义卷积神经网络,网络从肺结节数据中提取低层语义特征来预测纹理、钙化、球形度、检测难度、边缘等低层特征,再结合高层语义信息预测良恶性。在训练过程中这些低层次的标签会因医生而异,正如该文中弃用了分叶征和毛刺征标签,因为文献[24]指出该数据集中存在不确定子集与这两个特征标注出现不一致的现象。在实际中准确地标注这些低层次的特征标签也需要耗费大量人力物力。Jiang等[19]提出带注意力的三维双路径网络,引入了注意力机制以阐明灵敏度和误报率之间的最佳权衡,达到90.24%的准确率。考虑到三维肺结节的训练数据有限,Hussein等[20]引入迁移学习来利用其他数据模型参数学习肺结节特征和多任务学习对肺结节分类,准确率达到91.26%,但其他指标未提及。与其他三维分类方法相比,本文方法不仅具有相当的准确率和较高的灵敏度,而且可直接从原始肺部CT影像中截取肺结节三维数据即可得到分类结果,无需其他复杂的特征预处理过程,如表5。
本文提出深度三维多尺度交叉融合卷积神经网络用于良性和恶性肺结节分类。网络可以自动提取肺结节的三维多尺度特征,数据输入方式还加快了网络三维卷积的计算速度。为了解决特征提取过程中细节信息损失的问题,对不同尺度的特征进行交叉融合。因此,获得了三维肺结节的完整特征表示,通过Softmax多分类器对判别特征进行硬投票决策,实现了具有兼顾灵敏性和特异性的高精度分类。本文算法采用三维数据处理方式,卷积过程中会增加计算量,限制算法的应用。同时算法需要大量的标签数据。后期可引入弱监督算法,减低对数据标注的依赖。同时引入迁移学习选用合适的模型进行参数初始化,加快网络的训练速度和优化预测结果。
表5 方法与其他方法的比较Table 5 Comparison of method with other methods %