深度学习在肺结节辅助诊断中的应用

2022-09-21 05:37冯妍妍魏德健
计算机工程与应用 2022年18期
关键词:恶性结节卷积

冯妍妍,魏德健,倪 伟

1.山东中医药大学 智能与信息工程学院,济南250355

2.肥城市人民医院 信息管理科,山东 肥城271600

2020 年全球新增癌症病例1 930 万例,新增癌症致死病例1 000 万例。其中,肺癌仍然是全球相关癌症死亡的主要原因[1]。在我国,2020年肺癌位居癌症发病率第二,死亡率首位[2]。研究表明,诊断滞后是导致高死亡率的主要原因。早期诊断肺癌的首要手段是采用多种筛查方法鉴别肺结节,并对其进行良恶性分类。放射科医生对肺结节分类是一个非常繁琐耗时的过程,极易出现漏诊或误诊。因此,医生需要计算机辅助来提高诊断效率,降低诊断成本。

近年来,随着计算机断层扫描(CT)成像技术[3]的不断发展,深度学习在CT 肺结节诊断中的表现引起了学者们的极大关注[4]。传统的模式识别方法不易提取特征,需要放射科医生做大量的研究工作,而深度学习可以通过修改超参数对提取的纹理、形态等特征进行选择与组合,使用最优组合来提高肺结节的分类精度与诊断速度。因此,深度学习在计算机辅助诊断相关研究领域中的重要性日益增加。对于肺结节诊断,文献[5-11]是近期发表的几篇优秀的综述,但是都未对肺结节分类的深度学习方法进行系统地概述。为了给肺结节辅助诊断相关研究领域的未来工作提供参考,本文主要从数据集介绍、肺结节良恶性分类和恶性等级分类的深度学习方法三个方面进行介绍,总结了2019—2021 年在肺结节分类中提出的深度学习算法及其应用效果,指出目前存在的问题,并对未来发展趋势进行展望。

1 数据集介绍

肺部数据库是计算机辅助诊断肺结节的重要组成部分。为了对肺结节诊断的深度学习方法进行总结与比较,本章介绍了近几年肺结节辅助诊断相关工作中较常用的数据集。

1.1 LIDC-IDRI

The Lung Image Database Consortium(LIDC-IDRI)[12]

是最权威的公共肺癌筛查数据库之一。LIDC-IDRI 数据集共包含来自1 010名患者的1 018个胸部螺旋CT扫描,图像数据以DICOM 格式存储,像素值大小为512×512,图像厚度范围为0.5~5 mm。LIDC-IDRI 数据集的每个案例都由数百张图像和一个可扩展标记语言(extensible markup language,XML)的文件组成。XML文件记录了4位经验丰富的放射科医生注释的结果,包含了已识别的肺病变详细信息。专家将检测到的肺病变按形态特征分为三类,即结节(直径≥3 mm)、微结节(直径<3 mm)和非结节,并将标注后的结节分为四个类别,包括未知、良性、原发性肺癌和转移性病变。由于该数据集为研究者提供了一个准确评估计算机辅助诊断性能的机会,因此被广泛使用。

1.2 LUNA16

Lung Nodule Analysis 2016(LUNA16)[13]数据集是数据集LIDC-IDRI 的一个子集,共包含888 张胸部CT图像。放射科医生在肺结节CT扫描中共做了36 378个注释,至少由1、2、3 或4 名放射科医生注释的结节个数分别为2 290、1 602、1 186和777。LUNA16选取放射科医生(至少4 名放射科医生中的3 名)注释的1 186 个结节作为参考标准中的阳性样本,即算法应该检测到的病变。在当前研究领域,该数据集的使用也越来越广泛。

1.3 NLST

National Lung Screening Trial(NLST)[14]美国国家筛查试验数据库于2009年收集,由低剂量CT图像和胸片构成,旨在确定相对于传统胸部X 线摄影筛查,通过低剂量螺旋CT 筛查肺癌能否降低高危人群的肺癌死亡率。该数据集提供超过75 000 张CT 筛查的图像和1 200张肺癌患者的病理图像,包括参与者筛查结果、诊断程序、是否患有肺癌和死亡率的数据。

1.4 DSB

Data Science Bowl 2017(DSB)[15]数据库来源于Kaggle 组织的大型竞赛,该数据集由2 101 例患者胸腔的轴向CT 扫描组成,每个样本包含100 到400 张CT 图像,图像数据以DICOM格式存储,且包含扫描的具体参数及切片厚度等详细信息。DSB 数据集虽然提供了患者的CT 扫描图像以及癌症状态,但是没有提供肺结节的位置和大小。目前,该数据集还未公开使用。

1.5 JSRT

Japanese Society of Radiology Technology(JSRT)[16]

数据库是日本放射技术学会发布的标准公共数字图像数据库。JSRT数据库由3位放射科医生标注结节,包含从14 个医疗中心选择的247 张CT 图像,其中154 张有结节,93 张无结节。每张CT 图像大小为2 048×2 048,灰度像素为4 096,肺结节直径为5~40 mm。所有肺部CT均由放射科医生根据患者的年龄、诊断结果、结节坐标进行标记。当肺图像数据不足时,JSRT 数据集上的肺成像模型可以提供有效、严格的计算机辅助诊断。

1.6 DLCST

Danish Lung Cancer Screening Trial(DLCST)[17]

丹麦肺癌筛查试验数据库包括来自718 名患者的1 152个结节,其中不包括良性钙化的结节。DLCST 数据库共由2位经验丰富的放射科医生对肺癌高风险患者CT进行评估,并通过手动测量的方法将尺寸小于3 mm 的结节设定为评估阳性结果的下限。目前,该数据集已公开使用。

1.7 Ali Tianchi

Ali-Tianchi contest dataset(Ali Tianchi)[18]由阿里云、英特尔等联合举办的天池医疗大赛提供,包括1 600名患者的2 000例CT扫描。结节由3位放射科医生标记,信息标记形式与LUNA16相同。所有CT的最大切片厚度限制为2 mm。结节尺寸分布为:50%的结节在5~10 mm,其他的在10~30 mm。文件以mhd 格式保存。该数据集基于中国患者的样本,有助于进一步验证拟议系统在当地临床研究中的性能。

1.8 LUNGx

LUNGx[19]挑战赛是由SPIE、AAPM 和NCI 等联合赞助的肺结节分类科学挑战赛。该比赛的目的是对肺结节样本进行良恶性分类。CT 图像分为两个阶段,校准阶段的CT 扫描10 次,每5 次显示一个良性结节或一个恶性结节,测试阶段数据集包含来自60个CT的73个结节。该数据集目前已公开使用。表1 总结了肺结节辅助诊断常用数据集。

表1 肺结节辅助诊断常用数据集Table 1 Common datasets for auxiliary diagnosis of pulmonary nodules

2 肺结节良恶性分类的深度学习方法

基于计算机辅助诊断(CAD)系统对肺结节良恶性分类是早期诊断肺癌的关键步骤。肺结节判断良恶性的特征指标包括大小、形状、钙化程度等。图1是文献[20]提出的良恶性结节原始图像。本章从无监督学习、有监督学习、迁移学习三个方面介绍结节良恶性分类中常用的深度学习方法,主要有栈式去噪自编码器(stacked denoising autoencoder,SDAE)、深度置信网络(deep belief network,DBN)、生成对抗网络(generative adversarial network,GAN)、卷积神经网络(convolutional neural network,CNN)、循环神经网络(recurrent neural network,RNN)和迁移学习。其中SDAE、DBN和GAN属于无监督学习,CNN 和RNN 属于有监督学习。本章将从以上深度学习方法来分析最新的研究成果以及在肺结节分类中的应用情况。

图1 良恶性结节原始图像Fig.1 Original image of benign and malignant nodule

2.1 基于SDAE的分类研究

自动编码器(AE)属于无监督学习,其训练过程不需要大量标记数据。在此基础上,去噪自动编码器(DAE)为防止过拟合对输入层数据加入噪音,提供了强大的噪声消除功能。虽然增强了模型的鲁棒性,但是DAE 的全连接层会引入大量的网络参数。SDAE 是由多个DAE 堆叠而成的深度架构,增强了网络的泛化性能。Lu 等人[21]选择3 层SDAE 网络对肺结节进行良恶性分类,在一定程度上改善了分类效果。罗嘉滢等人[22]提出一种基于多特征的广义深度自编码网络,能够全面地提取肺结节特征,并选择特征融合策略进行分类,分类准确率达94.72%。

由上述分析可知,虽然该网络模型参数量大,训练困难,但是模型训练不需要大量的标注样本,缓解了标记数据缺乏的问题,仍有一定的研究价值。

2.2 基于DBN的分类研究

DBN 是概念上的两层神经网络,包括多层受限玻尔兹曼机(RBM)和多层感知(MLP)。每一层都有神经元序列、输入层和隐藏层。DBN 模型中隐藏层及各层节点的数量直接影响结节的分类精度,需要设置实验对其数量进行研究。

张华丽等人[23]提出了一种基于DBN的肺结节良恶性分类网络模型。该模型是由输入层、4个RBM和输出层堆叠而成的网络结构,如图2所示。在DBN网络结构中,输入层为RBM1 的可见层,相邻两层单元节点以全连接的方式相互关联,每层的单元节点没有连接,最后通过Softmax层对结节特征进行分类。模型使用LUNA16的部分样本和合作医院提供的肺部CT 图像进行训练,分类准确率为89.39%。在此基础上,张婷等人[24]提出了一种改进的DBN网络模型。一般的预训练与微调方法会使模型中的隐藏单元表现得比较相似,这将对网络分类性能产生负面影响。针对此问题,文献[24]将极限学习机[25](extreme learning machine,ELM)的优点应用于DBN 模型训练中,ELM 学习速度快,泛化性能好,与通常所用的反向微调参数、递归贪婪等学习框架相比,可以有效地改善DBN的分类性能。

图2 DBN网络结构图Fig.2 DBN network structure diagram

由上述分析可知,DBN模型的输入要求一维向量,需要从压缩后的CT 图像提取特征信息,并拉伸成一维向量送入DBN模型中进行良恶性分类。虽然分类精度不高,且输入数据具有平移不变性,但是改进的DBN在一定程度上改善了原始DBN 的分类性能,仍有一定的研究价值。

2.3 基于GAN的分类研究

生成对抗网络(GAN)由两个神经网络构成,一个生成器,一个鉴别器,二者相互博弈,最终达到纳什平衡。由于结节种类多样且分布不均匀,原始GAN 网络对肺结节分类时会存在稳定性不足的问题[26]。研究者针对此问题,对原始GAN进行改进,提出多鉴别器生成对抗网络(MDGAN)和深度卷积生成对抗网络(DCGAN)。

Kuang 等人[27]使用无监督学习识别肺结节,提出了一种多鉴别器生成对抗网络(MDGAN)。该研究方法主要分为三个步骤:首先,建立一个用无标记良性肺结节图像训练的生成模型;其次,采用编码器建立原始图像的空间映射;最后,计算GAN鉴别器特征损失对肺结节进行评估。模型训练使用数据集LIDC-IDRI的1 375个结节,实验结果显示良恶性分类准确率为95.32%。李莉等人[28]针对稳定性不足的问题,提出了一种改进的深度卷积生成对抗网络(DCGAN),运用半监督FCM聚类方法对原始结节图像信息进行特征提取和量化,引入加权损失函数最大限度增加了模型识别精确度。

由上述分析可知,生成对抗网络的生成模型用以学习真实样本的潜在分布,判别模型用以鉴别样本是否为生成数据。大量研究通过对原始GAN 进行改进,提高网络模型的图像生成能力和判别能力,解决稳定性不足的问题。但是在改进的GAN 网络中,生成样本与原始样本仍有较大的差距,需要大量的时间进行训练,引入半监督FCM 方法帮助生成更高质量的样本数据,降低网络复杂度。GAN 模型训练不需要大量的标记数据。但是,上述文献主要针对孤立性肺结节的良恶性判断,对于背景复杂的结节或者粘连性结节的识别与分类仍需要进一步研究。

2.4 基于CNN的分类研究

对于无监督学习,有监督学习是一种目的明确的训练方式,更多研究者倾向于使用有监督学习的方法对肺结节进行良恶性分类。卷积神经网络(CNN)的基本结构由输入层、卷积层、池化层、全连接层、输出层五部分组成。本节介绍的卷积神经网络有二维卷积神经网络(two dimension convolutional neural network,2D-CNN)和三维卷积神经网络(three dimension convolutional neural network,3D-CNN)。

2.4.1 2D-CNN

2D-CNN的含义包括两个方面,CNN的卷积核为二维卷积核或者是CNN 的输入为二维切片图像。虽然2D-CNN框架会损失结节的立体信息,但有些方法利用相邻切片之间的关系仍能保留结节的三维信息。

Hua 等人[29]在2015 年首次将2D-CNN 应用于肺结节分类中,实验结果表明分类效果优于传统的分类方法。但是肺结节体积微小,放射异质性[30]可能导致一些结节不可见。为了解决此问题,文献[31]将领域知识纳入肺结节良恶性分类,提出了一个基于多视图知识的卷积神经网络模型(MV-KBC),实现了端到端的训练方式。在此基础上,Zuo 等人[32]使用知识转移[33]方法转移和重构了一个多分辨率二维卷积神经网络(2D-CNN)。知识转移可以将知识从源模型转移到目标领域,即在目标领域保留源模型的主要结构。该网络模型可以将肺结节候选区域映射为不同分辨率和尺度的特征,因此可以成功识别一些由放射学异质性引起的不太明显的结节。在数据集LUNA16与生成样本集上进行测评,准确度为97.33%,结果表明分类效果优于大多数的分类方法,但是仍无法获取切片之间的上下文信息。

一个完整的肺结节通常分布在多个切片上,2DCNN方法在获取切片之间的上下文信息时很有限。为此,Lei 等人[34]尝试将肺结节的体积图像采集到二维网络(2D-CNN)中,以简化处理。通过引入软激活映射(SAM)方法分析细粒度肺结节形状和边缘特征,使用编码-解码结构提取特征。该模型仅使用了440个参数,与三维模型相比,降低了模型复杂度。但是肺结节形状和大小复杂多样,卷积神经网络由于内核较小无法检测到全局特征,而特征金字塔网络(FPN)可以在不同层次上建立特征之间的关系,包含局部特征和全局上下文[35]。受对象检测中特征金字塔网络的启发,文献[4]提出了一种用于细粒度分类任务的网络,通过建立特征层次之间的关系来预测恶性结节的概率。

由上述分析可知,由于医学图像大部分为三维图像,故2D-CNN 的改进工作主要围绕如何使用2D 卷积核获取3D空间信息展开,可以适当减少3D网络分类的计算成本。在2D-CNN结构中,上述文献提出的主要改进包括:(1)引入知识转移方法,成功识别一些由放射性异质引起的不太明显的结节;(2)纳入领域知识,融合多视图子模型,实现端到端的训练方式;(3)开发软激活映射方法(SAM)分析细粒度结节特征,降低模型复杂度;(4)建立不同层次特征之间的关系获取特征最优表示。2D-CNN主要采用二维切片的方法进行分类,不能有效利用CT 图像三维信息,但是具有网络结构简单和计算时间短等优点。基于2D-CNN 的结节良恶性分类方法结果比较如表2所示。

表2 基于2D-CNN的肺结节分类方法结果比较Table 2 Comparison of results of lung nodule classification methods based on 2D-CNN

2.4.2 3D-CNN

相比2D-CNN,3D-CNN 使用三维卷积核。相比二维图像,三维图像包含更多的潜在特征信息,有助于提高分类精度并做出正确的诊断结果。本小节通过对文献的整理与归纳,进一步细分为两类:单路径CNN和多路径CNN。

(1)单路径

单路径CNN 的核心思想是各网络串行连接,即将上一个网络的输出作为下一个网络的输入。

文献[39]提出了一种基于结节级别的3D-CNN 算法,研究了数据扩充技术和网络训练代价函数的修改,用以解决数据中良性和恶性样本不平衡的问题。该文献的贡献是对3D CNN结构进行综合评估,主要评估了三种不同输入大小和层数的3D CNN架构,研究结果表明输入大小为32×32×32像素、2块卷积层和2块池化层效果最好。在数据集LIDC-IDRI测试中准确度为91.88%。在3D-CNN 的基础上,文献[40]使用密集连接结构与扩张卷积提取多尺度特征,文献[41]使用深度学习导向策略(HONORS)过滤引导金字塔网络(F-GPN),不仅能够提取局部、全局特征,还能获取结节之间的复杂关系。但是结节之间的尺度相差较大,且不同结节的分辨率不同。文献[42]针对多尺度结构问题,将局部-全局神经网络融合来预测结节的恶性程度。该方法使用残差卷积和非局部卷积提取局部、全局特征。研究所提出的方法AUC为0.956 2,结果表明局部-全局神经网络有助于增强多尺度特征的提取能力。针对肺结节分辨率不同的问题,文献[20]提出一种基于三维各向异性卷积的分类网络,将标准三维卷积拆分为1×1×k和k×k×1 两种各向异性卷积,缓解了图像分辨率不同对肺结节分类的影响。文献[43]采用插值方法解决分辨率不同的问题,但是该方法会导致分辨率降低。

由上述分析可知,单路径3D-CNN能够充分地提取结节的特征信息。在3D-CNN基础上,上述文献提出的改进工作主要包括:①改进网络训练代价函数及数据扩充技术,解决数据不平衡的问题;②改进密集块结构,优化特征提取;③引入扩张卷积,增加内核大小,提取潜在的有效特征;④引入导向策略,提取局部、全局特征及结节之间的复杂关系。虽然这些改进方案在一定程度上改善了分类效果,但是3D卷积核相比2D卷积核会增加网络的复杂度及训练时间,在一定程度上增加了计算成本。

(2)双路径

双路径网络(dual path network,DPN)首次提出是在2017 年ILSVRC 物体检测竞赛中,通过High Order RNN(HORNN)框架将ResNet 和DenseNet 进行了融合[44]。在DPN 基础上,研究者提出的双路径CNN 核心思想包括两个方面:①多网络结构并行,各网络分工不同;②多分类器并行,各分类器分类效果不同。

受双路径网络(DPN)在物体识别和结节分类中成功的启发,Jiang等人[45]提出了一种基于注意机制的肺结节三维双向特征级融合网络。引入空间注意学习机制解决了肺结节在整个3D 空间中表达不均匀的问题,进一步平衡了真阳性率(TPR)与假阳性率(FPR)。但对于边缘条件复杂的肺结节,多尺度结构、多分辨率和残差连接问题并未得到有效的解决,对肺结节的分类效果并不是很理想。为了解决此问题,文献[46-47]在双路径CNN中嵌入挤压、激发(SE)单元,用以提取上下文特征和空间特征。文献[47]还引入RAN 模块保证获取特征的完整性,过滤冗余特征。模型在数据集LIDC上测评,F1-score 达到了91.0%,表明了双路径CNN 在获取结节特征方面具有很大的优势。Polat 等人[48]构建了混合3D-CNN,网络结构如图3 所示。该网络结构双路径形式体现在分类层。全连接层的输出被分别输入到基于Softmax和基于RBF的SVM分类器。但是与文献[49-50]相比,混合的两种CNN结构不同,分别是3D-AlexNet和3D-GoogleNet,增强了特征表达能力。但是,所提出的方法主要用于肺部孤立结节(SPNS)的良恶性分类。针对粘连性的肺结节,文献[51]提出的双路径模型同时处理结节目标和上下文图像。这两种路径代表不同的深度特征提取策略,即监督模型与无监督模型。该网络模型将提取的结节内部特征与背景属性结合起来训练,成功识别肺结节的复杂特征,为获取更多的特征信息提供了方向。但是,异质性与复杂性使得可以评估的粘连性结节数量太小。因此,需要更加重视收集新数据。同时,也可以在可视化和解释性技术上做更多的努力,使模型更加透明,从而更容易应用于临床实践。

图3 3D-CNN网络结构图Fig.3 3D-CNN network structure diagram

上述文献表明了双路径3D-CNN 在获取结节特征方面的巨大优势。在此基础上,Zhao等人[52]引入多任务学习的方法,构建了一个新的双路径CNN 模型。该模型结合了多流卷积神经网络结构、残差网络结构和多任务学习网络结构,因此称之为多流多任务网络(MSMTCNN),网络结构如图4 所示。由三部分组成:①两个不同尺度的三维图像块(S1 和S2)作为模型的输入,使用多流CNN实现初始特征提取;②将融合的三维特征映射输入微调后的三维残差网络(ResNet-22)提取深度特征;③多任务学习与肺结节的属性分类相结合,网络结构包括9个全连接层,第一个全连接层FC0用于区分肺结节良恶性。其余8个全连接层分别对应8个属性分类。多尺度特征融合使网络关注结节背景信息,提高了网络的泛化能力,多任务学习将不同属性的分级融合到分类任务中,提高网络的分类性能。尽管多任务学习可以发现不同任务之间的内部关系,但是手动调整多任务损失函数的权重组合显然是不明智的。与2D-CNN 相比,虽然获得了更好的分类性能,但也存在着网络结构复杂和计算成本高的缺点。

图4 3D-MSMT-CNN网络结构图Fig.4 3D-MSMT-CNN network structure diagram

由上述分析可知,双路径CNN 的改进主要采用多网络结构的形式,各网络分工不同,能够获取结节的局部、全局特征等信息,并将其与属性等信息进行融合,增强了肺结节的特征表达能力,从而有效地提高网络的分类性能。在卷积神经网络的基础上,上述文献做出的主要改进包括:①引入挤压、激发模块,模型在特征提取过程中自动集中于结节所在区域,并筛选重要通道;②引入剩余注意网络,过滤冗余特征;③引入空间注意机制,解决了结节在整个3D空间中表达不均匀的问题,且增强肺结节预测的稳健性;④引入残差卷积、多任务学习提高分类精度。虽然这些改进方案在一定程度上改善了分类效果,但是多个网络的集成会导致计算复杂和训练时间长等问题。

综上所述,基于CNN 的方法是肺结节良恶性分类中最常用的方法,也是目前深度学习中应用最广泛的方法。与传统的SDAE、DBN 方法相比,CNN 具有较强的特征提取能力,但仍存在以下问题需要解决:①数据集中CT 图像分辨率不同,影响分类精度;②网络模型的可解释性差;③粘连性结节、背景复杂的结节分类效果并不理想,且该类结节数量太小,不能进行更全面的评估;④模型的泛化能力低,对于多任务学习分类效果并不理想;⑤网络模型在训练过程中容易出现过拟合现象,目标函数优化困难。基于3D-CNN的结节良恶性分类方法结果比较如表3所示,基于CNN肺结节良恶性分类方法的改进及模型分类效果如表4所示。

表3 基于3D-CNN的肺结节分类方法结果比较Table 3 Comparison of results of lung nodule classification methods based on 3D-CNN

表4 基于CNN分类方法的改进及模型分类效果Table 4 Main improvement of CNN-based classification method and model classification effect

2.5 基于RNN的分类研究

循环神经网络(recurrent neural network,RNN)主要用于解决序列数据问题。与CNN 相比,RNN 神经元的输入包括输入层与上一时刻神经元的共同输出。由于肺结节的良恶性会随着时间发生改变,尤其对于恶性结节需要随访观察,因此使用RNN 实现肺结节在不同时间点的分类。

为了评估肺结节在不同时间点(通常间隔一年进行三次扫描)的表现,文献[37]提出了一种用于单时间点肺结节良恶性分类的卷积循环网络(CNN-RNN,CRN),RNN通过顺序处理数据来隐式地编码二维切片的三维信息,将特征序列压缩简化,但仍可以保留结节良恶性分类的语义特征。但是CRN模型只考虑了单时间点结节分类,未涉及到多时间点的研究。文献[38]针对多时间点研究的问题,对CRN模型进行改进,将递归模块替换为切片注意机制,不局限于递归模块的顺序处理机制,对肺结节进行单时间点和多时间点分类,以探索时间信息对结节恶性程度预测的价值。实验结果表明,多时间点分类与单时间点相比,几乎每个性能的指标都有所提高。在此基础上,Ni等人[53]提出一种改进型RNN,网络结构如图5 所示。该网络包含三个轻量卷积层和三个池化层,移除全连接层,直接与LSTM 连接。该网络采用三个大小不同的卷积核提取结节特征以减少噪声对训练网络的影响。LSTM 用以学习结节特征之间的相关信息。该混合网络模型的参数量明显减少,实现了小样本训练的灵活性。

图5 基于改进型RNN的网络结构图Fig.5 Network structure diagram based on improved RNN

由上述分析可知,RNN模型可对序列内容建模,对肺结节进行不同时间点的分类研究,但是RNN不具备特征学习能力且易出现梯度消失与梯度爆炸的问题。改进型RNN虽然解决了该问题,但仍需要较长的训练时间。

2.6 迁移学习

迁移学习是指在解决特定任务时学习模型所产生的存储知识可应用于解决不同任务的一种方法。在医学领域,缺乏可靠标记的大规模数据集,为了缓解卷积神经网络由于医学图像数量少而导致的模型训练困难,迁移学习是一种稳健且可取的策略。

Wang等人[54]使用inception-v3迁移学习模型自动提取肺部图像数据特征,使用不同的分类器(Softmax、Logistic、SVM)对是否存在肺结节进行分类,并与深度卷积神经网络模型的分类效果进行比较。研究选择JSRT数据集,灵敏性和特异性分别为95.41%和80.09%,该模型的特异性和敏感性之间存在较大差距,仍需要进一步的研究。Huang等人[55]使用迁移学习区分暂时性和持续性肺结节,Apostolopoulos 等人[56]主要针对孤立性肺结节进行早期诊断,证明了迁移学习是提取胸部CT图像代表性成像标志物的有效策略,解决了误报率高、训练时间长等问题。

由上述分析可知,迁移学习缓解了卷积神经网络由于医学图像数量少而导致的模型训练困难,极其适用于小数据集分类任务。

3 肺结节恶性等级分类的深度学习方法

肺结节的分类任务有两种:(1)将样本分为良性或恶性;(2)对肺结节的恶性等级分类。图6是文献[58]提出的五个等级的结节原始图像。目前对结节的良恶性分类已经取得了较好的分类效果,应用于良恶性分类的深度学习技术越来越多的被应用于恶性等级分类中,如深度卷积生成对抗网络(deep convolutional generative adversarial networks,DCGAN)、多尺度卷积神经网络(multi-scale convolutional neural networks,MCNN)、U型网络(U-Net)和集成学习。本章将探讨以上深度学习方法在肺结节恶性等级分类中的最新应用成果。

图6 五等级结节原始图像Fig.6 Original image of five-grade nodules

3.1 DCGAN

徐久强等人[65]首次使用深度卷积生成对抗网络(DCGAN)对肺结节恶性等级进行分类。LIDC-IDRI数据库中将肺结节恶性等级分为5 级:(1)良性;(2)疑似良性;(3)未知;(4)疑似恶性;(5)恶性[66]。研究选择该数据集和合作医院的11 954 个肺结节CT 图像,其中选择等级1~5 的结节个数分别为570、2 119、2 914、2 532和3 819个。改进的DCGAN模型具有较强能力的判别模型和良好分类能力的生成模型,等级分类准确率达70.89%。但是在图像生成过程中,输入的均匀分布会增加图像生成的难度,影响模型的分类性能。

3.2 MCNN

Wang 等人[58]提出一个3D 多尺度卷积神经网络(MCNN)对肺结节进行等级分类。恶性程度等级标准与文献[66]相同。与原始DenseNet相比,该研究在每个DenseNet末尾使用全局池化层,不仅减少了参数量还缓解了过拟合问题。结果表明,对于五个等级的识别准确率分别达到了73.1%、38.3%、88.9%、49.4%、87.4%,其准确度比原始3D DenseNet 提高了6 个百分点。但是一些小结节由于体积小无法提取特征信息,即使采用多尺度的方法,2级和4级的分类精度仍然很低。

3.3 U-Net

U-Net基本原理是采用编码-解码结构和跳跃连接,实现少量图像的端到端训练[67]。由于恶性结节的存在并不一定意味着癌症,因此需要对结节的恶性等级分类,即根据病例预测患癌概率(病例1:两个大肿瘤,患癌概率高;病例2:几个中等大小的结节且具有显著的癌症特征,患癌概率中等;病例3:假阴性病例,均无明显结节,患癌概率低;病例4:假阳性病例,均有可疑结节,患癌概率不确定;病例5:几个小结节,无患癌概率)。Liao等人[68]提出的改进型U-Net 由两个模块组成,一个用于识别可疑结节,另一个根据输出结果选择结节,并将其与噪声等相结合,评估受试者患癌概率。在实验中,通过改变阈值预测患癌概率(如果预测概率高于阈值,则分类为癌症)。阈值设置为0.5时,训练集和测试集的准确率分别为85.96%和81.42%。阈值设置为1 时,训练集和测试集的分类准确率分别为73.73%和69.76%。

3.4 集成学习

Xiao 等人[69]使用集成学习对肺结节进行恶性等级分类。通过加权投票规则预测等级,即根据分类精度对分类器分配不同的权重,获得一个综合分类器对结节恶性特征进行评分,最后进行等级分类。研究选择LIDC数据集的1 018张具有临床信息的CT图像,医生使用特定数字对结节的恶性等级进行量化,并根据数据集的定义将量化范围设置为1~5。该研究对多类结节的分类准确率达93.1%。

综上所述,准确评估肺结节的恶性等级对评估患癌概率很重要。虽然上述文献所提出的网络模型成功地完成了结节的等级分类,但分类精度仍然很低。因此,肺结节恶性等级分类的深度学习方法仍需进一步研究。

4 算法分析与比较

深度学习在肺结节辅助诊断中的应用已成为医学图像处理领域的研究热点。本文对各深度学习模型的主要思想、性能优缺点和分类任务进行了系统概述。为了使读者对肺结节分类的深度学习方法有深刻的理解,本章进行了对比分析,如表5所示。

表5 基于深度学习的肺结节分类方法总结Table 5 Summary of deep learning-based classification of pulmonary nodules

5 总结与展望

本文阐释了深度学习方法在肺结节良恶性分类及恶性等级分类中的应用。对于肺结节良恶性分类,深度学习方法已经取得了较优的分类效果。从无监督学习、有监督学习和迁移学习三大方面对神经网络模型及其应用效果进行了总结。对于肺结节恶性等级分类,深度学习算法的分类性能仍有待提升。在肺结节辅助诊断领域的研究难点总结如下:(1)肺结节标注样本的缺乏,易导致网络模型训练困难等问题;(2)不同扫描仪存在不同的成像方式,导致数据集中图像特征的异质性;(3)网络模型的泛化性能还有待提升;(4)构建神经网络模型的可解释性较差;(5)深度学习对肺结节恶性等级分类的准确率有待进一步提高;(6)基于深度学习的诊断方法未能大范围应用于临床实践。

在未来研究中,对肺结节良恶性分类及恶性等级分类做出以下展望:(1)开发基于少量样本的神经网络结构算法,解决数据不足问题;(2)研究扫描仪设置的影响,如重建技术和参数等,减少医疗扫描仪的放射异质性和肺结节多样性;(3)尝试学习多模态数据之间的关系,如电子病历、CT 图像等,提高辅助诊断系统的可解释性;(4)进一步探索肺结节多时间点分类的深度学习方法,提高诊断准确率及诊断过程的合理性;(5)将计算机辅助诊断系统与医院现有的信息系统进行集成,将其充分应用到临床实践中;(6)深度学习辅助诊断系统在进行肺结节分类的同时,也可以加入其他疾病的检测,提升模型的泛化能力,提高临床决策支持系统的通用性。

深度学习应用于肺结节的良恶性分类效果显著,有希望解决肺结节良恶性及恶性等级的精确分类。但是,目前仍存在上述总结的一些问题:如图像数据缺乏、未能大范围应用于临床实践等。研究解决这些问题,是未来肺结节良恶性分类的重要方向。

猜你喜欢
恶性结节卷积
乳腺结节状病变的MRI诊断
基于3D-Winograd的快速卷积算法设计及FPGA实现
肺结节,不纠结
发现肺结节需要做PET/CT吗?
恶性胸膜间皮瘤、肺鳞癌重复癌一例
探讨超声检查在甲状腺肿块良恶性鉴别中的诊断价值
力挽恶性通胀的美联储前主席保罗·沃尔克逝世,享年92岁
卷积神经网络的分析与设计
卵巢恶性Brenner瘤CT表现3例
从滤波器理解卷积