基于尺寸自适应深度神经网络的胸部CT图像肺结节检测

2021-05-18 02:14任福全翁文采于秋磊
中国生物医学工程学报 2021年6期
关键词:结节尺寸阳性

艾 琦 王 军 任福全 翁文采 于秋磊

1(大连大学附属新华医院,辽宁大连 116021)

2(浙大城市学院,杭州 310015)

3(燕山大学理学院,河北秦皇岛 066004)

引言

肺癌是人类癌症死亡的主要原因[1],降低肺癌死亡概率的最为重要途径之一就是肺癌的早期诊断和早期治疗。早期通过低剂量计算机断层扫描(computed tomography,CT)筛查肺癌可将高危人群的死亡率显著降低20%[2]。然而,结节的筛查对放射科医生来说是耗时且工作量巨大的。同时一些小结节,尤其是那些被其他组织包围的小结节,即使是经验丰富的放射科医生也很难发现[3-5]。

为了减轻医生的工作量并提高检测可靠性,许多学者尝试开发计算机辅助检测系统(computer aided detection system,CAD)。传统的CAD 系统[6-11]通常是使用人工设定的特征描述和针对特定场景的经典图像处理技术来实现的[8-9]。但是肺结节具有各种形状、大小和位置,通过人工选择合适特征来处理和检测复杂的结节图像是很困难的。最近,得益于深度识别理论与技术的发展[12-24],基于深度学习的识别系统[25-32]已广泛应用于结节检测领域。这些系统主要利用卷积神经网络(convolutional neural networks,CNN)从图像中自动提取全面的、高级的语义特征,弥补人工设定的不足。

一般肺结节检测通常包括两个主要阶段:候选检测(candidates detection,CD)和假阳性抑制(false positive reduction,FPR)。CD 阶段的任务是在目标图像中找到所有结节,而FPR 阶段则要改善结果并提高检测率。针对CD 和FPR,许多方法先后被提出,其中有一些是基于语义分割[28,30]和目标检测[31-32]来生成候选图像,而还有一些则通过应用2D[26]或3D CNN[25,27-28]用于将结节与候选图区分开而专注于FPR。而为了解决结节多样性以及临床小结节检测难题,尝试进一步优化FPR 技术[25,28,30]。但是上述方法仍然存在一些缺点:首先,每个提取图块的大小往往是预先设定的,而有限的不同接受野的图块很难应对尺寸变化较大的结节;其次,由CNN 联合其他融合方法来构建检测模型,需要采用重复实验和交叉验证的方式选择融合方法,需要更高水平的计算方式以及更多的测试时间。

本研究提出一种新的用于胸部CT 肺结节自适应检测的系统。该系统基于新的基于2D CNN 的尺寸自适应候选检测( size-adaptive candidate detection,SACD)方法,可以自动检测出不同形状、位置和大小的结节,并提供每个候选结节的位置信息与粗略大小信息。在此基础上,为了进一步提高检测的灵敏度,又提出了一种新的基于大小自适应的假阳性率抑制( size-adaptive false positive reduction,SAFPR)系统。它由3 个独立的基于3D CNN 的分类器组成,分别用于在候选图像中发现大、中和小结节。

1 材料和方法

1.1 数据集

1.1.1 训练数据集

从合作医院收集2 440 张独立扫描图像进行训练。训练集中,共有9 577 个结节,并由两名放射科医生(10年以上经验)进行了诊断。每个结节都用标注了位置和大小信息。此外,从TIANCHI-AI 比赛中收集了800 个扫描图像[33],以增加训练样本量。组织者总共提供了1 244 个人工检测的结节。为了提高小结节的检出率,在独立数据集中收集的大多数结节都小于7 mm。

1.1.2 验证数据集

LUNA-16[34]是最大公用肺结节数据集LIDCIDRI[35]的子集,包括888 份低剂量肺部CT 影像,是对LIDC-IDRI 中厚度小于3 mm 切片,按投票机制选取4 位放射科医师中多数认同的结节≥3 mm作为参考标准,共获得1 186 个结节。

此外,还从合作医院收集了100 份CT 扫描影像,构建独立测试数据集,以评估所提出的系统在检测小结节方面的性能并将它与人工筛查结果进行比较。4 名放射科诊断医生对扫描图像进行了诊断与标注。进行对比后有4 组观测:(1)使用CAD系统获得的1 组结果;(2)观察者1 的1 组结果;(3)观察者2 的1 组结果;(4)作为金标准的1 组结果(共430 个结节)。为了创建金标准数据集,其余两名观察者3 和4 对诊断结果进行了审核。所有标注的结节平均大小为(3.89±2.34)mm,最小和最大尺寸分别为2 和24 mm,其中大多数结节直径小于5 mm。

使用不同来源的层厚≤2 mm 的CT 扫描源进行实验。为了进一步减少差异,在Z 方向上使用双线性插值将所有切片厚度标准化为1.0 mm。

1.2 网络模型

所提出检测系统的框架如图1所示,主要包括尺寸自适应候选检测(SACD)和尺寸自适应假阳性抑制(SAFPR)。

1.2.1 大小自适应候选检测SACD

在SACD 中输入整个3D 扫描图像计算成本非常高,因此使用轴位切片作为输入。对于每个检测到的轴向切片,通过拼接相邻的切片可以包含更多的周围信息,这可以提供更多的特征来区分结节(特别是小结节)和其他组织,从而降低假阳性率。此外,对3D 图像进行了预处理,使检测的焦点集中在肺部区域。预处理主要包括:

1)使用高斯模糊算子对图像进行平滑处理,阈值为-300 Hu。随后通过标记操作从二进制图像中计算出连通分量,并删除图像的边界,而将其余区域保留。

2)将选取的肺区边界框作为感兴趣区域(region of interest,ROI),该ROI 用于从3D 图像中裁剪子图像。

3)将子图像L/W 的CT 值在(Hounsfield 单位,HU 设置)-600 HU /1000 HU 范围内的转换为灰度值,这样可以突出显示肺区域,同时移除非肺区的大部分组织结构,例如骨骼和软组织。

将预处理后的3D 图像输入目标检测网络以生成候选图像,并找到所有的潜在结节,如图1(a)所示。作为目标检测算法,Faster-RCNN[15]兼具感兴趣区域提取网络(region proposal network,RPN)和感兴趣区域分类网络(region classification network,RCN)的特征,并利用深层语义获得目标检测结果。然而由于ROI 的分类是在单层上进行的,一定大小的图像可能会缺乏语义信息,因此在检测图像时性能较差。作为Faster-RCNN 的变体,FPN[18]和HyperNet[19]通过特征金字塔的浅层和深层的融合和拼接来获得中多层语义信息,但融合和采样操作可能会导致信息丢失和混叠。采用增加的卷积运算虽然可以提取更多的语义特征并减少混叠,但也会加大计算成本。此外,与人工肺结节检测相比,HyperNet 和FPN 均存在结节检测“失准”的问题。在SACD 阶段提出了多层结节检测的新策略,较好地解决了上述问题。在FEN 中,从3D 图像中提取五组卷积特征,如图1(a)所示,分别记为Convs1 ~Convs5。并采用2D 最大池化[36]对特征图进行采样,以减少计算量。

图1 本研究提出的CAD 系统的主要流程分为两个重要阶段。(a)尺寸自适应候选检测(SACD);(b)尺寸自适应假阳性减少(SAFPR)Fig.1 The architecture of the proposed CAD system.Two major stages are incorporated.(a)Size-adaptive candidate detection(SACD);(b)Size-adaptive false positive reduction(SAFPR)

在RPN 中,分别从Convs3、Convs4 和Convs5 输出特征层的一系列锚中预测得出小、中和大的ROI。类似Faster-RCNN,在每个输出层上滑动一个3×3的空间窗口,并将每个滑动窗口映射为一个高维特征。然后,将高维特征输入到两个同级的全连接层中,即框分类层和框回归层(分别简记为Cls 和Reg),如图1(a)所示。Cls 同时预测多个以滑动窗口位置为中心的、不同尺寸和宽高比例的锚。对于每个锚点,Cls 图层会输出两个得分,用于评估锚是目标或非目标的概率。同时,Reg 层会对每一个预测得到4 个系数,用于移动和缩放ROI 使其更精准地包围检测目标。按以下方式设置锚点:在Convs3上设置了16×16 和24×24 锚;在Convs4 上设置了32×32 和48×48 锚;在Convs5 上设置了64×64 和96×96 锚(对传入模型的3D 图像使用双线性插值进行放大,根据放大后的尺寸设置锚的大小);除基本尺寸外,还设置了3 种宽高比,分别为0.6、1.0 和1.65,以适应病变形状的变化。

卷积特征金字塔中的所有层都包含有用的语义信息[37]。层次越深,包含的语义信息就越强,但卷积特征也逐渐变得粗糙,较浅层包含可能在较深的层中不会出现的精细细节。构建结合深层卷积和浅层卷积来构建的高级特征,既包含了精细的细节,又包含用于区分结节与其他组织的语义信息。

在获得所有ROI 之后,为每个ROI 构建高级特征,然后将其输入RCN 以减少误报。高级特征由4个子特征级联而成,如图1(a)所示,4 个子特征分别是Convs2、Convs3、Convs4 和Convs5 的输出层通过ROI-Align 技术[16]提取得到的。然后将高级特征传递到RCN 的Cls 和Reg 层,用于分类和回归。最后,对于每个感兴趣区域,如果大于或等于用户定义的阈值,则将其保留为备选图像。在临床实践中很难设定一个最佳的阈值。为了保证高灵敏度,采用了一个较小的值,即Tcnd=0.01。

1.2.2 尺寸自适应假阳性抑制SAFPR

为了进一步细化SACD 的结果,引入了一种分类策略SAFPR,如图1(b)所示。图2(a)分别显示了3 个小、中和大型结节病例。红色方框表示色块的裁剪大小,裁切尺寸仍无法很好地对应结节的尺寸变化。例如,小结节边缘的选择区域太大,而大结节边缘的选择区域又太小。

为解决上述问题,基于来自SACD 的尺寸信息,提出了如图2(b)所示的尺寸自适应裁剪策略。细节如下:对于选取的每个候选图像,首先提取3D 图像块边界框的中心位置。图像块大小以中心高度(H)和宽度(W)为参数,按如下的方式计算

图2 多感受野策略与提出的尺寸自适应策略在图像块提取中的主要区别。(a)多感受野策略;(b)尺寸自适应策略Fig.2 The main difference of multi-receptive-field strategy and the proposed size adaptation in image block extraction.(a)Multi-receptive-field strategy;(b)Size adaptation

式中,K为宽度和高度,D为图像块所含切片的数目。*表示取整运算,δ和S分别表示像素大小和扫切片厚度。选择上述裁剪大小是为了保证整个结节和足够纹理信息可以尽量包含在图块中。提取图块后将其体素值归一化到[0,1]的范围。然后将其分配给为预测大、中和小候选结节而设计的3 个分类器,图1(b)中分别标记为FPR-LRG、FPRMED 和FPR-SML。3 个分类器主要考虑两个因素:一是不同大小的结节呈现出非常不同的特征,如图1所示,因此使用多个独立的模型来预测不同大小的结节可以减少特征变异的干扰;二是每个分类模型都需要一个特定的大小,这意味着在将每个图像送入模型之前,必须调整每个图像的大小。如果只使用单一的模型,很难确定最佳的输入大小,小的结节可能会过度放大,而大的结节可能会过度缩小,两者都可能导致信息的丢失。这个3 个分类器可以缓解这一问题。

3 个分类器具有相同的网络拓扑结构,但对应不同大小的输入,如图1(b)所示,FPR-LRG、FPRMED 和FPR-SML 的输入大小分别为64×64×32、48×48×24 和32×32×16。由于SACD 阶段检测的结果中可能包含较多假阳性,而文献[25]表明:融合多感受野信息能够提升模型识别结节和假阳性的性能。基于此设计了多感受野分类策略进行二分类以抑制假阳性。每个分类器都由两个平行子网络构成,旨在通过提取卷积特征,对传入两个不同感受野中的候选样本进行预测。一个预测的输入是ROI 原始图块。另一个预测的输入是从ROI 原始图块中心位置裁剪出来的体素,该体素尺寸只有原始图块的一半。随后两个子网络最后输出的卷积特征会被级联,并分别传递给具有512 个和1 024个神经元的两个全连接层,用于计算候选样本是结节还是非结节的最大Softmax 值。最终使用用户定义的阈值从候选图像中筛选出结节,如图1(b)所示,其中Tlrg、Tmed和Tsml分别对应FPR-LRG、FPRMED 和FPR-SML。

1.3 模型训练

1.3.1 训练SACD

采用端到端的方式训练SACD,采用动量优化实现多任务损失函数的最小化。多任务损失[16]定义为

1.3.2 训练SAFPR

在SACD 阶段,设置阈值,在生成候选对象的基础上训练FPR 模型。在扫描中,如果检测到的候选物位于真结节的半径范围内,则将其收集为真阳性。如果候选对象超出了所有真实结节所在的半径范围,则将其视为为阴性。其他候选对象直接忽略。

使用动量优化器对FPR 模型进行训练,以实现Softmax 交叉熵损失最小化,共进行20 000 次迭代,学习速率为0.01,每1 000 次迭代减少了10%。

以抑制数据不平衡问题的影响,在每次迭代中,根据经验将每个批量样本中的正负比例设置为1 ∶4,并将每批样本中的所有图像随机旋转0°、90°、180°或270°。

1.4 实验流程

1)候选检测的消融实验。对提出的目标检测框架的3 种构型进行了消融实验。(1)如图2(a)所示的原始SACD;(2)使用提出的RPN 模型,共享Convs 3、4 和5,但RCN 仅使用Convs5。为了方便讨论,该构型记为RPN-Only;(3)使用提出的RCN,共享Convs2、3、4 和5,但RPN 仅使用Convs5。此构型记为RCN-Only。表1 展示了共享卷积功能的3 种构型。同时为了抑制过拟合,使用Dropout 技术[39],随机丢弃第2 个全连接层40%连接权重。

表1 目标检测框架消融实验的3 种构型Tab.1 Three configurations of detector for ablation experiments

2)假阳性抑制的验证实验。实验中分配给FPR-SML,FPR-MED 和FPR-LRG 的候选样本数量分别为69 163(包含516 个真实结节),11 390(包含445 个真实结节)和4 254(包含207 个真实结节)。

3)为了验证所提出系统的潜在的临床应用价值,将其性能与两名胸部X 射线成像专业医生(观察者1 和观察者2,都有10 余年的经验)进行了比较。共进行了100 次临床扫描,总共430 个真实结节用于评估,所有结节的平均大小仅为(3.89±2.34)mm。

1.5 评估指标

为了对候选检测的效果进行客观、有效的评估,对LUNA-16 数据集进行了实验,并采用自由响应受试者工作特征曲线(free-response receiver operating characteristic curve,FROC)[40]用于评估在不同FP 率下检测的灵敏度。对于假阳性抑制,分别测量FPR-LRG,FPR-MED 和FPR-SML 的ROC 曲线下面积(area under the curve,AUC)、准确性、精密度、召回率和F1 值。

2 结果

2.1 候选检测的消融实验

图3(a)显示了3 种构型的多任务总损失值。可以发现,RCN-Only 的损失不断振荡,并且收敛速度非常慢。相比之下,SACD 和RPN-Only 的损耗收敛得更快,并且平滑得多。SACD 和RPN-Only 的两条曲线的变化非常接近,但依然可见,在前10 k 迭代中,SACD 的收敛速度比RPN-Only 快得多,如图3(a)中的虚线椭圆所示。

图3(b)和(c)分别展示了RPN 和RCN 阶段二分类任务的相应损失。在RPN 阶段,SACD 和RNP-Only 要比RCN-Only 更加快速的达到收敛,且收敛曲线更加平滑。该结果也验证了将锚设置在多也验证了将锚设置在多层上比仅在单个层上更合理。观察图3(c)可知,SACD 和RCN-Only 的收敛速度都比RPN-Only 快,尤其是在前25k 迭代,如虚线椭圆所示。这种现象证明了所提出的RCN 对结节分类的有效性。图4 展示了分别使用SACD 和RPN 对LUNA-16 数据集进行候选检测的两条FROC 曲线。RCN-Only 无法检测到候选对象,因此不需考虑。SACD 在每次扫描273 FPs 时的最大灵敏度为0.992,而RPN-Only 在每次扫描294 FPs 时的最高灵敏度为0.992。可以看到,当每次扫描的FP 数量少于80 时,SACD 的灵敏度要高于RPOnly。例如SACD 在每次扫描大约20 个FP 时的灵敏度为0.95,而RPN-Only 的灵敏度仅为0.90。这表明,使用来自多层的信息对RCN 中的二进制分类进行处理,确实可以改善候选检测。

图3 损失函数变化曲线.(a)SACD、RPN-Only 和RCN-Only 的多任务损失(虚线椭圆标记显著差异区域);(b)RPN 的二元分类损失;(c)RCN 的二元分类损失(虚线椭圆标记显著差异区域)Fig.3 Loss function curve.(a)The multi-task total loss corresponding to the SACD, the RPN-Only and the RCN-Only, respectively(The oval dashed lines mark areas of significant difference);(b)The binary classification losses of RPN;(c)The binary classification losses of RCN(The oval dashed lines mark areas of significant difference)

图4 分别使用SACD 和RPN 对LUNA-16 数据集进行候选检测的两条FROC 曲线Fig.4 The two FROC curves of the candidate on LUNA-16 dataset using SACD and RPNOnly, respectively

2.2 假阳性抑制

图5 给出了3 个分类模型实验结果的ROC 曲线。可以看到,FPR-SML,FPR-MED 和FPR-LRG 模型均实现了较高的AUC,分别为0.986、0.965 和0.983。此外,将结果与参与LUNA-16 挑战赛的5种新方法进行了比较。为便于比较,将竞争性能度量(competitive performance measure,CPM)的得分定义为FROC 曲线在7 个预定义FP 率下的平均灵敏度:分别为每次扫描1/8、1/4、1/2、1、2、4 和8个FP。

图5 3 种FPR 模型的ROC 曲线和相应的AUCFig.5 The ROC curves and the corresponding AUC of the three FPR models

表2 显示了参与实验系统的CPM 得分。可以看出,所提出系统的CPM 得分(0.941)高于文献[25,27,31]中3 个系统(其CPM 分别为0.908 和0.912 和0.842)。LUNA-16 数据集上的结果表明,所提出系统可以检测大小范围为3 ~30 mm 的各种类型的结节,并且在较低的扫描FP 率下具有高灵敏度。

表2 所提出的FPR 与其它系统在LUNA-16 上的结果对比Tab.2 The results of the FPR of the proposed system and other systems on the LUNA-16 dataset

2.3 与人工筛查的比较

图6 展示了所提系统与两名放射科医生关于发现结节数的结果比较。所提出系统筛共筛选329 个目标,包括299 个结节和30 个FP。每次扫描0.3 FP 时,灵敏度约为69.53%。观察者1 发现269 个结节和0 个FP。每次扫描0 FP 时,灵敏度仅为62.56%。观察者2 发现312 个结节和69 个FP,在每次扫描为0.69 FP 时,灵敏度约为72.5%。结果表明,在检测小结节方面,该系统的性能可与经验丰富的放射科医生相媲美。

图6 所提系统与人工筛查的关于100 例小结节临床扫描数据检测结果比较Fig.6 Findings of the proposed system and human screenings from the 100 clinical scans with small nodules

2.4 关于阈值的选取

在临床实践中,需要分别为FPR-LRG,FPRMED 和FPR-SML 选择合适的阈值。图7(a)、(b)和(c)分别展示了FPR-LRG,FPR-MED 和FPR-SML的度量曲线(准确性、精度、召回率和F1 值)。鉴于F1 值同时考虑了精度和召回率,在的研究中,将阈值设置为达到最大F1 值的位置,即F1 值曲线的峰值点,图7 中的垂直虚线分别给出FPR-LRG、FPRMED 和FPR-SML 的阈值。在选定阈值下,FPRLRG,FPR-MED 和 FPR-SML 的召回率分别为0.981、0.964 和0.860。

图7 度量曲线(准确性、精度、召回率和F1 值).(a)FPR-LRG;(b)FPR-MED;(c)FPR-SMLFig.7 The metric curves(accuracy, precision, recall and F1-value).(a)FPR-LRG;(b)FPR-MED;and(c)FPR-SML

3 讨论

为了解决结节的多样性以及临床小结节高精度检测的难题,许多人采用进一步优化FPR 的技术[25]-[28][30]。Setio 等[9]提出了一种多视图的FPR策略。Dou 等[25]通过多接受场策略提升检测性能。多感受野策利用结节的3D 空间信息筛选结节,效果略优于多视角策略,但仍然存在不足:首先,预先设定的提取图块大小很难应对尺寸变化较大的结节;其次,由CNN 联合其他融合方法来构建检测模型,需要采用更高水平的计算方式或更长的测试时间来完成重复实验和交叉验证,以实现融合方法的选择。

所提系统可以在较低FPs 下,实现高灵敏度的检测,主要归因于以下两个方面。

(1)采用尺寸自适应深度目标检测框架(SACD)生成候选对象,该框架不仅给出了候选对象的位置信息,还提供了候选对象的尺寸信息。在SACD 中,提出了一种将多层语义特征结合起来的新策略,以提高检测性能。

现有的CD 方法,特别是传统的CD 方法,灵敏度低,且FPs 率较高。例如,LUNA-16 提供了假阳性抑制候选数据(V2),通过融合5 个系统生成的结果,共获得了754 975 个候选对象,敏感度为98.3%[35]。而提出系统在设置Tcnd=0.01 情况下,敏感度为98.5%,仅产生了84 807 个候选对象;若设置Tcnd=0.001,灵敏度可以提高到99.2%,需要188 982 个候选对象,仍然远低于LUNA-16 中V2 的候选数量。

(2)基于先验尺寸信息,建立尺寸自适应分类框架(SAFPR)来细化结果,通过减少候选数据的误报,进一步提高检测性能。

大小信息对FPR 方法的设计是非常有用的,因为FPR 的性能强烈依赖于每个候选的接受域[30]。此外,不同大小的结节在特征上存在显著差异,目标越小,识别难度越高。因此,为了减少训练阶段不同大小结节之间的相互干扰,可以采用多个针对不同大小水平结节的独立模型进行预测。

所提出系统可以实现对各种类型的结节的高精度检测,但仍存在不足之处:在临床实践中,依然会出现假阳性和假阴性的检测结果。图8 显示了实验结果中的一些真阳性、假阴性和假阳性病例。对于真阳性的病例,所提模型检出了包括实性、部分实性、磨玻璃性、血管旁和胸膜旁等类型的结节,其大小变化非常大,甚至可以检测大于30 mm 肿物和小于3 mm 的结节,如图8(a)的第1 行和最后1 行所示。检测中的大多数假阴性病例多为小的毛玻璃结节(约2 mm),如图8(b)红色箭头所示。然而,系统也能找不到一些小的血管旁实性结节,如图8(b)的黄色箭头所示。此外,一些结节样组织可能会被识别为结节,如图8(c)所示。但是假阴性和假阳性病例被控制在一个相对较低的水平,并没有降低本系统的临床应用价值。

图8 检测中真阳性、假阴性和假阳性结果的例子(红色方框标记真阳性和假阳性结节,黄色和红色箭头标记假阴性结节)。(a)真阳性;(b)假阴性;(c)假阳性Fig.8 Examples of true positive false, negatives and false positives that were detected(The red boxes mark true positive and false positive nodules, and the yellow and red arrows mark false negative nodules).(a)True positives;(b)False negatives;(c)False positives

4 结论

本研究提出一种新颖的尺寸自适应策略,用于从胸部CT 扫描,准确、快速地检测肺结节。通过实验验证,证明了多尺度信息在检测和识别具有较大变化尺度病变问题上的重要性和效性。临床数据的结果可与经验丰富的专家进行的人工筛查相媲美,表明所提出的系统具有一定的临床应用价值。同时该模型端到端,简单高效,易于扩展和推广到其他医学影像和疾病的目标检测与识别应用中。

猜你喜欢
结节尺寸阳性
CIIE Shows Positive Energy of Chinese Economy
肺结节,不纠结
发现肺结节需要做PET/CT吗?
从气、虚、痰、瘀辨治肺结节术后咳嗽
体检查出肺结节,我该怎么办
抛开“阳性之笔”:《怕飞》身体叙事评析
D90:全尺寸硬派SUV
MALDI-TOF MS直接鉴定血培养阳性标本中的病原菌
探讨甲状腺自身抗体阳性甲亢病的131I 治疗与甲减关系
佳石选赏