面向高度近视条纹损伤的深监督特征聚合网络

2022-03-26 05:13谭晓刁逸超陈新建石霏樊莹谢嘉旻朱伟芳

中国图象图形学报 2022年3期

谭晓，刁逸超，陈新建，2，石霏，樊莹，谢嘉旻，朱伟芳*

1. 苏州大学电子信息学院, 苏州 215006； 2. 苏州大学放射医学与辐射防护国家重点实验室, 苏州 215123；3. 上海交通大学附属第一人民医院，上海 200080

0 引言

人类从外界获取的信息中70%以上来自视觉(Marr和 Vaina，1982)。随着手机、电脑等电子产品的普及，世界范围内由于过度用眼导致近视的发病率正在逐年上升。一般当近视度数超过600°或者眼轴大于26 mm时，临床诊断为高度近视(Tang等， 2015)。世界卫生组织的一项研究表明预计到2050年，全球高度近视人数将占总人口的10%(Mariotti等，2015)。部分高度近视患者存在严重的视觉健康隐患，主要表现为近视度数不断加深，视力下降甚至最终失明(Tokoro，1988)，这类发生眼底病变并可能致盲的近视称为病理性近视(Huang等，2009)。目前，我国是世界近视人口最多的国家，高度近视占近视人口20%以上，其中由病理性近视导致的视力损伤占17.6%～40%，病理性近视已成为45～59岁人群不可逆致盲的首要病因(Wang等，2013)。条纹状损伤(linear lesion) 是高度近视渐进发展为病理性近视过程中的一种重要眼底特征，与脉络膜新生血管及黄斑萎缩等严重眼底疾病有着密切相关性(Ohno-Matsui等，2003)，65%以上的条纹损伤若不加以控制将会继续恶化(Fang等，2018)。临床研究表明，在无创的光学相干断层扫描(optical coherence tomography, OCT)图像中，条纹状损伤主要表现为色素上皮—Bruch’s膜—脉络膜毛细血管复合体(retinal pigment epithelium-Bruch’s membrane-choriocapillaris complex，RBCC)损伤，具体包括RBCC异常和近视牵引纹(Shinohara等，2014)。

条纹损伤的自动分割以及定量分析对于病理性近视的预防与早诊早治具有非常重要的临床意义。但如图1所示，首先，由于在OCT图像中RBCC异常和近视牵引纹均属于小目标，前景与背景像素数量相差悬殊，存在严重的数据不平衡问题。其次，RBCC异常和近视牵引纹在OCT图像与其他正常组织结构在像素灰度、形态结构等方面存在极大相似性，这对条纹损伤尤其是RBCC异常的分割会造成严重干扰。因此，基于OCT图像的条纹损伤自动分割极具挑战性。目前，有关条纹损伤的分析与诊断主要依赖于医生的主观经验，相关自动分割技术鲜有报道，目前仅有Jiang等人(2019)、Feng等人(2020)基于吲哚青绿血管造影(indocyanine green angiography，ICGA)图像对条纹损伤的自动分割进行了研究，分别提出了基于部分密集连接与改进c-GAN(conditional generative adversarial network)的分割网络和基于上下文金字塔聚合的分割网络，较好实现了ICGA图像中条纹状损伤的自动分割。虽然ICGA是目前临床诊断条纹损失的金标准，但需要注射吲哚青绿造影剂，属于有创成像方式，部分病人会对造影剂产生过敏甚至休克等不良反应。因此，基于眼底OCT图像的条纹损伤自动分割对于眼科临床条纹损伤的大规模筛查和无创检测具有重要意义。为实现OCT图像中条纹损伤的自动分割，本文主要工作包括:

图1 OCT图像中的条纹状损伤Fig.1 Linear lesion in OCT image((a)RBCC disorder；(b) myopic stretch line)

1)针对传统池化下采样方式在小目标分割任务中易造成信息丢失，最终导致预测图中小目标的漏检和误检问题，本文提出一种新的特征聚合下采样模块(feature aggregation pooling module，FAPM)，可以在下采样过程中保留更多的上下文和局部信息。

2)提出了一种新的深监督模块——密集语义流监督模块(dense semantic flow supervision module，DSFSM)，以增加网络隐藏层中的有效特征图，并聚合不同分辨率图像之间的细节和语义信息。

3)提出一种基于特征聚合下采样模块和密集语义流监督模块的特征聚合分割网络(deep-supervision and feature-aggregation based network，DSFA-Net)，首次较好地实现了眼底OCT图像中条纹损伤的自动分割。

1 本文方法

1.1 整体网络结构

U-Net(Ronneberger等，2015)是一种为医学图像分割任务设计的卷积神经网络，其通过跳跃连接，结合网络浅层信息，可以缓解网络上采样过程中信息不足的缺陷。但是由于小目标分割任务的特殊性，仅通过传统跳跃连接来实现深层信息与浅层信息的融合往往会造成细粒度信息缺失等问题。为此本文提出了一种基于特征聚合下采样和密集语义流监督的特征融合分割网络DSFA-Net来解决这个问题。如图2所示。为减少网络参数量，本文提出的DSFA-Net以通道减半的U-Net为基准网络，采用5层U型编码器—解码器结构，每层编码器由2个基本编码单元组成，每个基本编码单元由1个3×3的卷积和1个修正线性单元激活函数(rectified linear unit, ReLU)组成，第1层编码器的通道数为32，每经过一层编码器，特征通道数增加一倍。下采样阶段使用本文提出的特征聚合下采样模块FAPM。与原始U-Net相比，结构上的改进主要包括：1)放弃编码器中传统的最大池化或者平均池化下采样模式，提出并嵌入了一种新的下采样模块——特征聚合下采样模块FAPM，减少下采样过程中小目标信息的损失；2)在解码器路径中，提出并嵌入了一种新的深监督模块——密集语义流监督模块DSFSM，在训练过程中将语义信息更有效地从网络深层传递到浅层并实现特征聚合，同时能够加快网络的收敛速度。

图2 DSFA-Net整体网络结构Fig.2 The overall network of DSFA-Net

1.2 特征聚合下采样模块

卷积神经网络中的池化下采样能够在降低特征维度的同时保留特征有效信息，在保持特征旋转、平移和尺度不变性的情况下减少网络过拟合(Nagi等，2011)。但传统的平均池化或者最大池化下采样方式存在感受野小、未考虑全局信息等问题(Boureau等，2010)，在小目标分割任务中会造成严重的信息丢失，最终导致预测图中小目标的漏分和误分。目前，已有一些改进的下采样方法尝试解决上述问题(张新良等，2020)，比如采用条纹状池化(Hou等，2020)来获取上下文信息，采用局部重要性池化(Gao等，2019)获取局部信息等。本文融合了条纹状池化和局部重要性池化的优点，提出了一个新的特征聚合下采样模块FAPM，其结构如图3所示。FAPM模块主要分为两部分：1)图3中左边所示的上下文信息获取模块，包含两个支路，分别获取垂直方向和水平方向的上下文信息。第1个支路的输入特征图经过竖直条纹池化和一个1×3卷积后，尺寸从H×W变为1×W，再通过双线性插值将特征图尺寸调整为H/2×W/2，用于获取垂直方向的上下文信息；第2个支路的输入特征图通过横向条纹池化和一个3×1卷积，尺寸从H×W变为H×1，然后通过双线性插值将特征图尺寸调整为H/2×W/2，用于获取水平方向的上下文信息。最终，两条支路的输出相加聚合，使网络实现对上下文信息的获取。2)图3右边所示的局部信息获取模块，首先输入特征图经过一个7×7卷积，然后通过 Sigmoid函数使得每一个像素获得(0,1)之间的归一化权重，再将这些权重与输入特征图相乘，经过双线性插值将特征图尺寸调整为H/2×W/2，使得输出特征图可以有效聚合每一个像素点的权重，减少信息丢失。将上述两部分的输出特征图相加聚合作为FAPM模块最终的输出特征图，构成一种新的下采样方式，实现上下文信息和局部信息特征聚合。

图3 特征聚合下采样模块Fig.3 The structure of FAPM

1.3 密集语义流监督模块

由于条纹损伤目标较小，随着U型卷积神经分割网络层数的加深，深层特征往往因为更关注于高级语义信息而造成小目标信息丢失问题，而仅通过简单的跳跃连接进行深层信息与浅层信息的融合，使得条纹损伤边缘区域的决策边界难以判定，从而造成模糊边缘区域难以分割的问题。为此，本文将深监督机制(Wang等，2015)融入分割网络，在为输出层提供语义监督的基础上，为隐藏层提供直接的金标准监督，并将金标准信息通过反向传播改变隐藏层参数，解决梯度消失和收敛速度过慢等问题。影响语义分割性能的一个主要因素是网络深隐藏层中具有强语义信息的特征图的分辨率过低，缺乏足够的空间细节信息，而浅层特征图存在分辨率高但缺乏语义信息的问题，因此如何让网络获得具有强语义信息的高分辨率特征图，是提高网络分割性能的关键。Li等人(2020)为此提出了一种流对齐模块(flow alignment module，FAM)，用于学习相邻层特征图之间的语义流，并有效地将高层语义信息与高分辨率细节信息进行对齐。由于条纹损伤分布较广且目标较小，如果能通过语义流将分割目标的位置信息对齐，这将有助于提升条纹损伤的分割性能。

因此，为了增加网络隐藏层中的有效特征图，并聚合不同分辨率图像之间的细节和语义信息，本文提出了DSFSM。以图2中解码器第4层的DSFSM模块为例说明设计原理，其网络结构如图4所示。DSFSM模块共包含3个分支，分别将解码器第4层特征图先通过1×1卷积和双线性上采样方式使其通道数和尺寸分别与编码器第1、2、3层特征图的通道数和尺寸保持一致，然后与编码器各层特征图分别级联合并，经过3×3卷积产生语义流场，进行如图5所示的语义流对齐，即先将语义流场每一个像素点生成的偏置对应到低分辨率特征图中的一个小数坐标像素点，然后根据这个小数坐标，找到4个最近的整数相邻像素进行可微分双线性上采样(Jaderberg等，2015)，实现低分辨率特征与高分辨率特征的语义对齐。语义对齐后的特征图再与各自编码器特征图相加聚合。最后，3个分支的输出上采样达到与金标准尺寸一致后进行级联合并，经过1×1卷积将通道数降为1后与金标准实现深监督，在网络训练过程中通过反向传播改变解码器和编码器各层的参数。至此，编码器第1、2、3层中都融入了来自解码器第4层的语义信息。

图4 密集语义流监督模块Fig.4 The structure of DSFSM

图5 语义流对齐过程Fig.5 The alignment of semantic flow

相比于原始语义流对齐模块，本文DSFSM模块最大的优点是通过密集连接将解码器中隐藏层的语义信息传递给了全部低层编码器的隐藏层，而原始语义流对齐模块只是将其传递给上一层编码器的隐藏层。此外，DSFSM模块还有来自金标准的深监督机制来辅助优化网络的训练，对网络的各个隐藏层进行直接的辅助分类。因此，DSFSM模块可以使得网络将语义信息和细节信息聚合更充分，进而提升分割性能。

2 实验设置

采用基于PyTorch的深度学习框架实现提出的DSFA-Net，编程语言采用 Python，GPU型号为NVIDIA TITAN X，显存12 GB。网络训练过程中的初始学习率设置为 0.001，采用动量为 0.9、权值衰减系数为 0.000 1 的随机梯度下降(Ruder，2016)算法对网络进行优化。网络训练过程中批尺寸设置为2，采用3折交叉验证策略，每一折训练进行120次迭代，保存在验证集上Dice相似系数(Dice similarity coefficient，DSC)最高的模型。受限于数据集数量，为了提高网络的泛化能力、减少过拟合风险，采用了在线随机数据扩增(Salamon和 Bello，2017)方式，包括随机旋转、上下翻转、左右翻转和增加高斯噪声。由于OCT图像中RBCC异常以及近视牵引纹目标区域较小，存在严重的数据不平衡问题，因此本文采用交叉熵损失函数LossCE(Boer等，2005)与 Dice损失函数LossDice(Milletari等，2016)之和作为网络整体损失函数Losstotal，降低数据不平衡的影响。

(1)

(2)

Losstotal=LossCE+LossDice

(3)

式中，n为图像中的像素总数，i表示图像中第i个像素的值，yi,c表示金标准中i属于类别c的概率，pi,c表示预测结果中i预测为类别c的概率，C表示类别数，y为金标准中的像素值，x为网络预测的像素值。

3 实验结果与分析

实验采用的眼底OCT图像来自上海市第一人民医院，由德国海德堡公司的Heidelberg SPECTRALIS OCT仪器采集，包含来自22只高度近视眼共计751幅256×512像素的2维OCT B扫描图像。按背景、RBCC异常及近视牵引纹3类进行金标准标注，所有金标准标注均在两位专业眼科医生的指导下完成。

3.1 评价指标

为了全面、客观地评估提出的DSFA-Net的分割性能，采用了DSC、Jaccard(Shelhamer等，2017)指数和敏感度(sensitivity)作为评价指标。式(4)所定义的DSC指标采用预测结果正确区域像素的两倍与预测结果和金标准区域像素和的比值，是医学图像分割中常见的指标；式(5)定义的Jaccard系数可用于衡量预测值与金标准的交集与并集的比值；式(6)定义的敏感度表示在所有前景中被正确标记为前景的像素的比例。分别计算为

(4)

(5)

(6)

式中，TP为真阳性，表示预测值与金标准都为前景的点；FP为假阳性,表示预测值为前景但金标准为背景的点；TN为真阴性，表示预测值与金标准都为背景的点；FN为假阴性，表示预测为背景但金标准为前景的点。上述3个评价指标取值都在[0,1]，结果越靠近1表示网络分割性能越好，越靠近0表示网络分割性能越差。

3.2 消融实验

为了验证本文提出的特征聚合下采样模块FAPM以及密集语义流监督模块DSFSM对网络分割性能提升的有效性，以通道数减半的U-Net网络为基准网络，进行消融实验：1)基准网络；2)基准网络+FAPM；3)基准网络+ DSFSM；4)基准网络+DSFSM+FAPM，即本文提出的DSFA-Net。

表1是上述消融实验结果的定量性能比较。由表1可见，对于近视牵引纹的分割，基准U-Net网络的DSC系数为0.687、Jaccard指标为0.569、敏感度指标为0.783；基准网络加入FAPM模块后，DSC指标提升了2.8%，Jaccard指标提升了3.2%，敏感度指标提升了5.3%；基准网络加入DSFSM模块后，DSC指标提升了5.6%，Jaccard指标提升了6.2%，敏感度指标提升了2.9%；基准网络加入DSFSM和FAPM模块后，3项指标均得到进一步提升，最终DSC、Jaccard和敏感度指标较基准网络分别提升了6.4%、7.0%和3.8%。对于RBCC异常的分割，基准U-Net的DSC系数为0.590、Jaccard指标为0.451、敏感度指标为0.607。基准网络加入FAPM模块后，DSC和Jaccard指标略有下降，原因是RBCC异常的边界较为模糊，视网膜其他组织结构病变干扰误导了FAPM模块的判断；基准网络加入DSFSM模块后，DSC指标提升了4.2%，Jaccard指标提升了4.5%，敏感度指标提升了5.6%；基准网络加入DSFSM和FAPM模块后，3项指标均得到进一步提升，DSC、Jaccard和敏感度指标较基准网络分别提升了5.6%、4.9%和6.6%，说明DSFSM和FAPM模块的结合可以有效提取RBCC异常的特征信息，减少误检和漏检。

表1 消融实验结果Table 1 The results of ablation experiments

图6展示了4例消融实验的可视化分割结果。如图6(c)基准网络的预测图中，RBCC异常区域误检以及近视牵引纹漏检现象比较严重，说明基准网络采用传统下采样方式以及通过简单跳跃连接方式实现深层信息与浅层信息融合的方式无法解决条纹损伤分割任务中小目标缺失以及边界模糊等问题；如图6(d)所示，在基准网络中加入FAPM模块后，预测图中近视牵引纹漏检和RBCC异常误检得到有效缓解，表明本文提出的FAPM模块可有效减少下采样过程中细节信息缺失的问题，从而较有效地解决小目标分割问题；如图6(e)所示，在基准网络中加入DSFSM模块后，预测图中的RBCC异常与近视牵引纹的边缘区域分割结果更接近于金标准，表明本文提出的DSFSM模块通过密集语义流监督机制可以有效融合深层信息与浅层信息，从而有效缓解模糊边界区域难以分割的问题；图6(f)所示，在基准网络中同时加入FAPM和 DSFSM模块后，RBCC异常和近视牵引纹的分割结果得到进一步改善，表明在DSFA-Net中特征聚合下采样方式和密集语义流监督机制得到进一步有效融合，更好地解决了条纹损伤分割任务中小目标分割和边界模糊问题。

图6 消融实验分割结果Fig.6 Segmentation results of ablation experiments((a) original images；(b) ground truth；(c) baseline；(d) baseline+FAPM；(e) baseline+DSFSM；(f) DSFA-Net(ours))

3.3 对比实验

为了更加客观地评估本文方法的性能，进行了对比实验，主要包括以下3组：1)下采样方式对比实验。基于基准网络，对比本文提出的特征聚合下采样模块DSFSM与最大池化、平均池化、步长为2的3×3卷积、条纹池化和局部重要池化等5种较为流行的下采样方式。2)深监督策略对比实验。基于基准网络，对比本文提出的密集语义流监督模块FAPM与传统深监督、语义流深监督等深监督策略。3)分割性能对比实验。将本文DSFA-Net与SegNet (Badrinarayanan等，2017)、PSPNet(pyramid scene parsing network) (Zhao等，2017)、CE-Net(context encoder network) (Gu等，2019)、DeeplabV3 (Chen等，2017)、Attention U-Net (Oktay等，2018)、TransUNet (Chen等，2021)和U-Net等优秀语义分割网络进行了对比实验。3组对比实验的结果分别如表2—表4所示。

表2 下采样方式对比实验结果Table 2 The comparisons of different down-sampling methods

表3 深监督策略对比实验结果Table 3 The comparisons of different deep supervision methods

由表2可知，在下采样方式对比实验中，本文提出的FAPM模块对于近视牵引纹的分割取得了最好的结果，说明FAPM模块能更好地提取和聚合近视牵引纹的上下文信息和局部信息。在RBCC异常的分割中，局部重要池化下采样方式取得了最高的DSC和Jaccard指标，可能的原因是局部重要池化下采样对RBCC异常表现出的高亮区域更敏感，更准确地提取了RBCC异常的形状；平均池化下采样方式获得了最高的敏感度指标，平均池化下采样虽然对RBCC异常分割的真阳性较高，但是假阳性也高，因此出现了敏感度较高但DSC和Jaccard指标较低的情况。

在表3所示的深监督策略对比实验中，对于近视牵引纹和RBCC异常的分割，提出的DSFSM模块均具有优势。在DSC、Jaccard和敏感度3项指标上，DSFSM模块不仅均优于传统深监督机制，也均优于DSFSM模块设计灵感来源的语义流结合深监督机制，其主要原因是相比于语义流模块，DSFSM模块通过密集连接方式可以将更多解码器隐藏层的语义信息融合到编码器的隐藏层中，使得整体网络中语义和细节的特征信息聚合更加充分。

表4对比了本文DSFA-Net与DeeplabV3、PSPNet、CE-Net、U-Net、SegNet、Attention U-Net、TransUNet等语义分割网络的性能，同时还对各个网络的参数量进行了比较。由表4可见，本文DSFA-Net将通道减半的U-Net作为基准网络，结合FAPM和DSFSM模块后，在尽可能保留细节信息的同时，将深层信息与浅层信息合理结合，在参数量仅为14.53 M的情况下，分割性能整体优于其他语义分割网络，表明网络结构的合理设计对特定任务分割性能的提升至关重要。

图7展示了4例采用不同分割网络的分割结果。由图7(d)(e)以及表4可以看出，对于编码器—解码器网络结构，相较于通道减半的U-Net，原始U-Net在增加参数的情况下，RBCC异常误分割现象得到减少，但模糊边界区域的分割结果未得到有效改善。从图7(c)可以看出，在网络参数量为DSFA-Net 4倍的DeeplabV3的预测图中RBCC异常与近视牵引纹的误检以及漏检现象非常严重，说明对于小目标分割任务，高效地提取细节信息至关重要，如果无法对细节进行合理的提取，即使参数量增大也难以优化分割结果。本文提出的DSFA-Net以较小的参数量与合理的网络结构，提高了对RBCC异常与近视牵引纹细节特征的提取，更好地实现了RBCC异常和近视牵引纹的分割，有效缓解了条纹损伤分割任务中小目标以及模糊边界区域难以分割的问题。

图7 不同网络的分割结果Fig.7 Segmentation results of different networks((a) original image；(b) ground truth；(c)DeeplabV3；(d) baseline；(e) U-Net；(f)DSFA-Net(ours))

综上所述，本文提出的DSFA-Net以合理的网络结构和模块设计较好地实现了RBCC异常和近视牵引纹分割任务，为RBCC异常和近视牵引纹的自动分割任务提供了一个可靠的技术手段，具有很大的临床意义。

4 结论

眼底OCT图像中条纹损伤的自动分割对于条纹状损伤的无创诊断以及病理性近视的预防与早诊早治具有非常重要的临床意义。本文提出了一种基于特征聚合下采样模块和密集语义流监督模块的U型卷积神经网络DSFA-Net，减少了下采样过程中的信息丢失，聚合了隐藏层不同分辨率图像之间的细节和语义信息。消融实验的结果表明，本文提出的两个模块能有效缓解数据不平衡问题，较好地克服了小目标分割和边界模糊难题；对比实验的结果表明，本文提出的DSFA-Net网络相比其他网络更具优势。

虽然提出的DSFA-Net网络在高度近视条纹损伤分割任务中取得了较好的结果，但是分割性能仍有较大的提升空间。首先，由于采用的眼底OCT图像数据有限，分割网络的泛化性能有待进一步提升；其次，由于条纹损伤区域较小，本文方法虽然较好地缓解了数据分布严重不平衡问题，但仍需研究如何进一步解决该问题。

因此，针对以上问题，在后续的研究工作中将通过采集更多OCT数据或者采用传统、深度学习方法生成更多OCT数据来对数据集进行扩充，使得分割网络得到充分的学习和训练；同时尝试将目标检测与语义分割任务相结合，以进一步解决数据不平衡问题，进而提高网络的分割性能和泛化能力。