注意力感知的多尺度语义视杯盘分割

2023-12-02 12:48:08曹娅迪黄文博
光学精密工程 2023年21期
关键词:池化主干注意力

燕 杨, 曹娅迪, 黄文博

(长春师范大学 计算机科学与技术学院,吉林 长春 130032)

1 引 言

视盘(Optic Disc,OD)是视神经的起点,位于视网膜中心,视杯(Optic Cup,OC)即其中央凹陷处。由于青光眼导致的视神经损伤,OC 区域会不断扩大,导致杯盘比(Cup to Disk Ratio,CDR)增加[1]。青光眼早期阶段并无明显症状,CDR 即为诊断青光眼的重要指标。通过CDR诊断青光眼需要眼科医生对大量眼底图像中的OD 与OC 区域进行标注,耗时耗力,为此学者们对OD/OC 自动提取算法展开研究。基于数字图像处理的 OD 和 OC 分割方法主要分为两种,一种是通过水平集、主动轮廓等算法寻找边缘确定OD 范围;另一种是通过分析各类特征,使用分类器提取每个像素点分类,为了提高分割效率,这类方法多应用在彩色眼底图像的超像素分割中[2-5]。上述早期算法无法提取更抽象的特征,仅依赖低级特征,不仅易受干扰,而且精度过低。

神经网络具有很强的特征提取能力,其中以M-Net[6]最为经典。M-Net 采用金字塔多尺度输入,并通过side-out 层为早期层生成伴随的局部输出图,最终将多个尺度的特征图聚合生成输出。针对OD 像素与背景像素严重不均衡的问题,M-Net 通过极坐标转换以及采用基于Dice 系数的多标签损失函数替代常见的多类分割损失来缓解。目前,许多OD 和OC 分割方法都借鉴了M-Net 的思想。Liu[7]等提出一种密集连接的深度可分离卷积网络,使用金字塔多尺度输入避免网络参数大幅增加,使用深度可分离卷积减少计算消耗,采用密集连接的形式,获取眼底图像中更丰富、更复杂的特征,提高OD和OC 的提取精度。于舒扬等[8]基于Seg-Net 框架提出了融合感受野模块的Seg-RFNet 框架,其编码器采用ResNet-50 结构,进行分支处理拓宽网络结构,获得了更抽象的语义信息;其解码器的输入来自不同级编码器,以更完整地恢复图像。

由于浅层特征与深层特征之间存在语义鸿沟,U 型网络编码器-解码器通过跳跃链接将二者直接拼接的行为通常会导致噪声,增加干扰。为此,本文提出了注意力感知的多尺度语义目标提取模块(Channel-Spatial-Pyramid, CSP)。该模块在多尺度池化方法中引入通道-空间联合注意力机制,在丰富上下文信息的同时,增大对目标提取有意义的特征权重。进一步提出基于CSP 模块的OD/OC 自动分割网络CSP-Net,将CSP 模块应用于编码器-解码器网络,增强早期层特征,减轻语义鸿沟,提高算法性能和精度。

2 原 理

正常情况下,OD 和OC 的形态如图1(a)所示,其中蓝色轮廓内区域为OD,绿色轮廓内区域为OC(彩图见期刊电子版)。由于青光眼导致的OC 病变,如图1(b)所示,OD 与OC 特征接近,难以区分。本文设计了CSP 模块加入网络,提高了网络特征提取能力,能够更精准地分割OD 与OC。CSP-Net 整体结构如图2 所示。提取特征的主干网络在U-Net 基础上减少了滤波器数量和训练参数,降低训练所需要的计算消耗。针对早期特征与后期特征之间存在的语义鸿沟问题,在主干网络下采样路径的早期层加入CSP 模块,增强网络提取上下文信息的能力并抑制无关特征,减轻浅层特征与深层特征的语义差异。传统的金字塔池化模块(Pyramid Pooling Module,PPM)[9]通过使用不同尺寸的池化核,达到获取上下文信息的目的,但早期特征仍比较粗糙,含有大量与分割目标无关的干扰特征。因此,CSP模块在金字塔池化中引入通道-空间联合注意力模块,从通道和空间两个维度放大对识别目标更有意义特征。

图1 彩色眼底图像中的OD 和OC 区域Fig.1 OD and OC regions in color fundus images

图2 CSP-Net 网络模型Fig.2 CSP-Net model

2.1 轻量级U-net

早期特征在卷积与池化过程中均有丢失,仅凭后期特征进行分割不够全面。U-Net[10]通过拼接层将早期特征与后期特征进行融合,解决了这一问题,因此成为最有效的特征提取网络之一。U-Net 主要由两部分组成,其中收缩路径用于获取上下文信息,扩张路径用于完成精准分割,整个网络结构呈对称状态。

为减少训练参数,提高训练效率,这里减少了主干网络卷积层上的滤波器,并且不增加用于降低分辨率的滤波器数目。这些改变并没有降低网络提取特征的能力,而是在参数数量和训练时间方面变得更加轻量级[11]。

2.2 损失函数

在OD 分割任务中,由于OD 区域仅占全部图像很小的部分,因此存在正负样本严重不均衡的问题,训练时损失函数会陷入局部最小值,产生更重视背景部分的网络,样本量较少的前景部分常会丢失或是仅被部分提取[12]。为了解决这一问题,将损失函数定义为:

其中:d(A,B)是Dice 损失函数,是基于一种反应正负样本相似度的评价函数;Dice 系数的取值为[0,1];A是网络输出的概率图,B是专家手工标注的真实标签,包含每个像素及其所属的类;aij和bij分别代表A和B中的某一像素。Dice 损失函数评估真实标签与预测结果的相似程度,而非像素级的准确度,避免网络为追求更低损失将全部样本分类为负样本的情况。

2.3 CSP 模块

考虑到语义鸿沟问题,CSP-Net 在主干网络早期层中引入基于注意力机制的多尺度池化CSP 模块。在编码器-解码器网络中,随着网络层数的加深,特征分辨率不断降低,这一过程使深层特征丢失了许多上采样操作无法恢复的细节信息。通过跳跃链接方法将浅层特征与深层特征进行拼接虽然可以解决这一问题,却因早期特征更粗糙、后期特征更抽象这一差异导致噪声,影响分割精度。因此,这里在主干网络早期层引入CSP 模块,对早期特征进行进一步处理再与后期特征进行拼接,减少语义差异,如图3(a)所示。

图3 CSP 与其子模块结构Fig.3 CSP module and submodule structure

U-Net 将不同卷积层的特征拼接实现了上下文信息融合,但提取特征时依旧使用固定尺寸的卷积核,缺少对每一层上下文信息的有效提取和利用。为充分提取早期层所包含的上下文信息,CSP 模块基于金字塔池化结构,依靠多个不同尺寸的感受野检测尺寸各异的目标,获得更丰富的多尺度特征。普通最大池化使用单个池内核,金字塔池化结构采用4 条并行分支进行池化,每条分支池化核尺寸均不相同。4 个不同尺寸感受野收集特征图的上下文信息并进行编码,产生4 个不同尺寸的特征图并将所有分支结果拼接。最后,对拼接的特征图使用1×1 卷积,将通道数恢复至原特征图尺寸。

传统的金字塔池化结构虽然提取到丰富的空间上下文信息,但无法阻止无关特征进入后期层,因此CSP 在金字塔池化结构中引入通道-空间联合注意力模块。通道-空间联合注意力模块拥有两个顺序子模块,即通道注意力模块和空间注意力模块。 对于一个给定的特征图F∈RH×W×D,该模块首先通过沿着通道模块产生一个一维的通道注意力特征图Ac∈R1×1×D,将它乘以输入特征图进行自适应特征细化,产生细化的特征图F′。F′作为空间注意力模块的输入,产生通道数为1 的空间注意力图As∈RH×W×1,并与F′相乘,产生最终的注意力特征图F′。该过程的数学形式如下:

其中⊗表示对特征图进行逐元素相乘。在该过程中,通道注意力模块产生的注意值会继续在空间维度传播。通道注意力模块与空间注意力模块结构分别如图3(b)和3(c)所示。

输入通道注意力模块的特征图,首先经过最大池化和平均池化聚合特征映射的空间信息,产生两组不同的特征信息——平均池化所聚合的空间信息与最大池化所收集的不同类别的特征,使网络可以有效学习OD 和OC 的范围,减少无关背景对识别目标的影响,同时细化特征,有效降低OC 目标的提取难度。通道注意力模块对池化产生的两组特征分别进行1×1 卷积操作后,再进行求和,最后使用sigmoid 函数进行激活,产生最终的通道特征图。通道注意力模块可表示为:

其中σ表示sigmoid 激活函数。

空间注意力模块作为通道注意力模块的补充,接收通道注意力特征图作为输入。经过全局最大池化和全局平均池化后,将结果聚合,经过7×7 卷积和Sigmoid 函数,产生最终的空间注意力图。与通道注意力不同的是,空间注意力会聚焦特征图中的关键信息,即强调感兴趣目标,有助于解决前背景像素分布不均衡的问题。空间注意力模块还可表示为:

其中f7×7为卷积核尺寸为7×7 的卷积操作。

3 实 验

3.1 实验条件

本文分别在RIM-ONE v. 3[13],DRIONSDB[14],DRISHTI-GS[15]公开彩色眼底数据集上进行实验,将本文方法与现有方法在OD/OC 识别任务中进行对比,以验证本文方法的性能与泛化能力。在实验中,数据集被随机划分为训练集与验证集两部分,其中训练集占数据集总量的80%,验证集占总量20%。训练集与验证集中均包含正常眼底与青光眼眼底两类数据。

实验使用深度学习框架Tensorflow 2.0 和Keras 2.3.1,利用GPU(graphic processing unit)加速网络模型训练及测试,显卡型号为NVIDIA Tesla K80。采用Adam 优化器,Adam 算法可在训练时自适应调节学习率,且收敛速度更快。

训练前采用对比度受限自适应直方图均衡进行预处理。由于样本数量较少,为防止过拟合,在训练阶段对每幅图像分别进行4 种数据增强操作,包括随机缩放、随机水平偏移、随机垂直偏移和随机旋转,并将图像统一缩放为256×256像素进行训练与测试。为了充分利用先验知识,在OC 识别前先根据图中OD 的位置裁剪出尺寸为128×128 的区域,再输入网络中。训练时,批处理大小设置为4,训练进行500 个epoch。

3.2 评估函数

为客观评估本文算法性能,采用Dice 系数、平均交并比(Mean Intersection over Union,MIoU)、总体分割精度(Accuracy,Acc),精确度(Precision,PC)和均方误差(Mean Square Error,MSE)作为评价标准,将本文算法结果与现有算法结果进行比较。评价函数公式如下:

其中:TP 为预测正确的正样本像素数量,FP 为预测错误的正样本像素数量,TN 为预测正确的负样本像素数量,FN 预测错误的负样本像素数量,k+1 是包括背景在内的类的数量。

其中:M和N分别代表图像的宽和高,y(i,j)代表原始图像中的某一像素,x(i,j)为预测图像中的对应像素。

3.3 对比实验及结果分析

在OD 提取任务中,将本文方法与现有方法进行比较,结果如表1 所示。在DRIONS-DB 数据集上,本文方法的MIoU 与Dice 系数分别达到92.6% 与 96.9%,Acc 达到 99.8%,PC 为97.0%。与未加入CSP 模块的主干网络比较,各项指标均有所增加,且所有对比算法中,CSP-Net的Dice 值最高。

表1 DRIONS-DB 数据库OD 提取结果对比Tab.1 Comparison of OD extraction results on DRIONS-DB database(%)

图4 展示了在DRIONS-DB 数据集中,本文方法与其他方法预测结果的可视化结果。以第3行为例,AttnU-Net 由于血管干扰,视盘区域欠分割;M-Net 的分割结果则远大于视盘区域,会影响CDR 计算,最终影响青光眼筛查结果;DRIU方法的视盘位置与人工标注有偏差。相对而言,本文方法能够更准确地从病变区域中识别视盘,分割结果也更接近专家标注。

图4 DRIONS-DB 数据集OD 提取可视化结果对比Fig.4 Comparison of OD extraction results on DRIONSDB dataset

如表2 所示,在RIM-ONE v.3 数据集上,本文方法的MIoU 与Dice 系数分别达到91.7 与96.3%,Acc 与PC 分别为99.7%,95.7%,比主干网络分别提高了5.6%,3.2%,0.2% 和1.5%。由表1 与表2 所展示的OD 提取对比数据可见,本文方法有效提高了网络分割精度,与人工标注的结果最接近。

表2 RIM-ONE v.3 数据库OD 提取结果对比Tab.2 Comparison of the results of OD extraction on RIM-ONE v. 3 database(%)

图5 展示了RIM-One v.3 数据集OD 提取的可视化结果。由图可见,在病变、血管结构及光照等影响下,本文方法仍然较为精准且稳定地提取OD,在病变眼底中能够准确识别视盘。

图5 RIM-ONE v.3 数据集OD 提取的可视化结果对比Fig.5 Comparison of OD extraction results on RIMONE v. 3 dataset

在OC 提取任务中,本文方法在DRISHTIGS 和RIM-ONE v.3 数据集上与M-Net,主干网络,MEAL[22],pOSAL[23],FCN[24],SegNet[25],ESS-Net[26],Edge TPU[27],SLSR-Net[28],NASU2-Net[29],SAM 和MedSAM 方法进行了对比,结果如表3 所示。由表可见,本文方法的MIoU 和Dice 点数分别为85.4%和92.1%,显著优于其他方法。

表3 DRISHTI-GS 数据库OC 提取结果对比Tab.3 Comparison of OC extraction results in DRISHTIGS database(%)

由表4 可见,在RIM-ONE v.3 数据集OC 提取对比实验中,本文方法仍获得了最高的相似度,预测结果与真实标签最接近。以上结果表明,CPS-Net 可以准确地对OD/OC 进行自动提取,为青光眼的诊断与筛查提供可靠依据。

图6 为不同方法在RIM-ONE v.3 数据集上的OC 提取可视化结果对比。可以看出,pOSLA算法在RIM-ONE V3 数据集上出现了过分割的情况;M-Net 则由于可迁移性不强,实验结果也不理想。视杯提取的难点在于视杯包含在视盘中,且二者特征相似难以区分,而通道注意力使网络更专注与关键信息相关的通道,增强了CPS-Net 的目标提取能力。以图6 第4 行为例,虽然该图OC 区域极小且特征不明显,但本文方法仍更接近专家标注,最大程度地减少CDR 的计算误差。图7 为不同方法在DRISHIT-GS 数据集可视化OC 提取对比。由图可见,本文方法未受血管网络影响,实现了精准分割。

图7 DRISHTI-GS 数据集的OC 可视化结果对比Fig.7 Comparison of OC extraction results on DRISHTI-GS dataset

3.4 消融实验及结果分析

本文方法在不同数据集上进行了消融实验,以验证CSP 模块中所有模块的作用。实验在主干网络的基础上,分别加入了通道-空间联合注意力、金字塔池化结构以及CSP 模块。实验环境、评估指标以及超参数均相同。

如表5 和表6 所示,将仅加入注意力机制的网络记为+Attn,仅加入金字塔池化结构的网络记为+PPM。由表可知,以RIM-ONE v.3 数据集的实验结果为例,使用主干网络提取OD 的MIoU 为86.1%,Dice 系数为93.1%,OC 提取的MIoU 为68.3%,Dice 为81.5%。将通道-空间联合注意力(Attn)与金字塔池化结构中的任何一个集成,都可以提高性能指标。将注意力机制引入金字塔池化结构后,OD 的提取性能达到最高,MIoU 为91.7%,比主干网络高5.6%;Dice 为96.3%,比主干网络高3.2%。OC 提取的MIoU可达74.4%,比主干网络高6.1%;Dice 系数为86.0%,比主干网络高4.5%。

表5 OD 提取消融实验结果对比Tab.5 Comparison of ablation experiment results for OD extraction task(%)

表6 OC 提取消融实验结果对比Tab.6 Comparison of the ablation experiment results for OC extraction task(%)

4 结 论

本文以更轻量级的编码器-解码器模型作为主干网络,加入基于注意力机制的多尺度语义目标提取CSP 模块,对早期层特征进行进一步处理,并与上采样路径中的后期层特征进行拼接,在减轻语义鸿沟的同时,更加充分地利用来自每一层的多尺度信息,有效提升了目标提取的精度。针对提取视杯盘任务,在DRIONS-DB,RIM-ONE v.3 及DRISHTI-GS 3 个公开数据集上与现有方法进行对比。实验结果表明,本文提出的CSP-Net 在OD 和OC 的提取任务中精度均为最优,且在处理病变区域、视杯特征不明显等区域具有很强的竞争力。

猜你喜欢
池化主干注意力
全球首条1.2T超高速下一代互联网主干通路
军事文摘(2024年2期)2024-01-10 01:58:34
面向神经网络池化层的灵活高效硬件设计
基于Sobel算子的池化算法设计
让注意力“飞”回来
卷积神经网络中的自适应加权池化
软件导刊(2022年3期)2022-03-25 04:45:04
抓主干,简化简单句
二代支架时代数据中糖尿病对无保护左主干患者不同血运重建术预后的影响
高龄无保护左主干病变患者血运重建术的长期预后
基于卷积神经网络和池化算法的表情识别研究
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10