何佳豪, 张浩林, 朱珂盈, 黄 坤, 陈 强
(南京理工大学计算机科学与工程学院, 南京 210094)
脉络膜是位于视网膜和巩膜之间的一层薄膜, 它不仅是外层视网膜的供给源,还兼具温度调节、视网膜位置调整、分泌生长因子等功能, 是眼睛结构中血管最丰富的组织层[1].脉络膜也与众多病症息息相关,如糖尿病视网膜病变(diabetic retinopathy, DR)、糖尿病黄斑水肿(diabetic macular edema, DME)[2]、老年性黄斑变性(age-related macular degeneration, AMD)[3]等.此外, 它分泌的生长因子还有益于矫正近视与远视[4].基于脉络膜在眼科病理学上诊断和治疗的重要性, 对脉络膜进行分析研究十分必要.光学相干断层扫描技术(optical coherence tomography, OCT)能捕获精细的脉络膜截面图像[5], 为脉络膜血管形态、分布等提供可视化分析.然而, 在OCT图像上人工标注脉络膜相关参数耗时耗力, 且重复性较低, 因此引入了自动分割技术.
传统的医学图像分割工作对技术人员的知识储备以及图像处理、参数调整等环节都有很高的要求[6].如Duan等[7]应用多尺度自适应阈值法进行脉络膜血管的分割; Zhang等[8]提出使用三维管状模型检测血管,并结合多尺度滤波和阈值处理来细化脉络膜血管分割结果的边界.这类方法为定性观察结果提供了便利,但在定量评估相关数据方面仍有缺陷, 且以上方法使用的是低级语义特征, 对于相互遮挡的对象(如血管互相紧靠的脉络膜)效果不佳.
早期的语义分割算法利用低级特征来定位对象边界[9], 性能普遍较差.深度学习的语义分割算法使用高级语义完成分割任务.全卷积网络(fully convolutional network, FCN)和U-Net是自动医学图像分析任务中常用的2种体系结构[10].U-Net基于编码器-解码器(encoder-decoder)框架, 左侧的编码器通过5个最大池化层, 逐层下采样, 进行多尺度的原始图像特征提取; 右侧的反卷积实现上采样, 完成目标对象定位, 性能出色.但在传统的U-Net中, 为避免解码时丢失大量的空间细节信息而使用了跳跃连接的方法, 导致在提取低级语义特征时产生较多冗余信息, 有待改进.
脉络膜OCT图像数据包含脉络膜血管、脉络膜上下边界等区域及视网膜信息等.其血管形状大小不同, 一些微小血管特征在提取过程中常被忽略, 而视网膜区域的血管灰度值和形状特征与之相似,也可能出现误判.注意力机制[10]与深度学习的结合是提高分割准确率的有效方法.注意力机制可在特征提取过程中自动学习, 着重关注提取范围内的特征, 消除区域外的异常标注情况, 同时提高细小血管的特征提取准确性.
本文在U-Net网络的基础上引入了结合空间注意力与通道注意力的卷积注意力模块, 使改进的CMSA-Unet(choroid morphology stretch ATT-Unet)模型定位于脉络膜血管区域,在保证分类准确度、最小化计算量的同时提高了定位精度.此外,对于脉络膜血管分割任务, 往往难以获得大量有效训练数据,这给分割任务带来了挑战.对此,本文提出了有效的数据增强与数据增广策略, 可为相关分析研究提供参考.
本文提出的CMSA-Unet网络流程如图1所示.原始OCT图像先后经数据预处理模块、数据增广模块和网络模块框架, 最后得到对应的脉络膜血管分割结果.
图1 CMSA-Unet网络结构和数据增广模块Fig.1 CMSA-Unet network structure and data augmentation module
为提升训练效果,本文对训练集进行数据预处理,即对大小为640×400的原图像进行随机裁剪, 得到大小为400×400的切片, 以提升脉络膜区域在图像中分布的随机性.
1) 基础增广.在训练过程中, 由于数据集上右侧脉络膜曲率过大,往往产生血管遗漏的问题, 故对训练集OCT图像使用随机旋转、左右翻转等方法进行基础增广, 得到400×7×2幅图像作为训练集.
2) 脉络膜形态增广.脉络膜形态包含脉络膜的形状、上下边界曲率及厚度等.脉络膜OCT数据集虽然在相同数据块内具有相近的脉络膜形态, 但在不同的数据块间存在各式各样的脉络膜形态, 这可能导致形态有差异的血管无法获得较好的分割结果, 故通过调整脉络膜区域的形态,将不同的血管特征与脉络膜形态特征进行组合以增大特征空间,使模型学习到更多形态的血管特征,提升分割效果.本文提出脉络膜形态拉伸(choroid morphology stretch, CMS)的增广方法.先沿着脉络膜边界拉伸整幅图像,然后从中央裁剪.图2为经过CMS增广的脉络膜图像. 脉络膜形态增广基于有限的数据生成了更多的训练数据, 提高了训练数据在形态特征上的丰富度.
图2 经过不同程度拉伸的CMS增广脉络膜形态Fig.2 CMS widen choroidal morphology after varying degrees of stretching
卷积块注意模块(convolutional block attention module, CBAM)[11]被广泛应用于提高卷积神经网络的表示能力.CBMA包括通道注意力模块(channel attention module, CAM)和空间注意力模块(spatial attention module, SAM).在通道注意力模块中, 输入特征图F经过全局最大池化和全局平均池化,比单一的池化层损失的信息更少.然后特征图进入有一个隐藏层的共享多层感知器(multilayer perceptron, MLP), 将输出的特征进行基于矩阵元素的加和操作及sigmoid激活, 形成通道注意力特征Mc.将Mc和F做矩阵元素乘法操作, 得到空间注意模块的输入特征F′, 再沿信道轴应用平均池化和最大池化, 并进行通道拼接.随后用一个7×7的卷积层降维, 再利用sigmoid生成空间注意特征图Ms.最后将Ms和F′相乘, 得到最终特征.
在整个OCT图像中,脉络膜区域的占比相对较小,大面积的无关背景可能对分割过程造成影响,使损失函数陷入极小值,将正样本误判为负样本.为解决医学图像分割样本分布不平衡,导致预测结果出现较大偏差的问题,本文采用损失函数Loss=DL+BL进行优化, 其中DL为Dice损失函数, BL为BCE损失函数(binary cross-entropy loss).
Dice相似系数[12]D是医学图像分割中常用的评价指标, 用于计算两个样本的相似度.其计算方式为D=2×(P∩T)/(P∪T), 其中P和T分别为预测的和真实的脉络膜血管区域.Dice损失函数DL=1-D.
BCE损失函数可解决均方误差(mean-squared error, MSE)中梯度消失的问题, 是图像分割任务的常用评价指标之一.BCE损失函数BL=-∑[yilnσ(xi)+(1-yi)ln(1-σ(xi))], 式中σ(·)为ReLU激活函数,xi为i像素的实际结果,yi为i像素的预测结果, 结果中1代表该像素为脉络膜血管区域, 0代表该像素为非血管区域.
本文采用的OCT/OCTA(optical coherence tomography/optical coherence tomography angiography)数据集来自70 kHz频谱域OCT系统(RTVue-XR, Optovue, 美国), 中心波长840 nm.共10个数据块, 均为3 mm×3 mm视场.每个数据块中包含400帧OCT图像,可组成一个完整的脉络膜血管结构.在医生指导下, 对逐帧图像进行像素级的手工分割标注.本文将数据集按7∶3比例分为训练集和测试集.
采用消融实验对不同脉络膜分割模型的效果进行评估, 在U-Net网络基础上分别增加基础增广(Argu)、脉络膜形态增广(CMS)和CBAM模块, 与本文CMSA-Unet网络(即U-Net+Argu+CMS+CBAM)进行效果对比,结果见表1.表1显示, 相较于基础增广, U-Net+CMS网络在IoU、F1分数、灵敏度上均有明显提升, 说明CMS增广能够增强数据集的脉络膜形态特征, 从而提升模型的泛化能力.U-Net+CBAM模型的上述指标相较基线网络也有较大提升, 这是因为空间注意力和通道注意力机制使模型更关注空间重点特征和重要通道.CMSA-Unet模型除特异度外, 其他指标均有明显优势, IoU指标相比基线网络提高了2.9%, 说明注意力模块和CMS增广提升了模型的泛化能力.
表1 消融实验结果
图3是OCT、人工标注及消融实验中各网络的分割结果对比图.由图3可见, 在U-Net模型中有标注结果出现在脉络膜区域外的情况, 且大血管中部有空洞的现象, U-Net+CMS模型避免了该问题, 减少了模型过拟合的情况, 增强了模型的泛化能力.在CMSA-Unet模型中, CBAM模块以及CMS增广共同提升了模型刻画细节的能力, 血管的分割更加自然, 使模型具有更高的应用价值.
注: 白色代表脉络膜血管标注区域; 上中下图分别为不同数据块的分割结果.图3 消融实验中的脉络膜血管分割结果Fig.3 Results of choroidal vascular segmentation in ablation experiments
为比较本文模型对脉络膜血管的分割能力与有效性, 将CMSA-Unet模型与UNeXt、U-Net、AttU-Net等深度学习方法模型在相同环境和数据集中进行实验比较, 结果见表2.表2结果显示,
表2 对比实验结果
CMSA-Unet模型的IoU、F1分数、灵敏度各项指标相较于其他模型均有更好的表现, 在脉络膜OCT图像的有效分割方面整体性能优于其他方法.