联合Dilated U-net和全连接条件随机场的黄斑水肿区域自动分割模型

2021-11-30 08:43李净钟元芾李晓凯王振华

中国医疗设备 2021年11期

李净，钟元芾，李晓凯，王振华

1. 上海交通大学附属第六人民医院纪检监察处，上海 201306；2. 上海海洋大学信息学院，上海 201306

引言

黄斑水肿（Macular Edema，ME）是糖尿病视网膜病变、老年性黄斑变性和视网膜静脉阻塞等眼部疾病患者视力下降的常见原因之一。ME在临床上被定义为视网膜内的血清液积聚和视网膜中央厚度增加[1]。ME的早期检测对视网膜病变的治疗和视力损害的预防具有重要意义。光学相干断层成像（Optical Coherence Tomography，OCT）是一种低相干光干涉技术的无创、无接触的成像方法[2]，在眼科临床上有着广泛的应用。OCT图像可提供视网膜组织信息，医疗工作者可通过OCT图像中的视网膜内液/囊肿区域图来评估ME的严重程度，以此辅助疾病治疗方案的决策，可见ME区域的准确分割对临床诊断具有重要[3-5]。

由训练有素的眼科医生来对ME区域进行手工标注一直被认为是“黄金标准”。但手工标注存在以下问题：① 耗时长、效率低，医生需要耗费大量的时间和精力来完成病变区域的标注工作；② 存在主观性，不同医生由于经验不同，对同一病人ME区域的标注结果存在差异；③ 图像信息利用率低、可重复性低。近年来，计算机辅助算法被应用于ME的临床诊断，如阈值分割[6]、区域分割[7]、图模型[8]和滑动轮廓分割[9]等。He等[10]将图像去噪预处理与改进水平集模型相结合，分割并计算了水肿区域的面积。张天桥等[11]将高斯滤波器与水平集方法相结合，提出了基于多分辨率及水平集的黄斑图像分割方法。

计算机辅助算法提高了OCT图像中ME分割的效率，但这些算法因高度依赖于OCT图像的质量和专业的先验领域知识而限制了其普适性。深度学习因其对图像特征的提取能力和对复杂问题的拟合能力，在医疗和医学图像分析中受到了极大的关注。许多学者将深度学习用于医学OCT图像中病变部位的分割。如Xu等[12]将U-net神经网络与残差网络理念结合，提出了一种对糖尿病视网膜病变的分割模型。Hu等[13]提出了改进的空间金字塔池化模块，并与深度卷积神经网络相结合，对视网膜下积液和内液进行分割。Lu等[14]结合神经网络模型与随机森林模型，对视网膜积液进行由粗到细的分割。由上述文献可以看出，面向OCT图像的深度学习算法已广泛应用于医学病变部位的分割，但仍存在以下几点问题：① 现有神经网络的参数量大且计算时间较长，医学疾病诊断的强时效性对神经网络分割的效率提出了挑战；② OCT图像的质量参差不齐，黄ME域尺度差异大且纹理识别难度高，异质的OCT图像质量对神经网络分割的精度提出了挑战。针对上述问题，本文联合Dilated U-net和全连接条件随机场（Conditional Random Field，CRF）提出了一种ME全自动分割模型。

1 ME全自动分割模型

本文提出的ME全自动分割模型包括：① 采用孔洞卷积代替原始卷积增大网络感受野，改进U-net神经网络（Dilated U-net），实现ME区域的粗分割；② 将粗分割结果作为初始轮廓曲线，利用全连接CRF实现ME区域边界优化，图1所示为ME全自动分割模型架构图。

图1 ME自动分割模型架构图

1.1 面向ME区域粗分割的Dilated U-net网络模型

U-net[15]神经网络结构简单，参数量少，其特点是将分割目标的底层信息和高层信息结合用于目标像素点的定位。但U-net网络使用传统卷积和池化操作提取眼底OCT图像的特征，此方法对图像中的小尺度目标不敏感，导致小尺度ME区域空间信息丢失，故此较难提取OCT图像的深层特征。同时，像素级别的分割方法忽视了ME的空间一致性，无法兼顾像素间的关系。因此，直接利用U-net网络模型进行ME区域分割其精确不高。

本文采用孔洞卷积代替原始卷积增大网络感受野，改进了U-net神经网络，见图2。Dilated U-net网络模型由左侧下采样收缩路径和右侧上采样扩张路径组成，收缩路径中使用孔洞卷积替代原始卷积，增大了深层特征图的感受野，提高了对小尺度ME特征的提取能力。

图2 Dilated U-net网络模型框架

理论上感受野增加的同时其卷积核增大，而大卷积核亦增加了参数量和计算复杂度，对硬件计算能力要求较高且不利于模型的收敛。针对此问题，Dilated U-net网络模型在原始卷积中插入孔洞卷积（权重参数为0）。孔洞卷积保证了卷积层在不降低空间维度和不增加计算参数的情况下增大卷积的感受野。

孔洞卷积核大小计算公式为式(1)所示。

其中，r为膨胀系数，当r=1时即为原始卷积。fh fw为原始卷积核高和宽；Fh Fw为孔洞卷积核高和宽。

为了加速网络训练，Dilated U-net网络模型在网络结构中添加了批归一化层（Batch Normalization，BN）。在网络训练中，深层数据随前一层参数的变化而变化，须使用一个小的学习率以及对参数进行良好的初始化，这使得网络收敛变得缓慢。BN层通过公式(2)将数据分布归一化到均值为μB，方差为的分布基础上。

其中，μB和分别代表整个数据集的均值和方差，ε为平滑因子避免分母为0，xi为输入数据，为归一化后数据，γ和β为可学习重构参数，yi为网络下一层的输入值。与将xi直接输入网络下一层相比，进行BN处理后无需网络后层再调整学习以适应xi分布，达到加快网络模型收敛的效果。

利用Dilated U-net网络模型对ME区域进行分割，克服了网络参数过多导致的数据量要求高和欠拟合现象；同时，Dilated U-net网络模型对低层形态特征具有更高的敏感性，适用于语义简单和结构固定的医学图像。

1.2 全连接CRF优化框架

为克服Dilated U-net网络模型仅考虑区域像素特征，缺乏全局空间上下文信息，以及边缘细节分割能力不强等问题，本节引入全连接CRF对Dilated U-net网络模型的分割结果进行优化。

全连接CRF是一种概率图模型[16]，被广泛应用于图像分割[17-18]。CRF模块将分割过程抽象为能量最小化问题。

定义一副图像I包含n个像素点，X={X1,X2,X3…Xn}为图像I在标签空间L={0,1}上的观测量，其中1代表目标类别，0代表背景类别，则(X,I)构成CRF，其概率分布服从Gibbs分布，见式(3)。

通过最小化能量函数E(X|I)可获得最大后验概率P(X|I)，即式 (5)。

其中，μ(Xi,Xj)为标签兼容函数，用于惩罚相互连接的相似像素被标记为不同的类别。k(m)(fi(m),fi(m))是高斯核函数，ω(m)为每个高斯核对应的权重。高斯核函数的表示为式(8)。

fi和fj分别为相连随机观测量Xi和Xj的特征向量，Pi和Pj分别为相连随机观测量Xi和Xj的坐标向量。θα和θβ是高斯核中重要的尺度参数，用于控制观测量Xi和Xj之间的接近度和相似性。

CRF考虑了图像的空间上下文信息，反映了观测变量之间的依赖关系，可剔除较小的误分割区域和细化分割，实现ME区域分割边界的优化。

2 实验

2.1 实验数据与网络模型训练

实验数据为200幅OCT图像（100名女性和100名男性），图像大小为400×700像素。将200幅OCT图像分为三组：140幅训练集，30幅验证集，30幅测试集。为了提高训练样本的多样性，降低训练过程中因样本不足带来的过拟合问题，增强模型的鲁棒性。将训练集OCT图像（140幅）进行水平翻转处理，并在ME区域附近裁剪出一个256×256的新图像（图3），将训练集扩增为280幅图像。

图3 图像水平旋转、裁剪处理

实验运行的硬件环境为32G Intel(R) Core(TM) i7-9850H CPU和6G NVIDIA Quadro RTX3000 GPU。Dilated U-net网络模型由开源框架Pytorch构建，网络学习率设置为0.0001，通过“poly”优化方法对学习率进行动态更新。基于随机梯度下降算法对整体训练进行网络参数优化，使用交叉熵函数为损失函数Cross-Entropy loss，定义为式(9)。

其中，x是批次输入X中的每一个输入，t(x)是预测对象的真实值，p(x)是网络输出结果通过Softmax函数预测的值。Softmax函数将输入结果作映射，映射所有类别的输出范围为[0,1]，且和为1，其定义为式(10)。

其中，pi表示第i类输出，k表示求和时来自所有类别K的第k类。本文实验中K的取值为2，即将输入图像分为非ME类别和ME类别。

从图4可以看出，对比网络训练loss以及在验证集中测试的Dice相似系数，本文提出的Dilated U-net网络模型比U-net网络模型更快达到收敛。

图4 Dilate U-net网络模型训练

2.2 网络模型调控指标

本文引入了精确率（Precision）、召回率（Recall）和Dice相似系数三个性能参数对Dilated U-net网络模型进行性能调控[20-22]。各评估度量标准的计算公式为式(11)～(13)。

其中，Vs为模型分割的病变区域像素个数，Vg为目视解译的病变区域像素个数。三个性能参数亦可用于不同分割模型的性能比较。

2.3 全连接CRF参数适应性分析

全连接CRF含两个参数：θα和θβ，分别用于控制观测量Xi和Xj之间的接近度和相似性。将经过Dilated U-net网络分割得到的30幅验证集粗分割结果图作为全连接CRF的输入，通过网格搜索和交叉验证方法获取CRF成对项中参数θα和θβ的最优取值。首先，固定参数θα的取值为1，考虑参数θβ的影响：设置参数θβ的取值为1～20，步长为1。根据验证集OCT图像，绘制出θα=1，评价指标Dice相似系数基于参数θβ不同取值变化的曲线。改变参数θα的值，取值范围为1～20，步长为1。根据验证集数据，绘制出不同θα取值，评价指标Dice相似系数基于θβ取值变化的曲线，如图5所示。

从图5中可看出，CRF的Dice相似系数随参数值变化有较小波动，但整体相对稳定。当θα取值为10，θβ取值为14，CRF可获取最佳分割性能。

图5 CRF参数敏感性测试

3 分割结果分析与比较

3.1 与不同传统分割模型比较

将本文模型与C-V[23]和SBG等[7]传统分割算法进行比较，图6为不同分割模型的ME区域分割结果比较。表1为不同分割模型的分割结果性能参数比较，包括精确率、召回率、Dice相似系数及单幅OCT图像分割耗时。

图6 本文模型与C-V、SBG分割模型的分割结果比较

表1 不同模型分割结果的精度评价（±s）

模型精确率/% 召回率/% Dice/% 耗时/s C-V 34.17±4.67 52.89±20.35 36.51±9.13 2068.3 SBG 46.99±3.34 96.06±0.79 61.07±3.72 33.2本模型 95.94±0.11 95.67±0.72 95.52±0.28 0.9

由图6可看出：① 本文模型的分割结果与目视解译具有更高的相似度，且其抗噪声干扰能力强，受OCT图像质量影响较小，能准确区分ME和视网膜组织；② C-V、SBG分割模型抗噪声干扰能力弱，受OCT图像质量的影响易把噪声区域识别为ME区域；如OCT2、OCT3所示；③ SBG分割模型的分割结果中，网膜组织区域被错误分割为了ME区域。

由表1可看出：① 本文模型具有最高的精确率和Dice相似系数，分别为95.94%和95.52%，这说明本文模型较C-V和SBG而言，克服了图像噪音等图像质量因素对分割结果的影响；② 本文模型分割单幅OCT图像所需时间仅为0.9 s，远低于C-V和SBG分割模型的分割耗时。

3.2 与不同分割网络模型比较

将本文模型与 FCN[24]、PSPNet[25]、Deeplab[5]和 U-net等网络模型进行比较，分割结果如图7所示。表2为不同网络模型的分割结果性能参数比较，包括精确率、召回率、Dice相似系数及单幅OCT图像分割耗时。

图7 本文模型与FCN、PSPNet、Deeplab网络模型的分割结果比较

表2 不同网络模型的精度评价（±s）

模型精确率/% 召回率/% Dice/% 耗时/s FCN 73.85±3.66 83.23±1.48 77.01±3.14 2.6 PSPNet 81.28±0.77 83.01±1.15 82.05±0.94 3.1 Deeplab 86.81±0.64 87.30±1.06 86.87±0.75 3.2 U-net 75.45±5.46 97.49±0.24 83.04±3.49 0.8本模型 95.94±0.11 95.67±0.72 95.52±0.28 0.9

从图7可看出：① 本文模型对小尺度病变区域亦有较好的敏感性，且受OCT图像质量影响较小，分割结果与目视解译结果具有更高的相似度；② FCN网络模型的分割结果中，如OCT1、OCT3存在错误分割现象；PSPNet网络模型对小尺度象识别敏感性较差，如OCT2、OCT3中小尺度ME区域未被正确分割；Deeplab网络模型对ME区域边界的分割过于平滑；U-net网络模型易把OCT图像中的断带识别为ME区域，图像边界存在错误分割现象。

由表2可看出：① 本文提出的分割模型具有最高的Dice相似系数95.52%；② 召回率得分仅低于U-net网络模型的97.49%。这是因为精确率和召回率是处于动态平衡的两个指标，某一指标上升的同时另一指标会下降，而Dice相似系数是一个由精确率和召回率共同决定的平衡指标，均衡的反映了模型的分割精准性；③ 本文模型分割单幅图像仅需0.9 s，低于FCN、PSPNet和Deeplab等网络模型的分割耗时，计算耗时仅次于U-net网络模型。

4 结论

本文提出了一种Dilated U-net网络与全连接CRF相结合的ME全自动分割模型。通过与传统分割算法和不同分割网络模型进行比较，证明本文模型在保证了分割准确性的同时，提高了分割的时效性，可协助眼科医生进行ME区域检测，提高病变部位诊断的效率。由于现有的训练样本有限，深度学习模型的普适性可能会受到一定影响，随着未来数据集的积累，视网膜OCT图像ME区域分割任务的准确性和通用性将进一步提高。