李富豪,赵希梅,2
(1.青岛大学计算机科学技术学院,山东青岛 266071;2.山东省数字医学与计算机辅助手术重点实验室,山东青岛 266071)
鼻腔鼻窦肿瘤是临床上的一种多发性疾病[1],几乎各类组织的肿瘤都可以发生在鼻腔鼻窦中,具有恶性高、转移灶等特点[2],使患者的生命安全受到极大的威胁。鼻腔鼻窦肿瘤较隐蔽,常与鼻窦炎并存,症状含混,导致易被忽略而延误就诊[3]。因此,实现早诊断、早治疗对延长患者的生命具有十分重要的临床意义[4]。临床常采用影像学技术进行扫描检查,其中CT 扫描的目的是判断肿瘤的侵犯范围,以便制定治疗方案及治疗后及时诊断是否复发[3]。一般情况下,由于肿瘤形状不规则,很难进行测量,且测量准确性也有限,因此临床医生须花费大量时间手动追踪病变轮廓。但仅凭医生的肉眼判断,产生的诊断结果往往带有主观性,难以实现精准诊断。
随着数字医疗设备和计算机图像处理[5]的快速发展和深度学习领域中算法和理论的涌现,用于医学图像分割领域的计算机辅助诊断(Computer Aided Diagnosis,CAD)[6]技术为鼻腔鼻窦肿瘤的诊断带来了新的生机,为实现该肿瘤的早期诊断和精准治疗奠定基础。
目前,应用于图像分割的算法主要分为传统机器学习[7]和深度学习[8]2 大方面。在机器学习方面,PASSERA[9]提出并验证了一种用于鼻窦和鼻腔肿瘤体积分析的分割算法,该算法基于半监督模糊CMeans 聚类方法,具有较高的肿瘤面积量化精度,可用于肿瘤治疗反应的评估。在深度学习方面,PASSERA 等[10]提出一种用于肠型腺癌(ITAC)体积评估的半自动分割方法,该方法基于高斯隐马尔可夫随机场(GHMRF)模型,在量化肿瘤面积方面具有较高的准确率。
鼻腔鼻窦肿瘤的CT 影像具有形态不规则、分界不均匀、密度不均的软组织肿块影等特征,影响神经网络对肿瘤特征信息的学习和读取,导致学习效率和分割准确度降低。本文对U-Net[11]算法结构进行改进,提出一种鼻腔鼻窦肿瘤的可变形神经网络分割框架(D-Unet),以实现对肿瘤CT 图像的自动精准分割。将可变形卷积网络(Deformable Convolution Network,DCN)[12]融入D-Unet 网络,使网络具有自适应的感受野,以便应对不同形状和尺寸的肿瘤并进行特征学习。在此基础上,采用Tversky 损失函数[13],并关注较小的目标,以解决样本失衡问题。此外,为验证所提算法的效果,将其与U-Net、Res-Unet[14]及Attention U-Net[15]算法进行对比实验。
U-Net 是一种新的全卷积网络(Fully Convolutional Network,FCN)[16]结构,多用于医学图像的分割。相比于传统图像,医学图像的表现更复杂,具有目标边界模糊、对比度差等特点。而且,在生物医学研究方面,通常无法获得足够的训练样本以完成深度学习,存在数据样本量不足和样本差异性较大等问题。U-Net 为解决这些问题提供了新的思路。
通常卷积神经网络做图像分割任务时,会在卷积后接上若干个全连接层,并将卷积层产生的特征图(feature map)映射成为一个固定长度的特征向量,期望得到输入图像的分类概率。这主要适用于图像级别的分类和回归任务,但其存在存储开销大、重复计算、感受野较小等缺点。FCN 作为语义分割网络的一种,可以将不同尺度的图片作为输入,利用反卷积将特征图上采样恢复到原图大小,并将分类问题精确到目标图片的每一个像素点,避免了冗余计算。但该网络对图片中的细节不敏感,而且割裂了局部和整体的一致性。
为解决以上问题,文献[11]使用了U-Net 网络,算法采用跳跃连接对医学图像进行分割,将扩张路径中上采样结果与收缩路径中具有相同分辨率的子模块的输出进行连接,作为扩张路径中下一个子模块的输入。通过学习目标的深层特征,并与后续层特征结合,从而保留高分辨率特征[17-18]。该算法由编码器-解码器组成,编码器进行特征提取过程中,将逐渐减少池化层的空间维度。采用解码器以精确定位,逐步修复物体的细节和空间维度。其结构如图1 所示,左侧可视为一个编码器,右侧可视为一个解码器。编码器有4 个子模块组成,每个子模块包含2 个卷积层,且每个子模块后有1 个通过最大池化实现的下采样层。输入图像的分辨率是572×572,第1~5 个模块的分辨率分别是572×572、284×284、140×140、68×68 和32×32。解码器也包含4 个子模块,分辨率通过上采样操作依次上升,并将低层特征和高层特征进行融合,直到与输入图像的分辨率一致。
图1 U-Net 网络结构Fig.1 Structure of U-Net network
综上所述,U-Net 采用对称结构,将高低层特征融合,从而能更好地恢复图像细节,且支持少量数据样本训练,拥有更高的分割准确率。但该网络依然对低层特征信息利用率不足,尤其对于鼻腔鼻窦肿瘤来说,其小目标物体存在较多,语义信息稀少,低层特征颇多,分割准确度会受到数据集影响。
一般卷积神经网络由于构建模块中固定的几何结构,同一层特征点的感受野大小不变,且局限于模型几何变换,故均只对输入图片的固定位置进行特征学习。2017 年微软亚洲研究院DAI 等[12]提出可变形卷积网络,通过将额外的偏移量加入到常规卷积操作的每个采样点上,使卷积操作中采样点的位置根据目标形状自由改变,拥有自适应的感受野,更好地解决了学习目标具有空间形变的问题,提升了特征提取的能力。
图2 所示为常规卷积和3 种可变形卷积的采样点位置,图2(a)中的黑点表示常规卷积采样位置,图2(b)代表可变形卷积中具有增大偏移量的变形采样点,图2(c)和图2(d)是图2(b)的特殊情况,表示可变形卷积可以进行缩放、旋转和不同长宽比变化的各种变换,其感受野的大小也根据采样点位置的变化而变化,进一步展示了可变形卷积适应目标空间形变的能力。
图2 3×3 常规卷积和变形卷积采样点位置对比示意图Fig.2 Schematic diagram of 3×3 conventional convolution and deformation convolution sampling point position comparison
如图3 所示,可变形卷积通过在输入特征图上使用一个平行卷积层学习得到偏移量。其卷积核具有与当前卷积层相同的空间分辨率,输出偏移量与输入特征图具有相同的空间分辨率,通道尺寸2N对应于N个2D 偏移。在训练期间,采用双线性插值方法同时学习用于生成输出特征和偏移的卷积核。
图3 3×3 可变形卷积结构Fig.3 Structure of 3×3 deformable convolution
在通常情况下,常规卷积操作由2 部分组成:1)在输入的特征图上使用规则网络G进行采样;2)计算采样点的加权采样值之和。G代表感受野的大小和扩张,例如:
定义一个扩张率为1的3×3大小的卷积核,对于输出特征图y上的每个位置m0,通过式(2)得到输出值y(m0):
其中:mn代表特征图G中的每个位置。
在可变形卷积操作中,需要规则网络G加上一个偏移量Δmn|n=1,2,…,N,N=|G|。
数据不平衡是医学图像分割中常见的问题,表现为病变像素的数量远低于非病变像素的数量,虽然卷积神经网络在快速和精确的图像分割方面具有很好的潜力,但使用不平衡的数据进行训练可能会导致预测精度过高而召回率过低。SALEHI 等[15]提出一种基于Tversky 指数的广义损失函数,对假阳性(FPs)和假阴性(FNs)进行同等加权,以解决数据不平衡的问题,在精度和召回率之间找到更好的平衡。Tiversky 指数定义为:
其中:p和G分别为预测值和真实值二进制标签的集合;α和β为控制FPs 和FNs 的加权大小。
使用式(5)定义Tiversky 损失函数:
其中:在最后层的输出中,p0i为像素i是病变的概率;p1i为像素i是非病变的概率。同样,g0i为1 时代表病变像素,为0 时代表非病变像素,g1i则相反。式(5)中关于p0i和p1i的损失梯度计算式如式(6)和式(7)所示:
Tversky 损失函数通过调整超参数α和β控制假阳性和假阴性之间的平衡,以可接受范围内的精度下降为代价来训练网络获得更高灵敏度,拥有更高的泛化能力。此外,提高训练不平衡数据的网络性能,这在许多医学图像分割任务中至关重要。
本文网络充分考虑了鼻腔鼻窦肿瘤数据集特性,一方面保留了原U-Net 网络对称的结构,另一方面针对原网络无法充分学习目标形变信息和样本失衡的问题,加入可变形卷积和使用Tversky 损失函数,提升网络学习物体空间变化的能力,使每一层网络能够根据物体大小和形状调整得到自适应的感受野,充分利用低层特征。D-Unet 网络结构如图4 所示,特征图的大小在两旁列出。
图4 D-Unet 网络结构Fig.4 Structure of D-Unet network
D-Unet 网络将原U-Net 网络收缩路径中的常规卷积升级为可变形卷积,使用3×3 变形卷积核提取特征,为网络提供一个稳定且灵活的接受域,对学习鼻腔鼻窦肿瘤空间形变非常有利。通过加快训练过程的处理速度,并在可变形卷积模块中插入了一批归一化层,从而解决内部协变移位问题。图5 展示了可变形卷积模块的具体结构。当图片输入到本文网络时,首先将其尺寸调整为512×512,并通过3 通道的模型输入,然后进入收缩路径中进行特征提取。D-Unet 继承了U-Net 在空间结构中采用增加特征图个数而降低特征图尺度的策略,并在可变形卷积模块学习后,使用最大池化将图像分辨率依次缩小了2 倍、4 倍、8 倍和16 倍。在最后一次常规卷积操作后进入网络的扩张路径,对特征图进行3 种操作:上采样,侧边合并和卷积。在扩张路径中,一方面恢复图像分辨率,另一方面结合可变形卷积模块强化学习到的低层特征(位置、纹理),从而修复物体的细节和空间维度。
图5 可变形卷积模块结构Fig.5 Structure of deformable convolution module
为评估本文算法的分割性能,使用3 个指标进行定量评价:Dice 系数,查准率PPV 和查全率TPR[19]。Dice 系数是一个度量预测集合和标签集合相似性的指标;PPV 也称为精度,表示真实阳性样本占所有预测阳性样本的比例;TPR 也称为灵敏度,测量正确率。
其中:TTP为真正样本数;FFP为假阳性样本数;FFN表示假阴性样本的个数;A为标签真实值;B为预测分割结果;DDice系数的取值范围是[0,1],其值越大代表该算法的分割效果越准确;PPPV指标过低,代表分割结果不够精准;TTPR太低说明较多鼻腔鼻窦肿瘤区域未被预测分割出来。
本文实验使用的设备环境是Windows 10(64 位)操作系统,内存为32 GB,GPU为NVIDIA GeForce GTX 1080Ti。使用的软件环境是Anaconda3下的Spyder3.4,采用深度学习框架Tensorflow[20]进行实验。实验结果的可视化由tensorboard 和matplotlib 实现。
本文所用到的医学图像数据均来自青岛大学附属医院影像科,在临床医师的指导下认识鼻腔鼻窦肿瘤图像的有效区域。经过对比,本文选取了一种最有利于鼻腔鼻窦肿瘤分割的标注形式,由一名专业医师手动标注,使用开源标注工具labelme 按照COCO 公开数据集的标准制作了鼻腔鼻窦肿瘤检分割数据集,本数据集共包含725 张图像以及对应的725 个标签文件,数据集中典型的CT 图像如图6所示。
图6 鼻腔鼻窦肿瘤示例Fig.6 Examples of nasal cavity and paranasal sinuses tumor
数据集中的样本被随机分配为训练集(480)、验证集(120)和测试集(125),训练集用于训练并调整模型权重,验证集用来选择最优权重,测试集用于性能评价。
本文系统地比较了D-Unet 与U-Net、Res-Unet和Attention U-Net 在鼻腔鼻窦肿瘤数据集上分割的差异,并给出了测试集上的鼻腔鼻窦肿瘤分割结果。
实验参数设置:epoch 训练轮数为100,每次迭代的batchsize 为4,采用Adam 优化器[21],使用Tversky作为损失函数。本文首先设置了3 组实验来评估D-Unet 网络在鼻腔鼻窦肿瘤分割任务中的性能,分别对可变形卷积和Tversky 损失函数进行了实验测试。表1 所示为各个算法的对比结果,其中,实验1为原U-Net 网络,实验2 代表未使用Tversky 作为损失函数的D-Unet 网络,实验3 代表本文算法D-Unet,加粗数字表示该组数据的最大值。
表1 不同算法的实验结果对比Table 1 Comparison of experimental results of different algorithms %
从各项评价指标来看,本文算法与原U-Net 网络相比,在一定程度上提升了鼻腔鼻窦肿瘤分割精度,错误分割区域占比变小。这是因为数据集中小目标图片较多,使用Tversky 损失函数关注小肿瘤,能够进一步提升测试集的分割精度。
将本文算法分别与U-Net、Res-Unet 和Attention U-Net 进行测试对比,结果如表2 所示。由表2 可知,D-Unet 各项指标均有一定提升,进一步验证了本文算法的性能。为进一步观察3 种模型的分割结果,对比了3 种模型对鼻腔鼻窦肿瘤的分割效果,如图7所示。通过对比不同算法分割结果的细节发现,相比于其他3 种算法,本文网络D-Unet 分割得到的鼻腔鼻窦肿瘤区域形状与标签更加接近。
表2 不同算法在测试集上的定量对比Table 2 Quantitative comparison of different algorithms on test set %
图7 不同算法的分割结果Fig.7 Segmentation results of different algorithms
细小的肿瘤突出所占像素较少、特征不明显。但由图7 可知,D-Unet 对模糊的边界具有更精确的分割细节,而其他算法受到背景特征的干扰,且忽略了鼻腔鼻窦肿瘤细微特征,因此分割效果不佳。此外,本文算法可以利用可变形卷积充分学习低层特征,为最终的分割结果提供位置、形状等信息。
本文还对算法的训练时间进行了对比,如表3所示,D-Unet 框架因为添加了可变形卷积,网络计算量变大,模型训练时间有所增加,每一轮次的平均时间为52 s。但在医学图像领域,精度更为重要,而本文算法相比于其他算法具有更高的分割准确率。
表3 不同算法每轮的训练时间Table 3 Training time of each round of different algorithms s
为提高U-Net 网络分割精度,本文提出一种基于D-Unet 神经网络的新算法。针对鼻腔鼻窦肿瘤空间形变特点,在U-Net 网络中加入可变形卷积,并利用可变形卷积能够依据目标形态改变感受野的特点,充分学习低层特征,提升特征提取的能力。为解决数据集数据不平衡的问题,使用Tversky 作为损失函数,从而提升网络的分割效果。实验结果表明,所提算法与U-Net、Res-Unet 等常见算法相比,能有效提高鼻腔鼻窦肿瘤分割精度。下一步将在保证算法准确率的前提下,通过优化网络架构提升训练速度,并将D-Unet 架构扩展到三维,以便在医学图像分析任务中获得更精确的结果。