王海翼,刘建霞,冯妍舟
(太原理工大学信息与计算机学院,山西晋中 030600)
食道癌是原发于食道黏膜上皮的恶性肿瘤。在我国,食道鳞状细胞癌最常见[1],其次是食道腺癌。2020 年,我国食道癌的死亡人数超过20 万例。Ⅳ期食道癌中位生存时间仅约18 个月[2]。山西、河北、河南三省交界的太行山地区是我国食道癌高发区[3]。
治疗食道癌常选用手术、放射治疗和化疗等方法,其中手术切除和放疗属于局部治疗,只对肿瘤部位有效[4]。手术综合放射治疗,可增加肿瘤切除率,提高远期生存率[5]。在临床实践中帮助医生快速准确地获得食道癌肿瘤区域的分割结果,减少误诊,对患者的治疗极其关键[6]。因此,迫切需要建立一个基于深度学习的计算机辅助诊断模型,用于食道肿瘤的检测。
研究者们针对医生在手动分割癌灶时易受临床经验与主观因素支配,从而导致分割结果准确性受到影响的问题,不断尝试半自动或自动分割方法。2018 年,UNet++的提出一定程度上解决了在整理、标注和分析医学影像上成本高昂的问题,可以在较少的医学影像数据集上较好地训练出模型[7]。UNet++通过密集卷积块跳跃连接使编码和解码器之间建立联系,消除语义鸿沟,使网络能更好地学到图像的语义特征。但对于食道癌CT 影像,癌灶区域占比小,原始UNet++缺乏对局部特征的深度挖掘能力,存在特征使用效率低等问题。
为解决目前食道肿瘤分割任务中存在的问题,基于原始UNet++模型提出了一种改进的食道癌肿瘤分割方法。实验结果表明,文中提出的OMDAUNet++方法在训练过程中能够更好地捕获更多的细微特征,并加以充分利用,输出了更加准确的分割结果。
OMDA-UNet++在UNet++结构上做了以下四点改进:首先,引入注意力机制SE-Inception 模块;其次,将UNet++中的关键卷积层替换为可变形卷积,使网络更好地适应癌灶边界的复杂曲度变化;第三,使用多尺度特征融合,充分提取出癌灶的隐含细节特征;第四,将Encode-Decoder 结构升级为双向O 型循环结构,来提高特征的使用效率。
人类大脑为了合理处理视觉信息,观察事物时通常会选定图像的特定部分,将有限的资源投入其中。深度神经网络模仿人类运用注意力机制,其理论逻辑主要在于有选择地强调有用信息的特征,并抑制无用背景信息的干扰,这就是通道注意力机制[8]。在食道肿瘤分割任务中,食道组织是研究的重点区域,而胸腔中其他组织对肿瘤分割则起着干扰作用。
2017年在ILSVRC比赛上,Hu J等人提出Squeezeand-Excitation Networks (SE)[9],并获得了第一名。SE模块本质上是一种通道注意力机制,主要是学习了通道之间的相互依赖性,得到各通道的不同权重,将资源投入到筛选出的通道上。SE-Inception 模块(如图1 所示),主要由下述两个步骤来实现:
图1 SE-Inception模块
1)压缩(Squeeze)过程:假设输入X,图像维度表示为C×W×H,C、W和H分别代表通道数和输入图像宽度、高度。压缩过程就是通过Global pooling 层进行全局平均池化的过程,这一求平均值的过程会将每个特征通道压缩为一个实数。这就计算出了通道的整体信息,便于对所有通道进行加权。而特征图被压缩为C×1×1 的特征向量。
2)激发(Excitation)过程:这一过程是使用两个全连接(Full-Connection)层和ReLu、Sigmoid 激活函数来实现的。第一个全连接层把C个通道压缩成了C/R个通道,第二个全连接层再将其恢复回C个通道。其中R是缩放比例参数,压缩是为了降低网络计算量。最后同样得到了C×1×1 维度的特征向量。
经过上述两个步骤,获得了表示每个特征通道重要程度的权重;再通过Scale 过程,对原始通道进行乘法加权;最后输出结果特征Y,达到重定权重、合理支配有限资源的效果。
在分割任务中,压缩-激发模块在获得全局信息后,对各通道赋予不同的权重,可以自主去除低权重的背景噪点,保留高权重感兴趣区域,分配大部分信息处理资源给关键部分。
食道癌病变占整个胸腔比例较小,且位置基本固定,只可能发生在食道组织上。因此,无差别地学习全部影像的特征是不合适的。而引入SEInception 模块可以有效地提高癌灶区域的学习权重,尽可能地减少胸腔中其他组织的干扰。
卷积核的目的是为了提取输入物体的特征。常规卷积核通常是固定尺寸、固定形态的(例如原始UNet++中使用3×3 大小的方块)。这种卷积核存在着一个突出的问题,就是针对如食道肿瘤一类(边界变化不规则)的分割任务时,适应性差,泛化能力不强。2017年Dai等人提出了可变形卷积方法[10(]如图2所示),该方法在常规方阵卷积核的每个采样点上增加一个偏移量,这样卷积核就不会再局限于规则的采样格点之中,而是可以更好地拟合物体的形变。可变形卷积的公式如下:
图2 常规卷积和可变形卷积对比
其中,Δpi是每个采样点的偏移量,可由双线性插值得到。
由于食道癌肿瘤边界具有复杂多变、且无规则的特质,常规卷积核在食道肿瘤的分割任务中不能发挥出很好的效果。将网络的关键层替换为可变形卷积,则可以更好地适应癌灶边界的复杂曲度变化,使网络在原现基础上更好地提取出隐含在细枝末节的特征。
多尺度特征融合即利用图像的多个尺度进行输入,本质上是对不同精细程度的图像进行采样,以获得不同尺度下的特征信息。在食道癌CT 影像的采集过程中,不同的仪器分辨率、扫描角度,都会导致采集到的图像尺度不尽相同。
2018 年,Zhao H 等人提出了ICNet 模型[11],利用多尺度数据在语义分割任务中取得了很好的效果。较小尺度的图像粒度更稀疏,适合研究图像的整体特征;而较大尺度的图像粒度更加密集,则用以研究图像的细节特征更为适合。在卷积神经网络中,深层网络输入图像其比例小、像素分辨率低,但相对而言感受野较大,就只能获得更多的全局特征;而浅层网络输入图像其比例较大、像素分辨率更高,但相对而言感受野较小,就可以用其来获得更多的细微特征。
针对医学图像分割任务特点,吸收其核心思想,在原始UNet++模型的基础上引入多尺度特征融合机制。多尺度特征融合能够在一定程度上解决训练样本数据量不足的问题。在将数据导入到网络进行训练之前,通过插值等方式将图像按照8∶4∶2∶1 的比例进行放缩得到不同尺度的图像,然后将其输入到改进网络中,即可提取出单一尺度下难以提取到的特征信息,尤其使网络更好地专注于CT 影像中肿瘤边界的细微特征。
原始UNet++中的Encode-Decoder 结构只有前向跳跃连接,它将编码器学习得到的特征映射到解码器中,这样很好地将梯度和低层特征信息保存了下来。上一层解码器恢复出的特征图和本层编码器映射的特征在该层解码器处融合,提取出当前位置新的特征信息。但该结构忽略了编码器也可利用解码器恢复的特征再度进行学习。
2020 年提出的双向O 型循环网络(BiO-Net)[12]相较原始Encode-Decoder 网络没有引入额外的训练参数,也不依赖额外的功能块,但却实现了更好的性能。这是因为BiO-Net 采用了成对的双向O 型循环结构(如图3 所示),主要是将Encode-Decoder 结构升级为双向O 型循环结构,该结构由同一层的编码器、解码器、前向跳跃连接和反向跳跃连接所构成的。
图3 双向O型循环结构
双向O 型循环结构中的反向跳跃连接仍然连接同层编、解码器,只是特征传递方向与前向跳跃连接相反。编码器也能够接收到同层解码器由反向跳跃连接传递来的高级语义特征fdec,实现了特征信息fdec与上一层编码器产生的原始输入xin(低级视觉特征)的聚合。一对前向、反向跳跃连接构成一次循环,可以调节参数t控制循环次数。其中反向跳跃连接过程可以表示为:
针对原始UNet++在分割任务中特征利用率不高的问题,将原有Encode-Decoder 结构升级为双向O 型循环结构。在不增加额外的网络训练参数情况下,该结构便于编码器和解码器之间互相理解双方的语义特征,可以更加充分提取食道癌病灶特征,再此基础上更高效地利用已学到的特征信息。
该模型针对食道癌肿瘤位置相对固定(仅可能原发于食道组织),且占整个胸腔比例很小,引入SE-Inception 模块,使网络在训练过程中重点关注食道核心区域,减小对无关背景关注的权重;针对食道癌肿瘤边界复杂难寻的变化,将网络关键层(下采样区编码器Xi,0)替换为可变形卷积,使网络更好地适应肿瘤边界的复杂曲度变化;针对食道癌肿瘤细节特征提取困难的问题,利用插值等算法将原始图像按照8∶4∶2∶1 进行放缩后输入到下采样区编码器Xi,0中,再使用多尺度特征融合办法,使网络可以抽析出肿瘤更多的隐含细微特征;针对原始UNet++对特征的利用程度不高的问题,将原有Encode-Decoder 结构替换为双向O 型循环结构,使特征在同层编、解码器中循环,再充分提取特征信息的条件下,进一步提高了特征的使用效率。如图4所示为OMDA-UNet++结构模型。
图4 OMDA-UNet++结构模型
目前食道癌诊断和治疗中,一般需要进行超声内镜等检查,但内窥镜检查是一种以有创为代价、侵入体内的检查[13],因患者对其耐受性低,它的推广受到了限制。电子计算机断层扫描(CT)因其无创性、且具有很好的耐受性和普及性,是患者理想的筛查方式[14]。
但目前暂无公开的CT 数据集可应用在食道癌分割任务中,为此收集了山西白求恩医院食道癌患者的胸部CT 影像用于分割实验。数据集中共有22例数据,每例包含55~111 层切片不等,其中分别有10~36 层切片可见食道癌肿瘤。实验中随机划分17例数据作为训练集,5 例数据作为测试集。所有图像在采集时设置扫描层厚5 mm,管电压120 kVp,切片矩阵512×512。为保证分割不受主观因素的影响,CT 影像由三名具备胸部影像诊断经验的临床医师共同手动勾画完成。
电子计算机断层扫描的成像原理是人体内不同的组织器官对X 光射线的吸收能力和透过率不同。利用这一特性,可以从胸部CT 影像中观察到正常或异常的组织器官。现代医学设备中,通常将CT 值的波动范围设置在[-1000,+3000]HU 之间,而人眼对灰度阶改变相对不敏感,可识别的灰阶数约在60 级,在观察特定组织或病变区域时难以将其与周围组织完全辨清。采用窗口技术来处理CT 影像可以达到增加图像对比度的目的,解决人眼对灰度阶变化敏感度低的问题[15]。
为了更好地观察和分割食道癌肿瘤区域,在以下实验中,胸部CT 图像的窗宽选择在300~500 HU 之间,窗位(即窗宽中心值)选择在30~60 HU 之间[16]。如图5 所示是同一CT 切片在不同窗宽与窗位下的对比,合适的窗宽与窗位可以清晰地观察到食道癌肿瘤边界。
图5 不同窗宽与窗位的对比
硬件信息:使用两台戴尔T640 工作站,其处理器为Intel(R)Xeon(R)Gold 5120@2.20GHz 十四核*2,内存128G,显卡为NVIDIA Tesla P4。
软件环境:操作系统为Windows 10,编程语言环境为Python 3.6,深度学习框架为Pytorch。
超参数设置值:初始学习率0.000 1,优化器为Adam,批量大小为8,SE-Inception 模块R 值为8,双向O 型结构循环次数t值为3。
骰子损失函数(Dice Loss,DL)被广泛应用于医学图像的像素级病灶分割任务中。它用于度量两个给定样本之间的相似度差异,当DL 值越小时,表明两个样本之间的差异越小。骰子损失函数表达式如下:
其中,A表示专家手动标注的真实值,B表示算法分割出的预测结果。
为了对实验结果进行评价,将网络对食道癌肿瘤的预测结果与数据集中专家的手动分割结果进行了对比,以确定所提算法的先进性。分割效果的评价指标选用Dice 相似性系数(Dice Similarity Coefficient,DSC),其表达式如下:
DSC 值取值范围是[0,1],其越接近1 说明预测值和真实值重合度越高,算法的分割效果越好。
为了验证改进模型的性能优越性,设计了两组实验。
第一组实验主要从对比经典网络的角度出发,选取了在医学图像分割领域有着较好表现的U-Net、DeepLabV3+、Att U-Net等经典网络与UNet++进行对比。对比实验测试结果见表1。
表1 经典分割网络性能对比
根据实验结果,选择UNet++结构作为基础网络模型进行进一步研究。
第二组实验主要从衡量改进模型的角度出发。依次设置了A-UNet++、DA-UNet++、MDA-UNet++、OMDA-UNet++等四组消融实验,其中A 代表网络引入SE-Inception 模块,D 代表网络关键层替换为可变形卷积,M 代表网络使用多尺度特征融合,O 代表网络原有Encode-Decoder 结构升级为双向O 型循环结构。消融实验测试结果见表2。
表2 改进网络的性能对比
表2 说明在UNet++的基础上进行的改进对分割精度均有一定提升。不同改进对分割效果的具体影响如图6 所示,图6 从左到右依次是CT 影像、专家手工标注、UNet++分割结果、A-UNet++分割结果、DAUNet++分割结果、MDA-UNet++分割结果、OMDAUNet++分割结果。
图6 改进网络的分割对比图
可以从图中看出OMDA-UNet++在第一幅图左上部凹陷处、第二幅图左边尖端部位的分割结果相较于其他网络更加精准,具有较高的还原度,达到了提高在复杂曲度位置的分割精度这一目的。
文中提出了一种改进的UNet++食道癌肿瘤分割方法:以UNet++架构为基础,先引入了SE-Inception模块,增大模型对感兴趣区域的分割权重;为更好拟合肿瘤边界变化,又将关键层的常规方阵卷积替换为可变形卷积;并使用了多尺度特征融合来充分地提取出肿瘤细微特征;此外还将UNet++原有Encode-Decoder 结构替换为双向O 型循环结构用来提高特征的利用率,进而提升分割性能。最后,通过一系列的对比实验证明:OMDA-UNet++在食道癌肿瘤的分割任务中可以有效分割出肿瘤的复杂边界,相比目前主流算法的分割效果有一定提升。