田学智 周莲英
(江苏大学计算机科学与通信工程学院 镇江 212013)
原发性脑肿瘤是最严重的肿瘤之一,其中最常见的是由神经胶质细胞引起的胶质瘤。脑部胶质瘤一般分为低级别神经胶质瘤(LGG)和高级别胶质瘤(HGG),低级别胶质瘤表现为良性特征,而高级别胶质瘤表现为恶性特征,前者具有较好的预后,治愈率较大,后者预后较差,多采用保守治疗[2]。
放疗和化疗可以减缓但无法移除脑肿瘤的生长,因此手术是治疗脑肿瘤的最佳方法。脑部胶质瘤内部结构的准确分割不仅对治疗计划很重要,而且对后续的恢复评估也至关重要。然而,由于不同患者胶质瘤的大小、形状和分布区域的差异性,需要在术前对脑肿瘤区域准确成像以进行评估。相比于传统的X 光和CT,核磁共振成像(Magnetic Resonance Imaging,MRI)无需注射造影剂,没有电离辐射损伤,并能生成3D原生立体图像,此方法尤其适用于脂肪、液体、内脏和脑部的诊断,因而受到医师们的广泛关注[3]。
目前,针对脑肿瘤MRI 图像分割,主要利用专家经验进行手动标记分割,或者利用机器学习方法进行半自动分割。以上两种方法,需要以专业为导向的技能,繁琐耗时且重复性低,同时带有医师的主观判断。深度学习相对于传统的机器学习而言,适合处理数据量大、特征复杂的样本,且模型精度高。
近年来,利用深度卷积神经网络进行MRI图像多模态分割已经有了很大的进展。Setio 等[4]提出一种用于肺结节的辅助检测方法,从胸部3D CT 扫描中,获取以候选部位为中心的9 个不同的方向的2D 切片,此方法可以有效从训练集中学习辨别特征,但遗漏了病灶切片中的关联信息。Moeskops等[5]采用现有的3D 卷积神经网络(CNN),并使用一种多尺度的方法来检测和分割MRI 图像上的脑转移,该方法具有较高的鲁棒性。Brosch 等[6]开发了一种3D 深度卷积网络,这种网络能结合卷积与其相互关联的反卷积过程,可以在各种尺寸上对病变图片进行分割,同时也带来了巨大的计算量。Pereira 等[7]使用了更小的卷积核、更深的架构、灰度归一化和数据增强对MRI肿瘤图片进行分割,获得了更好的病灶图像特征。Kamnitsas[8]等提出一种双通道3D CNN 来进行脑肿瘤分割,将相邻图像特征加入到网络中,但不能自动适应数据不平衡情况。
针对以上算法存在的问题,本文在3D U-Net[1]模型上进行改进,并加入混合损失函数,得到一个新的分割算法。具体方法是在加深网络的同时,在收缩路径添加多个自行设计的叠加式残差块,在进行前向传播时可以保留更多的特征,同时可以缓解反向传播的梯度消失问题,提高网络收敛速度;在扩张路径,将上采样得到的特征与收缩路径得到的特征合并,获得更加丰富的特征图,并在路径中加入1×1×1 卷积核,增加模型非线性,提高网络的表征能力。本文对Dice 损失函数、Focal 损失函数[9]和交叉熵损失函数,进行不同的权重配比[10],调整不同样本对总损失的贡献,得到一种分割效果更佳的混合损失函数,可以增加脑肿瘤像素区域对总损失的贡献,有效缓解样本不平衡情况,提高最终的分割精度。
U-Net[11]网络最早在2015 年的MICCAI 上提出,起初在医学图像分割上面取得了较好的成绩,后来成为医学影像语义分割任务的基准模型。U-Net 网络模型分为两部分,分别是收缩路径和扩张路径,收缩路径相当于下采样,同时不断的卷积,进行网络特征的提取;扩张路径使用反卷积(转置卷积),将经过特征提取的图像恢复到原图大小,每经过一次上采样,就将其结果与收缩路径得到的特征图相融合,最终在输出端得到分割结果。
本文改进的3D U-Net模型如图1所示,输入为4 种模态脑肿瘤MRI 图像,图像尺寸为128×128×128,输出为一个肿瘤预测图像。模型主要由卷积层、叠加式残差模块、下采样模块、上采样模块、融合模块和分割层组成。在模型的收缩路径,为避免池化层带来的特征丢失问题,用卷积层代替池化层进行降维,使用3×3×3 的卷积核,步长为2×2×2,每一个卷积层后,都连接着实例标准化层(Instance Normalization)和激活函数层(LeakyReLU)。下采样模块后连接本文设计的叠加式残差模块,如图2所示。
图1 3D U-Net网络模型
图2 叠加式残差块
此模块由三个卷积层组成,卷积过程中对图像进行填充,保证卷积前后图像大小相同,为减少深层网络带来的巨大参数量和计算量,中间卷积层采用1×1×1卷积过度,通过调整卷积核大小和卷积层通道数,可以在卷积神经网络稀疏连接和权值共享的基础上,进一步提高计算性能。同时增加了网络的非线性。另外,残差块对之前和本层的图像特征进行了融合,在进行前向传播时保留更多信息,在反向传播时模型学习输出和输入的残差而不是完整的输出,通过增加一个恒等映射的方式,缓解梯度消失,同时加快网络训练和收敛。叠加式残差模块中添加了Dropout,这使得每次训练的网络都不相同,神经元的权值更新不再依赖于固定的隐含节点,此方法可以避免在参数太多的情况下,长时间训练网络带来的过拟合问题,在一定程度上达到正则化效果,使网络学习更加鲁棒性的特征。
在模型的扩张路径,上采样模块采用转置卷积扩大图片尺寸,转置卷积后连接一个大小为3×3×3,步长为1×1×1的卷积层,为进一步解码图像特征信息,上采样模块的通道数是特征图通道数的一半,以此来将图像的特征信息进行融合。随后上采样模块的结果特征图与编码阶段的特征图相加,使待分割图片包含不同层次的特征(主要是初始图像自带的特征与经过特征提取的图像所包含的特征),让网络鲁棒性更强,肿瘤分割的准确率更加稳定。随后在实例标准化层和激活函数层后再连接1×1×1 卷积层,在减小参数量的基础上增加网络非线性。在模型的输出部分,将输出图像展开成一维向量,利用Softmax 函数进行像素级的多分类随后将概率图再变成图像,即得到了多模态下的分割结果。
模型架构以及网络训练阶段的参数如表1 所示。
表1 模型架构与网络参数表
小目标复杂区域分割一直是语义分割的难点,主要是因为分割区域模糊、分割类别不平衡,在BraTs 2017 的数据集中,脑肿瘤体素占总体素数量的4%,样本不平衡情况严重。传统医学图像分割中,常采用Dice 分割系数的相反数作为损失函数,但数据集分布情况对其影响较大。本文针对此情况设计了一种Dice 损失函数、Focal 损失函数以及经典交叉熵损失函数相结合的混合损失函数,首先定义如下
其中TPx(k)、FNx(k)和FPx(k)分别代表真阳性、假阳性和假阴性的预测概率,k 代表K 个类中的第k类,X代表当前脑肿瘤图像像素数,每个像素值x属于类别k的概率为px(k),每个像素值x的基准真值为qx(k)。
混合损失函数如下:
其中α、β和γ为权重平衡因子,LDice为损失函数的主体部分,LFocal和LCross用来调节数据样本的不平衡情况。通过引入焦点损失LFocal,控制正负样本对损失的权重,同时降低易分类样本的权重,增加难分类样本的权重。交叉熵损失函数的参数γ可变,在处理正样本和负样本时,根据不同的对象施加不同的γ。具体参数如表2。
表2 损失函数参数表
通过以上方法得到的混合损失函数,增加了脑肿瘤像素区域对总损失的贡献,有效缓解样本不平衡情况,提高最终的分割精度。
MRI 图像来自19 个机构,采用不同的协议、磁场强度和MRI 扫描仪获得。所有患者扫描的图像都由4 名评估专家手动标注出4 类标签,这4 类标签代表3 种肿瘤类型与背景,标签1 代表坏死(Necrotic,NCR)和非增强肿瘤核心(Non-enhancing Tumor,NET),标签2 代表肿瘤周围水肿(Peritumoral Edema,ED),标签4 代表增强肿瘤(Enhancing Tumor,ET),标签0代表肿瘤周围正常区域的背景。
多模态图像对应脑肿瘤不同的侧重区域,FLAIR 突显整个脑肿瘤区域(Whole Tumor,WT),T2加权突显脑肿瘤核心区域(Tumor core,TC),T1c加权突显脑肿瘤增强区域(Enhancing Tumor,ET)。
为减少图像中头骨和周围冗余信息,将MRI图片剪裁成像素大小为128×128×128,进一步平衡图像中正负样本比例。为避免数据过少产生的网络无法收敛或者过拟合问题,在训练之前,对图像进行随机翻转、平移、缩放等样本增强技术以扩充数据。
图3 MRI图像4种模态切片
本文用三种指标来评估脑肿瘤分割效果,分别是Dice 相似系数(Dice Similarity Coefficient,DSC)、特异度(Specificity)和灵敏度(Sensitivity)。Dice 相似系数[12]表示专家手动分割和自动预测分割的重叠程度,定义为
其中TP、FP 和FN 分别表示在脑肿瘤预测像素中,真阳性、假阳性和假阴性的数量。特异度又叫做真阴性率,表示在实际阴性的样本中,预测结果为阴性的比例,定义为
灵敏度又叫真阳性率,表示在实际为阳性的样本中,预测结果为阳性的比例,定义为
实验使用基于Tensorflow 后端的Keras 框架构建的3D U-Net 网络模型,实验服务器搭载了两块型号为Tesla P100-PCIE-16GB的显卡,在具有EarlyStoping的前提下每次训练大约花费42h。
图4 显示了脑肿瘤的2D 切片、金标准和原始的3D U-Net模型分割效果以及本文方法的分割效果。可以看出,本文方法提高了对脑肿瘤整体轮廓分割的把控性,对周围细节特征也更敏感,最终分割效果更加准确。
图4 分割效果对比图
表3中论文使用模型都为3D U-Net模型,利用Multi-scale 3D[13]卷积神经网络、Multi-scale 3D CNN[14]和改进的U-Net[15],对3.1 节的数据集进行训练,随着模型深度和复杂性的增加,各项分割指标都在逐渐提高,其中改进的U-Net[15]额外添加添加原始残差模块,各项性能明显增加,说明残差块在前向传播可以保留更多的图像特征,在反向传播可以保留更多的梯度信息。本文在原始U-Net 模型[1]的基础上,通过改进模型、加入混合损失函数以及两种方法的结合,分析比较了本文方法的分割性能。改进模型结构和加入混合损失函数都能提升分割效果,但并不全面,分析原因主要是因为改进模型结构苏日安增加了网路深度,使得特征提取更加全面,但Dice损失函数并不能很好地处理样本不平衡问题,而直接加入混个损失函数,网络将会过多计算损失函数,遗漏脑肿瘤特征的提取。将两者进行混合,DSC 和Specificity 这两个指标基本可以全面优于对比的方法,而Sensitivity 指标只有在WT上达到最优,主要原因是在混合损失函数中,过大的增加了小样本,也就是阳性样本的权重,使得预测分割偏向于阳性区域。经过分析得到,本文方法对于脑肿瘤的边界区域以及像素区别明显的核心区域较为敏感,而经过像素增强的区域以及脑肿瘤占比较大的区域,分割效果并不稳定。
表3 不同模型分割效果的评价指标对比
本文针对传统脑肿瘤分割方法存在的不足,在3D U-Net 的基础上,提出了一种改进算法。首先设计了一种叠加式残差块,在保留更多特征的同时,避免了深层网络无法收敛的问题。另外以混合损失函数替代传统Dice分割系数损失函数,通过引入焦点损失函数LFocal,控制正负样本对损失的权重,同时降低易分类样本的权重,增加难分类样本的权重。增加脑肿瘤像素区域对总损失的贡献,提高稀疏分类错误对模型的惩罚,缓解数据类别不平衡问题。实验结果表明,本文提出的改进方法,与传统3D 分割方法相比,在肿瘤整体和肿瘤核心上面,分割精度有了一定提升。但深层网络在提高肿瘤分割精度的同时,也带来了巨大的计算量,下一步将在现有网络模型的基础上,优化模型,利用可分离卷积压缩网络大小,降低计算量,减少训练时间,提升分割效率。