邬 硕,汪海涛,姜 瑛,陈 星
(昆明理工大学 信息工程与自动化学院,云南昆明 650500)
近年来,随着医学影像在临床上的不断应用和扩展,核磁共振成像(magnetic resonance imaging,MRI)技术的脑部医学图像已经成为医学影像处理领域的一个重要研究方向[1]。MRI图像能显示人体不同器官和组织的3D医学图像,能够很好地显示出人体结构的解剖形态和病理截面。MRI脑部医学图像为探索人脑组织提供了大量的数据信息,有利于对脑部组织作进一步分析。在医学图像上作手工标记需要相当多的专业知识,耗费大量的人力和时间,因此,含有手动标注的医学图像非常少,从而对医学图像分割造成了一定的难度。同时,医学图像与自然图像相比较,具有模糊、灰度不均匀、弱边界、有个体差异等特点,传统图像分割技术难以取得很好的性能。医学图像分割是医学图像处理中一个重要的前置环节,在医学图像分析和诊断中占有重要地位。传统医学图像分割主要有基于阈值分割、基于区域生长分割、基于边界分割等方法,这些分割算法在图像分割中起到了一定作用,但是计算时间长、运算开销大,容易造成图像的过度分割,难以取得良好的分割效果。
在2012年ImageNet比赛中,基于卷积神经网络(convolutional neural networks,CNN)的AlexNet算法克服了传统图像分割算法的一些缺点,取得了惊人的成绩并获得了大赛冠军,从而拓宽了深度学习的应用场景。深度学习算法开始被引入到计算机视觉任务中,在医疗图像分割领域中也取得了优异的成绩。文献[2]使用深度学习算法进行图像语义分割,提出了全卷积网络,将全连接层换成了卷积网络,可以接受任意大小的输入图像,通过多层网络结构进行自动学习更多特征。文献[3]提出上下文模块,使用空洞卷积来进行多方面的信息整合。文献[4]在空洞卷积基础上引入残差网络结构提高了收敛效果。文献[5]提出了一种对抗训练的方法来训练语义分割模型,首次将生成对抗网络(generative adversarial network,GAN)思想引入到图像语义分割领域。文献[6]为了解决医学图像标注数据缺乏的问题,提出了一种通过学习图像变换来合成带标签的医学图像达到分割的目的,该算法是传统图谱法和卷积神经网络的结合。这些模型虽然在综合性能上有所提升,但是仍存在不同个体器官图像差异较大和网络模型需要大量标注数据的缺点。
针对现有的图像分割算法计算时间长、运算开销大、个体差异较大时识别率低、需要大量标注数据等问题,本文提出了基于混合神经网络的图像语义分割算法。该算法基于传统图谱法融合多神经网络对未标记的图像进行分割,将仿射网络[7]和空间转换网络[8]融合图谱分割法进行脑部MRI图像分割,使用较少的标注数据能显著提高脑部图像的分割准确率。本文的仿射网络基于卷积神经网络并添加稠密模块[9],有效地减轻梯度消失,减少了模型参数,使得网络更容易训练。
在传统图像分割领域,众多国内外专家学者进行了多方面的深入研究,涌现出大量图像分割算法。文献[10]提出了自适应阈值大津法,用一个阈值将图像中的数据分为两类,利用图像灰度直方图的峰谷法,使两类数据之间方差最大,达到分割图像错分概率最小的目的。文献[11]提出区域生长,按照特定顺序进行区域合并,相邻像素或区域与生长点合并,形成新的生长点,重复此过程直到再没有满足条件的像素或区域为止,这种方法可以有效地在线性时间和空间中逼近,从而产生一种快速分割算法。文献[12]提出了经典的Canny边缘检测算法,定义了一套边缘检测算法的评价标准,提出了一种低错误率边缘检测方法,把检测到的边缘定位到真实边缘的中心,并将这些评价标准用数学公式表示出来。该算法利用非极大值抑制算法寻找局部区域像素最大值,非极大值对应的灰度值为0,采用双阈值算法检测,将高阈值图像中的边缘连接成小区域,在邻域点中寻找低阈值点产生新的边缘,直到图像边缘闭合。
基于传统图谱法[13]的医学图像分割技术是医学图像分析常用的系统框架。该算法是利用配准思想将已经标注好的医学图像映射到未标注的医学图像上。图谱法分割图像对配准的准确性要求较高。根据图像分割过程中使用的图谱数量,可将其分为单图谱法、平均图谱法及多图谱法[14]。图谱图像由两部分组成,分别是浮动图像和固定图像。标签图像是浮动图像的分割,与浮动图像是一一对应关系。标签图像由富有经验的相关专家借助医学图像处理软件进行手动分割或半自动分割,通常称为金标准。分割流程如下。
1)将图谱图像的浮动图像和固定图像进行配准操作,得到浮动图像到目标图像的变换参数T,如图1所示。
图1 医学图像配准结构图Fig.1 Medical image registration structure diagram
2)将第1步得到的变换参数T应用于图谱图像的标签图像上,得到固定图像的分割结果,如图2所示。
图2 医学图像图谱法分割结构图Fig.2 Medical image atlas segmentation structure diagram
图谱法分割图像主要依赖于浮动图像和固定图像的配准精度,如果两幅图像的配准精度比较高,那么图像的分割结果就比较精确。
医学图像配准[15-16]是医学图像分析中常用的技术,它实际上是寻找一个变换空间,使来自不同设备、不同时间、不同条件的两幅图像或多幅图像的相应位置匹配。对于给定的浮动图像和固定图像,将浮动图像的坐标转换到固定图像中,使得两幅图像相应位置匹配,得到形变图像,使得配准后的形变图像与固定图像相似性最高,如图3所示。
图3 图像配准坐标转换示意图Fig.3 Image registration coordinate transformation diagram
对于给定的两张医学图像,用m代表浮动图像;f代表固定图像;f(x,y)和m(x,y)分别代表f和m在物理坐标系(x,y)处的像素值;T表示f和m的空间变换关系。那么,图像f和m关系可以表示为
m(x,y) =T(f(x,y))
(1)
上述图像配准问题就是一个求解最优变换矩阵问题,表达式为
T*=argmaxS(m(x,y),T(f(x,y)))
(2)
(2)式中:S为图像相似性度量函数;T表示空间变换关系。求解最优变换矩阵T*使得浮动图像经过变换矩阵后的图像T(f(x,y))与固定图像m(x,y)的相似度最高。对变换后的图像进行重采样,得到配准后的图像。
仿射变换矩阵利用深度学习进行3D医学图像仿射变换[17],仿射网络以浮动图像和固定图像作为输入,计算使浮动图像对齐到固定图像所需的仿射变换参数。这些变换参数可以用矩阵Ta来表示,用这个矩阵可以得到从输入图像物理坐标到形变图像物理坐标的映射,本文定义输入3D图像的体素用x表示,新的3D图像的体素坐标x′=Tax。3D图像用12个仿射变换参数来表示两幅三维图像之间的仿射变换关系,Ta矩阵中12个字母代表12个参数:3个旋转、3个缩放、3个平移和3个剪切参数,变更这些变换参数会产生不同的变换组合。输入两幅图像,用f表示浮动图像,用m表示固定图像。仿射网络从输入图像训练映射到转换矩阵T表达式为
T=AffineNet(f,m)
(3)
混合神经网络进行图像语义分割时,通过加入仿射网络产生仿射变换参数进行预配准,使图像基本对齐,减少大偏移,后续模型训练更加稳定;通过空间转换网络产生一个配准场,将该形变场作用在浮动图像上得到一个与固定图像相似的形变图像;通过在训练集上训练模型,将模型应用于待分割的图像上,实现图像的自动分割。经过2个神经网络模型训练后,用双线性内插法进行重采样,每个模型共享参数,提升了单个模型的训练速度。通过半监督学习,利用已经标注的MRI图像对未标注的MRI图像进行自动分割,提升了分割精度,解决了医学图像手动分割耗费时间和缺乏标注数据的问题。
本文算法对脑部MRI的3D医疗图像进行自动分割,算法流程见图4,算法网络模型结构见图5。用{x,lx}表示已经标注过的医学图像集合,{u(i)|u(i)∈Rh×w×c}表示一幅未标记的医学图像集合,其中图像x∈Rh×w×c,lx∈Rh×w×c,h、w、c分别是体像素对应的冠状位、矢状位、横断位三维空间。
图4 算法流程图Fig.4 Algorithm program flow chart
图5 基于混合神经网络的医学图像语义分割算法结构图Fig.5 Medical image semantic segmentation algorithm based on hybrid neural network structure diagram
模型输入两类图像经过改进仿射网络和空间转换网络模型进行训练学习,得到模型参数Ta和Ts。用这两个模型参数将未标注的和已标注的图像进行映射,最终合成有标签的图像集{y,ly}。
仿射网络结构基于传统仿射变换加入卷积神经网络,使用两个相同的神经网络分别处理浮动图像和固定图像。每个神经网络主要由两部分组成:①编码器对输入图像进行特征提取,配准部分在图像特征和变换参数中寻找几何线性关系,寻找最优参数;②编码器从输入的数据集合中学习新的特征,为配准找到最优参数,融合这些新特征,有效地提取目标图像信息,获得更丰富的语义信息。两幅图像的特征提取使用相同的编码器,两个神经网络之间共享参数,这就减少了整个网络的参数,加快训练速度。
编码器改自稠密连接网络,稠密连接提升了梯度的反向传播,使得网络更容易训练。通过concat层进行特征短路连接,实现了特征重用,跳过若干卷积层直接和深层的特征图做融合。每个输入图像首先经历3×3×3卷积层,然后使用2×2×2最大池化层,稠密模块[9]由三维卷积层构成,每层以一个特征图的输入作为输入,增长率为8%。每个神经网络有多层网络结构,添加多层网络结构是因为更深的网络层次通常对应更具体的特征和特性。本文的改进仿射网络结构如图6所示。图6中的两个神经网络经过扁平层数据输出后进行特征融合,融合后的数据是基于编码器学到的特征空间,经过2个全连接层进行输出转换参数。仿射网络模型最优化两个损失函数:形变场平滑损失函数Lsmooth(ψ);浮动图像和固定图像之间的相似性损失函数Lsim(x,uψ),其中,uψ表示图像u在形变场作用下的形变图像。最优化算法不断更新网络模型转换参数,直到相似性达到最大。相似性损失函数常用的有灰度均方误差(mean square differences,MSD)和归一化相关系数(normalized cross correlation,NCC)。均方误差相似性度量基于图像每个体像素灰度值计算,如果两张输入图像相似性高,那么两张图像对应位置体素的灰度值应该非常接近;如果对应位置体素灰度值差异很大,则反映两张输入图像之间相似度较低。均方误差计算表达式为
图6 改进仿射网络结构图Fig.6 Improved affine network structure diagram
MSD(x,u
(4)
用v1,v2分别表示图像x和uψ的体素均值。归一化相关系数表达式为
NCC(x,uψ)=
(5)
归一化相关系数最理想的取值是1,表示两幅图像之间体素值完全相同;若值是-1,表示两幅图像相关程度很低。
平滑损失函数防止局部过度扭曲的现象,∇u(x)是位移场u在每个元素位置的导数,这里的导数是每个相邻元素的差分,通过施加平滑性约束,可以使得位移场中相邻位置的偏移量不会过大,从而保证位移场局部平滑,避免配准之后图像出现局部过度扭曲现象,表示为
(6)
空间转换网络模型基于U-net的VoxelMorph[15]变换,其结构见图7。浮动图像m和固定图像f通过U-net卷积神经网络产生一个形变场φ,φ表示从f的坐标映射到m坐标的一个形变场,将该形变场作用在浮动图像上得到更接近固定图像的形变图像w=mφ。gθ(f,m)是网络模型VoxelMorph所表示的配准函数,其中θ表示网络模型位移场u=gθ(f,m),每一个体素x可以表示为φ(x)=x+u(x)。
图7 空间转换网络结构图Fig.7 Spatial transform network structure diagram
空间转换网络同样也需要最优化两个损失函数Lsmooth(φ)与Lsim(f,mφ)。最优化问题转换表示为
(7)
(8)
本文算法经过两个神经网络做图像配准后分割。用hα(f,m) 表示仿射网络,ψ表示经过仿射变换后的形变场,则图像x到图像u的映射关系可以表示为ψ(i)=hα(x,u(i))。仿射网络用于做线性几何变换,用x+ψ表示图像x经过形变场ψ的仿射变换,gθ(f,m)表示空间网络,φ表示空间网络变换后的形变场,则图像x到图像w的映射关系可以表示为φ(i)=gθ(x,w(i))。用xφ表示图像x经过形变场φ的空间变换,仿射网络模型训练参数为Ta,空间网络模型训练参数为Ts,它们的转换关系为
ψ(i)=ha(x,u(i))
(9)
φ(i)=gθ(x,w(i))
(10)
本文训练模型的相似性损失函数采用均方误差,两个网络模型的损失函数分别用La和Ls表示,计算表达式为
La=Lsim(x,[x+ψ]) +λaLsmooth(ψ)
(11)
Ls=Lsim(x,[xφ]) +λsLsmooth(φ)
(12)
经过两个神经网络模型在数据集上进行训练,得到两个模型参数Ta和Ts。{x,lx}表示已经标注过的医学图像集合,图像x经过仿射网络模型学习得到模型参数Ta和形变图像w,得到的形变图像进行空间转换。最后得到配准后的图像y。同理,将带有标注的lx经过2个模型参数矩阵变换后进行重采样,最终得到分割图像ly。本文图像分割算法就基于图像配准后进行图像分割,最后将得到有标注的图像集合{y,ly},计算公式为
y=(x+ha(x,u(i)))gθ(x,m(i))
(13)
ly=(lx+ha(lx,u(i)))gθ(lx,m(i))
(14)
实验采用来自MICCAI的公共数据集BraTs2019[18],包括高级别脑胶质瘤(HGG)和低级别脑胶质瘤(LGG)的病人。该数据集每个3D扫描图像由155张240×240像素的二维图像组成,数据集包括的4种模态(t1、t2、flair、t1ce)MRI图像如图8所示,二维图像共207 700张。本文采用公共数据集随机划分,90%作为训练集,10%作为测试集。首先对图像进行预处理,使用Python语言的SimpleItk[19]工具包读取nii图像文件。
图8 实验数据集图像Fig.8 Experimental data set image
训练数据集中除了4种模态MRI图像,还有专家分割的真实标签图像,如图9所示。真实标签对三维图像的分割有3个方向切面:横断面(axial)、冠状面(coronal)、矢状面(sagittal)。每个方向切面的分割区域由红色、黄色、绿色3种颜色组成代表不同的脑部医学区域[20]。图中绿色为浮肿区域(peritumoral edema, ED) ,标签为2,黄色为增强肿瘤区域(enhancing tumor, ET),标签为4,红色为坏疽区域(non-enhancing tumor, NET),标签为1。
图9 真实标签与三维脑部MRI分割图像Fig.9 Ground truth and 3D brain MRI image segmentation
本文预处理时将原图像大小由(155,240,240)裁剪为(155,120,120),去除多余的背景信息,提升模型的分割性能。由于4种不同模态的数据对比度不一样,对每个模态的图像使用Z-score进行标准化,每个模态的数据经过标准化处理后数据的均值为0,标准差为1。
本文对图像分割的评价指标主要有以下几种。
3.2.1 Jaccard系数
Jaccard系数指的是两个集合A和B交集的大小与A与B并集的大小的比值,用符号J(A,B)表示。当集合A,B都为空时,J(A,B)定义为1。Jaccard系数是一种用来衡量两个集合相似度的指标,J(A,B)越大两个集合相似度越高,反之,越小。计算公式为
(15)
3.2.2Dice系数
Dice系数是基于像素的,真实标签图像出现在区域A,模型预测结果的目标区域为B,|A∩B|是A和B之间的交集,它的取值范围在[0,1],越接近1说明模型效果越好,Dice系数计算式为
(16)
使用完全相同的样本将本文方法分别与Canny[12],GAN[5]、3D U-net[21]、VoxelMorph[6]分割方法进行对比实验。其中,Canny是基于边缘检测的传统图像分割算法;GAN和3D U-net是融合神经网络模型的分割算法;VoxelMorph是神经网络和传统图谱法相结合的图像分割算法。图10为5种分割算法对5名患者4种模态MRI脑肿瘤图像的预测分割结果,4种模态(flair、t1、t1ce、t2)数据表示脑部肿瘤在不同序列下病灶部位的表现形式,是MRI成像过程中,通过改变MR信号生成的图像数据。由图10可以看出,Canny传统图像分割算法能够检测到图像中全局显著的边缘线,难以检测出图像中的局部边缘。GAN总体能分割出脑部肿瘤的3个区域,不同区域分割效果不一样,尤其是对浮肿区域分割效果较好,边界比较明显,但是对坏疽区域存在过分割和欠分割情况。3D U-net对浮肿区域、增强肿瘤区域和坏疽区域分割准确率有所提高,边界比较清晰,但是仍有小部分区域分割不连贯,存在过分割情况。VoxelMorph在增强肿瘤区域和坏疽区域分割比3D U-net精度有所提高,由于缺少更多特征的融合,对浮肿区域分割有错误分割的情况,把部分背景也分割进来了。本文算法能够完整分割出脑部肿瘤的3个区域,分割效果与真实标签基本一致;在最难分割的增强肿瘤区域和坏疽区域中,分割出的轮廓比其他基线方法光滑自然;对浮肿区域的分割也没有引入过多背景,没有出现过分割与欠分割。这表明本算法分割精度高、适用性强。
表1所示为本文算法分别与Canny[12],GAN[5]、3D U-net[21]、VoxelMorph[6]方法分割的对比结果。从表1可以看出,VoxelMorph和3D U-net在Dice和Jaccard上的表现相似。GAN分割方法在3个区域上效果不稳定,这也证明了GAN医疗图像分割训练的不稳定性与优化过程中梯度的消失有关。Canny在不同图像的分割结果差距较大,传统Canny图像分割算法需要手动设置高低阈值,难以适应不同的图像。本文加入多个神经网络,使浮肿区域和增强肿瘤区域分割效果优于3D U-net,尤其浮肿区域Dice评分超过87%,在坏疽区域分割效果也较明显。
表2是各种算法对浮肿区域的平均值、标准差、最小值、最大值对比表(Dice评分)。通过表2数据得出,本文所提方法对脑部MRI图像不同区域分割的Dice平均得分优于其他算法。本文算法的标准差较小,说明总体分割数据集中、训练稳定。
表2 浮肿区域的数值对比表(Dice评分)Tab.2 Comparison of ED numerical(Dice scores) %
本文结合实验提出一种基于混合神经网络的图像语义分割算法,将传统图谱方法和混合神经网络相结合,利用仿射网络对脑部MRI图像进行线性几何变换。仿射网络由传统仿射变换加入卷积神经网络组成,在编码层中增加稠密连接网络,缓解梯度消失,使网络更容易训练;仿射网络经过扁平层进行特征融合,经过全连接层进行中间数据输出;同时,通过空间转换网络对脑部MRI进行空间转换。利用已经标注的脑部MRI图像对未标注的脑部MRI图像进行自动分割,这对缺乏医学图像标注数据的医学图像研究有重大意义。