面向深度学习的胰腺医学图像分割方法研究进展

2022-12-06 11:05:54曹路洋李建微
小型微型计算机系统 2022年12期
关键词:切片胰腺卷积

曹路洋,李建微

(福州大学 物理与信息工程学院,福州 350116)

1 引 言

胰腺癌是一种具有高恶性程度的消化系统肿瘤,早期诊断异常困难,且侵袭速度极快,其中约90%起源于导管腺癌[1,2].据美国癌症中心最新统计数据显示,近5年胰腺癌生存率仅为10%[3].临床手术切除是较为有效的治愈方案,术前医生需要对病人的CT、MRI等医学影像进行逐层描绘,将二维切片在人脑中逐层转化为三维立体影像,从而获得病理组织与其周围器官组织的空间关系,这需要医生具有丰富的读片经验以及较强的三维空间想象能力,且需要投入大量的时间和精力[4].影像中的伪影、气影等也会产生一定的噪声干扰,影响医生的判断[5],并且不同医生之间的诊断结果不具有客观一致性,容易因疲劳或经验不足造成误判[4,6].

因此,为实现医学影像中目标器官的快速有效分割,研究者提出了基于阈值的图像分割方法[7],基于区域的图像分割方法[8-10]以及基于边缘的图像分割方法[11,12],但传统方案在胰腺医学图像分割实验中出现了较大的弊端.由于胰腺在影像序列中占比较小、形态个体特异性强且组织边缘灰度像素不均[13-17],而传统分割方案需要过多的人工介入完成目标提取,自我学习能力较弱,不具备抵抗伪影、气影等噪声干扰的能力,导致胰腺的语义分割结果较差.

针对传统方法遇到的问题,研究者开始将深度学习引入医学图像分割领域.相比于依赖数学模型的表层学习,深度学习减少了人为干扰,能够学习到更抽象、更高维的特征,具有优异的特征学习能力,快速高效的实现病灶区域检测、病灶分割和分类.目前,基于深度学习的医学图像分割方案已经应用到各个腹部器官,如肝脏、肾脏、脾脏等,其分割结果的DSC系数已经达到95%以上[18]但在胰腺这类小器官的语义分割上,平均DSC系数仍然不能突破90%[19,20].截止2021年8月25日,本文在Web of Science上通过“胰腺”与“分割”两个关键词进行初筛,排除眼科、血液学、社会学等不相关领域,共获得文献278篇,其中综述性文章10篇,与深度学习相关综述类文献3篇.Yao等人[21]综述了2019年之前的胰腺分割方法,分为基于图谱、区域、边缘、神经网络以及其他五大类别,涵盖面较广,但对基于神经网络的分割方案评述较少,无法构建神经网络在胰腺医学图像分割领域的系统性认知体系.Kumar等人[22]将检索到的胰腺自动分割相关文献基于不同的算法进行四元分类,对每类文献的DSC以及Jaccard系数加权平均后进行多维度比较,但相关文献年限截止到2019年,缺乏近几年的文献评述,并且同样缺少基于深度学习的胰腺医学图像分割方案的系统化总结.Rehman等人[23]对基于深度学习的腹部器官分割方法进行了系统性综述,包括肝脏、肾脏、胰腺和胃,胰腺部分只粗略介绍了6篇具有代表性的分割方案,无法获得更多相关信息.目前尚未检索到中文的基于深度学习的胰腺分割综述,因此现有文献情况表明基于深度学习的胰腺分割领域探索性研究文章较少且缺乏系统性的总结性的文献.为解决上述问题,本文总结了近五年来基于深度学习的胰腺分割方案,内容分5个章节展开,梳理了常用的胰腺分割数据集,并对胰腺的深度学习分割方法进行了较为详尽的分类与总结,重点介绍了每种分割网络的原理、基本思想、网络架构,评述了方案的优缺点,并在统一评价指标上进行分割精度的比较.最后本文提出了现有的基于深度学习的胰腺分割方法存在的问题,并对未来的研究趋势进行了展望.

2 胰腺分割数据集

深度学习的模型构建依赖于大量的标记数据集,但在医学图像分割领域,数据稀缺问题非常严重.计算机科学家由于没有专业的医学知识,医疗设备及患者来源的支撑,不能完成批量性质的医学数据采集,而满足数据采集条件的医学研究者由于数据的隐私性以及道德问题不能将采集到的医学影像数据进行公开发布,且医学影像人工标注的时间成本以及图像解析成本较为昂贵,限制了短时间内大批量生产公开性医学影像数据的可能.

为解决这一问题,MICCAI等机构收集了大量的医学影像数据,并在官网上公开发布,为医学图像分割提供了强有力的数据支持,但即便如此,相较于肝脏、肺等常见的腹部器官,可公开的带有标注的胰腺数据集仍然稀缺,目前只有NIH胰腺分割数据集以及医学影像十项全能数据集为可公开使用的胰腺医学影像数据,如表1所示.

表1 胰腺分割数据库

NIH胰腺分割数据集[24](NIH-82)包含来自80名受试者的82次腹部增强三维CT扫描(门静脉造影剂注射后70秒),其中男性53名、女性27名.65名受试者没有大范围的胰腺器官病变或腹腔器官病变,17名受试者接受了肾脏切除手术的术前扫秒,为健康的器官捐赠者.CT体积大小为512×512×D,其中D∈[181,466],表示沿人体长轴方向的切片样本数量,厚度从0.5毫米到1.0毫米不等,一名医学生逐层对胰腺切片进行了人工手动标记,并由经验丰富的放射科医生进行检验和修正.该数据集是公开可用的,并且广泛用于对胰腺CT分割框架进行性能评估.

医学影像十项全能公开数据集[25]包含10类腹部器官,其中Task07_Pancreas公开数据集由接受胰腺肿块(导管内粘液瘤、胰腺神经内分泌肿瘤或胰腺导管腺癌)切除术的患者组成,共有420个3D CT扫描序列,其中含有真实标记的样例数量为281例、测试样例数量为139例.空间分辨率等于512×512像素,胰腺和胰腺肿块(囊肿或肿瘤)由腹部放射学专家使用Scout应用程序对每张胰腺CT切片进行手动注释.

除了以上两种带有标记的公开数据集外,其他胰腺数据集基本为私有数据集,由研究者自行采集与标记.此外,由于CT影像数据成像便捷且成本较低,相较于MRI影像数据,胰腺的CT影像数据使用频次更多.

3 基于卷积维度的胰腺分割改进方案

胰腺的医学影像既可呈现为三维体数据也可延固定轴向切分为多个二维图像片层展现,因此卷积神经网络的数据输入维度具有高度的灵活性,这也使网络的卷积形式产生多样性.受计算机设备限制,目前应用最多的为二维卷积,二维卷积运算量较小,网络更容易实现轻量化与高效化,但由于二维卷积容易忽视片间特征关系,需要通过辅助手段对片间关系进行学习.三维卷积克服了建模片间关系的难题,但由于增加了一个维度,计算量也呈指数型增长.因此三维卷积特征提取能力虽然优于二维卷积,但要求显卡有较大的内存量.伪三维卷积能在减少计算量的同时实现三维卷积片间建模功能.但采用该种卷积方式的模型泛化能力较差,尤其在标记数据量稀缺的胰腺分割场景中,伪三维卷积不能呈现明显的优势.3.1节-3.3节将对此展开详细介绍.

3.1 二维卷积

近年来基于二维数据的深度学习胰腺分割方法较为普遍[32,33],将CT图像的三维体积数据沿不同轴向分解为二维CT切片,单张切片在神经网络中进行逐像素分类,进而得到单层切片的分割结果,随后集成冠状面,矢状面以及横断面的全局切片分割结果即可构建胰腺的三维模型.但二维切片分割方案普遍通过提高单张切片的分割精度来提高胰腺三维数据的分割精度.由于胰腺切片间具有序列关系,仅依靠单张切片的片内关系建模并不能获取胰腺片间数据的非线性关系,因此二维分割方案往往不能涵盖胰腺医学图像序列的全局特征,忽略了胰腺的片间空间连续性.

Zhou等人[34]将胰腺的三维体数据沿冠状、矢状和横断3个不同轴向拆分为二维片层数据,为减少胰腺类不平衡问题的影响,首先通过二维卷积网络获取胰腺三维体素的边界框进行ROI剪裁,剪裁过后的切片输入细分割网络获得不同轴向单层切片的最终分割,最后获得胰腺三维立体分割数据.其网络结构如图1所示,虽然这种方法大量减少了背景像素干扰,但片间特征交流较少,忽略了胰腺的片间空间连续性,这也是二维卷积本身的缺陷所在.

图1 Zhou等人的网络结构[34]

Fu等[35]同样采用二维卷积对胰腺切片进行处理,但与Zhou等人不同的是,Fu等将不同卷积层的胰腺特征图进行融合,并通过多层上采样结构还原胰腺的多尺度信息来提高网络对胰腺单层片层特征的学习能力.这种方法虽然增强了不同特征图间的交流,能够获取单张切片分割过程中的上下文信息,但同样没有关注胰腺CT序列本身的三维时序信息.

综上所述,虽然在二维片层胰腺分割中可以通过不同的方法增强胰腺数据片内特征的学习,但处理单张切片的2D网络会忽略相邻切片之间的胰腺三维空间特征关系[4].这阻碍了胰腺片层间时序特征的提取,限制了网络分割性能.因此,若采用二维卷积作为网络主卷积方式,可设计时序特征学习结构建模胰腺片间关系,如采用LSTM结构对胰腺序列进行卷积处理,或使用少量的三维卷积来增加网络对于时序特征的关注度,进而提高网络的分割性能.

3.2 三维卷积

为使神经网络能够捕获胰腺时序信息,进一步学习胰腺影像切片间的特征关系,研究者提出了3D网络[36-39],3D网络的输入图像从单层切片扩展为多层时序切片,卷积维度也从二维扩展为三维,具有时序维度的三维卷积可以对每个影像体块进行卷积操作,从而学习胰腺的片间关系.然而,由于维度的增加,3D网络需要占用大量的计算和内存资源,因此对设备要求较高[4].并且现有的3D网络深度较浅,不能通过构造深层网络来提取胰腺医学影像的深层语义信息,典型的3D网络结构如图2所示.

图2 3D网络结构[40]

Oktay[38]采用的是典型的3D UNet架构,虽然其提出的注意力机制使网络分割精度有所提高,但由于3D卷积的介入,尽管基线网络深度较浅,模型的计算成本仍然偏高.

为减少三维网络的计算量,研究者在使用三维网络分割前会采用不同的方案对胰腺位置进行定位剪裁,该处理方法能够在减少网络计算量的同时减少胰腺类不平衡问题带来的影响.Oda等人[41]为保留3D卷积的优势,同时降低设备内存消耗,使用三维FCN提取胰腺的全局特征信息,之后通过回归森林估计胰腺的边界框,根据边界框内的胰腺概率图集进行精细的胰腺分割,相较于Attention Unet[38],降低了单张切片的学习成本,且减少了复杂多变的背景像素的干扰.Roth等[40]舍弃了传统的矩形ROI剪裁方案,采用训练的粗分割阶段网络沿腹部器官边界框定候选分割区域,该方案相较于矩形框选方案能大大减少背景像素的干扰,从而为下一个3D训练网络减少不必要的学习任务,进而减少3D网络的训练内存占用量.然而,Roth等人在输入前继续将候选区域随机采样为多个子体块,由于每个体块边界分割结果不一致[42],拼接时体块衔接处不能达到完全重合,这对于胰腺这类小器官的分割十分不利,因此相较于实验中的肝脏与脾脏,胰腺DSC结果最低.He等人[43]为减少三维网络的计算量提出了一种引导分割方案,采用马尔可夫链蒙特卡罗(MCMC)来引导卷积神经网络对胰腺的三维图像进行分割,MCMC负责在胰腺的先验空间中选择胰腺三维体块,使卷积神经网络的学习区域能够自适应的集中在目标像素区域,训练好的3D-UNet负责对预选体块进行精细分割,之后逐块融合获得胰腺的整体预测分割结构.此引导分割方案虽然优于文献[40,41]的ROI剪裁与边界剪裁,大大减少了第2阶段3D网络的计算量,但其依赖于先验空间预测的准确性和MCMC的初始目标体块选择准确性,因此仍具有局限.Wang等人[44]设计了三维胰腺区域回归网络(PancreasNet)用于检测胰腺位置,之后在检测到的目标区域内通过两种尺度的SEVoxNet进行注意力机制特征提取以及精细分割.在经过了PancreasNet的胰腺区域定位后,SEVoxNet的处理速度明显优于文献[15,39,60]中提出的网络,以上方案表明三维卷积与定位剪裁相结合在胰腺语义分割领域具有一定的优势.

Fang等人[16]提出了渐进融合网络,如图3所示,该网络在编码部分通过三维卷积提取胰腺的三维信息,解码部分采用二维卷积完成胰腺的单张切片概率预测,并通过全局引导分支获取胰腺的全局特征,这种将三维卷积与二维卷积分别用于编码器与解码器的分割方式,有效解决了网络计算量过大以及单纯的二维卷积无法获取三维时序信息的问题,也为后续伪三维卷积的应用奠定了基础.

图3 Fang等人网络结构[16]

虽然三维卷积网络在胰腺的分割上展现了良好的分割性能,但根据Lai 等人[45]的研究,三维卷积显著增加了计算成本(2D:51.56分钟,3D:173.73分钟),对计算机内存消耗量巨大,因此也限制了网络深度的增加以及感受野的扩张,无法获取更深层次的胰腺三维特征.若想采用三维卷积进行分割可事先对胰腺医学图像进行ROI剪裁,减少矩阵计算量,也可采用Fang等人[16]的编解码方式,在三维卷积中加入二维卷积,通过减少卷积维度的方式使网络整体的计算量得到降低.

3.3 伪三维卷积

2D卷积忽略了切片间的时序信息,而三维卷积涉及的高维矩阵运算计算成本过高,部分胰腺分割网络的感受野与网络深度受限.为解决这些问题Giddwani[46]等人引入2P1D卷积,如图4所示,该卷积用2D卷积与1D卷积的组合卷积形式代替3D卷积,在减少计算量同时增强了模型对时序信息的捕捉能力以及对全局特征的优化能力.

图4 2P1D卷积的可视化视图[46]

与Giddwani等人[46]不同的是Liu等人[47]通过改变输入数据实现伪三维卷积,通过超像素聚类相似像素区域,对每个聚类区域进行分类判定获得胰腺候选区域.随后将连续切片中提取的胰腺候选区域作为2.5D切片输入到5个具有不同损失函数的模糊神经网络,输出中间切片的胰腺标记数据.该2.5D切片可充分利用相邻切片信息,同时避免了3D卷积带来的巨大内存消耗.Zhou等人[48]也采用了2.5D切片作为网络的输入数据,但其获取方法与Liu等人[47]略微不同,Zhou将中间层的原始图像与相邻切片二值化分割结果结合从而获得2.5D切片,该种切片能对中间层的细分割概率图进行时序维度的分割约束,将该概率图与对应的粗分割概率图融合卷积后可得到更加精确的的胰腺语义分割.Zhu等人[49]将伪三维卷积与可微分的神经网络架构自动搜素方案结合,该架构可根据不同的三维胰腺CT体素情况自动搜索合适的卷积核(2D、3D或伪3D)以及网络结构,能够在多种模块中选择出最优的组合方案,该方案也证明了伪三维卷积减少了卷积神经网络的内存消耗,并且保留了更多的胰腺切片间信息以及相较于纯2D卷积与3D卷积的有效性.

伪三维卷积可通过改变卷积形式或输入数据形式来实现,伪三维卷积的使用可使网络具有三维卷积的时序特征提取能力,同时也可减少网络的计算量,这不失为一种调和二维卷积与三维卷积缺陷的方式,但伪三维卷积由于其组合的特殊性,现有的伪三维卷积的应用均具有一定的条件限制,如输入数据的限制以及二维三维卷积组合方式的限制等,因此在泛化能力上有待提高.

如表2所示,在卷积方式的改进方面,二维卷积虽然参数量少,但没有考虑切片间序列特征;三维卷积虽然能使网络学习基于体积的医学图像特征,但带来的巨大计算量会使三维卷积的性价比较低;伪三维卷积虽然在二维卷积与三维卷积中达到了微妙的平衡,使网络能够在参数量较少的情况下获取片间信息,但现有文献提出的方案均针对特殊的应用场景,其泛化能力还有待提升.在胰腺分割的实验过程中,二维卷积可通过不断增加网络的深度与广度提升模型单张切片的分割精度,也可通过设计时序特征提取模块使网络注意到切片间的序列特征;三维卷积可结合粗细分割框架提取胰腺位置减少背景信息的干扰,从而减少精细网络分割过程计算量,也可在一定程度上削弱胰腺分割类不平衡问题带来的影响,但卷积维度的选取同样需综合考虑实验设备性能,网络复杂程度,胰腺医学图像数据特点等多方因素,才能达到较为理想的分割结果.

表2 基于卷积维度的改进方案

4 基于网络结构的胰腺分割改进方案

当前胰腺分割算法在网络结构上可分为基于UNet网络的改进,基于长短时记忆网络的改进以及基于生成对抗网络的改进.不同的网络框架作用于胰腺医学图像具有不同的分割效果,UNet框架具有良好的分割稳定性,长短时记忆网络框架能关注到胰腺医学影像的各层切片关系,生成对抗网络能有效解决胰腺真实标记数量较少的问题,此外基于以上优点研究者也针对胰腺的成像特点以及生理特点制定了不同改进方案,4.1节-4.3节中将展开详细介绍.

4.1 基于UNet网络的胰腺分割方案

UNet网络由Ronneberger等[50]在2015年MICCAI会议上提出,主要解决医学图像中像素级别的分类问题.相对于自然图像数据集,医学影像数据集的标签需医学专家进行标注,具有临床意义的标签数据集较少,涵盖的病例类别也不够多,因此过拟合问题在是医学影像分割的常见问题.UNet网络可以动态调节每层的channel数量以及模型深度来减少参数量,可通过更为轻量级的网络完成图像识别与像素分类,尽量避免训练过程中出现过拟合问题.对医学图像分割来说,病灶本身的形态特征与其周围器官组织的空间位置特征对目标分割均有很大的帮助,因此每个尺度的图像信息都很重要.UNet的跳跃链接可解决上采样过程中高分辨率特征丢失的问题,增大局部特征表达与全局特征表达,所以UNet网络呈现了优良的分割性能.基于以上优点,Unet网络结构经常作为胰腺分割网络的基本架构,研究者在此基础上结合胰腺特征对Unet网络提出了多种改进方案.

Oktay等人[38]将注意力门集成到了UNet[50]模型中,提出了Attention UNet,网络结构如图5所示.注意力门可抑制模型与任务无关的部分,同时加强学习与任务有关的特征.该方案舍弃了在胰腺分割中表现良好的粗细分割框架,消除了级联网络对器官进行粗分割定位的需要,注意力门具有较高的灵活性与复用性,可高度集成化至不同的神经网络,因此该方案在不同的数据集上均具有良好的表现.

图5 Oktay等人网络结构[38]

Lu等人[51]同样提出了注意力模块的改进,与Oktay等人[38]不同的是,CBAM注意力模块是对通道特征以及空间特征分别进行注意力加权,将下采样过程中提取的特征通过CBAM注意力模块进行过滤后融合至上采样,保证胰腺高分辨率的细节特征不会丢失.此外该方案也改进了Unet的卷积模块,将普通的UNet卷积模块替换为环形残差模块,有效地利用上下文的空间信息,进一步解决网络退化问题,确保随着网络深度的加深,提取的胰腺特征图像仍然可以保留更多的细节信息,用于减少胰腺器官边界模糊带来的影响.Li等人[52]将仍然将Unet结构作为基线结构,但改进了网络的特征图输入方式,将传统的胰腺三维体数据划分为多个堆栈数据,代替传统的体数据输入到基于堆栈结构的UNet网络,该结构对每个胰腺堆栈数据进行建模,获得胰腺空间维度的局部上下文信息,并通过堆栈结构对胰腺分割结果进行集成,为保证单张胰腺切片的分割精度,使用模型驱动的正则化策略约束胰腺切片间关系,并使用滑动窗口算法提高相邻胰腺切片的分割连续性,使堆栈数据在融合过程中得到更加连续平滑的分割边界.

综上所述,UNet网络架构由于其稳定的分割性能被多种胰腺医学图像分割方案所采用,但面对胰腺分割这类目标区域较小,器官特征不明显的医学图像,仍然会存在过分割与漏分割的缺陷.在实验过程中可通过以下方案对Unet架构进行改进:1)增加Unet的深度与广度来提升网络的分割精度;2)增加注意力机制,如空间注意力、通道注意力等,提升网络对于目标区域的关注度;3)改进Unet传统的卷积方式,例如将传统卷积替换为残差卷积、膨胀卷积、深度可分离卷积等来增加网络的深度;4)通过级联网络等优化方案对不同的区域进行多尺度建模,进行全局联合优化,使网络提取到更多的有用信息,提升UNet的网络性能.

4.2 基于长短时记忆网络的胰腺分割方案

长短时记忆(LSTM)网络在序列数据上有优秀的建模能力,拥有长跨度记忆功能,可以有效捕获序列信息.在基础的LSTM结构中,元胞状态保存了链式网络中的长期状态信息,使其相对于传统RNN展现了更加优秀的长期记忆能力.胰腺本身的医学影像具有时序特征,切片间具有一定的非线性关系,因此不少研究者将LSTM模块融入到胰腺的分割方案中,用于提取胰腺的时序特征,但由于LSTM需要占用大量的计算资源,因此在网络精度提升的同时,网络的训练也较为困难,并且它并没有完全解决RNN的梯度问题,因此在一些研究中[28,53,54],研究者仅将LSTM特性作为单个模块嵌入网络模型内提取胰腺序列特征,而不是大范围采用LSTM作为网络的主结构.

Cai等人[28]通过CLSTM模块来解决胰腺CT切片时序特征学习的问题,该模块能够集成连续相邻的切片,对单张切片的标记预测实施空间一致性约束分割.端到端的分割方式可针对上下文特征对CNN的分割结果进行进一步优化,相邻切片间的分割结果将具有空间一致性.在2018年,Cai等人[55]对CLSTM模块进行了进一步的优化,实验采用的Bi-direction CLSTM模块如图6所示,该结构能够使分割结果受到前向切片与后向切片的综合性约束,进一步优化胰腺的轴向切片时序特征.受Cai等人的启发,Jiang等人[31]将Bi-direction CLSTM模块加入UNet网络的跳跃链接中,用于提取特征图不同的时间特征与空间特征,进而获得具有时空相关性的胰腺多尺度混合特征图.此外网络通过可变形卷积来增强对胰腺复杂多变的几何形态的建模能力,并增加了密集连接模块,提高特征图的重复利用率,训练参数量大大降低,且缓解了梯度消失问题.

图6 Bi-direction CLSTM模块[55]

综上,基于LSTM的分割框架中,LSTM模块通常作为主分割网络之后的单一优化细分模块[53].因此在胰腺分割的任务场景下,LSTM可以作为时序注意力机制集成在基础网络中,利用时序特征对单层切片的分割结果做空间约束,也可集成在分割网络后方,对预测后的二维切片进一步做时序维度的空间平滑处理.事实上,使用LSTM框架分割胰腺医学图像虽然使网络分割性能有所提升,但其计算资源需求量巨大,往往与其提升的精度不成正比.因此当胰腺分割网络的轻量化重要性大于分割精度重要性时,最好仍选择传统的二维卷积,以此降低网络对设备的内存需求.

4.3 基于生成对抗网络的胰腺分割方案

Goodfellow 等人[56]基于博弈论思想提出了一种由判别网络和生成网络所构成的深度学习模型——GAN(Generative Adversarial Networks).生成网络用来生成接近真实标记数据的预测分割数据,判别网络用于判断输入数据为真实标记数据或预测分割数据,两种网络相互对抗,相互博弈,共同达到最理想的预测状态.目前,胰腺公共数据集稀缺问题严重,现有的数据集并不能够提供足量的训练数据,在训练过程中很容易出现过拟合问题.因此近年来生成对抗网络也用在胰腺的医学图像分割上,解决胰腺医学图像数据量较少的问题.生成对抗网络训练过程中可以生成大批的预测分割数据,使分割网络在较少的源数据支持下仍能获得较为精确的分割结果.

Ning等人[57]使用生成对抗网络的分割框架如图7所示,其中生成模块由膨胀卷积自动编码器模块(DCAE)与局部长短时记忆模块(Local-LSTM)组成,DCAE网络使用膨胀卷积在不增加计算量的情况下扩大卷积核的感受野,局部长短时记忆模块(Local-LSTM)根据片间时空相关性进一步约束胰腺的边界分割;对抗模块则基于全局分布来进一步指导分割网络获得更加精确的分割结果.

图7 Ning等人生成对抗网络框架[57]

Khosravan等人(2019)[58]的对抗训练框架由3个网络组成,其中生成网络为基础的全卷积网络,也是胰腺分割的主体网络.空间语义网络为第1个对抗网络,用于调节主分割网络在空间维度上的分割性能,而第2个对抗网络通过2D投影获得3D语义信息,在不增加输入维度以及网络卷积复杂度的情况下,使分割网络的分割结果更接近于胰腺的三维几何形态.

综上,采用GAN作为网络分割框架具有较高的灵活性,生成网络与对抗网络均可构造不同的网络结构,且可以采用多个对抗网络对生成网络的数据进行调节与改进.如表3所示,虽然生成对抗网络分割方案能生成更接近真实标记数据的胰腺医学图像,在一定程度上解决了医学图像数据集较少的问题,但胰腺本身就是较难精确分割的器官,生成网络与对抗网络难以同时达到最优解,因此基于生成对抗网络的胰腺分割方案在改进网络结构的同时需要对网络的损失函数加以改进,尽量设计联合优化函数使生成网络与对抗网络能在训练过程中同时达到最优,进而使分割网络达到较高的分割精度.

表3 基于网络结构的改进方案评估结果

5 基于增强特征表达的胰腺分割改进方案

胰腺生理特征使其在影像学上的表达具有几何形态较小、形状易变以及边缘像素模糊等特点,神经网络在分割过程中将面临严重的类不平衡、几何形态难以学习以及边界像素分割溢出等问题,因此提升胰腺在医学图像上的特征表达,使胰腺分割网络捕捉到关键特征尤为重要.目前的主流分割方案大多采用粗细分割框架提取目标区域,粗分割阶段会对胰腺进行粗略的定位或分割,生成胰腺目标的候选区域,该候选区域提升了胰腺目标区域的整体占比,减少背景像素的干扰.除了粗细分割方案外,研究者也会通过注意力机制提升胰腺的特征表达能力,比如空间注意力可提升片内特征表达,通道注意力可提升片间特征表达,LSTM模块可以提升胰腺序列特征的表达等.5.1节和5.2节中将展开详细介绍.

5.1 粗细分割框架

由于胰腺在腹腔CT序列中占比较小(<0.5%)[34]在严重的类不平衡的影响下,网络容易学习到大量无关的背景像素特征,因此为减少冗余信息对特征学习的干扰,研究者们提出了从粗到细的两阶段胰腺分割框架,以克服单个网络的学习模式对背景像素的敏感性[34,39-41].该框架下胰腺分割被划分为两个阶段:第1阶段为粗分割,在该阶段需完成胰腺区域定位,获得目标区域;第2阶段为细分割,在该阶段粗分割获得的目标区域将作为输入数据进入细分割网络,并在该区域下执行进一步的精细分割.

Roth等人[24]在粗分割阶段选用超像素方法生成胰腺的候选区域,之后将候选区域导入分割网络进行局部的剪枝细化,超像素区域由于其不规则性,进入细分割网络时需要对每个候选区域进行变形处理,由于图像在一定程度上失真,胰腺的统一特征更加难以学习,为细分割造成了干扰,且该方案中超像素候选区域召回率仍旧存在3%的误差,变形干扰与召回率误差限制了该方法的分割性能.Zhou,Zhu等[34,39]利用三维胰腺医学影像训练粗分割网络寻找胰腺目标边界框.两者不同之处在于Zhou等人[34]对冠状面,矢状面,横断面均进行了特征建模,但采用FCN-8s初始化网络,相较于Zhu等人[39]提出的ResDSN模型,FCN卷积过程中会丢失大部分语义信息,网络分割性能较差.与传统的单细分网络不同,Zhao等[59]采用两个细分割网络对胰腺分割进行细化.可分割极小目标以及可变形度高的器官.在获得粗分割结果后,胰腺的候选区域将输入到两个并行的细分割网络从而获得不同的胰腺预测结果,该结果经过边际投票后与上采样的粗分割结果进行组合.由于其在训练阶段使用标签数据获取胰腺边界框,与测试阶段获取方式不同,边界框定位准确性不能通过网络训练阶段加以提升,导致分割结果有一定的局限性.

由于粗细分割网络缺乏全局能量函数优化,且缺少上下文信息,在分割胰腺时两个阶段的分割网络无法达到全局最优.Yu等人[60]就这类问题提出了一个递归显著性变换网络,粗分割网络用于获取胰腺的相关概率图谱,与原始影像结合后进行区域剪裁,送入细分割网络对候选区域进行细分与优化,经过多次递归后,两个网络的经过联合优化达到全局最优,获得更加精确的胰腺分割网络.与Yu等人解决方法不同的是,Xie等人[61]提出了一种递归显著性变换网络(RSTN),显著性变换模块将粗分割网络的概率图谱转化为像素权重,其与输入图像合并后由该模块进入细分割网络,因此粗细分割网络通过显著性变换模块得以连接.由于显著性变换模块的可微性,梯度可以反向传播到整个网络,使得粗细分割网络可以被联合优化,迭代的执行该分割流程也提高了网络的分割精度.Hu[33]等人也加入了显著性感知模块,与Xie等人[61]不同的是,该模块以测地线距离生成胰腺的显著信息,并通过显著信息来帮助细尺度模型意识到胰腺与周围背景的显著性区别,能够更好的处理胰腺高度可变形外观,得到更精确的分割结果.

Man等人[17]提出了一种基于DQN引导的胰腺分割方案,以解决类不平衡以及胰腺分割的非刚性几何特征难以学习的问题.该方案基于切片的上下文自适应定位胰腺所在区域,产生精确且与冗余度低的胰腺定位边界框,使用可变形卷积来学习胰腺的非刚性几何特征,提高了网络对胰腺特征的提取能力.Xue等人[32]提出了级联的多任务引导的3DFCN分割方案,如图8所示,在粗略分割快速定位后,细分割网络用来进行体素分割以及提取胰腺骨架,该骨架包含丰富的胰腺候选区域信息,经过级联后胰腺骨架得到多次优化,用来引导后续网络进行胰腺的精细分割,骨架引导的分割方法丰富了胰腺CT切片信息,使网更多的专注于胰腺特征学习.

图8 Xue等人网络结构[32]

与传统的矩形ROI区域分割不同,Peng等人[62]采用粗分割网络获取胰腺的轮廓ROI,之后细分割网络只对靠近该区域的样本进行像素级分类,从而减少网络的学习参数,减少类不平衡问题带来的影响.Wang等人[63]对双阶段粗细分割进行了改进,提出了三阶段的胰腺粗细分割方案,首先通过解剖先验定位粗略剔除背景区域;第2阶段使用DASUNet进行粗略分割,该网络可聚合胰腺的跨层次深度特征和并利用Ground Truth进行深度监督,随后利用双向卷积长短时记忆网络[64]提取切片上下文信息优化分割结果,并进一步利用优化结果进行二次背景剔除,进一步缩小单张胰腺CT切片的分割区域,最后利用DASUNet完成胰腺的精细分割.该网络的3种不同的分割阶段分别解决了胰腺的类不平衡问题,跨层次特征图信息提取与信息交流问题以及胰腺影像序列特征学习问题,实验证实每个阶段的改进均对胰腺分割准确度的提升有所帮助.

综上,粗细分割框架能有效剔除胰腺影像存在的部分冗余信息,削弱类不平衡问题的影响,提升网络的训练速度与分割精度.且该分割框架具有较高的灵活性,粗分割与细分割网络可以采用不同的分割方案,包括但不限于超像素,神经网络等,并且粗细分割网络的组合方式可以采用一对一,一对多,多对多等.相对的,多网络分割也是该框架的弊端,通常两种或两种以上的网络分割方案不能达到端到端的联合优化,需要过多的人工干预,且部分方案无法使分割网络同时达到全局最优,因此具有一定的局限性.

5.2 多尺度信息融合

受实验设备的限制,当网络计算量达到显卡内存承载量时,研究者不能继续通过增加网络的深度与广度提高网络的分割精度,由于基础网络不能提取更深入的特征和丰富的语义信息,且随着卷积的增多,层与层之间无法实现更多的特征交流,很容易遗失重要的语义特征.针对该问题部分研究者提出了信息融合策略,通过融合多尺度特征信息,使网络能够捕捉到胰腺的深层特征并突出更多的胰腺显著性特征.

Li等人[19]将3种跨领域信息融合策略融入到自己的分割网络中.第1种策略为UNet的跳跃链接,通过跳跃连接向解码网络传递编码网络的高分辨率语义信息,有效地抑制过分割与漏分割.第2种策略是残差网络,主要是通过小范围的跨域连接来解决卷积过程的信息丢失问题.第3种为多尺度残差网络,在残差网络的基础上增加了多尺度卷积操作,能够更准确地学习胰腺形状,结合不同的感受野特征图抑制过分割和欠分割.与Li等人[19]的多尺度策略不同,Giddwani等人[65]通过改变卷积扩张率获取不同感受野的特征图,这种集成多扩张率的深度扩张网络模块结构如图9所示,不同的卷积核扩张率捕获不同感受野的空间信息,集成不同感受野的信息来实现信息融合,提取每个胰腺CT序列的空间上下文信息.该模块具有较高的灵活性,能够集成到网络的任意阶段.

图9 深度扩张网络模块[65]

Zhang等人[66]的策略与Giddwani等人[65]不同,他们将信息提取过程由全局空间卷积分割为空间卷积与通道卷积两个阶段,多尺度混合注意力机制如图10所示,有效捕捉胰腺CT序列的空间信息与通道信息,从而提高网络的分割精度.

图10 多尺度混合注意力机制[66]

Li等人[20]提出了一种概率图引导的双向递归UNet(PBR-UNet)架构,该架构通过2D UNet提取像素级概率图,将输入图像与相邻切片的概率图组合成多通道混合数据,如图11所示.该架构的亮点为双向递归模块,如图12所示,中心切片的预测结果受前向切片与后向切片预测概率图谱的双重影响,循环更新机制有效的利用了前后片间序列信息,实现了多跨度,多时空维度的跨域信息交流.此方案能够避免中心切片丢失上下文信息,进而保留胰腺更多的细节特征,提升分割精度.

图11 构建局部3D混合信息多通道数据[20]

图12 双向递归模块[20]

Yu等人[67]的多尺度信息融合策略为构建密集链接,为提高特征的重复利用率,下采样层的高分辨率信息通过密集链接传递到每一个上采样层,使卷积过程中的低、中、高语义信息得到充分融合.该方案中RRFM对特征图进行重组和再校准,并通过注意力机制对原始特征图进行加权,激发更具辨识度的胰腺特征,提升胰腺的特征表达.Yang等人[68]对片内信息与片间信息采用了不同的特征表达策略,通过多网络并联的方式对不同的切片提取片内上下文信息,增强胰腺的片内特征融合与特征表达.Bi-Directional Convolutional GRU(BDC-GRU)用于提取片间信息,值得注意的是该模块能够同时获取正向与反向的上下文信息,双向上下文信息提取方式使切片预测受到正向反向序列特征的约束,同时也能够保存正向序列与反向序列的联合序列特征,能够使网络捕捉到更多的片间特征关系,增强胰腺的特征表达.

如表4所示,网络在分割过程中融合多尺度信息能够使胰腺更多的隐含特征得到表达,从而提高网络的分割精度.多尺度信息融合策略有多种改进方案:1)从特征的时间特性与空间特性进行改进,在时空维度上增加注意力机制,之后进行时空维度的特征融合,使网络更多的关注于胰腺的时空特征;2)从胰腺的序列特征进行改进,如双向LSTM模块,能够获取双向序列特征,增强网络对于切片间特征的建模能力;3)从感受野方向进行改进,通过融合多尺度感受野信息,增强网络对于细节特征与全局特征的整体把握,从而使更多的胰腺特征得到充分的表达;4)从网络结构方向进行改进,增加更多的跳跃链接与密集链接模块,使不同阶段的特征图完成特征重用与信息融合,进而减弱网络丢失更多细节特征的可能性.

表4 增强特征表达的改进方案评估结果

6 基于轻量化网络的胰腺分割改进方案

研究者通常通过增加网络的深度与广度提高胰腺的特征获取能力,同时三维卷积与LSTM模块的引入也使网络分割精度得到提高,但卷积神经网络本身的浮点矩阵乘法将带来巨大的计算量,设备内存消耗也随矩阵维度以及LSTM模块的时序维度成指数型增长.由于在提高分割精度的同时分割网络在训练过程中需要涉及到大量的计算,网络训练难度增加,模型参数量过大,这不利于网络朝轻量化方向发展.现如今,胰腺医学图像分割也在向临床应用方向迈进,因此需要创造更加轻量型的网络完成移动端的移植.如表5所示,为减少深度神经网络对计算量的依赖性,使网络能够更容易投入到临床移动设备的应用中,Heinrich等人[69]提出了三值网络,其计算原理如图13所示,使用三元权重以及三元激活近似神经网络中的可训练权重以及神经激活.该方案消除了卷积神经网络中浮点矩阵乘法所需的巨大内存消耗和计算量,并采用保留能量和时间的二元算子和种群计数来替代.该方法在NIH数据集上虽然只获得了71%的DSC,但内存需求减少了15倍,速度提高了10倍,有助于推动基于深度学习的胰腺分割方法用于移动设备的医疗诊断等应用.

表5 网络轻量化改进方案评估结果

图13 Heinrich等人方法示意图[69]

Askari等人[70]提出了一种UNet体系结构的量化方法.以降低量化精度为代价,尽可能的减少存储模型参数以及实现浮点型矩阵运算所需的巨大内存消耗.在用于腹部CT扫描中胰腺分割的公共NIH数据集上它们的定点量化方案将网络内存需求减少了8倍,其中权重使用4位,激活使用6位,在该条件下胰腺分割的DICE仅损失2.09%.

Gibson等人[18]提出了DenseVNet分割网络,通过密集连接实现特征重用,3种不同分辨率特征图通过上采样实现多尺度信息融合,减少了卷积过程的计算消耗.此外批式空间丢失方案也大大降低了计算成本,减少网络学习到的冗余特征,从而以较少的模型参数量获得高分辨率分割图像.但由于胰腺器官较小,在同时进行多器官分割时很容易被误分类为背景像素,因此相对于脾、胃的分割结果(脾:平均DSC95%,胃:平均DSC87%),胰腺分割仅达到75%的平均DSC.

综上,网络的轻量化改进可以从以下几个方面入手:1)改进卷积计算方式代替传统的卷积计算,如采用膨胀卷积,深度可分离卷积等,也可设计独特的计算方式,如Heinrich等人[69]的三值网络使特征提取能够在较少的计算量内完成;2)改进量化方案,将浮点运算改为整数运算,或限制参与训练的权重位数和激活位数,减少内存占用量;3)批式参数丢失,可有选择的丢失部分权重,或卷积过程中按批舍弃部分模型参数,减少分割过程中学习的冗余特征.以上轻量化方案往往是以降低网络的分割精度为代价,因此,在轻量化的同时需要寻找合适的平衡点,使网络得到最优的性价比.

7 其他改进方案

除上述改进方案外,不少研究者也提出了较为独特的分割方案,如表6所示.Zheng等人[30]提出了基于阴影集理论的胰腺分割方法,该方法为胰腺CT切片提供像素级意义描述,通过增加不确定区域的权重使网络在迭代训练中更加关注不确定区域,从而进一步修正权重矩阵,获得更加精确稳定的分割结果.Roth等人[13]提出了一种基于概率方法的胰腺分割模型.将胰腺CT切片生成超像素,随后采用级联随机森林以及深度神经网络生成概率图谱,将两种概率图谱结合对超像素进行胰腺与非胰腺分类,最后使用基于空间连通性方法进行后处理.Cai等[29]提出了一种结合基于图的决策融合过程的深度卷积神经网络(DCNN).将胰腺的组织分割结果与边界检测结果作为基于图的决策融合模型中每个节点的特征向量.Zhang等人[71]首先使用2D CNN分割的肝脏位置来计算用于确定其边界框的胰腺质心.提出了胰腺和肝脏的质心之间的线性关系.然后,采用一个以胰腺边界框为输入的三维神经网络进行最终分割.由于胰腺的数据集标签需要放射科医师通过人工先验判断进行像素级分类标记,因此不能够在短时间内获得大量的数据集标签.Zeng等人[72]提出了一种弱监督方法,通过单张切片的图像级标注获得像素级语义分割标签结果.通过递归残差卷积单元获得空间级与通道级的上下文语义信息,引入空间池化集合局部特征信息,并采用条件随机场进行胰腺的空间预测,从而获得体素级标签,解决了胰腺数据集较少的问题.综上,针对胰腺的生理特点与数据集特点可以设计多种不同的改进方案,这需要研究者进一步结合胰腺的关键特征构造更适用于胰腺分割的网络.

表6 其他改进方案评估结果

8 总结与展望

本文研究回顾了近五年基于深度学习的胰腺分割领域的相关文献,梳理了常用的胰腺分割数据集,并对胰腺的深度学习分割方法进行了较为详尽的分类与总结.重点介绍了每种分割网络的原理、基本思想、网络架构,评述了方案的优缺点,并在统一评价指标上进行分割精度的比较.以此为入门者提供扩展性知识,并为该领域研究者开拓新的研究思路及方向.现将基于深度学习的胰腺医学图像分割发展方向总结为以下几点:

1)增加可用的胰腺公共数据集:深度学习算法的训练需要依赖大量的数据集,而医学图像数据集制作过程较为枯燥繁琐,且依赖专家解剖经验知识,需要具有丰富经验的医师人工进行手动标注,因此为推动后续深度学习胰腺分割方法的研究,需要更多的医疗工作者给予数据支持.

2)多模态数据:在临床应用中,不同模态的图像能够突出不同的特征信息,医生通常会结合多个模态或单个模态的多次成像来进行病灶诊断,多模态融合方案可将不同模态特征进行深度融合,实现感兴趣区域的特征互补,结合不同层次不同深度神经网络的混合特征来提取图像更深层次的信息,提高分割的精度.

3)开拓弱监督或无监督领域:目前,大量胰腺分割算法均采用有监督学习模式,然而胰腺公共数据集稀缺,依赖于大量标记数据的有监督学习无法发挥更好的性能,因此可开拓弱监督或无监督领域,解决胰腺公共数据集匮乏的问题.

4)探索网络的可解释性:深度学习的胰腺分割方法目前仍然面临着可解释性低的问题,尽管UNet 架构目前在胰腺医学影像数据集上表现良好,但临床医生无法直接理解其运行机制,从而不能结合更深层次的临床医学病灶判断方案,创造更有价值的临床胰腺医学图像分割网络,这导致深度学习仍然无法实现在临床上的应用.

5)分割网络架构的轻量化.对于现阶段的胰腺医学影像分割网络架构,训练完成的胰腺分割模型存在大量的浮点型矩阵运算,大量的模型参数导致模型对硬件设备的计算能力以及内存量要求较高.为尽快促进深度学习在胰腺医学图像分割中的临床应用,今后可在保证分割准确率和网络稳定性的同时压缩胰腺分割模型参数量,实现胰腺医学影像分割的临床落地将会是未来研究的重点.

6)统一的评价标准:目前发布的基于深度神经网络的胰腺分割方法中,不同的作者采用了不同的测试策略,如交叉验证,消融实验以及通过不同的数据集验证模型的泛化能力等.因此在网络的测试方法上,并没有统一的标准,很多网络的分割性能并不能进行统一比较.后续可以开发一套统一的模型性能验证方案,以便在未来的研究中得到较为一致的评价结果.

猜你喜欢
切片胰腺卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
同时多层扩散成像对胰腺病变的诊断效能
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
基于傅里叶域卷积表示的目标跟踪算法
基于SDN与NFV的网络切片架构
电信科学(2016年11期)2016-11-23 05:07:58
肾穿刺组织冷冻切片技术的改进方法
冰冻切片、快速石蜡切片在中枢神经系统肿瘤诊断中的应用价值比较
哪些胰腺“病变”不需要外科治疗
18例异位胰腺的诊断与治疗分析
西南军医(2014年5期)2014-04-25 07:42:27
一种基于卷积神经网络的性别识别方法
电视技术(2014年19期)2014-03-11 15:38:20