深度学习在脊柱质心定位与分割的应用进展

2023-11-17 07:25:12莫光萍徐广辉

电子科技 2023年11期

孙红,莫光萍,徐广辉,杨晨

(1.上海理工大学光电信息与计算机工程学院,上海 200093;2.上海市第四人民医院脊柱外科,上海 200434)

脊柱作为人体肌肉骨骼系统较重要的组成部分之一,在肌肉骨骼系统中维持和支撑身体及其器官、各关节转动,并保护脊髓免受外力冲击造成损伤,其质心定位与椎骨分割对脊柱疾病研究具有重要意义。椎骨定位及分割可以帮助骨科医生诊断脊柱疾病,确定治疗方案并评估方案的有效性[1-2]。电子计算机断层扫描(Computed Tomography,CT)和磁共振成像 (Magnetic Resonance Imaging,MRI)是两种常见的人体脊椎三维成像方法。CT成像来自高级X射线成像的多角度、多方向组合,扫描使用不同测量参数从侧面生成脊柱的横截面图像。CT扫描有利于形成脊柱的三维图像。RI是脊柱三维成像中一种快速、高质量和详细的成像方法,通过产生强磁场和射频脉冲来生成三维脊柱图像。脊柱质心定位与分割是具有挑战性的任务,这是由于脊柱在解剖学结构上具有相似的外观与复杂的空间结构,且相邻椎骨交界处不易分割。一些脊柱椎骨病理情况增加了脊柱分割的异常情况,例如异常的脊柱弯曲、金属植入物引起的视觉成像和伪像以及有限的视野场等,这些异常加大了脊柱自动定位与分割的难度。由于医学成像视野具有任意性,因此不能依靠某些参数化方法来对脊柱定位与分割进行建模。从医学图像中手动定位并标记病变区域较耗时,且手动标记病变区域具有主观性,容易出现评分差异。在CT扫描中,超过85%的骨质疏松型骨折会被漏诊[3]。基于Atlas、多图谱和机器学习的传统方法虽可以将医生从繁琐的工作中解放,但机器学习方法依赖手工提取特征,手工提取三维医学图像特征较耗时,因此机器学习方法并不适合处理此类任务。深度学习(Deep Learning,DL)是一种多层网络组成的端到端学习模型,能够自动提取高层次特征并学习数据特点,处理大规模的医学数据,无需手工提取特征。且基于DL的自动定位与分割椎骨可以预防漏诊,减少医师的工作量。因此,自动定位与分割在临床诊断中是较可取的方法。文献[4]按网络框架、训练技巧与应用数据集对深度学习在医学图像中的应用,进行分析与讨论。文献[5]全面总结了深度学习方法在CT肝脏肿瘤图像分割中的应用。文献[6]对深度学习在脑组织、血管和肺部分割的应用进行研究讨论。为全面比较与分析,本文首先介绍脊柱医学图像常用数据集及其任务结果评价指标,然后介绍脊柱图像质心定位与椎骨分割两个子任务常用的深度学习方法基本思想、网络架构及其优缺点等,最后对深度学习在脊柱医学图像应用面临的问题及未来发展展开讨论。

1 数据集

1.1 数据集

因医学图像具有私密性,脊柱医学图像样本较小且脊柱用于模型训练的数据集需要有经验的专家与医师进行标注,因此在脊柱医学图像处理任务中缺乏公开可用的数据集。为解决脊柱图像处理的限制,MICCAI(Medical Image Computing and Computer Assisted Intervention Society)举行了大型脊柱图像标注与分割挑战赛,提供了大规模可用、已标注脊柱医学图像数据集VerSe (2019～2020)。

数据集VerSe包括训练数据集、验证数据集和测试数据集。数据集VerSe2019对141个患者进行断层扫描,形成160幅三维 CT图像。其中,80幅CT图像用于训练,训练集包括经过训练的医学生对862块椎骨做的标志与分割mask,由具有经验的医师进一步提升、改进,剩下80幅CT图像作为验证集与测试集。扫描和分割mask以nifti格式存储,脊柱中每块椎骨的质心坐标以json格式存储。VerSe2020是VerSe2019的扩充,从160幅CT图像扩充至300幅CT图像,其数据标注和分割mask与VerSe2019无明显差别。数据集VerSe注释有两部分:1)椎骨质心三维坐标;2)椎骨体素级别的分割mask。椎骨坐标注释以1 mm分辨率给出,质心坐标内容包括三维坐标与坐标对应的椎骨标签;分割mask以不同灰度表示不了同椎骨块,文献[3]和文献[7]对数据集进行了详细解释。

三维脊柱医学图像数据集还包括xVertSeg、Spinal Disease、CSI-Seg 2014、CSI-Label 2014、IVD和T2verse等。xVertSeg[8]包括25幅腰椎图像,腰椎图像包括健康和不同程度骨折的椎骨,数据集包括对每块腰椎骨的分割mask以及对骨折程度的分类。如图1所示,图1(a)为腰椎的三维CT原始影像,图1(b)为人工标注的腰椎椎骨分割mask,图1(c)为每块腰椎骨对应的骨折等级和骨折情况。其中L1～L5表示腰椎的标签,g代表轻度、中度和严重3种骨折程度,使用数值1～3表达,c代表骨折情况。Spinal Disease为阿里天池提出的脊柱疾病诊断竞赛的数据集,可供下载的数据集包括标注的150份训练集以及50份测试集,剩下250份复赛训练集和100份测试集不可下载。Spinal Disease供T1、T2矢状面和T2轴状位MRI脊柱影像,标注从胸腰椎间盘开始到腰骶间盘结束,并将椎骨分为正常和退行性病变两类,椎间盘分为正常、膨出、突出、脱出以及椎体内疝出5类。CSI 2014[9-10]是CSI 2014 Workshop挑战赛提供的脊柱质心定位与椎骨分割数据集,其中分割挑战有20幅可用CT图像,椎骨的分割标记覆盖胸腰椎,数据以mhd/raw格式存储。用于脊柱质心定位的242幅训练集与60幅测试集由不同类型病理患者的CT扫描组成,每幅CT图像都提供相应的椎骨质心注释。IVD共16幅CT图像,其中原始图像包括4种模态扫描,可用于多模态脊柱图像研究。T2verse为MRSpineSeg挑战的全脊柱数据集,包括172幅三维带注释训练集与20幅未标注测试集,每幅图像为T2加权矢状MRI图像,图像中的10块椎骨、9个椎间盘和背景分别在体素级别被标注为不同灰度。

(a)

1.2 评价指标

深度学习在图像中的应用评价指标包括识别率(id.rate)、定位距离(dmean)、Dice系数(Dice)和Hausdorff距离(HD)等。

在脊柱医学图像处理任务中,对分割模型常用Dice系数和Hausdorff距离两个指标来评价模型性能。Dice系数可以衡量集合间的相似度,Hausdorff距离也称作最大表面距离(Maximum Symmetric Surface Distance,MSSD),其作为表面距离对图像的分割边缘响应较大,是两个点集之间相似程度的度量,计算式为

(1)

其中,ypred表示模型预测结果的表面点集;y表示数据集中标注真实值的表面点集;i表示对每块椎骨的索引;d(p,t)代表两点间的距离,例如欧式距离d(p,t)=‖p-t‖2。

id.rate和dmean是子任务定位识别脊柱常用的两个评价指标。识别率id.rate即为正确识别的椎骨与图像中出现的总椎骨比率。dmean是深度学习模型预测的脊柱质心坐标与真实坐标之间差距的度量指标,其可以衡量模型定位坐标的鲁棒性。定位距离dmean的计算式如式(2)所示,图像中为预测坐标与真实坐标之间的欧氏距离加和。

(2)

用于脊柱定位与分割任务模型性能的评价指标还有定位误差和平均表面距离等,表1将常见指标进行了汇总。

表1 脊柱图像处理模型评价指标汇总

2 深度学习在脊柱质心定位中的应用

根据训练集数据标注的每块椎骨质心来定位脊柱质心,选择模型进行训练,使模型具有预测脊柱质心的能力。在脊柱定位任务中,椎骨定位在临床上具有较大辅助作用,椎骨定位可以提供椎骨位置信息,为椎骨分割做基础,也可辅助定位脊柱病灶位置。

一些研究者已将CNN(Convolutional Neural Network)用于脊柱质心定位研究。文献[11]分阶段利用CNN检测脊柱并划定椎骨区域,采用沿脊柱的一维强度剖面空间变异IIR滤波定位椎间盘,并基于深度网络引入其他信息对脊柱进行定位。文献[12]结合局部与远程上下文信息,提出长短距离上下文融合框架(Long-Short Range Context-Fusing,LSRC)。LSRC框架结合三维局部信息与二维远程上下文,利用三维局部语义网络学习三维CT脊柱图像特征生成与每块椎骨位置相对应的三维热图,并将生成的三维热图与CT图像分别投影到矢状面和冠状面,将其输入至二维远程上下文网络中。二维远程上下文网络中的编码-解码模块从矢状面与冠状面两个视图中提取全局上下文信息,并结合网络中的一个全局优化模块优化椎骨的位置,最终得到预测的椎骨质心。文献[13]将脊柱质心的定位分成两个阶段,由粗到细定位脊柱质心。在脊柱质心定位中,文献[13]首先在UNet的基础上提出一种UNet变体网络对脊柱的中心线进行热图回归,然后以此中心线为基准,结合FCN(Fully Connected Neural Network)与热图优化椎骨的质心坐标。文献[14]也将热图引入脊柱质心定位中,使用积分回归模块,将空间热图转化为坐标点,结合高斯热图和直接回归坐标的优点使模型具有完全差分和空间泛化的能力。虽然基于热图的脊柱质心定位方法在预估质心坐标方面表现良好,但脊柱质心与脊柱结构相关,结合热图的定位并未充分利用脊柱的解剖学信息,可能出现在多块椎骨预测同一坐标或某块椎骨质心未预测的问题。

针对该问题,一些学者提出将脊柱解剖学信息作为消息在网络中传递,作为模型约束精准定位质心。消息传递的关键思想是在概率模型中将互信息在相邻节点之间传递且进行多次迭代,直到模型收敛达到最优。消息传递一般提取椎骨解剖学中空间顺序的局部与全局上下文信息,以及基于CT扫描的冠状面与矢状面的投影信息等作为先验知识在网络中传递。文献[15]有效地利用脊柱的解剖先验知识来促进椎骨定位,训练关键点定位模型UNet以生成椎骨中心的三维激活图,并将激活图转换成一维信号,通过引入解剖学约束优化模块,在调节椎骨之间距离的软约束和对连续椎骨索引的硬约束下联合搜索最优椎骨质心。文献[16]提取脊柱图像的远程上下文信息在网络中传递,将提取的特征转换成特征序列来训练多任务双向递归神经网络,最终输出每个样本的定位结果。文献[17]捕捉椎骨解剖学的空间顺序与远程上下文信息,并在架构的最底层额外使用各向异性滤波器增加感受野的大小,从而最大化网络捕获的上下文信息来预测质心位置。在利用矢、冠状面作为消息传递方面,文献[18]利用三维脊柱图像的矢状位与冠状位信息,首先生成二维冠状面和矢状面切片,使用二维卷积神经网络检测椎骨同时评估正交方向(即矢状和冠状切片)上的二维检测。在三维空间中,使用聚类算法对二维检测结果进行聚类,将二维信息逆转换为三维信息。文献[19]使用对抗生成自动编码器将脊柱矢、冠状面信息编码至网络完成脊柱质心标记。一些研究者在引入消息传递算法的同时通过概率图模型来预测椎骨质心的位置。文献[20]引入一种深度图像至图像的网络(Deep Image-to-Image Network,DI2IN),利用特征串联与深监督生成椎骨质心的概率图,并以脊柱解剖结构的空间关系为基础,使用消息传递策略来演化概率图,最终通过学习稀疏表示约束与优化椎骨的位置。DI2IN则通过消息传递增强CNN来准确预测每块椎骨质心的像素级概率图。使用消息传递算法成功地处理了为椎骨质心预测像素级概率图的任务中存在某块椎骨无响应的问题。然而,DI2IN纠正错误识别不仅可补偿缺失的检测,还可纠正具有错误标签的识别并删除误报识别,故可以进一步利用消息传递的潜力来处理这些任务。

深度学习方法自引入医学图像处理与分析任务以来取得了较好的性能,在脊柱定位任务中通过加入新方法取得了良好的效果。表2对上述提到的深度学习方法进行汇总,可以看出CSI-Label 2014是脊柱质心定位常用的数据集,融合脊柱解剖信息的质心定位方法在dmean和dst两个指标表现优于基于热图的定位方法,尤其是文献[15]提出的方法在定位距离指标取得2.55 mm的结果。可以看出,在相同数据集中,文献[15]与其他网络同样引入解剖学结构信息,但同时利用椎骨顺序与相邻椎骨作两重约束可取得更为准确的定位精度。基于热图的表示方法取得较好的性能,为三维脊柱图像中的每块椎骨生成热图光点,回归热图并选择热图中预测概率最大的特征点作为椎骨的质心,但取概率最大值的操作过程不可微。回归方法是进行端到端的误差训练,所以并不能实现传统深度学习方法端到端训练质心坐标。文献[12]根据这点不足之处,补充了基于残差块网络进行积分回归的端到端的训练模块。基于脊柱解剖学方法在脊柱定位任务中也取得了较好效果,但该方法在较大程度上依赖脊柱外观的先验信息。在临床医学中,脊柱CT图像包含不同视场,而椎骨相似的外观可能导致提取的信息冗余,并且一些脊柱疾病例如脊柱侧弯、骨折和椎骨金属物植入造成的金属伪影层导致椎骨外观具有强烈的变异性,从而导致该方法预测的质心不准确,这也是深度学习在脊柱质心定位领域面临的难点之一。

表2 脊柱质心定位的深度学习方法汇总

3 深度学习在脊柱分割中的应用

不同于脊柱质心定位与识别,椎骨分割是脊柱医学图像处理分析任务中的另一个重要挑战。椎骨分割是在整个图像中对像素进行分类,以此生成不同解剖结构的mask,即将椎骨作为感兴趣区域与周围区域在像素级别上进行分类。

基于质心定位是脊柱椎骨分割深度学习方法之一。在完成质心检测后,以质心为基点,识别椎骨的边界框或分割整块椎骨从而将椎骨与背景分割开。基于质心定位,文献[13]从整个脊柱CT图像中裁剪上一步定位的椎骨质心周围区域,使椎体位于裁剪图像的中心并创建一个以预测椎骨坐标为中心的高斯热力图,裁剪后的图像和热力图输入一个UNet网络得到最终分割结果。文献[21]在原始UNet网络的基础上进行改动,并使用二维UNet来提取脊柱的前部区域脊髓前区中心线。然后利用垂直中心线沿脊柱前部区域定位所有椎骨的中心,并以所有椎骨中心点为基准,训练一个二维UNet对所有椎骨生成三维感兴趣区域进行最终分割。文献[22]同样在质心定位的基础上提出一种新的二值切割计算式。计算式融合基于斑块的星形凸椎分割和相邻斑块之间的非重叠约束,并将初步的分割结果嵌入到图像域中,最后利用FCN对图像域做椎骨分割。该方法解决了单独分割椎骨时由相邻椎骨存在重叠区域引起的歧义问题。基于质心定位,文献[23]将预测的椎骨质心作为脊柱分割的先验信息,提出3D-Dense-UNet算法分割脊柱感兴趣区域,并在xVertSeg和CSI-Seg 2014中表现出良好的性能。

深度学习在脊柱中的应用还包括语义分割与级联深度模型方法。自语义分割网络UNet被用于医学图像分割后,以UNet为基础框架的方法在脊柱图像椎骨分割中也取得了良好的分割效果。文献[24]采用二维UNet对椎骨进行语义分割,但不同于其他方法,该方法椎骨分割的mask在三维颈椎轴向切面上,颈椎在轴切面上可以区分上颈椎与下颈椎,将上颈椎与下颈椎分别标上不同的mask用于训练区分,在后续提升了分割精度。该方法利用连通分量分析来评估每个类区域的连续性,以解决错误标记问题。基于UNet网络变体,文献[25]结合记忆单元,提出一种用于椎骨检测和分割的“V型”分割网络,并在CSI-Seg 2014数据集上取得较好的结果。受三维UNet启发,文献[26]提出一种新框架,改变了分割过程迭代起始点的选择方式。该方法首先利用迭代实例分割算法保证椎骨按块分割,从而避免相邻椎骨交界处的干扰。当网络从迭代分割中接收单个椎骨分割结果后,网络提取该分割椎骨二值预测为正区域的多标签分类结果,从而计算出该节椎骨可能的解剖标记概率,解剖标记由该区域体素概率最高部分的标记决定。基于级联深度网络,文献[27]提出一种从三维CT图像中自动分割腰椎的语义分割方法,该方法采用FCN回归椎骨区域并级联三维UNet从回归区域中分割腰椎骨。文献[28]提出一种基于级联卷积神经网络的三维多椎骨分割方法,采用对比度受限的自适应直方图均衡化将原始的三维脊柱图像预处理后,将处理后的图像送入粗分割模糊神经网络中训练并得到粗分割结果,最后使用级联精细CNN细化粗分割,并输出三维椎骨分割结果。文献[29]提出两种新的不同于上述框架的结构分割椎骨:基于MLPNN(Multi-Layer Perceptron Neural Network)的方法和基于自适应三维PCNN(Pulse Coupled Neural Network)方法。两种方法的具体步骤概括如下:1)基于MLPNN的方法主要分3部分,首先对图像进行预处理,主要目的是识别椎骨像素,增加椎骨和其他组织之间的区别;然后进行特征提取网络最终进行分类,得到椎骨的分割结果。2)APCNN(Adaptive Pulse Coupled Neural Network)方法直接分析网络的输入图像,但同样需要进行预处理步骤。首先将新开发的APCNN直接应用于给定的图像片段椎骨,然后使用中值滤波对结果进行细化。在APCNN中,用户自定义的脉冲耦合神经网络参数值针对每幅图像分别自适应调整,而不是像传统PCNN一样对所有图像使用一个值,即不需要对图像进行特征提取和训练。

从表3可以看出,基于深度学习的脊柱分割应用数据集大部分为脊柱段而不是全脊柱,其中胸腰椎居多。在胸腰椎段,文献[22～23]、文献[29]取得的Dice指标平均达到95%,说明分割的准确率较高。对于腰椎分割,调研设计的方法应用同一数据集xVertSeg,级联深度网络的方法取得了较好的结果。文献[13]提出的方法分割范围较广,在Dice指标取得的分数达到94%,但HD指标较大,与其他方法相比较优势不大。数据集VerSe2019包括颈椎、胸椎、腰椎和全脊柱多个视野场组成的数据集,需要模型在不同脊柱段分割,具有较好的鲁棒性。在表3中,A表示平均表面距离,H表示Hausdorff距离,NULL表示无可用数据

表3 脊柱分割的深度学习方法汇总

4 结束语

基于深度学习网络方法是脊柱质心定位与椎骨分割任务常用的方法。为研究深度学习在脊柱医学图像定位与分割任务中的应用现状与发展,本文对该领域近几年脊柱定位与分割模型进行了整理与研究。首先介绍脊柱常用数据集与评价指标,然后列举脊柱质心定位与分割方法,并分析模型实现过程以及存在的不足之处。

深度网络在脊柱定位与分割任务中取得了良好的性能,但深度学习在脊柱图像中的应用研究也存在如下问题:1)需要大样本数据,模型的性能有时取决于数据多少;2)需要更高性能的GPU(Graphics Processing Unit),由于医学图像大多为三维图像,三维图像的计算需要消耗大量内存资源以及高性能的GPU才能提高模型的计算速度;3)大部分DL模型仍处于试验阶段,要达到临床使用要求仍需长久研究。针对以上问题,深度学习在脊柱中应用未来发展方向可以集中为以下3点:1)在训练前对数据做增强或在二维层面对脊柱数据训练预测,当三维数据转为二维切片时,数据得到增加;2)提出2.5D模型进行训练,最终在三维层面进行预测;3)DL模型在临床阶段需要根据实际情况进行调整,并不断积累数据训练模型,使模型精度不断提高,适用于实践情况。一些学者通过半监督学习从小量带标签医学数据中学习以获得高精度的分割效果。在处理模型计算量大问题时,轻量化模型也是发展方向之一,通过深度可分离卷积、分组卷积等设计网络,提升网络对三维医学图像的分割速度。

DL模型为脊柱图像研究提供新思路,也是未来脊柱医学图像研究的趋势。深度学习应用于脊柱图像中将提高医学图像的利用价值,促进脊柱及其相关病症的个性化研究。