深度学习在脊柱图像分割中的应用综述

2024-03-21 08:15:38姜百浩刘静仇大伟姜良

计算机工程 2024年3期

姜百浩，刘静，仇大伟，姜良

（山东中医药大学智能与信息工程学院，山东济南 250355）

0 引言

骨性结构对脊柱的压迫是脊柱疾病的主要致病因素［1］。脊柱疾病作为常见病、多发病，病患数量多，医生对脊柱图像分割、诊断的任务重、工作量大；同时由于脊柱生理结构的复杂性，医生诊断会受到临床经验的影响，使得分割结果存在误差，产生误判。误判不仅会影响分割结果的准确率和后续的治疗过程，还容易引起不必要的医患矛盾。

传统图像分割方法主要是基于阈值的方法、基于边缘的方法、基于区域的方法、基于特定理论的方法等，此外还可以通过直接确定区域间的边界来实现图像分割。传统的分割方法只能对灰度图像进行分割处理，导致应用受到限制；其次分割过程往往取决于医生的先验知识，例如阈值法中选取阈值、区域生长法中选取种子点等，会导致结果受到主观因素影响［2］；最重要的是分割的精度和效率很难达到实际应用的效果。

深度学习模型是一种模仿人类大脑内部神经连接的结构模型，能够准确地对图像中关键信息由低级到高级进行多层次的特征提取，提取过程中对检测到的信息给予描述并反馈数据解释，方便探索图像蕴含的更深层次的特征信息，从而达到精准、高效的图像分割效果［3］。将深度学习算法引入到医学图像分割中，能够发挥深度学习算法学习能力强、对图像具有良好的非线性映射能力等优点，在弥补传统分割方法提取图像特征信息耗时长、精度不足的同时，可以更加精准地表达出脊柱图像深层次的关键信息，获得更好的图像分割效果［4］。

自深度学习模型出现以来，图像分割技术取得了巨大的研究进展［5］。卷积神经网络（CNN）模型和U 型网络（U-Net）模型作为最常见且分割效果较好的两种深度学习网络模型，在脊柱图像分割领域已被广泛应用。本文以这两种网络模型为核心，从算法模型、图像类型、分割效果等方面编写深度学习在脊柱图像分割方面的应用综述。

1 常见的脊柱疾病类型

脊柱疾病是指脊柱的骨质、椎间盘、韧带、肌肉等一系列组织发生病变，进而压迫、牵引、刺激脊髓、脊神经、血管、植物神经等出现的复杂多变的病状。脊柱疾病依据形态学、颈椎曲度变化和椎间关节是否稳定可以分为以下几类：损伤类疾病，即椎体骨折；脊柱肿瘤、脊柱结核；退行性疾病，即腰椎间盘病变等；代谢疾病，如骨质疏松；内分泌、免疫系统疾病；脊柱畸形、脊柱侧弯等。目前临床诊断上，脊柱畸形、退行性疾病（即腰椎间盘突出）以及脊柱肿瘤等脊柱疾病类型的发病率高且诊断难度大，受到越来越多的关注。

1.1 脊柱畸形

脊柱畸形是指脊柱在冠状位、矢状位或横断位上偏离正常位置［6］。形态学上，脊柱畸形的临床表现根据病因可分为原发性脊柱侧弯、特发性脊柱侧弯、神经性脊柱侧弯等。

以往研究表明，在椎骨节段，脊柱畸形的发病率较高。椎骨的精准分割是定位病灶区域、合理选择手术方案的前提，因此，如何精准高效地实现椎骨的分割至关重要。影响椎骨准确分割的因素通常包括：1）椎骨分为L1～L5 节段，各个节段的椎骨在形态学上具有很高的相似性，不利于单个节段的椎体分割；2）椎骨的正常图像和病理图像的相异性较小，判断容易失误；3）图像采集过程中分辨率低、可见视野窄等情况会影响图像的质量，影响分割结果。

将深度学习算法引入椎骨分割中，发挥其自适应性强、提取关键信息准确的优点，能够更好地提取椎骨病灶区域信息，完成对椎骨的准确分割。

1.2 退行性疾病

退行性疾病是腰椎退变引起的一系列改变，文献［7-8］介绍了退行性疾病的主要类型，包括腰椎管狭窄、腰椎间盘突出、腰椎滑脱或者腰椎退变性不稳、腰椎退变性侧弯以及其他症状或者症候群等。

腰椎间盘突出症是退行性疾病中最为典型的一种，在临床诊断中面临着众多挑战，尤其在图像分割过程中。腰椎间盘有着多个节段并且多个节段都会发生突出，其中腰椎、骶骨等节段发生突出的概率较高。从众多节段中找到与病症最相关的节段是治疗腰椎间盘突出最关键的环节。基于深度学习的方法进行椎间盘图像的分割，不仅可以弥补传统方法耗时长、精度差的不足，而且还能够帮助医生做出更准确的诊断，降低误报率。

1.3 脊柱肿瘤

脊柱肿瘤是常见的肿瘤之一，通常发生于骨骼和骨髓的内部及其周围。文献［9-10］介绍了脊柱肿瘤，指出脊髓及其周围区域形成的肿瘤迅速生长会导致患者出现疼痛、瘫痪等并发症，情况严重的甚至影响患者的生活质量。

近四十年来，脊柱肿瘤发病率呈爆炸式增长，引起了更多的关注和研究。文献［11-12］介绍了脊柱肿瘤的治疗，提出了全脊柱切除术。经过不断地改进、发展，目前该技术能够彻底清除脊柱结构上的肿瘤块，并减少肿瘤周围组织的感染范围，对脊柱肿瘤患者神经损伤和术后康复具有重要的临床意义。

合理设计手术方案、选择手术疗法的前提是准确找到脊柱肿瘤的发病位置，即找到病灶区域再进行诊断分析。因此，如何精准、快速、有效地分割脊柱肿瘤图像至关重要。

以往的实验数据显示，基于深度学习对脊柱图像分割的方法能够提取深层的特征信息，且准确率、精度以及分割效率等实验结果相较于传统方法有明显的提升［13］。充分发挥深度学习技术图像特征提取能力强、模型精度高等优点，逐渐成为了当前脊柱肿瘤图像分割的主流方向。

2 脊柱图像分割

脊柱图像分割是对电子计算机断层扫描（CT）、核磁共振成像（MRI）等图像中的脊柱区域进行分割，将脊柱图像中与检测内容相关的特征数据进行提取、表达和反馈，再将图像中感兴趣的脊柱区域分割出来。当脊柱图像中有效的特征区域被分割出来后［14］，分割将停止。最后结合三维重建、可视化等技术，帮助医生更直观、准确地观察患者的病变区域。

2.1 常用的公开数据集

深度学习模型通常具有巨大的参数量，需要规模庞大的数据集来避免模型过度拟合。脊柱图像分割常用的几种公开数据集如表1 所示。

表1 数据集信息Table 1 Dataset information

在公开数据集上重复进行训练会影响模型对测试结果的准确性，导致数据分析出现误差。因此，研究者还会使用一些内部数据集用于模型的测试，确保实验结果的准确性。此外，对脊柱图像分割之前，通常会进行水平或垂直翻转、平移缩放等预处理操作来扩充实验数据，并且为防止图像边缘分割模糊，研究者会对图像边缘进行标注处理，然后由医生验证是否准确，从而确保数据集的质量。

2.2 脊柱图像分割方法及流程

深度学习算法通过多层特征提取，从原始输入中逐渐提取更高级别的特征来实现有监督、半监督或无监督的图像处理［15］，从而实现自动分割或者半自动分割，提高分割效率；通过改善传统图像分割边缘模糊、图像类型匹配受限以及目标器官与背景之间对比度较低或相似度较高的情况下分割不精准等问题，来提高图像的分割质量［16］。

脊柱图像分割通常采用CT 和MRI 图像作为待处理的病理图像，基于脊柱第一中心点进行切块处理，生成平滑处理曲线，同时基于第一中心点和脊椎的初始切割框，计算得到脊椎中不同脊椎类型对应的第一距离均值；之后依据平滑处理曲线和第一距离均值，生成目标切割框；再采用目标切割框，基于第一中心点对脊椎进行切块处理，得到脊椎图像切块；最后通过二值分割处理得到二值分割结果，利用分割结果和之前的标签信息就能得到更多分割结果信息。

2.3 脊柱图像分割评价指标

研究者在图像分割中通过使用一些精确衡量分割效果的评价指标来反映分割网络模型的工作性能，从而分析该模型的优缺点。常用的图像分割评价指标如表2 所示，其中，TP、FP、FN和TN分别表示分割任务中像素真阳性、假阳性、假阴性和真阴性的数量［17］。

脊柱图像分割的评价指标可以帮助医生更直观地对脊柱图像进行分析诊断。不同的评价指标能反映出分割效果的各个方面，例如：DSC 对图像分割的内部区域效果明显；HD 对图像外部轮廓反映的效果更好；IoU 对分割边缘具有更准确的判断。虽然在脊柱图像分割效果评定方面，DSC 的评估意义更具有参考价值［19］，但采用多种指标对分割结果进行综合评价，能够更全面地体现脊柱图像中的关键信息，更合理地对整体分割结果进行评估。

3 深度学习在脊柱图像分割中的应用进展

基于深度学习方法的脊柱图像分割能够准确地描绘出图像中蕴含的关键特征信息，逐渐成为了图像分割领域中首选的方法［20］。脊柱图像分割中的神经网络模型大多是在CNN 模型和U-Net 模型的基础上对算法和模型结构进行改进，并不断地提升分割效果。CNN 模型的设计理念是受到动物视觉皮层结构的启发，通过考虑像素的空间位置，加上人工设定的感兴趣程度，从而做到权重共享。该模型无须提取手工工艺特征即可显著提高分割精度，实现对脊柱图像信息的高效提取和精准分割。U-Net 模型在脊柱图像分割方面也具有许多优点，例如：可同时处理脊柱图像中全局和局部语义信息；在训练集较少的情况下，依然可以获得很好的实验分割结果；端到端的结构特性使得网络可以保存输入的脊柱图像的全部语义信息。这些优点使得U-Net 模型更适合处理数据集较少情况下的脊柱图像分割问题。上述两种模型相比传统分割方法不仅能够提高目标边缘检测的精准度，而且对提取目标轮廓的准确率也有很大改善。

将传统方法与深度学习算法相结合也可以获得良好的实验效果，例如文献［21］使用马尔可夫随机场（MRF）来推断脊柱图像分割，通过黎曼流形嵌入对之前变形的复杂非线性模式进行建模，在提高鲁棒性的同时节省了存储空间。由此可见，传统脊柱图像分割方法与深度学习方法相结合能够快速且精准地完成分割任务。

3.1 CNN 模型在脊柱图像分割中的应用

CNN 模型具有深度特征提取能力以及较强的自适应性，在临床上的实用性较高并且能够有效地辅助医生诊断，因此被称为专为图像分割而设计的算法模型。

3.1.1 基于CNN 模型的椎骨图像分割

精准的椎体分割可以为脊柱图像的分析和干预提供良好的基础，相较于传统的图像分割方法，基于深度学习的方法可以增强图像分割效率和精准度，提高医生的诊断效率［22］。

CNN 模型虽能很好地提取目标特征信息，但无法兼容不同大小的尺寸输入；同时缺乏对图像本身的全局理解，无法建立起特征之间的依赖关系，不能充分采用上下文的关键信息。为了较好地保留图像的空间信息，并且实现图像像素级的分类，文献［23］提出全卷积神经网络（FCN），用卷积层代替全连接层，减少了模型训练所需要的参数量，从而降低了过度拟合的可能性。FCN 结构如图1 所示。

图1 FCN 模型结构Fig.1 FCN model structure

FCN 模型使用编码器-解码器的网络结构进行多次下采样，以牺牲空间分辨率为代价来提取局部或全局特征，分割效果好且效率高；但由于感受野受限，而感受野的大小又是提取局部信息甚至全局信息的关键，因此对图像的边缘信息分割模糊。目前对脊柱图像分割的研究大多是基于FCN 模型改进的，FCN 模型的提出对脊柱图像分割领域具有里程碑式的意义。

文献［24］提出一种能够高效检测椎骨的深入前馈神经网络，但该网络因较大的定位误差未得到广泛推广。文献［25］提出一种联合卷积神经网络（J-CNN），利用随机森林算法来定位椎骨。相较于文献［24］提出的模型，J-CNN 模型在准确率上具有较大的提升，但耗时过长导致效率较低。文献［26］提出一种自动脊柱水平识别（SPIDE）系统。该系统不使用外部跟踪装置，对椎骨分割的准确率为88%，但手动调优的缺点使其在临床上的推广受到阻碍。

为更好地实现临床应用，文献［27］提出CNN 和FCN 混合的全自动CT 脊柱分割方法，该方法在提升效率的同时精度达到99%，缺点是计算冗余较大，成本过高并且每次分割只能对单个椎骨图像进行分割。文献［28］通过级联定位FCN 与分割FCN 的方法对脊柱CT 图像进行分割，所提模型DSC 为95.77±0.81%，多个FCN 使此模型存在着大量参数，解决了从不同视野获取的CT 图像中分割椎骨这一挑战性难题。

随着CNN 模型的不断改进，出现了许多基于迭代CNN 的算法。文献［29］通过引入3D CNN 来标记分类过的椎骨，使用迭代程序，按顺序对椎骨逐个分割和识别。文献［30］提出一种具有良好泛化能力的椎体实例分割模型，相较于文献［29］方法，该模型降低了17%的内存占用，实现了更好的经济内存使用，可以更准确地提供图像的分割信息，适合应用在一些临床软件项目上。文献［31］利用监督深度学习方法进行全自动高分辨率3D 分割，所提方法不需要进行任何预处理，可以在1 min 内高效地分割3D 图像数据，在腰椎CT 图像数据集上的准确率高达99.80%，此外，该方法可以很方便地应用于基于U-Net 架构的分割方法，具有良好的泛化性能。文献［32］利用多尺度神经网络对脊柱的MR 图像进行分割，所提模型DSC 为95.10%，相较于U-Net 模型提高了1.3 个百分点，证明了该模型的有效性。文献［33］提出的深度学习算法可以自动检测MR 图像中的腰椎，并对椎体进行定位和分类，分割准确率和精度分别为98.6%和98.9%，其与文献［34］对特定椎体（L1～L5 腰椎椎体以及S1 骶骨的第一个椎体）的检测精度的比较如表3 所示，结果显示，文献［33］方法的精度在L1～L5 椎体上相较于文献［34］方法有所提升，并且实现了腰椎MRI 图像的自动化检测、分类和分割。

表3 特定椎骨检测精度比较Table 3 Precision comparison of specific vertebrae detection %

文献［35］提出一种能够在椎体和椎间盘的各类图像中自动且快速分割的深度学习模型，该模型分割的放射量很准确，DSC 中位数大于0.95%，平均产出时间少于1.7 s，能够快速地将图像信息输出，可以用于健康脊柱的临床成像研究，但无法捕获严重脊柱侧凸患者的单个切片上的所有椎骨，因此在某些网络模型架构下应用受到了限制。

目前基于CNN 模型的椎骨图像分割方法在准确率和精度方面都达到了很高的水准，基本符合人们对深度学习在椎骨图像分割中的期望，但由于CNN 的卷积是固定的，不能动态地适应输入的变化，无法完整捕捉椎骨复杂的形态结构；此外，椎体的弯曲受损程度也会影响单一甚至全部椎体病灶区域的分割。因此，未来的研究方向应是在不考虑椎骨侧弯严重程度的基础上，准确、高效地对单张切片上所有的椎骨进行高精度分割。

3.1.2 基于CNN 模型的椎间盘图像分割

椎间盘的分割对于椎间盘病变的检测及分析具有重要意义，从医学图像中准确分割病变的椎间盘是临床诊断和制定治疗计划的前提。

文献［36］提出二维自动主动形状模型（2DAASM），弥补了传统主动形状模型（ASM）耗时、易受主观性影响等不足，分割精度和效率有了明显提升。文献［37］介绍的3DFCN 模型用于椎间盘高维体积数据的定位和分割任务，在视觉上可以生成平滑的分割效果，与2DFCN 相比，三维网络模型的分割性能更好。文献［38］介绍了一种三维多尺度FCN（MsFCN），其结构框架如图2 所示。

图2 MsFCN 框架Fig.2 MsFCN framework

MsFCN 模型具有较高的分辨能力，同时缓解了自适应问题，通过高阶特征信息之间的相互融合来增强网络处理解剖结构尺度变化的能力，平均DSC达到91.2%，证明了模型的有效性和可行性。尽管该方法在许多情况下取得了令人满意的效果，但也存在不足，例如在分割的开始和结束部分，由于椎间盘模糊和噪声的影响，分割效果较差。未来的研究应考虑如何更好地利用去模糊化、图像归一化等图像处理方法解决此类问题。文献［39］提出一种深度学习分割网络MOM-RCNN，其对263 名患者的椎间盘MRI 图像进行分割，灵敏度为88%，特异性为98%，但图像维度因素的影响使计算受到了限制。

对椎间盘图像分割时，可以考虑将无监督学习和监督学习相结合，同时优化已有的算法，例如将二维图像转变为引入位置信息的三维图像，或是将单模态和多模态之间的信息相融合，以便更好地将深度学习方法应用于椎间盘图像的分割。

3.2 U-Net 模型在脊柱图像分割中的应用

虽然FCN 模型在脊柱图像分割的精度上已经有了大幅度的提升，但训练速度较慢，不能完全满足医学领域对于图像分割精度和效率的严格要求。为解决神经网络训练速度慢的问题，文献［40］对FCN 模型结构进行改进，提出U-Net 模型，其结构如图3所示。

图3 U-Net 模型结构Fig.3 U-Net model structure

U-Net 模型是对称结构，其通过跳跃连接的方法将编码器和解码器上提取的特征充分融合，在小型数据集中的分割表现十分优异；同时它也是一种开源的体系结构，对脊柱图像分割方面的研究很有帮助［41］。

3.2.1 基于U-Net 模型的椎骨图像分割

在文献［40］提出U-Net 模型后，许多研究对U-Net 模型进行改进，并应用于脊柱图像分割。文献［42-43］用三维图像代替二维图像对原始的U-Net模型进行改进，分别提出3DU-Net 模型和V-Net 模型，2 个模型的结构如图4、图5 所示。3DU-Net 模型能够半自动或全自动地从稀疏标注中分割三维图像体积。V-Net 模型通过引入基于Dice 系数的新损失函数，解决了背景和前景像素之间数量不平衡的问题。这两种改进的U-Net 模型都在在一定程度上提升了三维医学图像的分割精度，在后续的实验中发挥了重要作用。

图4 3DU-Net 模型结构Fig.4 3DU-Net model structure

图5 V-Net 模型结构Fig.5 V-Net model structure

文献［44］提出了能够聚合不同区域上下文信息的PSPNet 模型，解决了原始U-Net 模型上下文信息丢失的问题，但分割精度略显不足。文献［45］提出一种将Dense 模块引入到U-Net 编码器-解码器结构中来处理语义分割的方法，解决了PSPNet 模型分割精度差的问题。

文献［46］提出Attention U-Net 模型，引入的注意力机制可以突出图像信息的显著特征，提高U-Net模型在不同的数据集和训练模型下的分割性能。文献［47］利用深度监督方法提出了具有高度灵活特点和快速推理能力的UNet++模型，其结构如图6 所示。UNet++模型在原始U-Net 模型的基础上增加了许多跳跃连接路径和上采样卷积块，将多尺度特征与上采样提取的特征进行融合，使得水平方向上每层尺度特征都能得到连接，弥补了编码器和解码器之间的语义鸿沟。

图6 UNet++模型结构Fig.6 UNet++model structure

文献［48］使用U-Net、Dense-U-Net 和Residual U-Net 等多种深度神经网络对椎体X 线片图像进行分割，对分割结果的定量评价如表4 所示。实验结果表明，残差U-Net 对椎骨分割的响应速度更快且分割结果更接近金标准。

表4 不同深度神经网络模型对椎体图像的分割性能Table 4 Segmentation performance of vertebral body image by different depth neural network models

文献［49］利用U-Net模型对脊柱X 线片图像进行分割，结果表明，医生和系统对图像分割的结果之间无统计学差异，且平均偏差非常小，该模型实现了对腰椎X 线片图像分割的同时，能够自动测量Cobb 角，为医生提供准确、客观的分割结果。文献［50］将N-Net 网络用于椎体分割，在3DFCN 的基础上引入残余结构和跳跃连接，分割结果的DSC 达到95%。文献［51］提出同时对多模态MRI 中多个脊柱结构进行三维语义分割的网络模型S3egANet，该模型DSC 为88.3%，特异性指标为91.45%，充分显示了其临床有效性。

文献［52］提出了一种具备全尺寸跳跃连接和深度监督优势的全尺度连接U-Net——U-Net 3+，通过减少网络参数来提高运算效率。文献［53］在文献［51］模型中引入注意力机制，提出ANU-Net模型。注意力机制可以聚集整个图像上的目标器官，不仅能大幅缩短训练时间，获取更重要的病灶数据信息，而且对模型的分割精度和灵敏特性也有显著提高。文献［53］提出的ANU-Net 模型，通过判断注意力的分布情况，着重表达某个关键的输入来突出特征的关键信息。此外，该模型还具有嵌套的U-Net 结构，可以集成不同等级的特征信息，有效提升了网络分割精度［54］。文献［55］方法使用U-Net模型对脊柱CT图像进行分割，DSC 为90.4%，精密度为96.81%，验证了该方法的临床意义和可靠性。文献［56］提出了新的卷积模块代替标准的卷积来进行特征提取，使用MCW1-Net 作为编码器，利用DenseX-Net 进行特征融合，获得了准确的分割结果，但分割精度和DSC 之间存在冲突，阻碍了该方法在临床上的应用。文献［57］引入多尺度特征提取模块构建MA-UNet模型，在降低网络结构复杂性的同时提高了模型的分割性能。

3.2.2 基于U-Net 模型的椎间盘图像分割

基于U-Net 模型简单、高效、可完成图像像素级分割的特点，可以对椎间盘图像复杂的特征信息进行提取和分割。利用传统的U-Net 模型进行图像分割存在冗余大以及分割、定位精度不可兼得的缺点，为此，许多研究对U-Net 模型进行了改进。文献［58］提出了使用2 个不同尺度扩张卷积的卷积块来扩展初始模块，得到IVD-Net 模型，该模型的编码部分采用多个路径之间紧密连接的形式，每个路径分别处理单个模块，有效地利用来自多个图像模式的信息进行分割，提高了分割性能。文献［59］提出一种基于级联学习方法的BSU-Net 模型对椎间盘的MR 图像进行分割，该模型克服了U-Net 模型最大池化层的局限性，并且对椎间盘以及边界的分割精度也有明显的提升。文献［60］通过将残差网络中“捷径”的概念引入U-Net 模型，完成对椎间盘图像的分割。残差网络的概念最早是由文献［61］提出的，通过引入残差块可以解决深层网络产生的梯度消失、网络爆炸问题以及图像分割时所产生的退化问题，从而提高深层网络的表现性能。该方法实现了椎间盘的全自动分割，准确率达到95.73%，缺点是无法同时对全部的椎间盘图像进行分割。为解决此类问题的不足，文献［62］提出了MultiRes U-Net 模型，该模型实现了全部椎间盘的自动分割，且分割精度良好。

从以往基于U-Net 模型的实验结果来看，U-Net模型并非FCN 模型那般融合粗略的语义信息和精细的外观信息，而是通过跳跃连接更好地融合精细的语义信息，更像是一个轻量级网络模型，更适合于脊柱图像的分割工作。目前基于U-Net 模型的部分创新和改进如表5 所示。

表5 U-Net 模型的改进思路Table 5 Improvement ideas of U-Net model

传统的U-Net 模型只注重分割精度的提升而忽略了卷积层数，导致计算量过大，严重影响运算效率。对此，研究者提出了MECAU-Net，在编码器部分采用2×2 偶数卷积代替3×3 卷积，结合空间和通道注意力机制，在保证特征信息提取的同时，大幅降低了计算成本。空洞卷积可以获得更大的感受野，从而提升目标检测和语义分割的精度效果；残差网络则可以解决网络层数增大而导致的梯度爆炸或梯度消失等情况；多尺度特征融合网络可以更好地融合深层和浅层的信息，为语义分割提供更好的效果。基于U-Net 模型将多尺度和空洞卷积相结合，即DeepLabv3+，可以在更多的感受野下提取图像的深层信息和浅层信息，对边缘分割具有良好的效果。为了解决前景和背景像素不平衡的问题，研究者在U-Net 模型基础上引入新的目标函数，提出V-Net 用于分割三维图像。U-Net++则对U-Net 的跳跃连接进行了改进，平衡了过量参数和网络深度之间的关系。基于U-Net++模型，将不同尺度特征图的深层信息和浅层信息相结合，即UNet 3+。UNet3+利用全尺度跳跃连接和深度监督融合不同尺度、不同层次的特征信息，并引入分类引导模块损失函数，可以抑制背景区域的过度分割。然而，UNet 3+和V-Net都存在庞大的参数量，限制了其使用范围；U-Net 和U-Net 3+都无法获取图像的全局特征，对边缘检测结果较为模糊，而改进后的注意力模块和点采样可以弥补边缘模糊的不足。

目前U-Net 的改进思路较为单一，例如加深卷积层数、建立残差连接或者引入多尺度注意力机制，大多都是关于编码器的改进，忽略了跳跃连接和解码器部分以及庞大的计算冗余。在时间就是生命的医学环境下，要注重轻量化网络的重要性，可以采用一层一回传的跳跃连接方式，最大程度地将编码器采样的信息传给解码器，避免重要的信息丢失。

随着深度学习算法在国际上的影响力不断扩大，国内许多学者对CNN 模型和U-Net模型进行了改进，模型改进方法以及分割结果的Dice系数如表6所示。

表6 国内基于深度学习对脊柱图像分割的研究Table 6 Research on spinal image segmentation based on deep learning in China %

从多个方面对神经网络模型的改进方法和实验结果进行详细的总结归纳，如表7 所示。目前大多数脊柱图像分割实验只采用DSC 作为评价指标，显示出该指标的对于评价分割效果的重要意义；DSC对图像内侧敏感，而采用HD、IoU 等指标评价可以更好地反映出模型对脊柱图像外侧、轮廓等的分割效果，因此，部分实验会采用多种评价指标来全面分析分割效果。

表7 不同研究中U-Net 模型的图像分割性能对比分析Table 7 Comparative analysis of U-Net models' image segmentation performance in different researches %

目前深度学习在算法以及应用上都较为成熟，但也存在着某些限制，例如对脊柱图像边缘信息的分割精度低、对三维图像的特征信息获取能力不足以及运算时间长、模型占用空间内存大等。此外，脊柱图像分割的浅层语义信息通常掺杂冗余信息较多，在分割病灶区域与周围背景或者其他组织器官的对比度较低时，分割效果达不到实际效果。

针对图像边缘分割精度不足的问题，可以采取以下几种方法进行改善：

1）在预处理环节中进行降噪和图像增强操作，在实际代码操作中通过乘法或平方的方式来提升图像边缘较弱的像素梯度，通过放大像素值之间的差距，使图像边缘部分的像素值的梯度变大，从而实现精准的图像边缘检测分割。

2）在U-Net3+模型的全尺度特征融合过程中引入注意力门并且使用点采样方法，通过特征叠加的方式整合不同层次的特征，利用注意力机制关注特征信息，采用分类引导模块抑制过度分割，同时利用多尺度结构相似性指数（MM-SSIM）损失方便为模糊边界分配更高的权重，从而提高边缘分割的精度。

3）多尺度特征融合，例如特征金字塔结构通过深度网络提取不同层次特征堆叠而成，在堆叠的基础上通过Element-wise sum 实现特征融合，从而实现对不同层次、尺度的信息的检测。

3.3 深度学习在脊柱肿瘤图像分割中的应用

脊柱肿瘤存在放射学的特殊性，且位置、结构、大小、形状等因患者而异，具有高度异质性；同时医生诊断在不同程度上会受到临床经验的限制，导致传统脊柱肿瘤图像分割出现误判。为更好地实现良/恶性肿瘤的检测与分割，许多研究充分发挥深度学习模型稳定的分割效果、良好的平衡性能以及能够精准定位病灶区域等优点，将深度学习模型应用于脊柱肿瘤分割。文献［68］提出以两阶段架构对脊柱CT 图像中成骨性转移瘤进行自动检测的方法，其网络模型如图7 所示，该方法能很好地适应当前低剂量、低分辨率CT 成像协议的趋势。文献［69］介绍了一种包含3 个相同子网络的Siamese深度神经网络，并与聚集策略相结合，对26 例脊柱转移瘤患者的MR 图像分割结果进行分析。该网络具有相当出色的表现，但在图像边界上分割的效果有待提升。

图7 用于成骨性脊柱肿瘤分类的卷积神经网络Fig.7 Convolutional neural network for classification of osteoblastic spinal tumors

文献［70］使用3DCNN 对脊柱的溶骨性和成骨性2 种肿瘤同时进行分割和分类。该方法能够检测、分割和分类大于1.4 mm3的小病变，相较于其他已发表的CT 扫描脊柱的分析方法，具有高度灵活性，灵敏度高达92%，具有可靠的临床价值；但其部分操作高度复杂化，且在成像条件等方面存在很大差异。为此，文献［71］提出将CNN 模型和全连接条件随机场相融合的方法对整张肿瘤图像进行分割，充分发挥CNN 精确提取图像特征和使部分环节简单化的优势，弥补了文献［70］中实验操作方法复杂的不足，提高了分割效率。

针对目标检测网络应用于肿瘤病变检测时不能有效检测出细小肿瘤区域这一问题，文献［72］提出了一种细粒度的肿瘤检测方法，其框架如图8 所示。首先使用预先训练的二维特征金字塔网络（FPN）［73］作为主干网络构建特征金字塔，从不同金字塔级别的输入图像中提取特征，使用多尺度增强器（MSB）对每一个金字塔级别的特征进行大尺度变化的病变检测，然后执行分层扩张卷积（HDC），其包含与特征金字塔互补的细粒度信息，能够提高网络对尺度变化的认识并提供细粒度的规模估计，有效捕捉规模响应有意义的响应响应；由通道和空间注意力组成的级联注意力模块对特征进一步处理，以捕获细粒度信息，达到细粒程度，实现最终预测。与Faster RCNN［74］、FPN 以及基于三维上下文增强区域的CNN（3DCE）［75］等先进的检测模型相比，多尺度增强器特征金字塔网络有效提高了在不同PF 率下的灵敏度值。

图8 FPN 与MSB 检测框架Fig.8 Detection frameworks of FPN and MSB

文献［76］应用动态增强MRI 对无肿瘤史的61 例病人进行研究，采用CNN 模型区分脊柱转移瘤，所提方法准确率为81%，对于此类疾病的诊断具有良好的作用。文献［77］基于自注意力模型改进2D V-Net，实现了脊柱肿瘤CT 图像的分割，并对Faster RCNN模型改进用于脊柱肿瘤检测，在特征提取模块将VGG 替换成ResNet 和DenseNet，通过增加残差学习的密集连接来提升特征信息的学习和利用，所提方法边缘分割精度相比VGG 分别提升了3.16% 和2.0%，同时还具有良好的泛化性能。文献［78］采用深度学习方法建立了脊柱肿瘤二分类模型和三分类的深度人工神经网络（D-ANN）模型，结果显示，D-ANN 为最佳二分类模型且准确率达到90%以上，而由于肿瘤的异质性大的特点，三分类模型效果较差。文献［79］采用多尺度CNN 模型对CT 图像进行分割，内部和外部验证的DSC 分别为97%、95%，基本满足了人们对分割效果的期望。

深度学习模型为脊柱肿瘤的全脊柱切除术或者单一、特定脊柱节段的分割提供了可靠的方法。由于脊柱肿瘤图像的成像特点以及难以与其他软组织进行区分，传统分割方法对于图像边缘的分割效果较差，效率不高。目前基于U-Net 独特的U 型结构，通过跳跃连接能够更好地捕获图像更高层次的特征信息，大幅提高肿瘤图像整体分割的精准度；而引入自注意力机制来提升网络运算效率，也解决了耗时严重的问题，逐渐成为提高运算效率的主流方法。

4 总结与展望

将深度学习方法引入到脊柱的图像分割中，一方面可以帮助医生从繁琐、重复的工作中解放出来，减少过度疲劳和主观性因素导致的漏诊、误诊等状况的发生；另一方面提高了脊柱图像的分割精度和准确率，在临床诊疗和术前规划等方面发挥了不可替代的作用。虽然基于深度学习的脊柱分割方法具有优异的临床表现，但也有以下问题亟待解决：

1）在椎骨图像分割方面，病灶区域的尺寸、形状、位置等由于受到椎骨复杂的生理结构的影响会发生变化，导致在医学影像中观察到的目标区域的外观变化较大，影响临床分析；在椎间盘图像分割方面，椎间盘图像边缘位置的图像信息模糊，会导致分割时误差较大、预处理和训练耗时长、结果准确率低等问题；在脊柱肿瘤图像分割方面，恶性肿瘤放射学的特殊性、CT 图像中的肿瘤区域密度分布不均匀以及部分临床医生的经验受限，使得评估及分割具有很大的难度，此外，当使用CNN 模型对其分割时，只能分割肿瘤区域的一小部分且存在较高的计算冗余，而使用U-Net 分割时会导致分割过度，尤其是低对比度的肿瘤区域。

2）目前脊柱图像公开数据集受到规模的限制，并且现有的深度学习算法通常引入迁移学习，即在公开数据集基础上进行训练和实验，导致实验结果在很大程度上受到训练数据集的影响，对分割准确率、精度等分割性能指标造成干扰。

3）由于脊柱成像过程会受到强度和亮度变化的影响，具有较大的差异性，同时受到脊柱外其他组织及噪声等因素干扰，深度学习模型对脊柱图像的边缘区域分割效果较差。

4）目前对脊柱图像整体区域分割的研究有待改进，基本只能完成对特定区域的分割工作，而不能有效地对整体区域进行分割。大多数深度学习模型对单一脊柱图像类型的分割效果较好，但对多模态脊柱图像分割的准确率和精度还有待提升，由于不同图像类型对不同脊柱区域的对比度不同，例如CT 图像对椎骨有更好的对比度，而MR 图像对椎间盘的对比度较好，因此融合同一患者多模态图像对脊柱图像的整体分割至关重要。

5）图像分割的评价指标往往只采用DSC，该指标仅对分割区域的内侧较为敏感，而对图像外侧反映的分割效果略有不足。

6）图像的分割精度与成本之间的关系有待解决，引入注意力机制、残差模块以及Dense 模块等提高算法性能的同时，计算量也大幅增加，导致计算成本较高。

针对目前一些临床和算法技术上问题，结合已有的临床经验和算法改进的方法，对深度学习算法在脊柱图像分割领域未来的研究进行展望。未来应当围绕以下几个方面进行改进：

1）由于脊柱复杂的形态学结构，无法从根源上解决分割易受非目标特征区域影响的问题，但可以通过不断改进编码器-解码器架构来提高病灶区域信息的提取能力。在跳跃连接过程中引入残差模块、注意力机制等可以更好地实现深层特征信息和浅层特征信息之间的相互融合，从而提高脊柱图像的分割效果。

2）针对临床实验数据集数量有限以及实验结果受到训练模型影响的问题，应当积极促进医工结合。在创建脊柱图像数据集的过程中，要充分发挥医生丰富的临床经验和娴熟的技术方法，在医生的帮助下对脊柱图像进行准确标记，同时医生可以结合深度学习选择合理的阈值进行实验。此外，可以尝试将多个数据集交叉融合进行实验，交叉数据集不仅能提升实验的有效性，还能提高模型的泛化性能。

3）针对图像边缘信息模糊、噪声大等问题，可以在图像预处理环节中对图像进行数据增强，或采用直方图均衡化的方法对图像的像素信息重新分布，或利用处理过的损失函数来加快模型的收敛速度。实验证明，上述方法可以在保证图像病灶区域准确分割的同时，提升分割精度和运算效率。此外，可以结合自监督、半监督或无监督网络来提升模型的稳定性。例如半监督和自监督学习可以通过利用未标记的数据和有限的注释数据来解决实验需要大量标记数据集的问题，有效地提升图像分类、分割问题中训练样本选择的效率。一些流行的半监督学习方法包括使用伪标签进行自我训练、熵最小化、一致性正则化等，着重从未标记的图像中提取有用信息，同时使用有限的标记例子。同样，自监督学习方法例如基于借口任务和对比学习的方法，旨在仅使用未标记的图像的预训练来学习良好的网络初始化，再使用有限的注释来微调该初始化，从而获得良好性能。而无监督学习通常用于不包含任何标签信息的数据，常用的两种方法为确定型无监督学习和概率型无监督学习，先通过无监督学习对深层神经网络架构初始化，再逐步调优达到更好的效果。对于复杂多变的病灶组织结构，通过确立组织病理分析的金标准来规范分割标准；在模型方面，通过不断地改进编码器、解码器等架构来构建合适的模型，可以达到良好的边缘分割效果。

4）针对目前深度学习模型不能对整体区域进行分割的问题，应当更多地结合多任务学习、多尺度特征提取，通过融合脊柱多模态图像，采用多种深度神经网络相结合的方式，在完成对椎骨图像分割的同时，提高椎骨侧弯Cobb 角的测量度数，或者准确快速地分割整张脊柱图像的病灶区域，并完成对病变区域的检测工作。此外，通过结合多任务学习还可以在完成脊柱肿瘤图像分割的同时，对肿瘤的良恶性做出有效的判断。依据这些目标对算法进行改进，更多地关注多任务学习、多尺度特征提取、多模态融合，有利于提高分割效果，更好地辅助医生诊断研究。

5）针对单一评价指标分析分割效果的问题，可以根据不同的分割病灶区域评价指标的需求，在采用DSC 这一主要评价指标的基础上，使用其他评价指标综合、全面、系统地分析实验结果。

6）关于分割精度与成本之间的关系，需要寻求一种合理的方法来解决这个问题。目前基于深度学习的脊柱图像分割工作在算法和模型上有一些缺陷，例如：卷积层数高虽然可以更好地提取深层次信息，但层数加深会导致运算缓慢；CNN 模型虽然有较强的特征提取能力，但边缘分割模糊以及不能建立远距离依赖关系的局限性，使其不能完全满足医学领域对图像分割精度的严格要求。因此，考虑在医学图像分割中应用较多的轻量化网络，不仅能够很好地降低计算成本和模型复杂度，提升网络运算效率，而且能够保证较高的准确率。

5 结束语

目前基于深度学习的脊柱图像分割方法已取得了良好的临床效果，不仅在精度和准确率等方面有较大提升，而且还可以帮助医生从繁琐、重复的工作中解放出来，减轻医生的临床诊断压力。本文针对深度学习在脊柱图像分割中的应用展开综述，先详细讲述常见的脊柱疾病类型及其在临床上的分割难点，以及脊柱图像分割中常用的数据集和评价指标等要素；再着重介绍CNN 模型、U-Net 模型及其改进模型在椎骨、椎间盘以及脊柱肿瘤图像分割中的应用。实验结果表明，深度学习模型对脊柱图像分割具有良好的效果，相较于传统分割方法，分割效率有很大的提升，基本满足了人们对深度学习算法在脊柱临床分割上的期望，但目前大多数研究对图像边缘的分割精度还未达到令人满意的效果，并且分割精度与成本之间的关系问题亟待解决。因此，未来需要继续将深度学习与临床医生的专业知识和丰富经验相融合，充分发挥深度学习算法中迁移学习、半监督学习、增强学习等技术的优势，不断研究适用于图像分割的模块，改进模型的编码器-解码器架构，并且在跳跃连接模块中引入注意力机制或采用全尺度跳跃连接等方法，来提高上下文特征信息的提取能力，弥补边缘分割精度以及计算冗余的不足，从而促进智慧医疗领域进一步发展。