毛孝鑫,宋烨,郝泳涛
摘要:脊柱侧弯是青少年群体常见的一种脊柱疾病,老年群体中因脊柱骨质疏松引起的脊柱骨折也尤为普遍。CT成像技术作为脊柱外科的主要检查手段之一,广泛用于临床以及研究目的的筛查,诊断和图像引导治疗。研究以脊柱CT图像为研究对象,将目前在NLP领域表现优异的Transformer模型与经典的U-Net图像分割网络相结合,运用到CT图像的分割处理工作当中;同时在模型训练过程中基于脊柱自身的结构特点,采用由粗到精的训练方法,首先对脊柱的各个椎骨进行定位模型训练,然后在定位结果的基础上再训练分割模型。最终模型的分割结果与真实值之间的Dice相似系数达到了94.37%以上,实验结果表明了该方法的有效性以及临床应用的可行性。
关键词:CT图像;U-Net;图像分割;Transformer;自注意力
中图分类号:TP399 文献标识码:A
文章编号:1009-3044(2021)20-0124-03
Spine CT Image Segmentation Based on Transformer
MAO Xiao-xin1, SONG Ye2, HAO Yong-tao1
(1.CAD Research Center of Tongji University, Shanghai 201804, China; 2.Xiaoyi Technology co., LTD., Shanghai 201203, China)
Abstract:Scoliosis is a common spinal disease in adolescents, and spinal fractures caused by osteoporosis of the spine are particularly common in the elderly. As one of the main detection methods of spinal surgery, CT imaging technology is widely used in clinical and research purposes for screening, diagnosis, and image-guided treatment. This research takes CT images of the spine as the research object and combines the Transformer model, which is currently excellent in the field of NLP, with the classic U-Net image segmentation network, and applies it to the segmentation of CT images. And based on the structural characteristics of the spine itself, the training method from coarse to fine is adopted in the model training process. First, a model is trained for performing vertebra localization, and then the segmentation model is trained based on the vertebra localization results. Finally, the Dice similarity coefficient between the segmentation result and the true value reached more than 94.37%. The experimental results show the effectiveness of the method and the feasibility of a clinical application.
Key words: CT image; U-net; image segmentation; transformer; self-attention
脊柱作為人体中最为重要的中轴骨骼,是肌肉骨骼系统的重要组成部分。然而脊柱疼痛在全世界有着很高的发病率,同时由于脊柱结构及其功能的复杂性,临床上对于脊柱疼痛的诊断与评估仍然是一个挑战[1]。脊柱疾病的种类以及病因有很多,比如由于外伤导致的脊柱骨折,脱位,因感染引起的脊柱炎,脊柱肿瘤,还有因先天因素引起的脊柱侧弯以及因代谢和免疫因素导致的骨质疏松症等。
为了获得准确的病灶信息,医生往往会在患者的CT图像上做一些关键区域标注或者分割的工作,这些标注与分割的结果无论是在后续的三维建模还是术前规划中都发挥着重要作用。随着人工智能以及深度学习的发展,许多成果与技术也开始逐渐渗透到医学图像处理领域当中。2014年,Long等人提出了全卷积神经网络FCN[2],将以往卷积神经网络中全连接层替换成卷积层,这一重大改进使得网络可以从完整尺寸的图像进行逐像素预测,而不是逐块预测,并且还可以仅在一个前向传播中对整个图像进行预测,处理效率更加高效。FCN的提出在图像分割领域具有里程碑意义,后来越来越多的网络都是基于FCN进行改进的。Christ等人提出了一种使用级联的全卷积神经网络(CFCN)和密集3D条件随机场(CRF)自动分割腹部CT图像中的肝脏病变的方法[3]。Korez等人提出了3D FCN模型[4],从MRI图像中对脊柱进行分割,同时使用形变模型算法对结果进行了优化。
U-Net是目前最著名的医学图像分割模型之一,由Ronneberger等人提出[5],模型建立在FCN的结构基础上,通过跳跃连接的方式扩大了网络解码器的容量,使得图像分割精度更高。2018年Oktay等人通过引入注意力机制,提出了Attention U-Net模型[6],该模型隐式地学习抑制输入图像中不相关的区域,同时突出显示对特定任务有用的显著特征,实验结果表明该模型在保证计算效率的同时,也提高了U-Net在不同数据集和训练规模上的预测性能。