丘倩怡 余庆龄 张晓东
南方医科大学第三附属医院(广东省骨科研究院)影像科,广东 广州 510630
多种影像学检查在椎体骨质疏松及相关骨折的诊断和筛查过程中发挥着重要作用,双能X线吸收测定法(dual-energy X-ray absorption,DXA)被广泛用于面积骨密度(area bone mineral density,aBMD)的评估,其测定的髋部及L1-L4的BMD是临床诊断骨质疏松症(osteoporosis,OP)的“金标准”[1]。但由于其是二维成像,腰椎的骨质变化易受多种因素影响导致BMD的测量结果不准确。另外,尽管临床实践指南一直强调DXA在筛查OP中的作用,但仍有大量符合条件的患者从未进行过该项检查。在我国,有大量患者因其他临床目的而进行常规CT与MRI成像,通过这类途径可直接评估潜在的OP及骨质疏松性椎体压缩骨折(osteoporotic vertebral compression fractures,OVCF)。目前,深度学习(deep learning,DL)技术迅猛发展,已经被广泛运用于医学领域,尤其是计算机辅助医学影像诊断方向[2]。DL在评估OP及OVCF方面已经进行了一定的研究和应用,采用此种方法可以提高筛查率和临床医生的诊断效率,降低OP再发骨折的风险、致残率和致死率,减轻医疗经济负担,但同时也面临着诸多挑战。本文基于CT和MRI结合DL在评估椎体骨质疏松及相关骨折的应用进展进行综述。
OP是以骨量减少、骨质量下降及骨强度减低,导致骨脆性增加、易发生骨折为特征的全身性骨病,可分为原发性和继发性两大类[3]。原发性OP包括绝经后、老年和特发性OP,而继发性主要由各种影响骨代谢的疾病、药物及其他明确病因导致的[4]。OVCF是由原发性OP引起的,在轻微外伤甚至没有明显外伤的情况下发生的骨折[5]。临床上OVCF可表现为脊柱后凸畸形和顽固性背痛,导致患者心肺功能下降和胃肠功能紊乱,影响其活动能力、睡眠和心理健康,严重降低生活质量。全国骨质疏松症流行病学调查显示50岁以上人群OP患病率为19.2%,65岁以上人群OP患病率为32.0%[6]。OVCF是最常见的骨质疏松性骨折类型,其发病隐匿,只有1/4的患者会有外伤史或急性发作的临床症状,因此被认为是一种“沉默的疾病”[4]。一项全球多中心研究数据显示,65~80岁绝经后妇女椎体骨折的漏诊率达到34%[7],60岁以上人群进行胸部X线侧位片检查时中重度椎体骨折的漏诊率高达45%[8]。
DL是学习样本数据的内在规律和表示层次,通过复杂多层的神经网络结构将输入信息转换为多个抽象层次来自动学习数据的表示,其基本学习模式包括有监督和无监督学习[9]。传统的机器学习(machine learning,ML)需要根据数据类型识别并手动编码应用特征,性能取决于特征识别和特征提取的准确程度[10]。DL是ML的重要分支,最大的特点是可自动学习图像数据中隐含的特征信息,并自动快速提取特征信息,对未知的数据进行处理预测分析,在疾病的分类和检测、病灶的分割和定位等任务中表现出了优于传统机器学习的性能。
卷积神经网络(convolutional neural network,CNN)是医学影像中最常用的DL算法,其基本构成为输入层、卷积层、池化层、非线性层、全连接层和输出层,进行图像处理的基本流程是预处理、分割、特征提取、训练及验证。由于不同的学习任务需要不同的网络架构,选择适当的架构可以提高整体性能[11],当前流行的架构有ResNet、Alex Net、VGG16/19、U-Net等。
循环神经网络(recurrent neural networks,RNN)是一类以序列数据为输入,在序列的演进方向进行递归,并且所有节点按链式连接的递归神经网络,其对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,同时对序列也很敏感[9]。长短期记忆(long short-term memory,LSTM)是RNN的一种变体,可以选择性地存储信息,用于解决标准RNN时间维度的梯度消失问题。
3.1.1常规CT平扫图像:尽管DXA的测量结果会受到主动脉粥样硬化和椎体退行性变的影响,但其仍是最广泛的用于评估BMD的方法[12]。基于DXA测量的腰椎BMD数据为参考,Krishnaraj等[13]对冠、矢位的L1-L4进行U-net多类别分割,使用基于传统ML的线性回归确定模拟T分数和DXA T分数最相关的像素强度范围。结果显示该算法检测OP的准确度为82%。U-Net是目前最知名且广泛应用于医学图像的分割架构,需要有金标准作为训练的标签,可以通过数据增强的方法对有限的标记数据集图像进行有效分析。Yasaka等[14]使用包含L1-L4的腹部轴位图像对CNN进行训练以自动估计L1的BMD值,在内、外部验证集中CNN-BMD与DXA-BMD之间具有显著的相关性(r分别为0.852和0.840),诊断OP的AUC分别为0.965和0.970。该研究还通过比较CNN-BMD与CT值在诊断OP方面的性能,证明了CNN更加有效。Tang等[15]使用2D U-Net分割胸部轴位图像的L1后及DenseNet进行BMD的分类,自动分割的Dice系数高达0.9,AUC为0.917。除了定性检测外,该方法还提供了每个类别的概率分布来帮助放射科医生为患者提供客观的BMD报告。由于专门标记椎体轮廓及具有BMD诊断结果的数据较少,该研究选用的DenseNet架构所需参数相对较少,并且削弱了网络梯度消失所造成的影响。随后,为了评估脊柱骨测量值与OVCF的相关性,Loffler等[16]使用CNN自动分割T1-L5,并提取其整体体积骨密度(volumetric BMD,vBMD)与T评分和aBMD进行了对照,最终提出了基于CT的整体vBMD诊断OP的阈值是≤160 mg/cm3,能更好地预测椎体骨折的发生(AUC为0.86)。有研究表明,QCT测量的vBMD对OP的诊断比DXA更为准确[17-18]。基于QCT测量的腰椎BMD数据为参考标准,Fang等[19]在2D U-Net分割L1-L4基础上用DenseNet计算BMD,分割的最佳平均Dice系数为0.823,自动计算的BMD与QCT的结果高度相关(r>0.98)。该研究实现了L1-L4的自动定位和分割且性能良好。近年来,随着低剂量胸部CT(LDCT)在早期肺癌筛查中的广泛应用,Pan等[20]利用基于3D U-Net和DenseNet的CNN模型在LDCT图像上对T1-L2进行分割和标记并自动测量BMD,分割的平均Dice系数为0.866,标记的准确度为97.5%,诊断OP的AUC为0.927。Jang等[21]的研究提供了各个年龄段L1平均CT值的标准范围,可以作为常规CT扫描中机会性筛查OP的参考。为了探究DL自动测量能否与人工测量的椎体CT值相媲美,Schmidt等[22]使用DL分割T12-L4并测量其CT值,对L1椎体进一步分析的结果显示其CT值随着年龄(>30岁)的增长每年线性下降2.2 HU,整个人群的L1平均CT值为(140±54)HU,符合以往手动测量的结果。但该研究未能说明与DXA测量的BMD之间的相关性,未来需要进一步验证。
3.1.2增强CT图像:碘化造影剂会使肌肉骨骼的CT值产生明显的偏差,在增强图像上估计BMD值时容易导致OP的误诊[23],因此Ruhling等[24]使用CT增强图像训练了3种CNN模型(2D随机DenseNet、2D解剖引导的DenseNet和3D DenseNet)对此偏差进行全自动校正,其中以2D解剖引导的DenseNet性能最好,在测试集中及公共数据集诊断OP的准确度为98.3%和94.2%。
RNN通常与CNN相结合,CNN作为特征提取器,RNN对序列进行建模,为OVF检测提供了一种快速、高效和准确的诊断工具。Bar等[25]首次将DL方法运用在CT图像中检测VCF,过程分为椎体分割、VGG架构二分类及RNN输出存在VCF的概率。CNN的准确度为92.9%,RNN的准确度为89.1%。VGG架构是在AlexNet的基础上堆叠了更多层,使用了更小的过滤器,在不影响感受野的前提下减少了参数。Tomita等[26]开发了一个基于ResNet的CNN模型,联合RNN在矢状位图像上检测偶发的OVF。该模型利用CNN从椎体中提取放射学特征,接着用特征聚合模块进行信息处理,不需要对每个椎体执行多个分割和分析步骤。结果显示其准确度达89.2%,与放射科医生的诊断性能相匹配。该研究采用的ResNet架构使用跳过连接解决了网络深度增加造成的模型准确度下降的问题,同时在不影响模型泛化能力的情况下构建了更深层次的架构。Iyer等[27]训练了一个CNN模型以全自动检测CT图像中的VCF,比较了4种CNN架构(3层/6层/VGG16/ResNet50)的检测性能,结果显示6层CNN在胸、腹部CT中检测VCF的准确度最高,分别为85.95%和86.67%。该CNN模型增加了一个新的3D定位步骤以从CT图像中提取胸、腰椎,将重点缩小到感兴趣区域(ROI),更好地使椎体可视化。
经椎体成形术后非手术椎体再发骨折是OVCF患者常见的术后并发症,严重的再发骨折可能会给患者带来二次创伤与沉重的经济负担[28]。Hu等[29]利用Xception架构的CNN在原发性OVCF患者CT图像上建立了一个OVCF/二次骨折的预测模型,在测试集中预测OVCF及再发骨折的准确率分别为0.839和0.817。该研究选用的Xception架构具有深度可分离卷积及跳过连接的特点,可以在参数量下降的同时获得更高的准确率,并且还应用了数据增强来克服数据量过少的问题。在我国,每年有大量因临床需要和体检需要而进行胸、腹部或脊柱CT检查的患者,这不失为一种机会性筛查OP及OVCF的方法。DL结合CT评估OP和OVCF在辐射剂量、检查时间和成本等方面不会给患者带来额外负担,为许多要定期接受CT检查的患者带来益处。但一方面,不同扫描设备进行图像采集和重建时参数不尽相同,对比剂、管电压和管电流以及层厚、对比剂等条件的限制,应用软件进行椎体分割和分析的算法对BMD测量的影响尚未明确,另外一方面是不能排除放射科医师对OVCF的诊断偏差和医师之间诊断水平的差异,因此在输入图像进行模型训练时,可能会影响DL模型的性能及可推广性。
由于多参数成像的优势,MRI在肌肉、骨骼上有着很强的诊断能力。例如,基于MRI的纹理分析技术可以提取出人类肉眼无法识别的骨骼微观结构信息,基于化学位移的水-脂分离成像技术能够无创、迅速地分析椎体脂肪的空间分布并提供水分含量和脂肪分数[30],这些可以作为辅助诊断OP较为新颖的方法。由此,Lin等[31]提出了一种名为CNN-HKNN的DL模型,采用CNN提取腰椎MRI图像的纹理特征,改进的HKNN算法用于分类。该模型诊断OP的准确度为96.3%,AUC为0.980。HKNN是一种局部分类方法,它通过局部线性流形在原始样本空间中应用非线性决策面,具有不需要训练、快速适应、自然处理多类情况的优点和需要大内存、测试速度慢的缺点。该研究采用CNN-HKNN加Gabor滤波数据增强技术有助于提高模型的鲁棒性和训练收敛速度。Zhao等[32]首次利用2D U-net自动分割骨量正常和异常(骨量减少及骨质疏松)的腰椎mDixon序列图像中的L1-L3,并用软件分别提取其特征建立放射组学模型以预测OP。自动分割的Dice系数为0.912,性能与手动分割相当;放射组学模型预测OP的准确度为84.4%,AUC为0.899。放射组学是一项相对较新的技术,可以通过图像特征提取和分析为临床结果提供潜在的生物标志物,然而其特征没有经过标准化,以及有着与感兴趣区组织的基础生物学相关特征不能合理解释的困难[33]。
Yabu等[34]首次使用4个CNN(VGG16和19、DenseNet201及ResNet50)的集成模型结合腰椎T1WI图像检测新发OVF,模型的AUC为0.94。随机抽取100个新旧OVF来比较模型和两名脊柱外科医生的诊断性能,结果显示模型的准确度为88%,高于两名外科医生。然而,不足之处在于该模型未使用其他正常人或病理性骨折患者图像作为训练集。随后,Yoda等[35]纳入了50例OVF患者与47例恶性脊椎压缩性骨折(MVF)患者,首次利用STIR图像和T1WI图像结合以Xception为架构的DL模型来自动区分OVF和MVF。基于STIR图像的CNN模型显示的准确度为93%,而基于T1WI的CNN模型显示的准确度为96%,两者的AUC分别为0.96和0.98,CNN模型的诊断准确率优于3名脊柱外科医生。严瀚等[36]提出了一种新型的多模态DL语义分割模型,能够同时在T1WI及STIR图像上对不同腰椎椎体进行准确定位,辅助诊断OVCF。结果显示DL模型的准确度为96.7%,明显高于脊柱外科医生。
放射科医师可根据不同序列上的信号特点明确OVCF为新发或陈旧性的诊断,并确定是否存在骨不连的情况[37]。DL与MRI结合有助于经验不足的放射科医生诊断OP和新发OVCF,局限性在于数据集规模较小,并且目前使用DL模型自动分割脊柱MRI图像且判断脊柱骨折的软件比较缺乏,关于放射科医生在是否有DL模型辅助诊断OP及OVCF的准确度和速度也未见对比分析。
随着近几年DL技术的飞速发展,在影像图像上自动分割、分类及检测骨骼系统复杂病变的能力得到了快速提高。DL模型在提取OP及OVCF患者图像特征、提高医生工作效率及节省人工成本方面具有独特的优势,有望在将来成为医学中的决策支持工具。但现有的研究仍存在一定限制:(1)数据集规模与DL模型精度高度相关,数据越多,模型性能越好,但目前为止缺少公共的OP及OVCF大型影像数据库;(2)图像人工勾画及标注耗时,且手动分割ROI具有一定的主观性;(3)对专业知识较少、经验不足的医师而言DL模型的实用性更强,而对于经验丰富的放射科医师而言受益较少;(4)模型性能易受临床实际情况影响,即使研究证明模型的准确度能与专业医生相媲美,但临床实际应用的并不多见,需要再进一步前瞻性研究进行验证。
总之,DL结合CT和MRI为OP及OVCF的精确评估提供了高效又有用的方法,是未来辅助医学影像诊断的研究趋势。期待未来的研究能构建出更多高性能、高精度的DL模型,在临床实践中发挥更大的作用,对高危人群进行OP及OVCF的早期筛查及诊断,尽早实行精准有效的干预措施和健康管理。