徐刚,陈鹏,李宇龙,朱芸,谢宗玉*
作者单位 1.安徽理工大学附属淮南新华医院医学影像科,淮南 232000;2.湖州市中心医院放射科,湖州 313000;3.安徽理工大学附属淮南新华医院脊柱骨科,淮南 232000;4.蚌埠医科大学第一附属医院放射科,蚌埠 233000
脊髓型颈椎病(cervical spondylotic myelopathy,CSM)是由于脊柱退行性改变或周围结构受力情况发生变化而产生脊髓压迫或缺血的一种神经系统疾病,常导致肢体残疾及严重的神经功能损伤,是成人脊髓损伤最常见的病因[1-3]。MRI是诊断CMS最有效的影像学方法,可以清晰地观察脊髓、椎间盘及周围软组织等结构及信号,进一步对CSM 进行诊断和危险度评估[4-5]。由于早期脊髓受压或缺血并不会出现明显信号异常,从而导致MRI 对CMS 诊断及危险度分级敏感性往往不高[6-7],因此,准确、客观且有效地诊断CMS对临床术前诊断和术后疗效评价具有重要的意义。放射组学(radiomics)和机器学习(machine learning, ML)是一种通过量化和分析肉眼看不到的图像信息进行诊断和分类的新技术,近年来受到学界广泛关注[8-10]。有学者[11]开发了基于T2WI 图像的影像组学模型,该模型很好地预测了CSM 术后恢复情况,HOPKINS 等[12]通过构建ML 模型很好的预测CSM 的严重程度,深度学习也可以用于CSM 的评估[13],因此ML 和影像组学在CSM 具有良好的应用前景。ML 中常用分类器方法包括逻辑回归(logistic regression, LR)、自适应增强机(adabosst, AB)、贝叶斯算法(native bayes, NB)及支持向量机(support vector machine, SVM),其中LR 为常用的线性模型,在ML和影像组学应用中最为广泛,各种增强机算法及SVM 算法也多用于ML模型,而NB类似于传统的决策树和神经网络,但是算法却更为简单和快速[14]。WANG 等[15]通过SVM 和NB 来预测CSM 的严重程度,ZHANG 等[16]通过14 个二元分类器构建最佳ML模型来预测CSM 患者的术后脊髓功能,均取得较好的预测效能。但是既往的研究多集中于评估术后疗效,较少关注临床表现和放射组学特征之间潜在联系,并且对开发的机器模型缺乏一定的解释,因此,本研究基于MRI 影像组学提取特征并建立不同ML模型对CSM 进行危险度分级,并分析特征与临床表现之间的联系,从而为临床术前诊断提供参考。
回顾性分析2019 年9 月至2022 年5 月安徽理工大学附属淮南新华医院经临床诊断为CSM并行颈椎MRI 检查的患者病例。纳入标准:(1)临床诊断符合CSM 诊断标准;(2)MRI 图像清晰,临床资料完善;(3)颈部无放化疗及手术等病史。排除标准:(1)患者有除CSM外其他神经系统疾病;(2)患者自主意识差等原因影响评分结果。通过日本骨科协会(Japanese Orthopaedic Association, JOA)评估治疗分数[17]对可疑的CSM 患者进行评估,通过上肢运动功能、下肢运动功能、肢体感觉及膀胱功能四个方面来进行评估,根据JOA分数将CSM分为轻症组(JOA分数13~16 分)和中重度组(JOA 分数5~12 分)。采用完全随机方法将所有患者按7∶3 比例分为训练组和验证组。本研究遵守《赫尔辛基宣言》,经安徽理工大学附属淮南新华医院伦理委员会批准,免除受试者知情同意,批准文号:新医伦审(2019)3号。
采用1.5 T Achieva、3.0 T Ingenia DNA 磁共振扫描仪,16 通道高分辨颈胸腰一体化脊柱相控阵线圈(1.5 T Achieva 为独立线圈,3.0 T Ingenia DNA 为扫描床一体线圈)进行颈椎常规轴位T2WI扫描。扫描范围:C2/3~C6/7椎间盘。扫描序列参数见表1。
表1 不同磁共振扫描仪扫描序列参数Tab.1 Scanning sequence parameters of different magnetic resonance scanners
从影像存储及传输系统(picture archiving and communication system, PACS)系统中以DICOM 格式导出病例图像,使用Python(版本3.10.2,https://www.python.org)软件将导出的DICOM 格式图像转化为NRRD 格式并导入ITK-SNAP 软件(版本3.6.0,https://www.itksnap.org)。由2 名分别具有5 年以上和15 年以上诊断经验的主治医师和副主任医师在双盲情况下手动勾画横轴位T2WI 脊髓受压最严重节段感兴趣区域(region of interest, ROI),在勾画时避开椎间盘、硬膜囊及脑脊液(图1)。将数据导入FAE(FAE,V0.5.2, https://github.com/salan668/FAE)软件进行放射组学特征提取和图像特征转化,提取特征类型包括一阶特征、二阶特征及高阶特征,图像转化包括小波变化、对数滤波及三维局部二值等。FAE软件将所有提取的特征进行数据清洗,检查数据中的空白信息,无效信息、文本信息及空数据,并自动去除这些无效特征,保留有计算意义的特征,从而提升运算效率。
图1 感兴趣区勾画。1A为颈椎横轴位图像;1B为勾画后图像,红色为勾画的脊髓感兴趣区域。Fig.1 Delineation of the region of interest.1A is the transverse axis image of the cervical spine; 1B is the drawn image, and red is the drawn region of interest of the spinal cord.
为了保证操作者勾画ROI 的可重复性和特征提取的一致性,进行组内/间相关系数(intra-/inter- class correlation coefficient, ICC)评价。两名医师对所有患者图像进行ROI 勾画并进行放射组学特征提取,形成数据集(data set, DS)DS1、DS2,8 周后其中一名医生对所有病例进行再次ROI 勾画并提取放射组学特征,形成数据集DS3。将DS1 和DS2 的所有特征进行观察者间一致性评价,将DS1 和DS3 的所有特征进行观察内一致性评价。认为两次评价中ICC>0.8的特征具有良好的可重复性及一致性。
对训练组所有患者放射组学特征使用人工少数类过采样法(synthetic minority over-sampling technique,SMOTE)进行数据平衡,Z-score Normalization进行数据标准化,使得所有特征值统一度量,皮尔逊相关系数(Pearson correlation coefficient, PCC)进行维数缩减(设定PCC=0.80),递归特征消除(recursive feature elimination, RFE)进行特征筛选。对筛选后的特征分别使用LR、AB、NB 及SVM 四种分类器模型来构建ML模型,并进行10折交叉验证。
采用SPSS 26.0 软件和R 软件(版本4.2.1)进行统计学分析。通过Kolmogorov-Smirnov 检验对计量资料进行正态性检验,正态分布使用(xˉ±s)标准差表示,组间比较采用独立样本t检验,不满足正态分布使用中位数(四分位数)表示,组间比较采用Mann-WhitneyU检验,计数资料比较采用皮尔森卡方检验。采用多因素logistic 回归分析构建预测模型,通过受试者工作特征(receiver operating curve,ROC)曲线下面积(area under the curve, AUC)评价模型效能,DeLong检验用于比较两个ROC曲线的性能,检验AUC的显著性。P<0.05为差异有统计学意义。
最终入组病例317 例,其中男168 例,女149 例,年龄27~89(61.2±10.9)岁。使用JOA 评分将所有病例分为轻症组和中重症组,其中轻症组193 例,男99 例,女94 例,年龄34~86(61.2±10.8)岁,中重症组124 例,男69 例,女55 例,年龄27~89(61.2±11.0)岁。所有病例按7∶3 比例分为训练组222 例和验证组95 例。训练组和验证组病例的年龄、性别差异无统计学意义(P>0.05)(表2)。
表2 患者基本资料Tab.2 Basic information of patients
从CSM 轻症组和中重症组病例中各随机抽取5 例作为小样本进行聚类分析,经数据标准化、数据降维后,选取前50个放射组学特征进行分析,结果显示,轻症组和中重症组在聚类分析中分类效果明显,放射组学特征之间具有一定相关性(轻症组:F=34.891,P<0.001;中重症组:F=90.353,P<0.001),对CSM风险具有一定的分级能力(图2)。
图2 放射组学特征聚类分析结果。2A:放射组学特征树形图;2B:放射组学特征热图。Fig.2 Cluster analysis results of radiomics characteristics.2A: Radiomics characteristics tree; 2B: Radiomics characteristics heat map.
FAE 软件共提取1633 个放射组学特征,删除无效特征和ICC<0.80 的特征后剩余758 个放射特征,经数据标准化、降维及特征筛选后,剩余15个放射组学特征用来进行模型构建(表3)。使用SVM、AB、LR及NB四种分类器模型进行ML模型构建,结果显示,SVM 及LR 在模型构建中效能较好(两种模型训练组AUC 为0.833 和0.831,验证组AUC 为0.813 和0.812),AB 在训练组中分类效果明显(AUC=0.984),但是验证组欠佳(AUC=0.725),模型稳定性较SVM和LR 两种分类器略差(表4、图3)。通过DeLong 检验来比较各分类器ROC 曲线性能,检验AUC 的一致性,结果表明,SVM 和LR 两种分类器之间差异无统计学意义(表5)。
图3 各分类器的分类效果。3A:训练组ROC 曲线;3B:验证组ROC 曲线;3C:四种分类器的分类效果柱状图。ROC:受试者工作特征;LR:逻辑回归;NB:贝叶斯算法;SVM:支持向量机;AB:自适应增强机;AUC:曲线下面积。Fig.3 Classification effect of each classifier.3A: ROC curve of the training group; 3B: ROC curve of the verification group; 3C: Histogram of classification effect of the four classifiers.ROC: receiver operating characteristic;LR: logistic regression; NB: native Bayes; SVM: support vector machine; AB: adaboost; AUC: area under the curve.
表3 经RFE筛选的放射组学特征Tab.3 Radiomic characteristics screened by RFE
表4 不同分类器机器学习模型效能比较Tab.4 Effectiveness comparison of machine learning models for different classifiers
表5 不同模型AUC值的DeLong检验结果Tab.5 DeLong test results for AUC value of different models
本研究首次应用基于MRI 放射组学特征的ML模型对CSM 进行危险度分级,结果表明ML 模型能够较为准确地对CSM 进行危险度分级,SVM 和LR模型的分级效果最佳(两种模型训练组AUC 为0.833 和0.831,验证组AUC 为0.813 和0.812),模型稳定性也较高,对临床决策具有一定的参考价值。
CSM 已经成为躯体疼痛和残疾的重要病因[18]。目前多数研究认为,CSM 的直接病因是脊髓受压缺血导致一部分神经功能障碍,从而产生临床症状,但是,在病理生理学上,CSM 临床症状的直接病因还未完全了解清楚[19]。本研究中,对患者一般资料分析发现,轻症组和中重症组之间年龄的性别的差异无统计学意义,说明CSM 疾病的危险度与年龄和性别无关。目前研究普遍认为CSM 是一种退行性疾病,本研究中最年轻患者为27岁,并且是中重症组患者,可能的原因是椎管骨性结构的改变或获得性损伤导致CSM 患者症状加重,而并非完全由椎间盘的退变导致,这与既往研究结果相符[20]。既往有研究表明,脊髓受压严重患者临床症状很轻,而脊髓轻度受压患者其临床症状却很重,这可能与压迫位置、神经纤维束走向、脑脊液压力及椎管状态等因素有关[21]。因此,在临床证据不明确时,影像学检查对CSM的诊断有一定的价值,但目前日本和欧美等地区仍然以临床表现作为首要的诊断因素,而影像学检查仅作为一种支持诊断的依据[22-23]。
通过提取医学图像中高通量特征参数进行计算、分析和学习并进行分类处理的ML是近些年热度较高的研究方法,因为信息量化明显,可操作性和可分析性较强,因此被广泛应用于病灶良恶性鉴别、病理类型鉴别、预测生物学行为及风险等级判定等方面[24-25]。ZHANG 等[11]利用MRI 影像组学模型来预测CSM 术后恢复情况,联合临床特征的影像组学模型AUC达到0.81,预测效能较好。ZHANG等[16]利用影像组学联合ML来预测CSM患者预后效果,结果显示SVM模型预测效果优于常规放射模型,其AUC 为0.74±0.08。MERALI 等[26]通过MRI 建立深度学习模型评估CSM脊髓受压情况,发现有助于帮助诊断医师准确识别CSM 患者脊髓受压状态及预后评估。WANG 等[15]通过扩散张量成像(diffusion tensor imaging, DTI)联合ML 寻找CSM 脊髓MRI 信号差异,从而得出基于小样本颈椎DTI 图像的ML 模型可以很好预测CSM 并且可以推断出脊髓病变节段,而本研究中,通过提取最严重节段脊髓的放射组学特征,并且使用小样本聚类分析也可得出CSM轻症组和中重症组之间特征具有一定的差异性,这与WANG 等研究结论相符。由此不难推断,对于人眼未能发现的图像和信号差异,影像组学能够很好地寻找其差异性,并从具有差异的特征中寻找差异原因,可能为今后治疗方案的临床干预提供一定思路。其次,既往研究[11,16]多数提取的特征数较少,且图像转化形式较少,本研究中,提取了大量的高阶放射组学特征,并且通过三维局部二值、小波变换、平方滤波和对数滤波等方式进行图像转化,从而发掘出更多的特征用于寻找差异,并用于常见的机器模型构建,四种ML 模型的AUC 均大于0.75,能够很好对CSM 进行危险度分级。因此,利用ML 模型对CSM 患者进行术前诊断和术前分级均具有一定的优势和潜力。
本研究在进行特征提取时,使用FAE 获得了大量的放射组学特征,为了提升ML 的效率,采用了PCC 来进行数据降维,获得了理想的效果。PCC 是一种线性相关系数,在ML中通常用来计算特征与类别间的相似度,从而快速降低数据维度,减少数据计算量,进而提升结果的稳健性,使得ML 过程变得高效[27-28]。在特征筛选方面,RFE 共筛选出6 类放射组学特征,在这6 个方面,CSM 患者轻症和中重症之间存在一定差异。形状特征和一阶特征存在差异性的原因可能是因为脊髓受压后,中重症组脊髓形态较轻症组形态更加不规则,多样性增加,而灰度类特征存在差异性可能是因为在脊髓受压后,尽管脊髓在肉眼上难以观察其信号改变,但是其细微结构已经出现差异,功能已经出现变化,这与既往研究大致相符[29-31]。在进行ML 分类器的选取时,选取常见的AB、NB、LR 和SVM 四种分类器对CSM 进行危险度分级,从各个分类器结果看,SVM 和LR 分类器效果最佳,在训练组和验证组中分级效能均较好,AB 模型在训练组中分类效果最好(AUC 达到0.984),但是在验证组中却表现不佳,NB 模型分类效果劣于其他分类器模型。SVM 是一种监督式学习方法,其优点是分类思想简单,并可以通过核函数向高维空间映射,从而得到更好的分类效果,目前在ML 中应用广泛[32]。LR 是常用的分类方法,与SVM 有异曲同工之妙,但是对于大样本,LR 的分类能力优于SVM,并且LR对远点敏感[33]。AB是一种迭代算法,通过多种弱分类器来集合成强分类器,对数据分类精度较高,但是随着迭代次数增加,其分类误差也越来越大,模型的稳定性不高,这也是导致本研究验证组分类效果较训练组变差的原因[34]。NB是一种概率框架下的分类器,即基于概率选取分类标准从而完成分类,目的是降低总体化风险,当样本量较大时,其概率计算也较准确,其算法的分类效果也越好,但是对于小样本,其分类效果则劣于其他类别的分类器[35]。在本研究中,通过数据降维和特征筛选,使得最终选取的特征数为15 个,其优点是在运行分类器进行分类时计算次数少,时间短、效率高,可以快速计算出结果,但是却丧失了从图像中提取出的大部分数据,这可能会导致运算结果片面化和特征的利用率低,这也可能是导致本研究中NB和AB这种依赖大量数据的分类器效果欠佳的原因。对于临床研究,通常样本量不大,因此,对于ML 模型的选择来说,SVM 和LR 模型的分类效果优于NB和AB。
本研究具有一定的局限性:(1)本研究为回顾性分析,样本量较少且为单中心研究,模型在其他中心的适用性有待验证;(2)本研究模型选择较少,只选用了4 种ML 模型,可能会导致存在分类效果更佳的分类器,在今后研究中将增加分类器数量,以期寻找到效果更好的分类器;(3)本研究只选取T2WI 横轴位图像,且仅勾画压迫最严重的椎间盘节段脊髓,可能导致脊髓信息不够全面,今后将采用多种勾画方法进行对比研究。
综上所述,基于MRI影像组学的ML模型能够在术前较为准确地预测CSM 的危险度分级,有效指导临床设计对CSM 患者的治疗方案,并提供了客观的数据分析,可以为临床精准化医疗提供新的思路。
作者利益冲突声明:全体作者均声明无利益冲突。
作者贡献声明:谢宗玉设计本研究的方案,对稿件重要内容进行了修改,获得了安徽省重点研究与开发计划资助;徐刚起草和撰写稿件,获取、分析及解释本研究的数据;陈鹏、李宇龙、朱芸获取、分析或解释本研究的数据,对稿件重要的内容进行了修改,朱芸获得了安徽省高等学校自然科学研究项目资助;全体作者都同意发表最后的修改稿,同意对本研究的所有方面负责,确保本研究的准确性和诚信。