韩春霞,郑嘉祺,王 焕,徐凌霄,刘 俊,艾自胜
(同济大学医学院,上海 200092)
髋部骨折是目前许多国家面临的重要公共卫生问题,其有较高的发病率和死亡率,对个人和医疗保健都产生巨大的影响和经济负担[1-2]。据估计,到2050年,全球将发生626万例髋骨骨折,其中443万例(71%)将发生在亚洲和其他的发展中国家[3]。而股骨颈骨折作为临床上常见的一种髋部骨折尤其值得关注,其大约占全部髋部骨折的一半[4]。大多数患者为保留自身髋部的正常功能会选择内固定作为主要的治疗方式。但术后患者常因严重的并发症面临再次手术的风险,再手术率为高达10%~48.8%[5]。术后常见的并发症包括骨折不愈合、股骨头坏死以及股骨颈短缩等,其中股骨头坏死是导致再手术的主要并发症,发生率为10%~45%[6-7]。
机器学习正被应用于社会和科学的各个领域。而神经网络作为机器学习领域的一种数据分类算法,具有强大的非线性分类能力,尤其是针对于复杂的回归问题[8-9]。神经网络模拟了生物大脑的模式识别能力,主要由3层组成:输入层、隐藏层、输出层,其通过梯度下降的方法使损失函数达到最小,从而达到最佳的预测效果。本研究将探讨神经网络在预测股骨颈骨折术后并发症方面的应用价值,为临床研究和实践提供更多的科学依据。
收集同济大学附属同济医院、同济大学附属第十人民医院、上海交通大学附属第六人民医院等3家医院2013年3月—2017年1月行内固定手术的新鲜股骨颈骨折患者。所有病例股骨头坏死的诊断依照X线摄片或MRI,X线摄片坏死表现为股骨头硬化、囊性变、密度不匀等改变,软骨下出现新月征,股骨头塌陷变性,髋关节间隙变窄;MRI坏死表现为T1出现带状低信号、T2出现双线征,根据X线摄片和MRI结果将患者分为坏死组和非坏死组。
纳入标准:(1) 年龄≥18周岁;(2) 随访时间≥36个月;(3) 临床资料完整;(4) 骨折前能独立行走无其他损伤伤侧髋关节活动受限的因素。排除标准:(1) 病理性骨折以及假体周围骨折;(2) 多发性损伤或合并其他部位的骨折;(3) 有精神疾病或者神志不清楚的患者;(4) 长期使用激素类药物的患者。
根据纳入排除标准,共纳入378例股骨颈骨折患者,其中未坏死组295例,坏死组83例。所有患者的基线信息见表1。
表1 股骨颈骨折患者基线信息Tab.1 Baseline information of patients with femoral neck fracture M(P25,P75),[n(%)]
将单因素差异有统计学意义的变量Logistic多因素回归共筛选出8个变量(表2),分别是BMI、Garden分型、完全负重时间、受伤至手术时长、VAS评分、术后错位程度、取不取内固定、CCI。
表2 Logistic多因素回归结果Tab.2 The results of Logistic regression
3种模型的构建均采用SPSS 20.0进行构建。MLP神经网络模型最佳参数设置:隐藏层数为2,第一层单位数为2,第二层单位数为5,隐藏层和输出层激活函数分别为sigmoid和softmax函数。RBF神经网络模型最佳参数设置:隐藏层数为1,单位数为3,隐藏层和输出层激活函数分别为标准化径向基和softmax函数。
3种模型训练集和测试集预测性能结果显示,MLP神经网络的准确度(0.940±0.022,0.917±0.013)、精确度(0.878±0.015,0.876±0.017)、召回率(0.828±0.024、0.885±0.018)、F1分数(0.897±0.019、0.938±0.000)以及AUC(训练集:0.940,测试集:0.923)均高于Logistic回归模型和RSF神经网络模型,见表3、4及图1。MLP神经网络变量重要性图显示排名前3的自变量分别是VAS评分、Garden分型、CCI,见图2。
图1 训练集和测试集3种模型的ROC曲线图Fig.1 ROC curves of three models for training and testing cohorts
图2 MLP神经网络变量重要性图Fig.2 The importance plot of variables for MLP neural network
表3 训练集3种模型预测性能指标Tab.3 Prediction performance metrics of three models for the training cohort
训练集和测试集3种模型预测性能指标比较结果显示MLP神经网络在准确度、精确度、召回率、F1分数以及AUC值等性能指标方面的表现均优于Logistic和RBF神经网络模型,各指标之间差异有统计学意义(P<0.05)见表5、6。
表4 测试集3种模型预测性指标Tab.4 Prediction performance metrics of three models for the testing cohort
表5 训练集3种模型预测性能指标比较Tab.5 Comparison of prediction performance metrics of three models in the training cohort
表6 测试集3种模型预测性能指标比较Tab.6 Comparison of prediction performance metrics of three models in the testing cohort
近年来随着交通以及建筑行业的兴起,股骨颈骨折的发生逐渐呈年轻化趋势,中青年股骨颈骨折患者在术后易发生股骨头坏死,已经成为再次手术的高危人群。目前关于术后股骨头坏死的危险因素分析,绝大多数研究[10-13]使用的仍然是传统Logistic回归。本研究通过分析378例经内固定治疗的新鲜股骨颈骨折患者的临床资料和预后信息,分别使用Logistic回归、MLP神经网络以及RBF神经网络3种方法建立股骨颈术后并发症预测模型,寻找最佳的预后预测方法。
在本研究中,多因素分析结果显示,VAS评分、Garden分型、术后错位程度、髋疏松、CCI、受伤至手术时长、BMI、取不取内固定等8个因素与术后股骨头坏死相关(P<0.05)。VAS评分越高,Garden分型等级越高、术后错位程度越严重、受伤至手术时长越长、CCI越低、BMI越高、完全负重时间越短以及保留内固定的患者术后更易发生股骨头坏死。本研究结果与国内外许多研究一致,一项关于250例股骨颈骨折患者7.5年的随访研究表明,术后错位程度、Garden分型以及内固定取出均是股骨头坏死重要的危险因素[14]。Shen等[15]和Lee等[16]的研究显示,BMI较高的患者,其术后股骨头坏死的发生率也明显升高,与本研究结果一致。主要原因可能是BMI较高的患者其对骨折断端产生的压力较大,增加了骨折断端的剪切力和移位程度,会导致血管进一步扭曲,这提示临床上应注意对于BMI较高患者的术后恢复期间的体重管理。潘显明等[17]对82例中青年股骨颈骨折患者进行研究发现下地负重行走时间越早(<6个月),股骨头缺血坏死概率越大,坏死的程度也越重,与本研究结果一致。因此,对于术后的患者应主张早活动晚负重的理念,来降低术后股骨头坏死的发生率[18]。此外,本研究还发现VAS疼痛评分以及CCI与术后股骨头坏死也有较强的关联,这可能主要是由于VAS疼痛评分较高和CCI较低的患者大多为高能量损伤的中青年患者,骨折移位程度较大,血管扭曲损伤程度严重,术后血运难恢复,从而易发生股骨头坏死[11,19-20]。同时本研究显示受伤至手术时间越长,股骨头坏死发生的危险性越高,Jain等[21]的研究发现受伤至手术时长>12 h的患者其术后股骨头坏死发生率明显高于<6 h的患者,与本研究结果一致;然而Xu等[22]的一项Meta分析并未发现受伤至手术时长与股骨头坏死之间存在关联,可能是由于各研究人群以及受伤至手术时长分组不一致,导致研究存在偏倚,所以受伤至手术时长对于股骨头坏死的影响还需进一步深入研究。
神经网络作为一种非线性分类模型,其通过神经元储存大量的信息,提高了对于数据信息的记忆力,便于处理高噪声的复杂数据,从而改善预测的精度[23-24]。本研究构建了MLP和RBF两种神经网络模型,研究结果表明训练集和测试集MLP神经网络模型的准确度、精确度、召回率、F1分数以及AUC值均高于Logistic回归预测模型和RBF神经网络模型(P<0.05),表明MLP神经网络模型具有良好的表现性能。而且针对于机器学习领域的“黑匣子”问题,本研究通过MLP神经网络模型对所有变量的重要性进行了排序,明确了VAS评分、Garden分型、CCI以及BMI等相关变量对于预测股骨颈骨折患者术后股骨头坏死方面的重要性,为神经网络用于个性化预测提供了依据。
本研究仍存在一些不足之处。首先,本研究收集的是上海市3家医院的回顾性病例,且阳性样本量偏少。其次,本研究构建的是单层神经网络,导致模型预测精度有限,后续应尝试多层甚至更复杂的模型。最后,研究还存在未被纳入的影响因素如营养状况、骨密度等影响股骨头坏死的因素。
综上所述,MLP神经网络在预测股骨颈骨折术后股骨头坏死方面的预测效能高于传统的Logistic回归,可以为临床上股骨头坏死的预防与诊治提供参考依据,协助临床医生更加精准的预测股骨头坏死的发生,具有较好的应用前景。