基于机器学习的老年创伤性颅脑损伤预后研究

2020-05-13 06:20秦家骏陈先震

同济大学学报（医学版） 2020年2期

秦家骏，陈先震

（同济大学附属第十人民医院神经外科，上海 200072）

创伤性颅脑损伤（traumatic brain injury，TBI）是发病率和死亡率较高的外伤性疾病之一，全球每年TBI 发病率为（110～332）／10 万人，死亡率为（10 ～20）／10 万人［1］；老年 TBI 发病率占全年龄的 5% ～10%，其中，重型TBI 中老年人的占比约为15%，轻中度占比约为10%，死亡TBI 病例中，老年人占比为50%～60%［2］。老年 TBI 具有程度重、预后差的特点，通过急性期临床指标来对老年TBI 预后进行预测的研究日益受到重视。目前，常用的预测模型有格拉斯哥昏迷评分量表（Glasgow Coma Scale，GCS）、简明损伤评分量表（Abbreviated Injury Scale）等，均采用TBI 急性期指标作为预测依据，但并未针对老年人机体功能减退、并发症多等情况进行优化，对老年人的预测评估具有较大偏差，进而对患者的临床决策产生影响，一定程度上造成不必要的社会、经济负担［3⁃4］。

为此，本研究运用机器学习的方法对TBI 患者预后进行统计建模，利用筛选后的预测模型对老年TBI 的影响因素进行研究，比较老年TBI 患者与非老年患者的差异，以期加强对TBI 预后的认识。

1 资料与方法

1.1 研究对象

收集同济大学附属第十人民医院2009年1月—2019年1月2 272 例TBI 患者的资料进行分析，纳入患者均为在我院首诊的TBI 患者，性别、年龄不限，急诊治疗方案不限，但合并有非颅脑多发伤的患者应予以排除。本研究经过同济大学附属第十人民医院伦理委员会批准（SHSY⁃IEC⁃3.1／16⁃87／01）。试验过程中对受试者的资料进行了严格的保密，不涉及活体的侵入性检查、手术，符合伦理学的相关要求。

1.2 研究方法

采用回顾性队列研究的方法，对符合纳入标准的研究对象资料进行收集。根据世界卫生组织（WHO）的共识，老年患者定义为年龄≥65 周岁的患者，本研究采用该标准将研究对象分为老年组与非老年组。将两组患者的年龄、性别、急诊影像学诊断、急诊治疗方案、急诊GCS 评分作为基线指标，外伤后3 个月格拉斯哥预后评分（Glasgow Outcome Scale，GOS）、住院天数、并发症发生次数作为观察的终点指标。考虑到TBI 重度残疾、植物状态及死亡患者的医疗、家庭负担较大，故对GOS 进行二分类转换，将GOS中4～5 分患者规定为预后较好的一类，1～3 分规定为预后较差的一类。根据目前神经外科的诊疗经验，加强预测模型的临床实用性，将住院天数分为＜14 d 与≥14 d 两类。上述资料不全的患者不纳入研究。将相关数据资料进行整理、统计，并利用相关模型进行数据分析。

1.3 统计学处理

本研究采用R3.5.3 软件进行数据处理。数据资料首先进行标准化处理，单因素分析中，计量资料采用t检验或wilcoxon 秩和检验进行分析，分类资料采用χ2检验进行分析。计量资料通过Kolmogorov⁃Smirnov 法进行正态性检验。P＜0.05 为差异有统计学意义。

GOS 和住院天数的模型预测目标为二分类数据资料，并发症次数为计数资料，结局指标的初步分析中，二分类资料采用Logistic 回归进行分析，计数资料采用泊松回归进行分析。未调整结果不考虑基线指标的影响，调整后结果考虑基线指标的主效应。通过计算，明确老年组相对于非老年组的终点指标比值比。

将两组数据一并归入数据集，并按0.75 ∶0.15 ∶0.15 的比例随机分为训练集、测试集和验证集，训练集数据用于统计模型的训练，验证集数据用于各模型超参数校准，测试集数据用于模型泛化能力的验证。统计模型采用多层感知器、径向基函数、C5.0 决策树、CHAID 决策树、QUEST 决策树、C＆R决策树、贝叶斯网络、判别分析及决策列表模型进行建立，上述过程重复5 次，采用受试者工作曲线（ROC）曲线和准确率对各模型的平均精确性进行比较，ROC 曲线的差异性检验采用非参数法进行。根据验证集平均曲线下面积（AUC）和准确率的高低优选3 种模型作为最终的预测模型。

计算筛选后的模型在各分组中的平均准确度、特异度、敏感度，评价模型在各组患者中的适用性。适用性好的标准为模型的特异度、特异度、敏感度＞0.7。比较各模型影响因素权重占比的差异，并结合模型适用性，分析老年组患者与非老年组患者预后影响因素的差异。

2 结果

2.1 一般资料

纳入研究患者共计2 272 例，其中老年组680 例，非老年组1 592 例，两组各项基线资料汇总如表1 所示。两组患者年龄、性别、影像诊断结果、手术治疗率、GCS 的分布与构成差异均有统计学意义（P＜0.001）。

2.2 患者结局指标的分析

终点指标的分析表明，老年组患者预后比非老年组患者差，OR 值为0.7；老年组住院天数较长，OR 值为 1.8，两指标差异有统计学意义（P＝0.024，P＜0.001），但伤后并发症的发生次数的差异无统计学意义（P＝0.295），见表2。

2.3 机器学习模型训练的评估

数据集中包括训练集、验证集、测试机，利用数据集对不同的模型进行训练，其中多层感知器和贝叶斯网络模型的结果如图1、2 所示。上述过程进行5 折交叉验证，得到图3 中各GOS、住院天数、并发症次数的预测模型 ROC 曲线。由表3中测试集AUC 及准确度可知，所有模型的综合预测能力较高，AUC＞0.90，准确度＞0.8。其中，多层感知器、C5.0 决策树、支持向量机对GOS 模型拟合比较理想，3 种模型 AUC＞0.85，准确度＞0.8。

表1 患者一般资料汇总Tab.1 Summary of general characteristics of patients

表2 终点指标结果汇总Tab.2 Summary of endpoint indicator results

2.4 老年组与非老年组模型适用性的评估

为了进一步考察模型对各分组病例的预测能力，计算了上述3 种模型在老年组与非老年组中的特异度、敏感度、准确度。表4 的结果表明，各模型对老年组的适用性整体低于非老年组，GOS 模型中，多层感知器对两组病例的适用性均是最理想的，而住院天数和并发症次数模型中，多层感知器对老年组的适用性较好，C5.0 决策树对非老年组的适用性较好，住院天数的支持向量机模型适用性较差，应予以排除。因此，老年组的3 个预测指标和非老年组的GOS 应使用多层感知器模型进行拟合，非老年组的住院天数和并发症次数应使用C5.0 决策树进行预测。

2.5 预测模型影响因素的分析

多层感知器在3 个目标预测中AUC 和准确度均比较理想，3 个目标变量的网络结构大致相同。如图1 所示，网络模型的输入层和隐藏层均包括10个输入（或隐藏）变量和1 个偏差变量，输出层包括1 个输出变量。GOS 模型测试集准确度95.3%，特异度96.3%，敏感度93.2%；住院天数模型准确度85.2%，特异度79.7%，敏感度97.3%；并发症模型准确度89.7%。多层感知器模型表明（图4），基线指标对不同预测指标有不同影响。然而，急诊GCS、年龄对患者伤后第3月GOS、住院天数、并发症次数均有较大影响。

C5.0 算法的决策树模型对颅脑外伤3 种指标的预测准确性也比较高。其中，GOS 和并发症次数的深度为20，住院天数的深度为21。GOS 模型共有10 个输入变量纳入模型，住院天数和并发症次数模型共有11 个变量纳入模型。GOS 模型准确度94.7%，特异度95.9%，敏感度92.4%；住院天数模型准确度90.5%，特异度79.7%，敏感度97.3%；并发症次数准确度89.4%。与多层感知器模型不同，各输入变量对预测指标的影响比较均衡，年龄对预测指标的影响较小（图4）。

图1 GOS 多层感知器模型网络结构Fig.1 GOS multilayer perceptron model network structure

图2 GOS 贝叶斯网络模型结构Fig.2 GOS Bayesian network model structure

支持向量机模型使用径向基函数内核，惩罚系数0.1，伽马值0.1。GOS 模型共有9 个输入参数，特异度90.0%，敏感度85.6%；住院天数模型有8 个参数，特异度65.2%，敏感度90.5%；并发症次数模型有10 个参数，准确度为80.5%。模型中基线指标对预测目标的贡献比重与上述两模型均不同，年龄因素与多层感知模型相比占比较小（图4）。

结合2.4 节的结果来看，GOS 在两组中的影响因素无明显差异，急诊时的GCS 与患者的具体年龄为影响患者伤后第3 个月患者状态的主要因素；而住院天数和并发症次数在两组中的影响因素有明显差异，老年组两指标的主要影响因素与GOS 模型基本一致，但非老年组中各基线指标对住院天数和并发症次数的影响权重大致相同，缺乏主要影响因素。由此可以得知，与非老年人相比，入院GCS 和具体年龄对老年患者的预后影响更大，老年组中不同年龄段的预后也有一定的差异。

图3 GOS、住院天数模型ROCFig.3 ROC of GOS，hospitalization days models

3 讨论

老年 TBI 的预后研究已有众多文献的报道［5⁃7］，但既往文献多数是确证性研究，探索性研究偏少。近年来，由于机器学习方法的大量应用，TBI 预后模型的研究逐渐增多，但目前文献报道［8⁃10］的模型上有以下几点不足。（1）多数文献是探索性研究，缺乏对模型中不同影响因素差异的确证性探讨。（2）目前TBI的死亡率低，单纯将死亡率作为终点指标可能不尽合理。（3）机器学习模型与传统模型相比，在不同年龄层或不同诊断患者中影响因素的异同无法直接进行比较。（4）既往文献所纳入的影响因素中包含许多急诊不易获取的指标，临床决策的外部实用性较差。

表3 GOS、住院天数、并发症次数预测模型AUC 和准确度的汇总Tab.3 Summary of AUC and accuracy of GOS，hospitalization days，and number of complications prediction models

表4 模型在老年组与非老年组中的适用性Tab.4 Applicability of models in the elderly and non⁃elderly groups

图4 基线指标在预测模型中权重的占比Fig.4 The proportion of the weight of the baseline indicator in prediction models

针对上述4 点问题，本研究进行了以下改进。（1）利用Logistic 模型对预后影响因素进行了确证性研究，但由于本研究自变量较多，Logistic 回归对模型的拟合度较差，临床适用性不高。为此，在确证性研究的基础上进行了探索性研究，建立并筛选出了对数据集拟合度较好的统计模型。（2）由于TBI患者预后评估的多维性、复杂性，采用伤后第3 个月GOS 的评分作为主要指标，住院天数、并发症次数作为次要指标，以期尽可能全面地反映老年性TBI预后的基本情况。（3）本研究筛选出针对不同年龄层的最优模型，考察老年患者与非老年患者预后影响因素的差异。（4）在指标选择过程中，尽可能采用临床表现和诊断方面的指标，使预测模型能够更好地指导急诊医师的诊疗决策。

老年TBI 患者预后差、住院天数长这一结果在既往文献中已有多次报道［11⁃14］，但老年患者并发症次数的问题，在过去的研究中较少提及［15］。本研究表明，老年患者并发症发生次数与年轻人之间的差异无统计学意义，这一结果可能与指标的选择有关，老年患者并发症次数虽然与非老年人大致相同，但并发症的严重程度可能有极大的差异。

通过对多种机器学习模型的筛选和评估，本研究发现，在全年龄数据集中，多层感知器、C5.0 决策树和支持向量机模型对GOS、住院天数、并发症次数的预测能力均比较理想，虽然贝叶斯网络等模型对GOS 预测的准确度较高，但它们对另外两个指标的拟合不佳。以往文献中缺乏对上述3 个指标预测模型的研究，故无法简单进行类比，但近年来以死亡率为指标的研究提示［16⁃19］，多层感知器模型优于其他类型的统计模型，而决策树的准确度却低于其他模型，这可能与决策树的不同算法有关。文献表明，支持向量机的模型拟合能力优于广义线性模型，本研究的结论与既往文献基本一致［20⁃21］。

在老年组与非老年组的分组评估中，本研究发现上述3 种模型对老年组的预测能力低于非老年组。这一现象在既往文献中未见报道，但从模型构建的流程中看，可能与老年组患者病例数较少有关，同时，这可能反映了老年组与非老年组预后影响因素的差异，这一猜测在后面的组件影响因素差异的分析中也得到了印证。本研究表明，老年组与非老年组伤后第3 个月GOS 的影响因素基本一致，入院GCS 依然是评估患者预后的重要标准，这与文献中的结论一致［7，22⁃23］，此外，具体的年龄也对 GOS 的结果有重要影响，这说明在≥65 岁患者中，不同年龄段的人群预后也有所不同，结合既往文献结果［5，24］，可以推断 GOS 得分与年龄呈反相关关系。对于住院天数和并发症次数的预测模型而言，不同分组所使用的模型也不同，由此可以看出，老年患者的住院天数和并发症次数对急诊GCS 和具体年龄更敏感，非老年患者的影响因素比较复杂，缺乏主要影响因素。这一结果在既往文献中尚无报道，结合临床经验分析，这可能与老年TBI 患者机体功能减退，病情重、病程长有关。

本研究虽采用多种统计方法来探讨老年TBI 预后的问题，但仍有以下几点不足。（1）研究人群可能存在选择偏畸，研究中未将急诊前已经死亡或多次专员的患者纳入分析。（2）模型中仅考虑了患者急诊来院时的人口学资料、临床表现、影像学诊断和治疗方案，重要的生化指标、分子标志物等指标未被纳入研究，这一问题可能导致模型的准确度降低。（3）研究样本量偏少，指标偏多，缺乏降维分析、聚类分析，模型的复杂度问题尚需进一步探讨。

综上所述，老年颅脑外伤患者的伤后第3 个月GOS、住院天数和并发症次数可采用多层感知器模型进行预测，而非老年患者的GOS 可利用多层感知器模型预测，住院天数和并发症次数则可以利用C5.0 决策树进行预测，老年TBI 预后模型与非老年TBI 不尽相同。老年患者中年龄和急诊GCS 对预后的影响可能更大。下一步将扩大样本量，增加基线指标，提高预测模型准确率。