邓宇含,刘爽,王子尧,汪雨欣,刘宝花
卒中是全球最主要的死亡原因和致残原因之一[1],给社会带来沉重的经济负担[2]。由于人口老龄化速度加快,卒中的高危人群逐渐增加[3],且其发病人群具有年轻化的趋势[4]。提早识别高危人群,控制其发病的危险因素,对减少疾病负担以及延长期望寿命意义重大[5]。然而,由于卒中的发病原因复杂[6]、个体差异较大[7],传统的统计学模型在卒中发病风险预测方面存在一定的局限性[8]。
在大数据时代,数据量的日益扩增和计算机处理能力的快速提升使得机器学习方法的优势逐步体现[9],机器学习方法由于可以处理变量间的复杂关系且不要求数据遵从统计学假设,被越来越多地应用于疾病的诊断和预测方面[10-11],其中不乏用机器学习方法预测卒中发病风险的研究。虽然目前将机器学习应用于卒中的研究较多,但部分研究是以影像学资料为基础[12-13],而普通人群进行影像学检查的成本较高、检查比例较低,使得这些研究的结果不能在普通人群中广泛应用。结构化数据具有成本低、易测量、易获取的特点[14],用结构化数据预测卒中发病风险对于在普通人群中识别出高危个体具有重要意义。
目前,用结构化数据预测卒中发病风险的研究逐渐增加,但尚缺乏相关的综述性研究,机器学习是否能准确地识别卒中高危人群仍无定论。因此,本研究纳入当前用结构化数据预测普通人群卒中发病风险的文献,旨在评估机器学习模型在卒中发病风险预测中的应用价值和预测性能。
1.1 研究对象 以18岁以上的普通人群作为研究对象。纳入标准:①在普通人群中进行预测;②预测卒中首次发病的风险;③采用结构化数据和常规数据,如电子健康档案、保险索赔数据等建模和预测;④采用预后预测模型对特定时间间隔后的结局进行预测;⑤采用机器学习模型进行预测。排除标准:①采用诊断模型识别卒中患者或对疾病亚型进行分类的研究;②预测住院患者或因卒中相关症状在门诊就诊患者的卒中发病风险的研究。
1.2 文献检索策略 检索PubMed、Web of Science、Scopus、Embase 4个数据库2021年6月21日之前的所有文献,以系统评价和meta分析的首选报告项目(preferred reporting item for systematic reviews and meta-analysis,PRISMA)为基础进行分析[15]。研究方案及检索策略已在国际化前瞻性系统评价注册数据库(international prospective register of systematic reviews,PROSPERO)网站注册(CRD42021264406)[16]。
1.3 文献筛选与数据提取 两位研究者依据纳入排除标准独立对标题和摘要进行筛选,初筛合格者进入全文筛选,全文筛选同样由2名研究者根据纳入排除标准独立审查。两位研究者之间存在意见不一致的情况时,交由第三位研究者判定。
对于全文筛选后符合纳入标准的文章,由3位研究者参照预测模型数据提取相关研究(critical appraisal and data extraction for systematic reviews of prediction modelling studies,CHARMS)[17]独立进行数据提取,提取的信息包括期刊来源、研究发表年份、研究进行的国家、数据收集的国家、数据来源、研究类型、预测时间间隔、纳入的变量数、变量选择方法、样本量、阴性阳性事件比例、类别不平衡的处理、缺失值的处理、机器学习模型类别、超参数调整、内部验证、外部验证、实施软件、模型评估指标、是否开发工具、区分度评价、校准度评价、变量重要性等。
1.4 偏倚评估 以预测模型风险评估工具(prediction model risk of bias assessment tool,PROBAST)[18]为依据对文献进行偏倚风险评估,分别对研究对象、预测变量、结局和分析方法以及总体偏倚风险(前4个部分)和总体适用性(前3个部分)进行评估,风险分为低、未知、高3个等级。
1.5 模型表现与meta分析 模型表现通过区分度和校准度衡量。区分度衡量模型区分特定事件可能结果的能力,衡量区分度的指标为ROC曲线的AUC,取值范围为0.5~1,其中,0.5~<0.6表明模型无区分能力,0.6~<0.7表明模型的区分能力较差,0.7~<0.8表明模型的区分能力中等,0.8~<0.9表明模型的区分能力较好,0.9~1表明模型的区分能力极佳。校准度是一种评估模型拟合优度的指标,用于评估观测结果和预测结果之间的一致性,可以通过校准图或统计检验方法进行评估。
由于仅有极少数研究评估了模型的校准度,因此仅对衡量模型区分度的指标进行meta分析。排除具有高偏倚风险的研究,对中、低偏倚风险的研究中报告了模型的AUC及其95%CI者,用Robert G的方法[19]计算标准误,采用限制性最大似然估计进行随机效应meta分析。对于仅报告了模型的AUC,未报告其95%CI及标准误的研究,采用Hanley和McNeil的方法[20],根据AUC值、样本量和阴性阳性事件比例估计标准误,再对AUC进行meta分析。此外,考虑到各个研究之间的异质性,meta分析采用随机效应模型进行,即对总体参数进行加权平均。通过漏斗图和统计检验方法评估发表偏倚。通过剔除具有极端AUC值的模型,评估异常值对合并后AUC的影响。通过亚组分析解释研究存在的异质性的来源,具体包括预测时间间隔、算法类型、内部验证数据划分方法、是否进行超参数调整、预测变量个数和样本量大小等。meta分析在MedCalc中进行。
2.1 文献筛选流程 4个数据库共检索出6286篇文献,其中,重复文献2252篇,剔除重复文献后,经题目和摘要筛选,3954篇文献不符合纳入排除标准,对剩余80篇文献进行全文筛选,最终纳入文献11篇[21-31],文献筛选流程见图1。
图1 文献筛选流程
2.2 文献特征描述 多数研究(7篇)在中国进行;数据来源包括电子健康档案(2篇)、医疗保险数据库(3篇)、调查数据(4篇)和医院来源的数据(2篇);中位随访时间为3年;纳入预测变量数的中位数为26,其中有7篇研究进行了变量选择,仅有3篇研究描述了预测变量的测量方法,5篇研究提到了对变量的处理。样本量的中位数为8175。其中,6篇研究所纳入的研究对象均存在类别不平衡问题,即未发病者远多于发病者;有5篇研究描述了类别不平衡问题,其中4篇研究对类别不平衡问题进行了处理。所有研究中,仅有4篇研究对缺失数据进行了描述,4篇研究对缺失数据的处理方法进行了描述。研究用到的机器学习模型包括神经网络(5篇)、随机森林(3篇)和支持向量机(5篇)等,其中,有5篇研究对超参数进行了调整。11篇研究中,有3篇研究未进行内部验证,其余研究中,有4篇研究通过K折交叉验证的方法对数据集进行划分,4篇研究对数据集进行了单次随机划分;仅有1篇研究进行了外部验证;有2篇研究未对模型的区分度进行评估,其余研究均评价了模型的AUC;仅有1篇研究对模型的校准度进行了评估;此外,5篇研究对预测变量的重要性进行了评价。11篇文献数据提取的详细资料可在PROSPERO网站查询(CRD42021264406)。
2.3 偏倚评估结果 依据PROBAST进行偏倚风险评估的结果见图2。在研究对象、预测变量和结局3个部分中,均有8篇为低风险;在分析方法部分中,偏倚风险为“未知风险”的研究有4篇;综合前4个部分的“未知风险”,致使总体偏倚风险多为“未知风险”。对于适用性问题,偏倚风险为“未知风险”的研究有6篇,仍占多数。
2.4 主要结局与meta分析结果 排除具有高偏倚风险的3篇研究,其余8篇研究建立的33个模型的AUC的变化范围为0.560~0.925,中位数为0.76 4。其中,5个模型的AUC位于0.5~<0.6,表明无区分能力;2个模型的AUC位于0.6~<0.7,表明区分能力较差;18个模型的AUC位于0.7~<0.8,表明区分能力中等;6个模型的AUC位于0.8~<0.9,表明区分能力较好;2个模型的AUC位于0.9~1,表明具有极好的区分能力。
随机效应meta分析结果见图3,异质性I2=99.70%(P<0.001),整合后的AUC为0.745(95%CI0.712~0.778)。
图2 偏倚风险评估结果
2.5 亚组分析I2和P值显示多数亚组内均存在异质性,亚组间的比较通过AUC 的95%CI是否重叠进行。预测时间间隔为3年(AUC=0.810,95%CI0.750~0.870)和5年(AUC=0.784,95%CI0.774~0.794)的研究相比于1年(AUC=0.689,95%CI0.621~0.757)和2年(AUC=0.713,95%CI0.708~0.719)的研究模型的区分能力较好。三种机器学习模型预测能力差异较小,其中,随机森林(AUC=0.755,95%CI0.693~0.818)预测能力较好,但与其他两种模型的差异无统计学意义。未进行超参数调整的模型的预测能力(AUC=0.762,95%CI0.744~0.780)略优于进行了超参数调整的模型的预测能力(AUC=0.733,95%CI0.678~0.788)。通过交叉验证方法划分数据集得到的预测结果(AUC=0.766,95%CI0.731~0.802)相比于随机划分数据集得到的预测结果(AUC=0.726,95%CI0.673~0.779)较好。纳入的预测变量个数≥100的模型的预测能力(AUC=0.806,95%CI0.774~0.837)显著高于预测变量个数<100的模型(AUC=0.684,95%CI0.643~0.725)。样本量较大的模型的预测性能优于样本量较小的模型的预测能力(表1)。
2.6 发表偏倚与敏感性分析 漏斗图和Egger检验结果(P=0.050)均显示研究存在发表偏倚(图4)。剔除具有极端AUC值(AUC=0.560[27],AUC=0.925[25])的模型后,随机效应meta分析结果为0.746(95%CI0.714~0.777;I2=99.67%,P<0.001)。对比所有模型随机效应meta分析结果[0.745(95%CI0.712~0.778);I2=99.70%,P<0.001],可见合并后的AUC对异常值不敏感。
由合并AUC可见,机器学习模型预测卒中发病风险的区分能力处于中等水平(AUC 0.745,95%CI0.712~0.778),表明其存在一定的应用价值,但仍需进一步探讨不同研究的差异来源,并通过针对性的改进提高模型预测能力。
表1 亚组分析结果
图4 发表偏倚评估结果
亚组分析可以探讨研究的异质性来源。亚组分析显示,较大的样本量(≥100 000)和较大的预测变量数量(≥100)可以显著提高模型的预测能力,这也与机器学习模型能够处理变量间复杂的相互关系并从大样本中进行学习相对应[32]。亚组分析结果还显示,常规的机器学习模型(随机森林、神经网络、支持向量机等)之间预测性能的差异不大,这也与已有的研究结果相一致[33]。从不同机器学习模型的应用频率可见,神经网络的应用频率最高,即在不考虑模型可解释性和过拟合问题的情况下,多数研究倾向于使用较为复杂的模型[34]。然而,纳入的部分研究在常规的机器学习模型的基础上进行了优化和改进,得出了诸如混合深度转移模型(hybrid deep transfer learning,HDTL)[22]、Dempster-Shafer分类器(Dempster-Shafer classifier)[21]等的新型预测模型,使得其预测性能明显提升,但由于这些模型尚未广泛应用,其价值需要进一步探索。亚组分析显示预测时间间隔对预测性能有一定的影响,其中,预测时间间隔为3年时,模型的预测性能较好,这或许提示了预测卒中患者发病的最佳时间间隔[35]。不同的数据集划分方法同样对模型的预测能力有影响,相较于单次随机划分,K折交叉验证在一定程度上弥补了单次划分的偶然性,因此具有更好的预测性能[36]。此外,进行了超参数调整的模型比未进行超参数调整的模型表现略差,这可能是由于未进行超参数调整的模型采用了其他超参数选择方法,如借鉴已有的已经过验证的研究中的超参数等。
偏倚风险评估显示大多数研究的质量均存在问题,且多数研究存在方法学缺陷,这也与已有的系统综述结果相一致[37],这可能是由于用机器学习模型进行建模和预测的研究缺乏报告规范[38],因此难以保证研究质量。机器学习的优点之一是可以处理高维变量间的复杂关系[39],因此对样本量的要求较高,而部分研究纳入的样本量较少。此外,机器学习模型的复杂性使其无法对预测变量与结局之间的关系进行明确的解释,因此在实际应用时受到限制,而进行预测变量重要程度的衡量可以增加机器学习模型的可解释性,但是,11篇研究中仅有4篇研究报告了预测变量的重要程度。此外,所纳入的研究之间存在较大的异质性,且异质性在多数亚组内同样存在。由于不同研究的数据类型与来源均不同,虽然本研究将研究对象限定为了普通人群,但由于预测变量的纳入通常依赖于当前数据的特征,不同研究所纳入的预测变量之间仍存在一定的差异,如Chen等[22]的研究仅纳入了实验室检查变量作为预测变量;而在Chen等[31]的研究中,虽然实验室检查变量纳入较少,但却纳入了体格检查指标、病史和生活方式等变量,部分研究也纳入了用药相关变量[25,29];而预测变量的类型通常对结果具有决定性影响,因此,很难对这种因预测变量而产生的异质性进行消除或弱化。
由发表偏倚漏斗图可见,数据点呈横向聚集样分布,即多数研究AUC的标准误均无明显差异,这可能是由于纳入的11篇研究均未报告AUC的标准误,需要通过置信区间和样本量等推算得出,而用这些方法推算出的AUC的标准误不能完全代表真实的标准误,可能存在一定的偏倚,在后续的研究中可以探索用已有的指标进行AUC的合并。
本研究存在一定的局限性:首先,合并后AUC是基于标准误产生的,而多数研究并未直接提供该指标,也尚未有其他方法可以由文章中已有的指标对AUC进行合并,因此,仅能通过对标准误进行间接推断的方法计算合并后AUC,这在一定程度上影响了结果的准确性。其次,并非所有研究都选取AUC作为模型预测效果的评价指标,而诸如准确率、敏感度、特异度等指标也应该纳入考虑范围。再次,由于纳入的多数研究在进行时尚未有相应的指南对预后预测模型的建立方法与步骤进行明确规定[40],因此,多数研究均缺少方法学部分的信息,在一定程度上影响了该研究的结果。
综上所述,用结构化数据和机器学习方法预测人群卒中发病风险的效果一般,且相关研究的质量普遍不高。后续的研究应着重提高研究质量,进而针对性地提高模型的预测能力。