基于机器学习方法构建IDH野生型胶质母细胞瘤预测模型研究

2024-06-27 14:25许广智张佳乐伊西才魏礼洲刘卫平
临床神经外科杂志 2024年3期
关键词:线图母细胞胶质

许广智 张佳乐 伊西才 魏礼洲 刘卫平

【摘要】 目的 建立异柠檬酸脱氢酶(IDH)野生型胶质母细胞瘤生存概率的列线图模型及随机生存森林模型。方法 回顾性分析2017年1月—2020年12月在空军军医大学附属西京医院手术治疗的127例IDH野生型胶质母细胞瘤患者临床资料,进行预后因素分析并建立列线图模型及随机生存森林模型,通过C指数,校准曲线,决策曲线评价模型的区分度,校准度以及临床净获益率。结果 使用Cox比例风险模型进行多因素分析发现,患者术前卡氏功能状态评分(KPS)、是否接受同步放化疗、年龄、O6-甲基鸟嘌呤甲基转移酶(MGMT)蛋白表达,是独立的预后因素(P<0.05)。通过Cox回归模型建立列线图预测模型;通过R软件建立随机生存森林模型,两个模型均具有良好的区分度和校准度,随机生存森林模型的临床净获益优于列线图模型。结论 建立的列线图模型及随机生存森林模型有助于临床医生判断患者特定时间点的生存概率。

【关键词】 IDH野生型胶质母细胞瘤;列线图;随机生存森林;预测模型;MGMT蛋白

【中图分类号】 R739.41  【文献标志码】 A  【文章编号】 1672-7770(2024)03-0280-07

机器学习是近年来的热点领域,被广泛应用于生存分析中。最早的机器学习方法为生存树的概念,类似于决策树,生存树也是通过树节点选择最佳分割,最大化两个节点的生存差异,通常使用Log-rank检验作为分裂标准。随着预测模型研究的进展,越来越多的预测模型被研发出来,在生存分析中最常用的预测模型是列线图和随机生存森林模型[1]。列线图运用于生存分析中,原理是将Cox多因素分析建立的模型进行可视化绘制,通过对各因素分值的结合,确定个体发生某个临床事件的概率。其优点为可以将连续变量以及其他影响因素进行整合,并可视化地呈现在列线图中,便于临床应用[2]。列线图可以分析多种结局事件,如肿瘤的转移、复发、死亡等,应用于生存分析中主要预测复发概率、生存概率等。列线图虽然简单实用,但由于其必须满足比例风险假定,即假设某个事件发生率不随时间变化而变化,并且由于技术的进步以及实际情况,部分事件发生率会随着时间改变,会影响列线图的准确性,因此基于Cox回归分析的列线图预测模型应用有一定限制[3]。随机生存森林(random survival forest,RSF)是2008年首次提出的机器学习方法,是生存树与随机森林的结合。其特点为不要求数据满足对数线性假定以及比例风险假定,并且其预测准确度不低于Cox比例风险模型,可用于高维数据的数据筛选。本研究通过纳入2017年1月—2020年12月在空军军医大学附属西京医院神经外科手术治疗的127例异柠檬酸脱氢酶(isocitric dehydrogenase,IDH)野生型胶质母细胞瘤患者,构建生存概率的列线图以及随机生存森林模型,预测患者不同时间点的生存概率,并通过区分度、校准度、决策曲线评价两种方法的适用性。

1 资料与方法

1.1 一般资料 共纳入127例WHO Ⅳ级IDH野生型胶质母细胞瘤患者,其中男74例,女53例;年龄20~79岁,中位年龄55岁(四分位数间距为17);术前卡氏功能状态评分(Karnofsky performance scale,KPS)评分≥70分的95例(74.8%)。纳入标准:(1)所有患者首次入院,且由病理科专家诊断为WHO Ⅳ级IDH野生型胶质母细胞瘤;(2)术前无严重的心肝肾等系统异常;(3)所有患者知情同意,并签署知情同意书;(4)所有患者均行肿瘤切除术。排除标准:(1)复发型或曾经确诊为低级别胶质瘤的继发性胶质瘤;(2)临床资料不完整或病理资料不全;(3)妊娠或者哺乳期女性;(4)肿瘤病理标本不符合检测要求,随访(联系人)资料不全的患者;(5)术后有严重的手术并发症或者严重的不良反应。本研究已通过西京医院伦理委员会批准(批准号:XJLL-KY20222013)。

1.2 切除程度评价及随访方法 通过手术记录,术后影像学资料来判定切除程度。通过电话随访的方式对患者进行出院后随访。总生存期定义为手术日至患者因IDH野生型胶质母细胞瘤死亡或随访截止时间。平均随访时间为18.2个月。

1.3 统计学方法 使用R4.2.1软件及SPSS 23.0软件对数据进行统计分析。使用R软件的survival包建立Cox比例风险模型,多因素Cox比例风险模型采用单因素Cox分析中有意义的变量(P<0.05),并对多因素Cox比例风险模型进行比例风险(proportional hazards,PH)假定的检验,检验方法为使用R的Cox.zph函数,对Cox回归模型的有效性进行Schoenfeld残差的趋势检验,检验纳入的变量是否P>0.05并绘制可视化曲线。计算风险比(hazard ratio,HR)及其相应的95%置信区间(95% confidence interval,95%CI)。以P<0.05认为差异有统计学意义。

1.3.1 随机生存森林的构建 使用R4.2.1进行统计分析。利用randomForestSRC包,以200棵树为基础构建随机生存森林模型。基于使模型稳定的ntree纳入Cox单因素分析有意义的变量。使用网格搜索法(grid search)计算各种组合的袋外错误率,将能够达到最低袋外错误率的mtry和nodesize筛选出来,并构建随机生存森林模型。再计算各变量的最小深度以及预测其重要性。

1.3.2 列线图预测模型的构建 使用R4.2.1软件的survival和rms包,利用内容二中构建的Cox多因素模型的β系数绝对值进行排序,然后将所有变量按照各自的β系数绝对值与β系数最大的系数绝对值相比,换算成相应分值,用rms包将各变量以其分值以平行线的形式绘制在同一个坐标系中,制作列线图。在列线图下方制作不同时间节点的总刻度所对应的预测生存率,可以从一定程度上预测个体在IDH野生型胶质母细胞瘤术后的生存概率。

1.3.3 预测模型的评价 使用1 000次Bootstrap重抽样法,即自举法进行内部验证。通过一致性指数(concordance index,C-index)评价区分度,即将不同的患者区分开的能力,利用pec包中的cindex函数计算6个月、12个月、24个月的C指数(一致性指数)及校正C指数。rms包中的calibrate函数绘制校准曲线来评定模型的校准度。利用stdca.R程序绘制6个月、12个月、24个月的临床决策曲线(decision curve analysis,DCA),其可以预测模型的临床有效性,净收益高,认为临床效用更好,预测模型越远离两条极端线,其人群净获益更高。

2 结 果

2.1 临床特征 肿瘤相关指标显示,术中完全切除肿瘤有60例(47.21%),肿瘤未全切有67例(52.89%),术后接受同步放化疗有72例(56.7%)、仅接受化疗为9例(7.09%)、仅接受放疗为3例(2.36%)、接受放化疗治疗但并未同步进行2例(1.57%)、没有接受放化疗41例(32.28%)。ATRX阳性患者共104例,占全部患者的81.9%;Ki-67阳性患者共118例,占全部患者的82.7%;O6-甲基鸟嘌呤甲基转移酶(O6-methylguanine-DNA methyltransferase,MGMT)阳性患者共41例,占全部患者的32.3%;P53阳性患者共28例,占全部患者的22.0%。见表1。截至2022年8月5日因胶质瘤而死亡的为107例(84.3%),平均生存期为19.57个月,中位生存期为14.5(95%CI=12.7~16.3)个月。

2.2 IDH野生型胶质母细胞瘤Cox比例风险模型分析结果 单因素Cox回归分析显示年龄越低、KPS指数≥70、MGMT表达阴性、接受同步放化疗为总生存期(overall survival,OS)的保护因素(P<0.05)。通过R的cox.zph函数,对Cox比例风险模型进行Schoenfeld残差趋势检验。对上述Cox单因素模型有意义的变量,通过ggcoxzph函数进行可视化处理。可知年龄、KPS评分、MGMT蛋白表达、是否接受放化疗这四个因素不因为时间的改变而改变发生率,因此符合PH假定可以纳入Cox多因素分析中。

将上述单因素Cox分析中有意义的因素纳入Cox多因素分析中。使用R语言的coxph函数,通过逐步回归法,以死亡为结局变量、OS为时间变量进行分析。结果显示患者年龄、术前KPS评分、是否接受同步放化疗、MGMT蛋白表达,是总生存期的独立影响因素(P<0.05)。见表2。

2.2.1 建立随机生存森林预测模型 将年龄、是否接受同步放化疗、KPS指数以及MGMT蛋白表达作为自变量,死亡作为结局事件,当ntree取200时,模型表现趋于稳定,计算时间适中。当mtry取2、nodesize取15时,袋外错误率达到最低。各变量对IDH野生型胶质母细胞瘤的重要性依次为是否接受放化疗、年龄、KPS指数以及MGMT蛋白表达(图1)。

2.2.2 随机生存森林模型预测的前10个体的生存曲线 使用R语言的matplot函数,绘制数据中前10个体的生存曲线。随机生存森林为不可视化的预测模型,对于个体患者的预测是通过将个体患者的年龄、KPS指数、是否接受放化疗、MGMT蛋白表达输入R中进行个体患者的生存曲线绘制(图2)。

2.2.3 随机生存森林模型评价 随机生存森林在模型构建过程中可以形成带外错误率,即对患者预后的错分率,本模型袋外错误率为37.45%。随机生存森林模型在6个月、12个月、24个月的 Bootstrap校正C指数分别为0.724、0.696、0.700。绘制随机生存森林模型的Bootstrap法重抽样1 000次验证校准曲线,表明预测模型的校准度较好,即预测生存率和实际生存率接近(图3)。

2.3 建立列线图预测模型 根据Cox多因素回归分析中的独立预后因素年龄、KPS评分、是否接受放化疗、MGMT蛋白表达构建列线图。用这四个变量在Cox多因素回归方程中的β系数,使用R语言的rms包构建列线图(图4)。例如1例48岁患者、接受了放化疗、入院KPS评分小于70分、MGMT蛋白表达阳性,则对该患者的各项评分相加,47+65+70+48=230,则预测该患者6个月生存概率为73%、12个月生存概率为30%、24个月生存概率小于10%。

2.4 列线图的内部验证 通过Bootstrap重抽样1 000次计算出三个点的置信区间作为三条竖线,绘制得到校准曲线。模型经过1 000次重抽样内部验证校准后,其校准曲线接近45°角,表明预测模型的校准度较好,即预测生存率和实际生存率接近(图5)。列线图模型在6个月、12个月、24个月的Bootstrap重抽样校正C指数分别为0.701、0.647、0.653,表明模型具有良好的区分能力。

2.5 决策曲线 绘制6个月、12个月、24个月的随机生存森林模型与列线图模型的决策曲线用以评估两个模型的临床净获益。在三个时间节点中,随机生存森林模型与列线图模型的曲线与两条极端曲线较远,因此使用两种预测模型的临床净获益率较高(图6)。在12个月、24个月的DCA曲线中,随机生存森林的曲线相对列线图模型,距离两条极端曲线更远,因此在这两个时间节点,随机生存森林模型的临床净获益优于列线图模型。

3 讨 论

IDH突变的WHO Ⅳ级成人弥漫性胶质瘤中位生存期为39.4个月,远高于既往报道的WHO Ⅳ级成人弥漫性胶质瘤的平均生存时间14.6个月[4]。因此2021年新版的中枢神经系统分类将成人弥漫性胶质瘤分成IDH突变型以及IDH野生型两类,本研究着重分析IDH野生型胶质母细胞瘤[5]。IDH野生型胶质母细胞瘤作为一种新的分类方式,其患者人口学特征、临床特征以及免疫组化标志物的情况尚待总结分析[6]。

单因素及多因素预后分析表明,在IDH野生型胶质母细胞瘤中,术前KPS评分、年龄、是否接受同步放化疗均为独立影响因素,而MGMT蛋白表达,是分子标志物中的独立影响因素(P<0.05)。这个结果与WHO Ⅳ级成人弥漫性胶质瘤的Cox回归分析结果相似[7]。年龄是IDH野生型胶质母细胞瘤的一个很重要的预后因素。由于老年患者伴随的循环系统疾病、衰老的内脏功能以及能量储备等原因,导致老年患者并非标准治疗方案的最佳适用者,因此部分老年患者无法接受手术或者放化疗治疗,这也与老年患者预后差有关。是否接受了同步放化疗治疗是IDH野生型胶质母细胞瘤一个重要预后因素。有研究表明,在年龄大于65岁的高龄人群中,联合放化疗相对于单独放疗生存收益更高[8]。手术切除程度也是一个很重要的预后指标,可以减轻占位效应、获得病理标本,并且可以很好地减少体内肿瘤细胞数量。在WHO Ⅳ级成人弥漫性胶质瘤中,单纯的肿瘤切除术可以使生存期增加约6个月[9]。KPS评分是一个与预后关系密切的指标,其评分越高,患者健康情况越好、对治疗的耐受性更高、更能接受完整的标准化治疗。MGMT蛋白是一种修复蛋白,当MGMT蛋白不足时会导致DNA修复过程受到影响,导致未修复的DNA受到损伤。既往研究表明,MGMT蛋白的低表达是WHO Ⅳ级成人弥漫性胶质瘤的独立保护因素[1012],同时,本研究结果证实MGMT蛋白低表达在WHO Ⅳ级IDH野生型胶质母细胞瘤中仍然是独立的保护因素。

机器学习作为一种新兴的热门学科,在医学统计领域发挥了重要的作用,可以使用不同的算法提高模型的预测能力。在传统的生存分析研究中,Kaplan-Meier法以及Cox比例风险模型是最常见的方法。随着对预测模型的研究深入,将预测模型以及生存分析相结合,提出了各种不同的预测模型,包括支持向量机、决策树、神经网络等。其中列线图与随机生存森林是最常见的两种方法。

列线图可以将多种预后相关因素整合,很便捷地将研究结果可视化,在胶质瘤预后分析中有很重要的作用[13]。其通过构建Cox多因素比例风险模型,根据各个因素的回归系数大小来评价其对结局的贡献程度,通过对各个因素赋值,再计算其相加的总和,来计算出结局事件的发生概率,即生存概率[6]。列线图在预测得到的生存概率与实际生存概率之间有一定的差异,但其在可视化个体预测上具有很重要的意义,因此常被用于临床实践中。在WHO Ⅳ级成人弥漫性胶质瘤的预测模型研究中,确定与预后相关的变量是非常重要的过程[14];通常要考虑变量的临床与统计意义,其中最常见的临床特征包括年龄、KPS评分、接受的治疗、手术切除程度等,而其中最常见的分子标志物为IDH突变状态以及MGMT启动子甲基化状态。IDH野生型胶质母细胞瘤作为一种预后很差的肿瘤,对于新诊断的患者及其家属而言,了解其预后不同时间点的生存概率,有助于患者家属及医生共同选择更合适的治疗方案。列线图由于其便捷性,可以简单计算出6个月、12个月、24个月的生存概率,对患者及家属直观了解预后有很大帮助。对于患者而言,了解生存概率有助于缓解对于疾病的恐惧,也有助于制定相应的应对策略。

随机森林是于2001年提出的基于决策树的有监督学习方法[15], 随机生存森林于2008年被提出,是基于随机森林的算法[16]。随机生存森林是随机森林的扩展,是完全非参数模型,能评价变量间的复杂影响,无需要限制性假设,并能计算出变量的重要性。多数情况下随机生存森林与经典Cox比例风险模型相比性能更优良。随机生存森林是传统的二元决策树的拓展。随机生存森林通过自举法(Bootstrap)对样本和变量进行抽样生成大量的决策树。对每个样本(观测对象)来说,所有决策树依次对其进行预测。随机生存森林可以处理大量输入变量,并且可以评估变量的重要性。其造模时使用无偏估计,模型泛化能力强,当数据缺失较多时,仍可以维持一定的精度[17]。

传统的区分能力和校准能力不能判断使用一个模型做临床决策是否有益,或者不同模型之间哪一个会更有临床意义,尤其是一个模型区分度高,一个模型准确度高的情况下[18]。决策曲线可以判断一个模型是否值得使用,当遇到假阳性或者假阴性的情况时,既然两种情况都不能避免,那应该找出一个得到净收益的方法,通过计算风险阈值的真阳性减去假阳性得出不同风险阈值概率的净收益[19]。DCA可以预测模型的临床有效性,净收益高,被认为其临床效用更好[20]。

本研究通过Cox比例风险模型的基础上绘制列线图,用来判断具有不同年龄、KPS评分、接受放化疗方式以及MGMT蛋白表达的患者,其6个月、12个月、24个月的生存概率;同时,通过R软件构建随机生存森林模型,用来判断不同时间点患者的生存概率。通过Bootstrap法重抽样1 000次验证预测模型的区分度与校准度。随机生存森林模型与列线图预测模型相比,具有更好的临床净获益率,并且随机生存森林还具有因素筛选及因素重要性排序的功能。但列线图具有操作简便、不需要将变量输入软件的特点,因此也有很高的实用性。

与其他IDH野生型胶质母细胞瘤的预测模型研究相比,本研究主要纳入指标为预后相关临床因素及免疫组化检测的蛋白表达结果。本研究发现ATRX蛋白表达、Ki-67蛋白表达、P53蛋白表达这3个在成人弥漫性胶质瘤中常用的分子标志物,在IDH野生型胶质母细胞瘤中与预后不相关。本研究还证实了MGMT蛋白是IDH野生型胶质母细胞瘤的独立预后因素,并将其纳入预测模型中。MGMT蛋白表达检测迅速并且价格低廉,因此在临床运用中价值很高,包含MGMT蛋白表达的预测模型更切合实际临床工作。

本研究的局限性为单中心研究,并且IDH野生型胶质母细胞瘤是一种发病率较低的恶性肿瘤[21],因此样本量有一定局限,这与两个模型的C指数较低,随机生存森林模型袋外错误率较高有关,并且本研究没有探究MGMT蛋白表达与MGMT启动子甲基化的关系,后续研究会考虑纳入更多因素,纳入临床多中心相关数据使模型更加完善。本研究纳入的临床特征是常见与预后相关的特征,后续研究会纳入更多临床特征,以研究临床特征与蛋白表达之间相关性。

利益冲突:所有作者均声明不存在利益冲突。

[参  考   文   献]

[1] Mijderwijk HJ,Nieboer D,Incekara F,et al.Development and external validation of a clinical prediction model for survival in patients with IDH wild-type glioblastoma[J].J Neurosurg,2022:110.

[2] 罗治文,陈晓,张业繁,等.机器学习算法和Cox列线图在肝细胞癌术后生存预测中的应用价值[J].中华消化外科杂志,2020,19(2):166178.

Luo ZW,Chen X,Zhang YF,et al.Application value of machine learning algorithms and Cox nomogram in the survival prediction of hepatocellular carcinoma after resection[J].Chin J Dig Surg,2020,19(2):166178.

[3] 陈金凤.生存分析在随访研究中的应用[J].实用老年医学,2021,35(9):896899.

Chen JF.Application of survival analysis in follow-up study[J].Pract Geriatr,2021,35(9):896899.

[4] Wong QH,Li KK,Wang WW,et al.Molecular landscape of IDH-mutant primary astrocytoma Grade IV/glioblastomas[J].Mod Pathol,2021,34(7):12451260.

[5] Louis DN,Perry A,Wesseling P,et al.The 2021 WHO classification of tumors of the central nervous system:a summary[J].Neuro Oncol,2021,23(8):12311251.

[6] Alzial G,Renoult O,Paris F,et al.Wild-type isocitrate dehydrogenase under the spotlight in glioblastoma[J].Oncogene,2022,41(5):613621.

[7] Gülten G,Yaln N,Baltalarl B,et al.The importance of IDH1,ATRX and WT-1 mutations in glioblastoma[J].Pol J Pathol,2020,71(2):127137.

[8] Perry JR,Laperriere N,OCallaghan CJ,et al.Short-course radiation plus temozolomide in elderly patients with glioblastoma[J].N Engl J Med,2017,376(11):10271037.

[9] Rammeloo E,Schouten JW,Krikour K,et al.Preoperative assessment of eloquence in neurosurgery:a systematic review[J].J Neurooncol,2023,165(3):413430.

[10]Butler M,Pongor L,Su YT,et al.MGMT status as a clinical biomarker in glioblastoma[J].Trends Cancer,2020,6(5):380391.

[11]许广智,张佳乐,伊西才,等.IDH野生型胶质母细胞瘤患者预后影响因素分析[J].临床神经外科杂志,2022,19(2):130134.

Xu GZ,Zhang JL,Yi XC,et al.Prognostic factors of IDH wild-type glioblastoma patients[J].J Clin Neurosurg,2022,19(2):130134.

[12]Castresana JS,Meléndez B.Glioblastoma biology,genetics and possible therapies[J].Cells,2023,12(16):2063.

[13]Jekel L,Brim WR,von Reppert M,et al.Machine learning applications for differentiation of glioma from brain metastasis-a systematic review[J].Cancers,2022,14(6):1369.

[14]Zheng H,Yan TN,Han YS,et al.Nomograms for prognostic risk assessment in glioblastoma multiforme:Applications and limitations[J].Clin Genet,2022,102(5):359368.

[15]Sylman JL,Mitrugno A,Atallah M,et al.The predictive value of inflammation-related peripheral blood measurements in cancer staging and prognosis[J].Front Oncol,2018,8:78.

[16]Kim TG,Park W,Kim H,et al.Baseline neutrophil-lymphocyte ratio and platelet-lymphocyte ratio in rectal cancer patients following neoadjuvant chemoradiotherapy[J].Tumori,2019,105(5):434440.

[17]李淼.随机生存森林在不同维度肺癌患者预后预测中的应用[D].太原:山西医科大学,2021.

Li M.Application ofrandom survival forest in prognosisprediction of lung cancer patients with different dimensions[D].Tai Yuan:SHANXI MEDICAL UNIVERSITY,2021.

[18]Zhang Z,Jin ZP,Liu DY,et al.A nomogram predicts individual prognosis in patients with newly diagnosed glioblastoma by integrating the extent of resection of non-enhancing tumors[J].Front Oncol,2020,10:598965.

[19]Van Calster B,Wynants L,Verbeek JFM,et al.Reporting and interpreting decision curve analysis:a guide for investigators[J].Eur Urol,2018,74(6):796804.

[20]Vickers AJ,van Calster B,Steyerberg EW.A simple,step-by-step guide to interpreting decision curve analysis[J].Diagn Progn Res,2019,3:18.

[21]Ostrom QT,Cioffi G,Gittleman H,et al.CBTRUS statistical report:primary brain and other central nervous system tumors diagnosed in the United States in 2012—2016[J].Neuro Oncol,2019,21(Suppl 5):v1v100.

猜你喜欢
线图母细胞胶质
个体化预测结肠癌术后发生并发症风险列线图模型的建立
成人幕上髓母细胞瘤1例误诊分析
顶骨炎性肌纤维母细胞瘤一例
人类星形胶质细胞和NG2胶质细胞的特性
基于箱线图的出厂水和管网水水质分析
谈谈母细胞瘤
预防小儿母细胞瘤,10个细节别忽视
东山头遗址采集石器线图
视网膜小胶质细胞的研究进展
侧脑室内罕见胶质肉瘤一例