伍刚,许国宇,刘广韬,周青,刘策,常鹏飞
决策树模型与logistic回归模型在脑出血预后分析中的应用
伍刚,许国宇,刘广韬,周青,刘策,常鹏飞
目的通过应用决策树分类和回归树模型与logistic 回归模型分析影响脑出血患者预后的风险因素,为临床治疗脑出血提供借鉴。方法根据临床常见影响脑出血患者预后的风险因素,建立决策树模型和logistic回归模型,比较两种方法分析结果的差异。结果Logistic回归分析结果显示血肿体积(OR=0.953)、首次GCS评分(OR=1.210)、肺部感染(OR=0.295)、基底节区出血(OR=0.336)是脑出血预后不良的风险因素。决策树模型分析结果显示,血肿体积和首次格拉斯哥昏迷GCS评分是影响脑出血预后最主要的因素。两种模型对脑出血预后的评价作用近似(Z=0.402,P=0.688)。结论决策树模型判断脑出血预后的价值与logistic模型近似,同时还具有可对风险因素进行交互分析、更为直观的特点。
脑出血;Logistic模型;决策树;预后;危险因素
研究表明,脑出血(intracerebral hemorrhage,ICH)已占到国人所有脑血管疾病的18.8%~47.6%[1-3]。国内部分城市流行病学调查结果显示,ICH标准化发病率为38.1~77.1/10万人年,高于欧美等经济发达国家[2,4]。ICH 1个月的死亡率约40%[5],严重威胁患者健康。对ICH的预后进行风险评估有助于指导临床工作[6]。Logistic回归模型作为有效的统计学方法,常用于ICH预后以及疗效等临床指标的分析[7]。决策树(decision tree)是数据挖掘中的一种重要分类技术。分类和回归树模型(classification and regression trees,CART)是决策树模型的一个分支,其基本原理是将研究的人群通过某些特征(自变量取值)分解成数个相对同质的亚人群,每一个亚人群内部因变量的取值高度一致,相应的变异尽量落在不同的亚人群中,经常使用的测量指标是Gini指数。因为CART可以对患者的风险进行分层处理,可以发现因素之间的交互作用,已经应用于多种疾病的临床研究工作[8-9]。本研究拟同时引入决策树CART模型和logistic回归模型,回顾研究单中心ICH病例,分析影响ICH预后的相关因素,旨在为临床积极有效地治疗ICH提供借鉴。
1.1 研究对象 回顾性调查解放军309医院2011年1月-2014年5月入院诊断为ICH的患者共396例,所有患者均根据文献[10]的标准进行诊断,排除脑外伤出血、蛛网膜下腔出血、脑肿瘤出血、脑干出血以及信息不完整病例,其中有效病例共计310例,占总病例数的78.3%。310例患者中男214例,女96例,年龄57.5±12.9岁。
1.2 研究方法 收集病例资料,主要包括:年龄、性别;是否有院前意识障碍,是否有高血压病史、既往ICH史、脑梗死史、糖尿病史、透析病史、吸烟史、服用阿司匹林史;出血部位(脑室、基底节区、丘脑、额叶、顶叶、枕叶、小脑、多脑叶);入院后是否伴发肺部感染、应激性溃疡消化道出血、泌尿系感染、深静脉血栓、脑积水;入院首次格拉斯哥昏迷评分(Glasgow coma scale,GCS)、收缩压值、血糖值、血红蛋白值、血小板值;首次CT扫描按ABC/2法估算血肿体积。治疗1个月后进行格拉斯哥预后评分(Glasgow outcome scale,GOS),GOS 1~3分为预后不良,GOS 4~5分为预后良好。
1.3 统计学处理 以患者预后结果为因变量(预后良好为1,预后不良为0)。应用SPSS 19.0软件处理数据,其中连续变量单因素分析采用Studentt检验,分类变量单因素分析采用χ2检验。有统计学意义的自变量纳入多因素logistic回归分析。Logistic回归选择逐步法,其相应自变量也进入CART模型进行分析。绘制logistic回归模型和CART模型对ICH患者预后判断的受试者工作特征(receiver operating characteristic curve,ROC)曲线。应用Medcalc软件对两种模型ROC曲线下面积(area under curve,AUC)进行比较。P<0.05为差异有统计学意义。
2.1 单因素分析 单因素分析结果显示,院前意识障碍、脑室出血、基底节出血、枕叶出血、首次收缩压、首次GCS评分、肺部感染、消化道出血、深静脉血栓、血肿体积共计10个自变量对ICH预后的影响有统计学意义,纳入logistic回归模型和CART模型。年龄、性别,高血压病史、既往ICH史、脑梗死史、糖尿病史、透析病史、吸烟史、服用阿司匹林史,丘脑出血、额叶出血、顶叶出血、多脑区出血,泌尿系感染、脑积水、血糖值、血红蛋白值、血小板值共计18个自变量对ICH预后的影响无统计学意义,予以排除。
2.2 多因素logistic回归分析 回归模型检验χ2=137.070,P<0.001,有统计学意义。逐步logistic回归分析筛选影响ICH 预后的危险因素,分析结果见表1。其中自变量血肿体积、首次GCS评分、基底节区出血、并发肺部感染是影响ICH患者预后的主要相关因素。Hosmer & Lemeshow检验χ2=4.314,P=0.828,说明模型能够较好地拟合数据。
2.3 CART分析结果 在入选的10个自变量中,血肿体积和首次GCS评分对于判断ICH不良预后具有重要作用,并对ICH患者预后结果进行分层。首次GCS评分13~15分的患者中,ICH预后良好占74.5%,预后不良占24.5%。应用血肿体积分层后,血肿体积≤13.0ml者预后良好占89.3%,而血肿体积>13.0ml者预后良好仅占60.8%。首次GCS评分3~12分的患者中,ICH预后不良占72.1%,预后良好占27.9%。应用血肿体积分层后,血肿体积≤27.5ml者预后不良占52.4%,血肿体积>27.5ml者预后不良比例高达86.9%(图1)。该模型估计风险为0.261,标准误0.025。10个自变量对模型估计的重要程度见图2。
2.4 Logistic回归模型与CART模型对ICH患者预后的评价效能比较 CART 模型评价ICH患者预后良好的AUC为0.738(95%CI 0.685~0.786),logistic回归模型评价ICH患者预后良好的AUC为0.748(95%CI 0.695~0.795),二者比较Z=0.402,P=0.688,说明二者的评价效能无明显差异(图3)。
表1 影响脑出血患者预后结果的多因素logistic回归分析Tab. 1 Logistic regression analysis of prognostic factors in patients with cerebral hemorrhage
本文通过对单中心310例ICH患者预后的回顾性研究发现,CART模型和logistic回归模型在分析多种因素对疾病的影响方面具有相似的作用,这与其他临床研究的结果相仿[8-9]。本研究发现ICH血肿体积和首次GCS评分同时纳入两个模型内,且均显示出对ICH患者的预后具有显著影响,与之前的研究结果近似[11-13]。其中,血肿体积是ICH预后不良的独立风险因素[13-14]。通过CART模型可以量化观察首次GCS评分和ICH体积对ICH患者预后的影响。本组首次GCS评分为3~12分的患者中,ICH体积>27.5ml的患者预后不良的比例要远高于血肿体积≤27.5ml的患者,而首次而GCS评分为13~15分的患者中,ICH体积≤13ml的患者往往能够获得较为满意的疗效。
图1 脑出血患者预后结果的CART模型预测图Fig. 1 Prognosis of patients with cerebral hemorrhage by CART model
本研究在CART模型中进行亚群分类时,限定病例数至少应满足50例。当分类所包含的病例数<50例时,相应的危险因素就不能作为病例继续分类的依据,从而不能出现在二叉分类图中。纳入logistic回归模型的自变量中,肺部感染、基底节区出血和院前意识障碍并没有显示在CART的二叉树图中,这种差别并非意味着上述3个危险因素对ICH患者预后的影响不大。在实际临床工作中,肺部感染是ICH患者常见的并发症,多因发病时误吸和气管插管机械通气所致,是导致ICH患者死亡的原因之一[12],基底节区出血、院前意识障碍也是影响ICH患者预后的重要因素[15]。但是在本组病例中,通过比较两个模型的分类预测能力,我们发现CART模型的AUC为0.738,与logistic模型的AUC相仿,表明首次GCS评分和血肿体积在CART模型中所占权重较大,并能很好地解释ICH患者的预后。为防止CART模型对数据过度拟合,笔者认为本研究不需要降低分组标准以纳入更多风险因素。当然为明确其他风险因素的重要性,可以在病例研究中通过适当分层和扩大样本量加以进一步分析。
本研究结果显示,CART分析结果能更为直观、形象地反映ICH亚群的特征。相比logistic回归模型,CART模型不仅可筛选出有统计学意义的风险因素,还能直观比较各种风险因素对ICH患者预后的影响强度。应用风险因素对ICH患者分类,可快速找到对ICH影响最大的因素组合,方便指导临床工作。本研究旨在为评估ICH患者预后提供一种新颖的辅助工具,相信通过进一步充实患者的临床信息及扩大样本量,应用CART模型和logistic回归模型能够进一步完善对ICH患者预后风险的评估,从而为ICH的治疗提高更有价值的临床指导方案。
图3 CART模型和logistic回归模型预测脑出血患者预后结果的ROC曲线Fig. 3 ROC curve of the prognosis of cerebral hemorrhage patients predicted by CART model and logistic regression model
[1]He J,Gu DF,Wu XG,et al. Major causes of death among men and women in China[J]. N Engl J Med,2005,353(11): 1124-1134.
[2]Jiang B,Wang WZ,Chen HL,et al. Incidence and trends of stroke and its subtypes in China - Results from three large cities[J]. Stroke,2006,37(1): 63-68.
[3]Liu M,Wu B,Wang WZ,et al. Stroke in China: epidemiology,prevention,and management strategies[J]. Lancet Neurol,2007,6(5): 456-464.
[4]Tsai CF,Thomas B,Sudlow CLM. Epidemiology of stroke and its subtypes in Chinesevswhite populations A systematic review[J]. Neurology,2013,81(3): 264-272.
[5]van Asch CJJ,Luitse MJA,Rinkel GE,et al. Incidence,case fatality,and functional outcome of intracerebral haemorrhage overtime,according to age,sex,and ethnic origin: a systematic review and meta-analysis[J]. Lancet Neurol,2010,9(2): 167-176.
[6]Wang GQ,Li SQ,Zhang WW,et al. Can minimal invasive puncture and drainage for hypertension spontaneous basal ganglia intracerebral hemorrhage improve patient outcome: A prospective non-randomized comparative study[J]. Med J Chin PLA,2014,39(7): 531-541. [王国强,李世强,张微微,等. 微创穿刺引流对高血压自发基底神经节区脑出血预后的影响——前瞻性非随机对照研究[J]. 解放军医学杂志,2014,39(7): 531-541.]
[7]Wang DY,Xu X,Guo JW. Multivariate logistic regression analysis of risk factors of hematoma enlargement in patients of hypertensive intracerebral hemorrhage within 24hrs of onset: A retrospective study of 265 cases from a single center in China[J]. Med J Chin PLA,2015,40(2): 151-155. [王大永,徐翔,郭建文. 高血压性脑出血患者发病24h内血肿扩大的危险因素分析:一项单中心256例回顾性研究[J]. 解放军医学杂志,2015,40(2): 151-155.]
[8]Fonarow GC,Adams KF Jr,Abraham WT,et al. Risk stratification for in-hospital mortality in acutely decompensated heart failure - Classification and regression tree analysis[J]. JAMA,2005,293(5): 572-580.
[9]Garzotto M,Beer TM,Hudson RG,et al. Improved detection of prostate cancer using classification and regression tree analysis[J]. J Clin Oncol,2005,23(19): 4322-4329.
[10] Chinese Society of Neurology,Chinese Society of Neurosurgery. Main points of diagnosis of cerebral vascular diseases[J]. Chin J Neurol,1996,29(6): 379-380.[中华神经科学会,中华神经外科学会. 各类脑血管疾病诊断要点[J]. 中华神经科杂志,1996,29(6): 379-380.]
[11] Davis SM,Broderick J,Hennerici M,et al. Hematoma growth is a determinant of mortality and poor outcome after intracerebral hemorrhage[J]. Neurology,2006,66(8): 1175-1181.
[12] Naidech AM,Bendok BR,Tamul P,et al. Medical Complications Drive Length of Stay After Brain Hemorrhage: A Cohort Study[J]. Neurocrit Care,2009,10(1): 11-19.
[13] Broderick JP,Brott TG,Duldner JE,et al. Volume of intracerebral hemorrhage. A powerful and easy-to-use predictor of 30-day mortality[J]. Stroke,1993,24(7): 987-993.
[14] Dowlatshahi D,Demchuk AM,Flaherty ML,et al. Defining hematoma expansion in intracerebral hemorrhage Relationship with patient outcomes[J]. Neurology,2011,76(14): 1238-1244.
[15] Mendelow AD,Gregson BA,Fernandes HM,et al. Early surgery versus initial conservative treatment in patients with spontaneous supratentorial intracerebral haematomas in the International Surgical Trial in Intracerebral Haemorrhage (STICH): a randomised trial[J]. Lancet,2005,365(9457): 387-397.
Risk stratification for prognosis in intracerebral hemorrhage: A decision tree model and logistic regression
WU Gang1,XU Guo-yu2,LIU Guang-tao1,ZHOU Qing1,LIU Ce1,CHANG Peng-fei11Department of Neurosurgery,2Department of Radiology,309 Hospital of PLA,Beijing 100091,China
This wok was supported by the Fund of 309 Hospital of PLA (2014MS-009)
ObjectiveTo analyze the risk factors for prognosis in intracerebral hemorrhage using decision tree (classification and regression tree,CART) model and logistic regression model.MethodsCART model and logistic regression model were established according to the risk factors for prognosis of patients with cerebral hemorrhage. The differences in the results were compared between the two methods.ResultsLogistic regression analyses showed that hematoma volume (OR-value 0.953),initial Glasgow Coma Scale (GCS) score (OR-value 1.210),pulmonary infection (OR-value 0.295),and basal ganglia hemorrhage (OR-value 0.336) were the risk factors for the prognosis of cerebral hemorrhage. The results of CART analysis showed that volume of hematoma and initial GCS score were the main factors affecting the prognosis of cerebral hemorrhage. The effects of two models on the prognosis of cerebral hemorrhage were similar (Z-value 0.402,P=0.688).ConclusionsCART model has a similar value to that of logistic model in judging the prognosis of cerebral hemorrhage,and it is characterized by using transactional analysis between the risk factors,and it is more intuitive.
cerebral hemorrhage; logistic models; decision trees; prognosis; risk factors
R743.34
A
0577-7402(2015)12-1003-04
10.11855/j.issn.0577-7402.2015.12.13
2015-06-31;
2015-10-28)
(责任编辑:胡全兵)
解放军第309医院院课题基金(2014MS-009)
伍刚,医学博士。主要从事脑血管疾病的诊断和治疗工作
100091 北京 解放军第309医院神经外科(伍刚、刘广韬、周青、刘策、常鹏飞),放射科(许国宇)