临床预测模型的综合评价体系研究*

2019-11-12 12:24:18南通大学公共卫生学院流行病与卫生统计学系226019
中国卫生统计 2019年5期
关键词:鉴别力阳性曲线

南通大学公共卫生学院流行病与卫生统计学系(226019)

贾玉龙 周 洁 陈 颖 沈 毅△

【提 要】 目的 本研究拟从模型的校准度、鉴别力和临床效益三个方面,采用4个指标说明模型评价的指标体系。方法 采用logistic建模策略,通过Hosmer-Lemeshow拟合优度检验计算拟合直线的截距A和斜率B以考察模型的校准度,计算受试者工作特征曲线下面积C评价模型的鉴别力,绘制决策曲线D并比较相同概率阈值下的净收益(net benefit)衡量预测模型的临床效益。以某医院肝癌外科手术患者随访三年的队列为例,计算并比较两个预测模型(MELD和UKELD)的“ABCD”指标。结果 通过计算两模型的“ABCD”指标,从校准度、鉴别力和临床效益三个方面对模型进行比较,综合评价表明MELD模型较优。结论 由“ABCD”构成的临床模型评价体系可以更好地评估预测模型的准确性和严密性,且其评价结果更具有说服力。

原理与方法

对临床模型的评价一般包括校准度、鉴别力和临床效益三个方面。其中,校准度反映了模型预测值和真实值之间的拟合程度,可用拟合直线的截距和斜率进行衡量;鉴别力反映了模型对真阳性和真阴性的判断能力,可通过ROC曲线计算AUC值进行评价,AUC也被称为一致性统计量(concordance statistics,C-statistics),即“C”统计量;临床效益则更关注模型能否从阳性患者中鉴别出更多的真阳性,可运用决策曲线(decision curve)计算模型的净收益。由于拟合直线的截距一般用A表示,斜率用B表示,AUC用C表示,决策分析用D表示,EWSteyerberg提出用“ABCD”准则描述上述进行模型评价的四个指标[5]。下面我们对该准则逐一解释。

1.模型的校准度

临床结局大部分为二分类变量。如生与死、好与差、有效与无效等,以结局事件发生与否为因变量,预测模型得分为自变量构建logistic回归模型(建模时可对年龄、性别进行调整),计算每个个体结局事件的预测概率,并按照预测概率的顺序对数据重新分组(建议分为5~10组),进行Hosmer-Lemeshow拟合优度检验,考察预测结果和实际状况的吻合程度[6-7]。以各组的实际发生率为因变量(Y),预期发生率为自变量(X)绘制散点图,并拟合回归直线[8]。如果实际值和期望值完全一致,该拟合线的斜率为1,截距为0,设为参考线;所拟合的直线与参考线越接近,说明该预测模型的校准度越高[9]。

2.模型的鉴别力

模型的鉴别力体现在正确区分阳性和阴性结局,C统计量是描述广义线性模型鉴别能力的重要指标之一。对于二分类变量,以1-特异度(假阳性率)为横坐标,灵敏度(真阳性率)为纵坐标绘制ROC曲线,其曲线下面积AUC即为C值。C值越接近1表明鉴别能力越高[10]。

3.模型的临床效益

模型的临床效益是基于从阳性患者中鉴别出更多的真阳性,这样既可避免医疗资源不必要的消耗,又可减少过度治疗对假阳性患者的伤害[11]。用一种简单易懂的数学模型即可量化预测模型的净收益(net benefit,NB)为:

[真阳性数 -假阳性数×pt/(1-pt)]/样本数

其中,pt代表概率阈值,而pt/(1-pt)作为权重系数,定义假阳性决策对于真阳性决策的相对权重。以pt为横坐标,净收益为纵坐标,所作决策曲线可反映不同pt时模型的临床效益;还可把几条决策曲线放入同一坐标,通过相同pt下各决策曲线的纵坐标大小即可直观地比较预测模型的临床效益优劣。其中pt可以结合临床实际取值[4,8,12]。若认为假阳性所造成的伤害相对有限,可将pt设置为较低数值;反之则可设置为较高值,以免过度治疗所造成的危害。显而易见,决策曲线图中,存在两条参考线,一条反映无任何治疗下的净收益,另一条则是所有患者均接受治疗的净收益。

实例分析

1. 数据来源

本数据来源于某医院肝癌外科手术的队列研究,入组196例肝癌手术患者,随访时间3年,以患者死亡为观察终点,基线信息如表1。

收集患者入诊时的年龄、性别等基线信息以及血清钠(Na)、总胆红素(TBIL)、肌酐(Cr)和国际标准化比值(INR)等实验室指标。通过疾病预防控制中心或电话随访收集患者的生存信息。

表1 基线信息

2.模型公式

目前对肝癌患者的死亡预测主要来源于终末期肝病模型,本研究选择其中较为经典的MELD体系。该体系包括MELD、iMELD、uMELD等若干个模型。其中,MELD模型[13]最先用于预测肝硬化患者的短期生存率,后衍生为终末期肝病患者死亡风险的评估模型,其具有纳入指标少易获得、预测准确易推广的特点,是目前临床最为常用的肝癌预测模型之一。此外,我们还选择了一个UKELD[14]模型,该模型比MELD模型多一个指标:血清钠,所以预测结果也有所不同[15]。本研究通过比较MELD模型和UKELD模型的预测结果,以说明如何用“ABCD”准则进行模型评价。

MELD模型和UKELD模型的评分公式如下:

(1)MELD=11.2×ln(INR)+9.6×ln[Cr(mg/dL)]+3.8×ln[TBIL(mg/dL)]+6.4

(2)UKELD=5×[1.5×ln(INR)+0.3×ln[Cr(μmol/L)]+0.6×ln[TBIL(μmol/L)]-13×ln[Na(mmol/L)]+70]

3. 统计学分析

结 果

1. 基线信息(见表1)

本研究共纳入196例肝癌手术患者,年龄(54.38±9.89)岁,男性152人,女性44人,随访3年后生存组104人,死亡组92人,病死率46.94%。两组间性别、INR、Cr及模型得分之间差异均有统计学意义。

2.校准度评价指标A和B

3. 鉴别力指标C值(见图3)

图3为MELD模型和UKELD模型ROC曲线的组合,其中MELD的C值(0.713)大于UKELD(0.665),说明MELD的鉴别力优于UKELD。

图1 MELD模型校准图

图2 UKELD模型校准图

图3 ROC曲线图

4. 临床效益指标D值(见图4)

图4中有两条参考线,一条是无任何治疗下的参考线(斜率为0的长虚线),其净收益为0;另一条是所有患者均接受治疗的参考线(切线斜率为负值的长虚线),净收益随着pt的增加而减小,在pt=46.90%时净收益降为0;实线代表MELD模型,短虚线代表UKELD模型。两曲线在一定的pt下,净收益均高于两条参考线,表明具有一定的临床应用价值。同时,MELD决策曲线基本均在UKELD之上,表明MELD模型的净收益高于UKELD模型,临床效益更好。

图4 决策曲线图

5.模型指标汇总比较

表2罗列两模型的“ABCD”指标,通过对比表明MELD模型的校准度、鉴别力和临床效益都优于UKELD模型,说明MELD模型对肝癌手术患者3年后生存状况的预测效果更好。

表2 模型指标汇总比较

讨 论

本研究主要探讨了如何综合运用“ABCD”准则来评估预测模型的效能并做出最优选择,为有效评估预测模型整体效能提供了一个框架。对两模型比较的结果表明,四项评价指标均反映出MELD模型效能优于UKELD模型。MELD不仅拟合直线更贴合参考线,而且其AUC更大,净收益也在一定阈值概率之内大于UKELD模型。

校准度是反映预测模型预测效能的最佳特征之一,也就是模型预测概率与实际发生概率的一致程度。通常我们将logistic回归和Hosmer-Lemeshow拟合优度检验相结合,以评价模型的一致性。但是,良好的校准度并不表示模型能将患者和非患者完美的鉴别开来,而ROC曲线一直作为预测模型鉴别力及人群筛检研究的可视化评价指标而被推崇,根据其AUC可简单直观地评价预测模型的鉴别能力,以弥补校准度的不足。然而,仅考虑鉴别力和一致性尚不能真正反映一个模型对临床决策的贡献。假阳性和假阴性的优先筛检问题以及针对鉴别结果的后续临床决策效益评价,更是判断临床模型优劣的关键所在;同时,即便AUC较大,如果没有一个合理的pt,该模型也没有任何临床意义[17]。所以,决策曲线和净收益更直观地表达了预测模型的实际临床效益。根据不同pt下的净收益大小,可做出患者后续是否采取及采取何种临床诊疗措施的最大净收益决策,但pt的确定是运用决策曲线评价临床效益的一个难点[10],可依据临床实践经验或从meta分析及高质量的同质人群队列研究中得到。本文pt=51.30%选自Cucchetti的一篇研究人群同为肝癌手术患者的三年病死率报道[18]。

本研究是一个生存队列,但logistic回归仅考虑二分类结局,无法利用生存时间所提供的信息。目前对生存资料也提出一些比较新颖的模型评价方法及指标,如“C统计量”的变体[7]等。但考虑到模型评价的方法学体系,以及软件实现的便利性,故本文仍以logistic回归建模和计算相关评价指标。

当然,该模型评价体系既适合现存预测模型的评估,也适合对于新建模型的评价和验证。“ABCD”四个评价指标取长补短,相得益彰,弥补了传统的仅用AUC进行模型评价的缺陷,为预测模型的选择、应用及严密谨慎的临床决策提供了可靠的依据。

猜你喜欢
鉴别力阳性曲线
未来访谈:出版的第二增长曲线在哪里?
出版人(2022年8期)2022-08-23 03:36:50
幸福曲线
英语文摘(2020年6期)2020-09-21 09:30:40
沿平坦凸曲线Hilbert变换的L2有界性
幽门螺杆菌阳性必须根除治疗吗
精神上的鉴别力
抛开“阳性之笔”:《怕飞》身体叙事评析
MALDI-TOF MS直接鉴定血培养阳性标本中的病原菌
高校思政课如何提高大学生政治鉴别力——新媒体视域下
梦寐以求的S曲线
Coco薇(2015年10期)2015-10-19 12:42:05
酒精阳性乳的发生和防治