胡娌娌,陈雪东
(湖州师范学院理学院,浙江湖州313000)
利用ROC曲线对门脉血栓进行确诊预测*
胡娌娌,陈雪东
(湖州师范学院理学院,浙江湖州313000)
为了对门脉血栓(PVT)进行较为精确的早期预测,减少实际治疗过程中的盲目性,以因肝硬化行门脉高压脾切除术的患者为研究对象,观察并记录患者术后并发PVT的情况,收集所有患者的P 选择素、血栓前体蛋白(TPP)、D 二聚体和血小板含量(PLT)(术后1、3、5、7、14天)的临床观测指标数据,利用受试者工作曲线(ROC曲线),根据患者术后形成血栓的时间结合不同的时间间隔,对上述4个指标的预测价值进行比较.研究结果表明:血小板对PVT几乎没有预测价值,而P 选择素的预测效果最好,血栓前体蛋白和D二聚体也有较好的预测效果.同时也发现术后第3天的测量数据在预测门脉血栓方面具有较高价值.通过本文研究可知,在实际治疗过程中必须重点关注患者术后P选择素含量的变化,同时还要结合指标TPP和D2的含量变化,只有结合这三种指标进行诊断,才能使诊断更具意义.
ROC曲线;Matlab;P-选择素;D2聚体(D2);血栓前体蛋白(TPP)
门脉高压症是一种较为常见的疾病,它是由各种原因所致门静脉血循环障碍的临床综合表现.现今国内脾切除加门奇血管断流或单纯脾脏切除术已成为此类患者的主要手术形式,但手术之后并发门脉血栓(PVT)的概率高达39.0%~54.3%,而门脉血栓(PVT)一旦形成,再治疗效果极差,甚至会导致患者死亡,所以做好早期预防显得尤为重要.在这些方面已有一些比较有价值的研究成果.文献[1]主要利用ROC曲线比较了各指标在单独和联合预测PVT时的价值和意义,最终确定了最佳的术后预测时间和阈值.文献[2]利用决策树分类方法中的分类回归树和卡方自动交互检验两种算法,通过确定分类因变量、自变量、决策树生长方法和修剪规则,建立术后是否会并发PVT的预测模型,最终得到最佳的预测时间和阈值.以上研究对医疗诊断的指导意义不可否认,但是两篇文章都没有考虑患者术后形成血栓的时间.本文将患者术后形成血栓的时间考虑在内,结合不同的时间间隔,通过ROC曲线对不同指标的预测价值进行比较,比较的结果很好地说明了时间间隔对于寻找最佳预测方法的重要性,也证实了本文研究的价值与意义.
本文主要的数学工具是受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线),ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1特异度)为横坐标绘制曲线.灵敏度和特异度是两个不同的条件概率.在医学中,灵敏度是指对于实际患病的人医生给出的结果也是患病,而特异度是指对于未患病的人医生给出的结果也是未患病.为了较为简单地对灵敏度和特异度进行展示说明,往往会利用四格表(表1).
表1 四格表Table 1 Fourfold table
利用四格表就可以用数学式表示以上两个条件的概率:
为了绘制ROC曲线,必须计算出若干组不同的灵敏度和特异度,此时就需要所谓的阈值,即医学中医生在作出诊断时的标准.本研究将利用原始数据产生一组阈值,具体方法在下文中说明.
绘制好ROC曲线后就可以利用曲线下方的面积(简称AUC)大小来判断和比较得到最理想的诊断标准.AUC的值位于0和1之间,并且AUC的值越大说明诊断结果的准确性越高.同时利用ROC曲线还可以找到最佳阈值:在ROC曲线中,点(0,1)表示此时的灵敏度为1特异度也为1,即诊断结果毫无差错,亦即医学中的“金标准”.在ROC曲线中离该点越近说明点对应的标准越接近“金标准”,即在ROC曲线中离点(0,1)越近的点对应的阈值就是最佳阈值.
2.1 数据来源
数据来源于湖州市中心医院普通外科经手术进行门脉高压症的患者48例,其中男性患者26例,女性患者22例.术后并发门脉血栓(PVT)26例,未并发门脉血栓(PVT)22例.其中男性术后并发门脉血栓(PVT)12例,未并发门脉血栓(PVT)14例;女性术后并发门脉血栓(PVT)12例,未并发门脉血栓(PVT) 10例.每个病人术后第1、3、5、7、14天关于指标PLT、P、D2、TPP的值均有详细记录,同时还有病人形成血栓的时间.
2.2 数据处理
(1)数据分组:将48个患者4种指标的测量值按照天数进行分组,即对于每个指标每天的测量数据形成一个48×1的数组.
(2)构造新数组:对于每个指标,根据患者形成血栓的时间,结合不同的时间间隔形成新的数组.本文共讨论了3种不同的时间间隔,分别是0或1、1或2、2或3.这里以间隔0或1为例说明:如果一个病人形成血栓的时间为术后第1、3、5、7、14天中的某一天,则新数组中各指标的值直接采用血栓形成当天的测量值;若一个病人最终未并发门脉血栓(PVT),则新数组中各指标的值采用术后第3天的测量值;对于其他时间形成血栓的,新数组均采用血栓形成前一天的测量值.构造的新数组记为P.
2.3 计算步骤
(1)根据最终有无并发门脉血栓(PVT)将患者分成两组,一组是得病组;另一组为未得病组.
(2)根据新数组P获得不同的阈值:首先将新数组P进行由小到大的排序,接着由前往后对重新排序后的数组的每相邻两项取平均形成新数组,记为S,最后由S和P得到一组阈值T:
其中,min P()和max P()分别是指数组P中的最小值和最大值.
(3)根据上一步骤形成的阈值数组计算特异度(spec)和灵敏度(sen).
(4)利用Matlab绘制出不同指标的受试者工作特征曲线(ROC曲线),同时计算出曲线下方的面积(AUC).
(5)寻找最佳阈值:为了寻找最佳阈值定义如下的距离:
即曲线上点到曲线左上角的点(0,1)的值.利用Matlab找出d的最小值,最小值所对应的阈值记为最佳阈值.
2.4 结果展示及分析
图1 间隔0或1的ROC曲线Fig. 1 ROC curves at intervals of 0 or 1
图2 间隔1或2的ROC曲线Fig. 2 ROC curves at intervals of 1 or 2
图3 间隔2或3的ROC曲线Fig. 3 ROC curves at intervals of 2 or 3
表2 不同时间间隔的AUC及最佳阈值Table 2 Different time intervals and the optimal threshold of AUC
由图1~图3ROC曲线图和表2可以得到以下结论:
(1)无论采取哪一种时间间隔指标PLT的AUC值都比较小,甚至有小于0.5的情形出现.由此可知,指标PLT对患者术后是否会并发PVT毫无预测价值.
(2)无论采取哪一种时间间隔,指标P的AUC始终最大且均大于0.95.由此可见,指标P对患者术后是否会并发PVT具有非常好的预测价值.
(3)无论选取哪一种时间间隔,指标D2和TPP的AUC值也较大.说明这两种指标也具有一定的预测价值.
(4)观察表2可发现,对于同一种指标,当选取的时间间隔发生改变时,AUC的大小以及最佳阈值均会随之发生改变,说明即使找到了最佳的预测指标,如果不考虑时间间隔,所得到的结果极有可能不是最佳的.
从上述研究结果可看出,指标PLT对患者术后是否会并发PVT的预测效果并不理想,因此实际的医疗过程重点不应放在指标PLT上.相反的,指标P在任何一种时间间隔下都有最大的AUC,即有最好的预测效果,所以在实际治疗过程中,对于患者术后指标P的值必须重点关注.当然,从上述分析可知,指标D2和TPP的AUC值也较大,也有一定的预测价值.综上,在医疗诊断中要综合考虑P、D2、TPP指标,并以指标P为重点.
从医院获得的原始数据可以发现,对于最终并未并发PVT的患者其形成血栓的时间均记为30,但是无论采取何种时间间隔均无法获得此类患者各种指标的测量值,所以根据文献[1]的结论,在上述的研究过程中,不管是选取哪一种时间间隔,对于最终未并发门脉血栓(PVT)的患者均直接采用术后第三天的测量数据.为了使结果更具说服力,本文对于最终未并发门脉血栓(PVT)的患者的数据取法也进行了讨论,即分别采用不同时间的测量数据依次进行实验探究并将结果进行对比,选择最好的一种取法.
通过研究对比,最终结果显示,对于指标PLT及D2,无论是取哪一种时间间隔,对于最终未并发PVT的患者的数据均应采用第一天的数据,且对于指标PLT在取间隔0或1时有最大的AUC—0.722,而指标D2则在取间隔1或2时有最大的AUC—0.951.对于指标TPP,无论取何种时间间隔均应采用第14天的数据,且在取间隔2或3时,有最大的AUC—0.9318.对于指标P,在取间隔0或1和间隔1或2时应采用第3天的数据,而在间隔2或3时,采用第5天或第7天的数据有相同的预测效果,且在取间隔0或1和1或2时,有最大的AUC—0.986.
观察数据还可以发现,在取间隔1或2时,每个指标对应的AUC的值都比较大,由此可以判断,采用前1到第2天的数据进行预测时可以得到比较好的预测效果.同时还可以看出,取第3天数据时各指标的AUC的值还是比较理想的(除去指标PLT),这就为之前的数据取法给出了有力的依据.
[1]冯文佳,郑璐茜,来丹飞,等.基于ROC方法对门脉高压脾切后PVT早期预测的诊断研究[J].应用数学与计算数学学报,2014,28(1):110 116.
[2]来丹飞,陈雪东.基于决策树的门脉高压脾切术并发门脉血栓的早期诊断与预测[J].湖州师范学院学报,2013,35(6): 69 74.
62C99,62P10
The Prediction of the Portal Vein Thrombosis by Using the ROC Curve
HU Lili,CHEN Xuedong
(School of Science,Huzhou University,Huzhou 313000,China)
The goal of this paper is to make the early prediction of the portal vein thrombosis(PVT)be more accurate so as to reduce the blindness in the process of actual medical treatment.In this paper,we take the cirrhotic portal hypertension patients submitted to portal hypertension operation as research objects.The indicators of clinical observation data of P-selection,thrombus precursor(TPP),D-dimer and platelet(1,3,5,7, 14 days after operation)are observed and recorded.Then we take the time of thrombosis of every patient after operation into account and use the receiver-operating characteristic curve(ROC curve)combined with different interval to compare the predictive value of the above four indexes.The research results show that:platelet (PLT)almost has no predictive value to PVT,but the P-selection has the best predictive value,and thrombus precursor protein and D-dimer also have good forecast effect.At the same time,we find that the measurement data of the third day after surgery is of high value in terms of predicting PVT.Through this study we can know that in actual medical treatment doctors must pay more attention to the changes in levels of P-selection and at the same time doctors should observe the changes of TPP and D2.Considering the changes of the P-selection, TPP and D2 can make the diagnosis be more meaningful.
ROC curve;Matlab;P-selection;D-dimer(D2);Thrombus precursor protein(TPP)
O244,O29
A
1009-1734(2015)08-0001-05
[责任编辑 吴志慧]
2015-05-05
新苗人才计划基金项目(2014R425028);大学生创新创业训练计划资助项目.
陈雪东,教授,研究方向:应用统计.E mail:xdchen@hutc.zj.cn
MSC 2010:62C99,62P10