任晓佳,刘俊卿,耿晓晴*,刘权宸,张朋柱
1上海交通大学安泰经济与管理学院,上海 200030;2天津医科大学肿瘤医院,国家肿瘤临床医学研究中心、天津市肿瘤防治重点实验室、天津市恶性肿瘤临床医学研究中心,天津 300060
静脉血栓栓塞症(venous thromboembolism,VTE)包含深静脉血栓形成(deep vein thrombosis,DVT)和肺血栓栓塞症(pulmonary thromboembolism,PTE)两种类型,是恶性肿瘤的并发症之一,也是导致恶性肿瘤患者疾病进展的重要因素。在恶性肿瘤患者中,VTE 发病率超过1%,并随肿瘤类型和病程的不同而变化[1-2]。研究表明,乳腺癌患者在确诊VTE 后短期死亡率显著上升[3]。同时,在VTE 患者中,乳腺癌患者占比较大[4]。因此,对乳腺癌患者进行VTE风险预测具有重要意义。
乳腺癌患者是否患VTE 与其个人因素(并发症、血栓病史等)、肿瘤相关因素(大小、分期等)、治疗相关因素(手术、化疗等)、血液指标相关因素(血小板、白细胞等)及其他生物指标因素(D-二聚体等)有关[5]。基于这些可能的风险因素,研究人员开发了适用于不同情形的VTE风险预测量表,主要包括:Caprini量表[6]、Padua量表[7],Autar量表[8],Wells量表[9]、RAP评分等。已有研究表明,Caprini量表在乳腺癌VTE 患者中的风险预测结果准确性较低[10-11]。Padua 量表主要适用于内科患者的VTE 风险预测,由于其对VTE风险等级的划分粒度较粗(低危和高危),在乳腺癌患者VTE 风险预测中的作用仍然十分有限。Autar 量表在骨科术后患者VTE 风险预测中的应用效果较好[12],但在乳腺癌患者中的预测效果仍缺乏有效验证。RAP量表则主要用于创伤患者的VTE风险预测,且需要更多的验证研究[13]。
综上,虽然目前研究人员针对不同情形开发了多类VTE风险预测量表,但这些量表由于缺乏进一步的有效性验证,对于乳腺癌患者的适用性较低;其次,这些量表都是国外研究人员结合其国家医疗卫生条件开发的,是否适用于我国医疗环境仍有待验证;再次,这些量表中的指标繁多,现实情况下难以一次全面掌握,在VTE和非VTE患者中的显著性更是鲜有学者研究。因此,本文针对现有研究的不足,利用多年积累的可得数据,分析了现有风险因素在乳腺癌VTE 和乳腺癌非VTE 患者间的显著性差异,并在此基础上进一步构建了针对乳腺癌患者的VTE风险预测模型。
选取2017—2020 年天津医科大学肿瘤医院部分住院患者共计548 例,其中包含确诊乳腺癌并同时确诊VTE的VTE患者274例,确诊乳腺癌且未确诊VTE的非VTE患者274例。所有患者的数据均经过脱敏处理。
由于患者每次住院并不一定会检查所有的相关检验项目,因此,实际情况中想要获取某一位患者的所有相关指标几乎不可能。经过前期复杂的数据预处理工作,可以提取出以下3个方面共计10个可得指标。包括人口统计学指标:年龄、体重、体重指数(body mass index,BMI);病史:是否患糖尿病、是否有手术史;血液指标:D-二聚体水平、脂蛋白、血浆蛋白C活性、血小板计数、C-反应蛋白。其中是否患糖尿病、是否有手术史为序数变量,1代表否,2代表是。其余变量为连续数值型变量,其值代表该变量的具体数值。本研究中所用到的数据已经全部经过脱敏处理,形成无法辨认身份的实验数据。同时,本研究对实验数据进行了严格保密,不会用于研究外的其他用途。
阅读分析现有文献,总结出可能影响乳腺癌患者是否患VTE的指标集合,并与目前医院信息系统中的可得指标取并集,得到10个相关风险指标。采用SPSS 19.0 统计软件进行数据分析。描述性统计分析给出样本的中位数(四分位数)[M(P25,P75)]、正常值区间。采用非参数检验(曼-惠特尼U检验)探索乳腺癌VTE 患者和非VTE 患者在各指标方面是否有显著性差异,P<0.05 为差异具有统计学意义。采用Logistic回归方法,以548例样本中的500例作为训练集,构建乳腺癌患者VTE风险预测模型,并用剩余的48 例样本组成的测试集测试模型的预测能力。同时,结合曼-惠特尼U检验得到的指标显著性结果进行校验和讨论。
对现有可得指标中可能的VTE 风险因素进行识别,探索乳腺癌VTE患者与非VTE患者在这10个指标方面是否具有显著性差异,从而为进一步的预测模型构建提供依据。首先,对10个指标中的连续数值型指标进行正态性检验,结果显示被检验指标均不服从正态分布,不满足参数检验的条件,也不宜采用均值、方差等描述。因此,从中位数(四分位数)、正常值区间两个角度描述各指标(表1)。采用同时适用于非正态分布变量及二分类变量的非参数检验(曼-惠特尼U检验)方法比较各指标在VTE患者与非VTE 患者间是否具有显著性差异。将各指标按照正常值百分比由低到高排序,依次为:BMI(46.72%)、脂蛋白(54.56%)、D-二聚体水平(62.59%)、血小板计数(88.32%)、血浆蛋白C 活性(93.25%)、C-反应蛋白(95.44%)。VTE 组及非VTE组各指标比较见表2。体重、是否有手术史、D-二聚体水平、脂蛋白、血浆蛋白C 活性、C-反应蛋白指标在VTE 和非VTE 患者间差异有统计学意义(P<0.05,表2)。
表1 各指标描述性统计结果及正常值区间(n=548)
表2 两组各指标非参数检验(曼-惠特尼U检验)结果
基于提取出的10 个可得指标,利用Logistic 回归构建VTE风险预测模型。一方面,利用模型拟合系数的显著性检验进一步验证上述关于乳腺癌患者VTE 风险因素识别结果,另一方面,也可以利用Logistic 回归模型良好的预测功能来对乳腺癌患者罹患VTE的风险进行预测,从而更好地协助医生从乳腺癌患者中尽快识别潜在的VTE风险个体,完善患者的诊治过程。
采用SPSS 19.0 统计软件对500 个样本组成的训练集数据进行Logistic回归分析,并选择前向逐步回归进行变量筛选。表3 显示了Baseline 模型的预测结果。Baseline 拟合的是不包含任何自变量只有常数项的无效模型。在Baseline 模型中,总预测准确率为50.6%。
表3 Baseline模型预测结果 (n=500)
表4显示了尚未纳入模型方程的变量及其比分检验结果,所做的检验是分别将这些变量纳入方程,检验方程的改变是否有统计学意义。在P<0.001的显著性水平下,此检验结果有5个变量是显著的。说明将是否有手术史、D-二聚体水平、脂蛋白、血浆蛋白C活性、C-反应蛋白这5个变量分别纳入方程,方程的改变是有统计学意义的,且总的统计量也有统计学意义。
表4 尚未纳入模型方程的变量及其比分检验结果(n=500)
逐步向前回归法是从表4中P值最小的变量开始,逐个将其纳入模型,以模型的极大似然函数值最大为目标,以最后一步的入选变量作为最终结果。利用前向逐步回归进行变量筛选,得到最终的回归模型。其中,最终模型的H-L 检验P=0.192>0.05,反映出该模型的拟合结果较为理想(表5)。
表5 Logistic回归结果 (n=500)
将48 个样本组成的测试集数据代入拟合得到的最终模型中去,衡量模型的预测能力。当计算所得概率大于或等于0.5 时,即预测该患者患有VTE,否则预测该患者未患VTE。模型的预测结果如表6所示。在该测试集中,模型的预测结果较好,总准确率为72.92%,灵敏度为70.37%,特异度为76.20%。最后,再采用k 折交叉验证的方式,取k=10,可以得到十折交叉验证的平均准确率为75.36%,说明模型在现有数据集上的稳健性较好,泛化能力较强。
表6 Logistic模型预测结果 (n=48)
本研究中样本年龄最小28 岁,最大为84 岁。因此,所选取的研究样本年龄范围分布较广且主要人群为中年人(第一四分位数=49.00)。同时,根据WHO对于BMI的划分标准,18.5~<25.0 kg/m2为正常范围,BMI≥25 kg/m2为超重。由于BMI的第一四分位数为22.89 kg/m2,中位数为25.26 kg/m2,所以超过一半的样本偏重。
非参数检验结果可以看出,就人口统计学指标来说,乳腺癌VTE 患者与非VTE 患者在年龄、BMI这两个变量上的差异均不显著,在体重上有显著性差异。已有相关研究证明年龄、BMI 是晚期乳腺癌患者化疗后发生DVT 的危险因素[14-15],而本文分析结果显示VTE 患者和非VTE 患者在这些指标间并无差异。究其原因,可能是由于本研究的样本选择偏差造成的:虽然所选取的研究样本年龄范围分布较广,但主要人群仍以中年人为主,这就使得VTE组和非VTE组间的年龄差距不大,从而导致分析结果不显著。而从BMI 的中位数可以看出,样本人群普遍偏重,因此,BMI的分析结果也不显著。就病史相关指标来说,本文只统计了是否患糖尿病、是否有手术史这两个指标。其中是否患糖尿病这一指标在两组间并无显著性差异,而是否有手术史在VTE 组和非VTE 组间具有显著性差异。乳腺癌VTE患者与非VTE患者在血液指标方面(血小板计数除外)的差异均有统计学意义(P<0.001),与已有研究的部分结果一致[11,16]。这一方面说明血液检验非常重要,想要区别VTE 患者和非VTE 患者,最好的方式就是查看患者VTE 相关血液指标是否正常。另一方面也说明血小板计数在区别VTE 和非VTE 患者中的作用不大,可以不用作为风险预测模型的主要风险因素。
Logistic 回归模型最终筛选出的危险因素有5 个。其中,变量系数的显著性结果检验值小于0.05 说明对应自变量的系数具有统计意义,对因变量(是否患有VTE)不同分类水平的变化有显著影响。需要注意的是,虽然是否有手术史这一变量的系数检验结果并不显著,但它仍然被纳入了最终的回归模型中,说明该变量对于模型的极大似然函数值有贡献,对提升模型整体的预测精度有影响,因此仍然应该被考虑作为风险因素之一被纳入到预测模型中去。
本文基于可得数据对于乳腺癌患者可能的VTE风险因素进行了识别,并利用Logistic回归构建了乳腺癌患者VTE风险预测模型。研究结果表明,是否有手术史、D-二聚体水平、脂蛋白、血浆蛋白C活性、C-反应蛋白是乳腺癌患者发生VTE的重要风险因素,基于这些风险因素构建Logistic 回归模型,十折交叉验证的平均预测准确率为75.36%。本文的优点主要有:①切合实际情况。本文所用研究数据所涵盖的指标均为医院中检测的常用指标,检测患者量较多,相比其他量表较易于得到,因而模型适用范围较广。②更好地适用于住院患者。虽然VTE 患者在年龄、BMI 等特征上与大众群体有较大差异(VTE 患者多为中老年、体重较重人群),但医院住院患者本身即存在年龄较大、较重等特征,因此不应将年龄、BMI 等特征作为医院内VTE 风险预测的重要依据,这与本文提出的模型结论一致。③预测模型的效果较好。本文认为乳腺癌患者发生VTE 的重要风险因素有手术史和相关血液指标等,这与主流研究的观点相一致,而且模型预测准确率较高,对辅助临床医生诊断等有积极作用。