决策树及Logistic 回归模型在活动性肺结核预测中的应用

2023-10-27 07:30李畏娴吴雪娇姚晓蝶
昆明医科大学学报 2023年9期
关键词:白介素活动性决策树

樊 浩 ,刘 幸 ,张 乐 ,李畏娴 ,吴雪娇 ,韩 祎 ,姚晓蝶

(1)大理大学药学院,云南 大理 671000;2)云南省传染病临床医学中心/昆明市第三人民医院药学部,云南 昆明 650041)

结核病死亡人数在传染性疾病领域位列第一,也是全球第十三大死亡原因之一,2022 年WHO全球结核病报告中提到,全球结核病每日死亡人数已超过新型冠状病毒感染死亡的人数[1],预计2023 年结核病将取代新型冠状病毒再次成为全球单一传染源的主要死亡原因[2]。其中结核病患者病原体检测的全球平均阳性率为57%,在贫困的农村地区,这一比例更低[3]。因此,发展中国家的结核病控制组织和患者(特别是痰呈阴性的患者)迫切需要快速、准确、简单和廉价的活动性肺结核(active tuberculosis,ATB)检测方法。

痰涂片检查是诊断活动性结核病最常用的细菌学方法,同时也是检测结核分枝杆菌(mycobacterium tuberculosis,MTB)的金标准,但该方法灵敏度较低,且需要4~6 周才能得到结果,这不适用于快速检测MTB[4]。与之相比,核酸检测技术的优势在于其表现出较高的灵敏度,特别是在提高速度的同时,还能保持结核确诊的准确性。但核酸检测的诊断方法所需的设备、设施和试剂成本较高,一定程度上限制了它们的广泛应用[5]。

血液的异常结果可以预示患者存在血液疾病和结核分枝杆菌感染。常规血检可广泛用于活动性肺结核的检测。然而,常规血液检测结果的使用可能需要不断的完善才能有效地帮助ATB 的诊断。既往研究表明,炎性蛋白、细胞因子、淋巴细胞等单一常规血液标志物可能有助于识别ATB[6-7],但这些标志物作为诊断标志物时的敏感性和特异性相对较低,假阳性率较高,不适用于快速、准确的诊断。本研究旨在利用广泛可用的生物标志物组合构建决策树和Logistic 回归预测模型,并评估这些模型的预测价值,为ATB 的防治提供参考依据。

1 对象与方法

1.1 研究对象

实验组:以2021 年3 月至2023 年3 月期间昆明市第三人民医院收治的活动性肺结核患者200 例,男性113 例,女性87 例,平均年龄(48.94±18.20)岁。对照组:以同期健康体检者200 例,男性105 例,女性95 例,平均年龄(45.83±15.50)岁。

1.2 纳入和排除标准

全部ATB 患者按照《肺结核诊断标准》(WS288-2017)[8]:痰MTB 培养阳性、MTB 核酸检测阳性、胸部影像学检查、病理学检查等确诊为活动性肺结核的患者,排除标准[9]:(1)患有心脏、肝脏、肾脏等重要脏器性疾病;(2)合并HIV 和细胞免疫缺陷;(3)合并其他细菌感染;(5)合并严重循环功能障碍。

1.3 数据收集

使用昆明市第三人民医院信息管理系统进行电子查阅,收集患者的临床资料,具体包括年龄、性别、免疫球蛋白A(IgA)、免疫球蛋白M(IgM)、免疫球蛋白G(IgG)、触珠蛋白(HAP)、α1 抗胰蛋白酶(AAT)、α1 酸性糖蛋白(AGP)、干扰素γ(IFN-γ)、肿瘤坏死因子α(TNF-α)、干扰素α(IFN-α)、白介素-1(IL-1)、白介素-2(IL-2)、白介素-4(IL-4)、白介素-5(IL-5)、白介素-6(IL-6)、白介素-8(IL-8)、白介素-10(IL-10)、白介素-12p70(IL-12p70)、白介素-17(IL-17)、CD+3 淋巴细胞绝对数(CD+3)、CD+4 淋巴细胞绝对数(CD+4)、CD+8 淋巴细胞绝对 数(CD+8)、CD+4 淋巴细胞与CD+8 淋巴细胞的比值(CD+4/CD+8)、C 反应蛋白(CRP),并完成录入、建立数据库和统计分析等工作。

1.4 决策树模型的建立

分别在是否根据二元Logistic 回归结果的条件下建立决策树模型。决策树1 纳入单因素分析中有统计学意义的因子,根据Logistics 回归结果建立的决策树模型命名为决策树2,采用SPSS 27.0 软件建立树模型。条件设定选项中父节点最小个案数为20,子节点最小个案数为5。

1.5 统计学处理

数据处理软件为SPSS Statistics 27.0 统计软件。计数资料用“比值比[n(%)]”描述,计量资料以“中位数(四分位数)[M(P25,P75)]”表示,选择秩和检验。以P< 0.05 为差异有统计学意义。单因素中具有统计学意义的因子纳入二元Logistic回归,建立L ogistic 回归模型,并使用MedCalc19.8统计软件比较3 组ROC 曲线下面积。

2 结果

2.1 活动性肺结核影响因素的单因素分析

本实验数据皆为偏态分布,选用秩和检验,分析结果显示,各组间年龄、男女构成比情况比较,差异均无统计学意义(P> 0.05)。2 组间CRP、TNF-α、AGP、AAT、HAP、IgM、CD+3、CD+4、CD+8、IL-1、IL-2、IFN-γ、IL-4、IL-5、IL-6、IL-10、IL-17,差异具有统计学意义(P< 0.05),见表1。

表1 实验组与对照组单因素分析结果[n(%)/M(P25,P75)]Tab.1 Results of one-way analysis of variance between experimental and control groups [n(%)/M(P25,P75)]

2.2 活动性肺结核影响因素的Logistic 回归分析

根据单因素分析结果,将P <0.05 的变量纳入二元Logistic 回归分析。结果显示,共筛选出6 个独立影响因素AAT、IL-4、IL-6、IL-17、IFN-γ、CD+4,见表2。

表2 活动性肺结核影响因素的二元Logistics 回归分析Tab.2 Binary Logistic regression analysis of factors influencing ATB

2.3 活动性肺结核影响因素的决策树分析结果

根据单因素分析结果中有统计学差异的变量建立决策树,结果显示决策树1 分为3 层,见图1。与活动性肺结核相关的危险因素依次为CRP、IL-1、IL-6、CD+4、IL-17、AGP、IFN-γ。树状结构的第一层为CRP,CRP > 24.2 mg/L 的人群活动性肺结核患病率较高为94.3%。CRP 值在3.1 mg/L < CRP < 24.2 mg/L 的人群中IL-6 对活动性肺结核的影响有统计学意义(P< 0.01),IL-6 绝对值 > 12.25 Pg/mL 的人群活动性肺结核患病率达100%。将Logistic 回归分析结果中P< 0.05 的变量AAT、IL-4、IL-6、IL-17、IFN-γ、CD+4纳入决策树分析(决策树2),结果显示,决策树模型2 以IL-6 作为根节点,其后是AAT、IL-4、IL-17 作为子节点,见图2。

2.4 活动性肺结核影响因素的Logistic 回归模型与决策树模型比较

Logistic 回归模型 AUC 为 0.887(95%CI:0.852~0.917),预测准确度为84.1%。模型集决策树分析结果显示,决策树1 的AUC 为0.900(95%CI:0.867~0.928),预测准确度为85.2%;决策树2 的AUC 为0.957(95%CI:0.819~0.890),预测准确度为83.8%,见图3 和表3。结果显示:3 组模型对活动性肺结核均有一定的预测价值。

图3 3 组模型ROC 曲线下面积比较Fig.3 Comparison of the area under the ROC curve for the three model groups

表3 3 组模型ROC 曲线下面积Tab.3 the area under the ROC curve for the three groups of models

3 组模型的AUC 比较结果显示,决策树1 的AUC 优于决策树2(95%CI:0.001 9~0.084 1,P<0.05),但决策树1 的AUC 与Logistic 模型AUC比较差异无统计学意义(95%CI:0.026~0.052,P=0.526),见表4。

表4 3 组模型ROC 曲线下面积比较结果Tab.4 Comparison of the results of the area under the ROC curve for the three groups of models

3 讨论

虽然新型冠状病毒的管控措施有效控制了结核病的传播,但新冠肺炎疫情导致的ATB 基本服务的中断、MTB 检测的暂停、更广泛的ATB 预测因素(例如营养不良、贫困和人均收入)等,严重影响着结核病的发病率和死亡率[10]。2020 年和2021 年我国新发结核病报告中病例的减少也预示着未诊断和治疗的结核患者例数将有所增加,将直接导致结核病死亡病例数增加和更多的社区传染传播。因此,明确ATB 的主要危险因素,对其防控有着重要的价值。

本研究建立了ATB 的风险预测模型(决策树模型和Logistic 回归模型)并进行了对比,旨在为ATB 早期诊断提供参考。决策树模型与Logistic回归模型都突出了CD+4、IL-6、IL-17、IFN-γ等对ATB 的影响,而在Logistic 回归模型中有意义的变量AAT 和IL-4,并未进入决策树的节点。考虑受决策树深度值设置的限制,这些变量可能在更深的节点才会显示。此外有研究者明确指出Logistic 回归与决策树模型在算法上有明显差异[11],主要体现在Logistic 回归擅长分析线性关系,专注于拟合整体关系,比决策树能更好的分析数据的整体结构,但对极端值更加敏感,容易受到极端值的影响。另一方面,由于决策树使用的是分割的方法,因此能更深入地了解数据的细节[12],但同时失去了对全局的把握,对多变量同时检验的能力明显低于Logistic。

本研究表明,在决策树模型中CRP 是ATB的最强预测因子。CRP 是临床研究中最常见的炎性标志物,当MTB 入侵机体时,由肝脏产生大量的反应蛋白用于激活补体、调节吞噬细胞功能等[13],表明CRP 可作为ATB 的敏感指标,这与Rohini K 研究结果相符[14]。本研究也显示IL-4、IL-6、IL-17 是ATB 的危险因素。在CRP 及刺激信号影响下,机体特定细胞被激活,释放TNFα,继而激活其他炎性因子,引发瀑布效应,通过局部应激细胞聚集,促进巨噬细胞活化,提高吞噬能力[15],当巨噬细胞被激活后释放TNF-α,机体IL-1、IL-6 水平升高,促进肉芽肿组织形成,并有助于控制MTB 感染[16]。CD+4 细胞在结核病免疫进程中发挥主导作用,当ATB 患者的CD+4细胞水平明显降低时,大大降低了对结核杆菌的杀伤力,使结核分枝杆菌得以增殖,使潜伏的结核病患者进入活动阶段。Logistic 回归及决策树模型分析中均表明CD+4 细胞为ATB 的保护因素(OR< 1)。这与文献[17]报道结果一致。

ATB 影响因素的分析现如今大部分还停留在单因素分析上,然而单一指标用于预测疾病的能力有限,很难做出准确的判断[18]。本研究基于Logistic 回归算法和决策树算法建立了ATB 的风险预测模型,为ATB 的早期诊断提供思路。经检验Logistic 回归和决策树1 的预测效果无统计学差异,虽然决策树1 模型的准确度优于Logistic回归模型,但敏感度却低于Logistic 回归模型。相较于决策树模型,当存在混杂变量的情况时,Logistic 回归可准确反应自变量对因变量的作用,对于全局的掌控性更强,比决策树更能体现自变量与因变量的线性关系,并能通过OR 值量化两个变量之间的效应[19]。决策树模型与Logistic 回归模型相比,虽然对全局的控制较差,但它不受极端值的影响,也可以分析非线性和高度相关的数据[20]。此外决策树模型能形象的在树状图中将各危险因素呈现出来,以百分比的方式呈现各危险因素的特征,将不同特征的危险因素分开,便于医护人员识别高危人群[21]。

本研究为ATB 危险因素的研究提供新的研究方向,Logistic 回归模型与决策树模型在ATB 危险因素评估方面都具有重要的应用价值,可互为补充。ATB 影响因素众多,不同危险因素间会相互干扰,考虑到对Logistic 的影响,本课题组将利用决策树模型的分析在各种检查中找出数据的局部结构,作为Logistic 中构建因变量的依据。从不同层面分析ATB 的危险因素及作用,同时将纳入潜伏性肺结核患者临床资料进行系统分析,从不同方向完善预测模型,为ATB 的预防与控制提供有价值的参考。

猜你喜欢
白介素活动性决策树
金属活动性顺序的应用
T-SPOT.TB在活动性肺结核治疗效果的监测
一种针对不均衡数据集的SVM决策树算法
金属活动性应用举例
决策树和随机森林方法在管理决策中的应用
活动性与非活动性肺结核血小板参数、D-D检测的临床意义
基于决策树的出租车乘客出行目的识别
银屑病患儿血清肿瘤坏死因子α、白介素6、白介素8的检测
基于肺癌CT的决策树模型在肺癌诊断中的应用
哮喘患儿血清白介素与免疫球蛋白检测的临床意义