探讨基于机器学习模型对青年高血压并发焦虑情绪的预测价值

2024-07-05 22:35肖海燕杨克平
现代医学与健康研究电子杂志 2024年10期
关键词:预测模型

肖海燕 杨克平

【摘要】目的 利用机器学习模型预测青年高血压患者并发焦虑情绪的风险,评价机器学习模型对其的预测价值。方法 回顾性分析常德市第一中医医院2021年12月至2023年6月期间收治的679名青年高血压患者的临床资料,根据患者是否存在焦虑状态,分为无焦虑状态组(464例)、有焦虑状态组(215例),统计两组患者基线资料与实验室指标,进行单因素和多因素Logistic回归分析筛选出青年高血压患者并发焦虑状态的影响因素;另将所有患者依据7∶3比例随机分为训练集(475例)和测试集(204例),在训练集中运用机器学习算法构建支持向量机(SVM)、K邻近(KNN)、分类决策树(Decision Tree)、随机森林(RF)、极端随机树(Extra Trees)、极限梯度提升(XGBoost)、机器学习算法(LightGBM)预测模型,使用测试集对预测模型进行内部验证;绘制受试者工作特征(ROC)曲线评估各模型对青年高血压患者并发焦虑状态的预测效能。结果 679例青年高血压患者中,215例患者(31.66%)存在焦虑状态。单因素分析结果显示,与无焦虑状态组比,有焦虑状态组患者年龄较大,吸烟、饮酒、有睡眠障碍、有高血压病家族史、有冠心病病史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史患者占比,汉密尔顿焦虑量表(HAMA)评分,糖化血红蛋白、高密度脂蛋白、三酰甘油、天冬氨酸氨基转移酶、丙氨酸氨基转移酶、肌酐、同型半胱氨酸水平,左心房内径均较高;淋巴细胞计数、血红蛋白、左心室射血分数(LVEF)水平均较低;高血压病程较长(均P<0.05或P<0.001)。多因素Logistic回归分析结果显示,年龄大、有吸烟史、有饮酒史、有睡眠障碍、高血压病程长、有高血压病家族史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史、淋巴细胞计数下降、糖化血红蛋白升高、三酰甘油升高、天冬氨酸氨基转移酶升高、丙氨酸氨基转移酶升高、肌酐升高、左房内径增加及LVEF下降均是青年高血压焦虑状态的危险因素(均P<0.05或P<0.001)。结合多因素Logistic回归分析结果,依据Lassso回归进一步筛选最佳变量,按序排列的最佳变量包括三酰甘油、年龄、左房内径、睡眠障碍、肌酐、吸烟、淋巴细胞计数及LVEF。通过上述筛选出的8个最佳变量,构建SVM、KNN、Decision Tree、RF、Extra Trees、XGBoost、LightGBM预测模型,将构建的模型应用于测试集,绘制ROC曲线并计算ROC曲线下面积(AUC)。其中,综合性能最佳的是Extra Trees模型,AUC值为0.996(0.991~1.000)。结论 高三酰甘油、年龄大、高左房内径、有睡眠障碍、高肌酐、有吸烟史、低淋巴细胞计数、低LVEF均为影响青年高血压伴焦虑状态发生的最佳危险因素变量,采取基于机器学习算法构建的青年高血压合并焦虑状态的SVM、KNN、Decision Tree、RF、Extra Trees、XGBoost及LightGBM预测模型中,Extra Trees模型的预测效果最好。因此,该模型可作为辅助诊断工具应用于青年高血压患者并发焦虑状态的筛查中,为青年高血压这一慢性病管理提供新的临床思路。

【关键词】机器学习模型 ; 青年高血压 ; 焦虑状态 ; 预测模型

【中图分类号】R421.15【文献标识码】A【文章编号】2096-3718.2024.10.0119.06

DOI:10.3969/j.issn.2096-3718.2024.10.037

青年高血压可能由遗传因素、不良生活习惯等原因导致,需尽早采取针对性治疗,以免延误病情。有研究表明,心理因素在高血压发病、防治中起到关键作用,焦虑、抑郁等不良情绪也是高血压的主要诱因之一;同时,血压控制不佳也可能引起焦虑,形成恶性循环[1]。因此,早期发现高血压患者潜在的焦虑风险,特别是对青年高血压患者焦虑的防治问题,已成为心血管临床医师在高血压领域研究的热点问题。近年来,随着信息化数据和计算机能力的发展,机器学习已涉及概率论、统计学等多个学科,其结合了数据科学和统计技术,是从信息池中获取目标数据的过程。机器学习可针对患者的生理和心理健康方面存在的危险与风险,进行模型构建、分析识别潜在风险因子,在此基础上指导早期防范,降低不良生理和心理事件的发生风险[2]。已有研究报道,可通过机器学习的方法来预测疾病的发生和转归[3],但目前尚未有关于预测青年高血压患者焦虑状态风险的临床模型的报道。本研究旨在探讨利用机器学习模型预测青年高血压患者并发焦虑状态的价值,现报道如下。

1 资料与方法

1.1 一般资料 回顾性分析常德市第一中医医院于2021年12月至2023年6月期间收治的679名青年高血压患者的临床资料,根据患者是否存在焦虑状态,分成无焦虑状态组(464例)、有焦虑状态组(215例)。诊断标准:参照《中国高血压防治指南2018年修订版》 [4]中高血压的诊断标准,在未使用降压药物的情况下,不同的时间测量的血压值达到以下标准:收缩压≥140 mmHg(1 mmHg=0.133 kPa),舒张压≥90 mmHg。血压测量连续测量3次以确认高血压的诊断。焦虑状态:使用汉密尔顿焦虑量表(HAMA) [5]评估焦虑程度,该量表包含了

14个项目,每个项目使用了0~4分的5级评分法,总分>29分表示严重焦虑,22~29分表示明显焦虑,14~<22分表示有焦虑,6~<14分表示存在焦虑症状,<6分则表示无焦虑症状。纳入标准:⑴符合上述诊断标准,合并焦虑状态组患者同时符合HAMA评分≥14分;⑵年龄在18~44岁之间;⑶临床资料完整。排除标准:⑴合并恶性肿瘤、血液系统疾病;⑵恶性高血压、急性或亚急性高血压;⑶已明确诊断为继发性高血压。本研究经常德市第一中医医院医学伦理委员会批准(伦理号:2023-12-01)。

1.2 研究方法 ⑴基线资料调查。统计所有患者性别、年龄、BMI、学历(小学及以下、初中及高中、大专及以上)、收入水平(<3 000元/个月、3 000~6 000元/个月、>6 000~10 000元/个月、>10 000元/个月)、婚姻状况(未婚、已婚、离异或丧偶)、吸烟、饮酒、有无睡眠障碍[匹兹堡睡眠质量评分(PSQI)>10分为存在睡眠障碍[6]]、HAMA评分、高血压病程、高血压病家族史、冠心病病史、糖尿病病史、高血脂病史、脑梗死病史、脑出血病史。⑵实验室指标。采集患者空腹静脉血液4 mL,应用全自动血液细胞分析仪(深圳迈瑞生物医疗电子股份有限公司,型号:BC-3000Plus)检测红细胞计数、白细胞计数、血小板计数淋巴细胞计数;此外,采集患者空腹静脉血液4 mL,常规抗凝后离心(3 000 r/min,10 min)取血浆,采取全自动生化分析仪(深圳迈瑞生物医疗电子股份有限公司,型号:BS-350S)检测空腹血糖、三酰甘油,采取胰岛素免疫检测胰岛素(INS)水平,计算三酰甘油葡萄糖指数(TyG)=ln[三酰甘油(mg/dL)×空腹血糖(mg/dL)/2];应用血红蛋白测定仪(爱科来株式会社,型号:HA-8180)检测血红蛋白、糖化血红蛋白含量。应用全自动生化分析仪检测低密度脂蛋白、高密度脂蛋白、胆固醇、白蛋白、球蛋白、天冬氨酸氨基转移酶、丙氨酸氨基转移酶、肌酐、同型半胱氨酸;应用超声诊断仪(美国通用电气公司,型号:Voluson E10)检测左心室舒张期末径、左心房内径、左心室射血分数(LVEF)、主动脉内径、室间隔厚度。此外,采集患者晨起中段尿液标本4 mL,经3 000 r/min转速离心10 min,分离上清液,应用尿常规分析仪(深圳迈瑞生物医疗电子股份有限公司,型号:OPM-156)检测尿蛋白、尿素氮、尿酸。

1.3 观察指标 ⑴焦虑状况与分组。根据患者是否存在焦虑,分成无焦虑状态组(464例)、有焦虑状态组

(215例),统计两组患者基线资料与实验室指标,进行单因素和多因素Logistic回归分析筛选出青年高血压患者并发焦虑状态的影响因素。⑵青年高血压焦虑状态显著差异变量筛选。采用Lasso回归分析筛选8个对焦虑状态影响最大变量构建预测模型,使用R语言构建支持向量机(SVM)、K邻近(KNN)、分类决策树(Decision Tree)、随机森林(RF)、极端随机树(Extra Trees)、极限梯度提升(XGBoost)、机器学习算法(LightGBM)预测模型。⑶预测模型建立与验证。以筛选后变量为输入变量,是否发生焦虑状态为结局变量,将所有患者依据7∶3比例随机分为训练集(475例)和测试集(204例),在训练集中运用机器学习算法构建预测模型,并绘制受试者工作特征(ROC)曲线并计算ROC曲线下面积(AUC)。

1.4 统计学方法 采用SPSS 22.0、R4.0.2、Excel 2013统计学软件进行数据统计分析,计数资料采用[例(%)]表示,用χ2检验;计量资料采用( x ±s)表示,两组间比较用t检验;建模组采用多因素Logistic回归分析,P<0.05为纳入多因素分析的标准,影响最大的变量采用Lasso回归法进行筛选,将筛选后的有统计学差异项目作为输入变量,以焦虑状态为结局变量,用R语言构建SVM、KNN、Decision Tree、RF、Extra Trees、XGBoost及LightGBM7种模型,应用于测试集绘制ROC曲线并计算AUC,评估各模型在预测青年高血压并发焦虑情绪的效能。P<0.05为差异有统计学意义。

2 结果

2.1 焦虑状况 679例青年高血压者中,有215例患者HAMA评分≥14分,存在焦虑状态,占比为31.66%。根据患者是否存在焦虑,分成无焦虑状态组(464例)、有焦虑状态组(215例)。

2.2 两组患者临床指标比较 与无焦虑状态组比,有焦虑状态组患者年龄较大,吸烟、饮酒、有睡眠障碍、有高血压病家族史、有冠心病病史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史患者占比及HAMA评分均较高,高血压病程较长,差异均有统计学意义(均P<0.05或P<0.001),见表1。

2.3 两组患者实验室指标比较 与无焦虑状态组比,有焦虑状态组患者糖化血红蛋白、高密度脂蛋白、三酰甘油、天冬氨酸氨基转移酶、丙氨酸氨基转移酶、肌酐、同型半胱氨酸、左心房内径大小均较高;淋巴细胞计数、血红蛋白含量、LVEF均较低,差异均有统计学意义(均P<0.05或P<0.001),见表2。

2.4 影响青年高血压焦虑状态多因素Logistic回归分析 以单因素分析中差异有统计学意义的指标为自变量,青年高血压患者并发焦虑状态为因变量,其中年龄、高血压病程、淋巴细胞计数、糖化血红蛋白、三酰甘油、天冬氨酸氨基转移酶、丙氨酸氨基转移酶、肌酐、左房内径及LVEF均以“原值输入”进行赋值,分类变量赋值情况见表3;纳入多因素Logistic回归分析模型,结果显示,年龄大、有吸烟史、有饮酒史、有睡眠障碍、高血压病程长、有高血压病家族史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史、淋巴细胞计数下降、糖化血红蛋白升高、三酰甘油升高、天冬氨酸氨基转移酶升高、丙氨酸氨基转移酶升高、肌酐升高、左房内径增加及LVEF下降是青年高血压焦虑状态的独立危险因素,效应值均有统计学意义(均P<0.05或P<0.001),见表4。

2.5 各模型的预测效能比较 使用Lasso回归法得出最优惩罚项参数(λ)=0.004 2,经最优λ筛选出coef>0的8个变量构建预测模型。依据其权重系数排序:三酰甘油、年龄、左房内径、睡眠障碍、肌酐、吸烟、淋巴细胞计数及LVEF。将回归分析筛选8个指标分别纳入训练集和测试集,构建SVM、KNN、Decision- Tree、RF、ExtraT rees、XGBoost及LightGBM预测模型。ROC曲线结果显示,预测效能由高到低依次为ExtraT rees模型(AUC=0.996,95%CI:0.991~1.000)、SVM模型(AUC=0.988,95%CI:0.980~0.996)、XGBoos模型(AUC=0.965,95%CI:0.953~0.978)、LightGBM模型(AUC=0.944,95%CI:0.928~0.959)、KNN模型(AUC=0.863,95%CI:0.833~0.893)、RF模型(AUC=0.852,95%CI:0.820~0.884)、Decision-Tree模型(AUC=0.822,95%CI:0.787~0.857),见图1、表5。

3 讨论

高血压和焦虑症状之间存在相互影响的神经途径,慢性高血压可能导致自主神经系统的紊乱,进而影响心血管稳态和产生焦虑情绪。青年患者常承受着学业、工作、人际关系等各种压力,这些心理和社交因素可导致青年患者在面对压力时出现焦虑症状,同时也会影响血压的调节机制[7],因此明确青年高血压患者继发焦虑的风险因素对预防和治疗均有较大的临床价值。近年来,随着信息化数据的发展、计算基础设施的革命及计算能力的提升,大数据、人工智能(AI)及机器学习(ML)在医学领域取得了长足进展。机器学习模型的训练过程涉及特征提取、数据预处理、模型优化等步骤,常见的模型包括人工神经网络、支持向量机、K-最近邻、随机森林、决策树等模型的构建为临床医学病情预测提供很大助益[8]。本研究中则以青年高血压患者临床资料和实验室指标结合及其学习算法构建多种预测模型,旨在为青年高血压合并焦虑状态的诊断预测提供指导。

本研究结果显示,青年高血压患者焦虑状态的发生率在31.66%。多因素Logistic回归分析结果显示,年龄大、有吸烟史、有饮酒史、有睡眠障碍、高血压病程长、有高血压病家族史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史、淋巴细胞计数下降、糖化血红蛋白升高、三酰甘油升高、天冬氨酸氨基转移酶升高、丙氨酸氨基转移酶升高、肌酐升高、左房内径增加及LVEF下降均是青年高血压焦虑状态的危险因素。而进一步进行Lasso回归分析,高三酰甘油、年龄大、高左房内径、有睡眠障碍、高肌酐、有吸烟史、低淋巴细胞计数、低LVEF等指标对模型预测结果影响最大。高三酰甘油水平是代谢综合征的标志之一,代谢综合征的发生,可导致患者担忧自身的健康状况,不良情绪增加,引起焦虑状况发生[9]。相对年龄较大的青年可能更加关注自己的健康状况,这会增加其焦虑水平[10]。左心房扩大是心脏结构和功能异常的指标,可引起呼吸困难、心悸、乏力、水肿症状,这种情况可引起患者对健康状况的担忧,从而增加焦虑感[11]。睡眠质量差与多种健康问题相关,包括高血压和焦虑,睡眠障碍会直接影响心理健康状况,增加焦虑和抑郁的风险。肌酐水平反映肾脏功能,而肾功能不全与高血压和心血管疾病有关,这会增加患者的心理压力和焦虑感[12]。吸烟可通过生理和心理机制增加焦虑状态的风险,尼古丁是烟草中的成分之一,其是一种强烈的中枢神经系统刺激剂。吸烟后,尼古丁会引起神经递质的释放,如多巴胺和内啡肽,这些物质会改变大脑的化学平衡暂时缓解焦虑症状,但当尼古丁的效应逐渐减退时人们可能会出现尼古丁撤退症状从而出现包括焦虑、烦躁等情绪[13]。淋巴细胞计数是评估人体免疫系统的重要指标,淋巴细胞在抵抗病原体和维持免疫平衡中起着关键作用。青年高血压患者随着病情的进展机体炎症反应会逐渐加剧,再加上药物干预会导致淋巴细胞计数持续下降,而免疫系统调节与情绪调节之间存在的相互作用,从而导致患者出现焦虑抑郁状态[14]。LVEF是评估心脏泵血能力的一个重要指标,反映了每次心脏收缩时左心室射出的血液量占左心室内血液总量的百分比[15]。青年高血压患者会出现心脏负荷增加、左心室肥厚等病理现象,长期的高血压状态会导致心肌收缩功能减弱从而造成LVEF水平下降,LVEF水平下降让患者出现身体无力、疲倦、行动受限等状态,随着健康状况的下降会导致患者对身体健康产生担忧和恐惧,从而产生焦虑情绪。基于上述因素,应鼓励吸烟者进行戒烟,提供戒烟辅助服务和支持,如尼古丁替代疗法、心理咨询等,以降低焦虑发生风险。通过饮食调节或药物治疗降低同型半胱氨酸,管理三酰甘油水平和代谢综合征。帮助患者建立良好的睡眠习惯,避免失眠和睡眠障碍,可以帮助改善心理健康状况,减少焦虑和抑郁的风险。对于有肾功能异常风险的患者,定期监测肌酐水平,及早发现问题并予以干预,而针对焦虑症状严重的患者,提供心理治疗、认知行为疗法等心理干预措施。

本研究,通过采用Logistic回归分析,从中选择了8个

显著差异变量构建预测模型。此外研究还使用了SVM、KNN、Decision Tree、 RF、Extra Trees、XGBoost及LightGBM等模型进行统计分析,结果发现,其中表现最好的模型是Extra Trees模型,AUC值(95%CI值)为0.996(0.991~1.000)。Extra Trees模型作为树模型受离群点和缺失值的影响较小,并且具有一定的随机性,这也是其性能良好的原因。进一步验证模型的预测效果良好,表明预测模型能够有效地模拟多因素作用下的趋势,结果准确可靠。

综上,高三酰甘油水平、年龄大、高左房内径、有睡眠障碍、高肌酐、有吸烟史、低淋巴细胞计数、低LVEF等为青年高血压伴焦虑状态发生的最佳变量,采取基于机器学习算法构建的青年高血压合并焦虑状态的SVM、KNN、Decision Tree、RF、Extra Trees、XGBoost及LightGBM预测模型中,Extra Trees模型的预测效果最好。因此,该模型可作为辅助诊断工具应用于青年高血压患者并发焦虑状态的筛查中,为青年高血压这一慢性病管理提供新的临床思路。但该项研究只涉及到一个医疗中心的数据,样本量相对较少,且是回顾性队列研究,还需要进行更多的前瞻性队列研究来更有效地验证和确认研究结果。

参考文献

丛晓荣, 秦景梅, 高莉. 心可舒片联合降压治疗对原发性高血压合并焦虑抑郁患者血压和血压变异性及焦虑抑郁程度的影响[J]. 中国医药, 2022, 17(6): 814-817.

魏梦瑶, 李梦文, 许露丹, 等. 老年住院高血压病患者认知衰弱风险预测模型的构建及验证[J]. 中华现代护理杂志, 2023, 29(36): 4952-4958.

龚军,杜超,钟小钢,等.基于机器学习算法的原发性高血压并发冠心病的患病风险研究[J]. 解放军医学杂志, 2020, 45(7): 735-741.

《中国高血压防治指南》修订委员会. 中国高血压防治指南2018年修订版[J]. 心脑血管病防治, 2019, 19(1): 1-44.

肖展翅, 高聚, 陈洪汉, 等. 氟哌噻吨/美利曲辛片联合丙戊酸镁对广泛性焦虑障碍HAMA、PSQI评分的影响[J]. 中国临床医生杂志, 2015, 43(9): 81-83.

路桃影, 李艳, 夏萍, 等. 匹兹堡睡眠质量指数的信度及效度分析[J]. 重庆医学, 2014, 43(3): 260-263.

王静, 谢伟, 叶天舟, 等. 氟哌噻吨美利曲辛片联合氨氯地平片治疗高血压伴焦虑的临床疗效观察[J]. 药物生物技术, 2023, 30(2): 170-175.

黄琦, 关美娇, 邹彬, 等. 机器学习模型预测心脏外科手术患者术后谵妄的有效性[J]. 临床麻醉学杂志, 2023, 39(4): 363-369.

顾芬, 李玉梅, 侯黎莉. 轻度肺高血压住院患者焦虑状况及影响因素分析[J]. 护理学报, 2016, 23(4): 18-21.

赵肖灵, 张亚琛, 李雅然, 等. 邢台地区中青年贫困人口高血压患病调查及相关因素分析[J]. 海南医学, 2021, 32(14): 1890-1893.

林萍, 崔伟锋, 庆慧, 等. 基于隐结构模型辨证论治高血压伴焦虑症用药规律研究[J]. 中国医药导报, 2022, 19(35): 125-129.

彭丽娟, 程贤敏, 杨芳. 高血压患者心理状态的影响因素及优质护理措施研究[J]. 中国煤炭工业医学杂志, 2015, 18(10): 1763-1766.

金雪,于水,宋龄,等.“生命网”健康管理模式对青年高血压患者危险分层的影响[J].长春中医药大学学报, 2020, 36(2): 392-395.

邓怀丽, 郝瑞军, 康慧敏, 等. 抑郁症患者外周血淋巴细胞总数与抑郁症相关性研究[J]. 中国药物与临床, 2018, 18(6): 964-965.

黄亦红, 刘园园. 双心模式干预对高血压合并焦虑抑郁患者心功能的影响[J]. 中国慢性病预防与控制, 2019, 27(5): 370-372.

作者简介:肖海燕,大学本科,主治医师,研究方向:心血管内科疾病。

通信作者:杨克平,博士研究生,主任医师,研究方向:心血管内科疾病。E-mail:30461400@qq.com

猜你喜欢
预测模型
基于矩阵理论下的高校教师人员流动趋势预测
基于支持向量回归的台湾旅游短期客流量预测模型研究
基于神经网络的北京市房价预测研究
中国石化J分公司油气开发投资分析与预测模型研究
基于IOWHA法的物流需求组合改善与预测模型构建
基于小波神经网络的GDP预测
区域环境质量全局评价预测模型及运用
组合预测法在汽车预测中的应用
H市电动汽车充电站项目建设需求规模与技术分析
基于预测模型加扰动控制的最大功率点跟踪研究