张雪梅,钟小钢,,龚 军,田 君, 张 谊,陈颖哲,崔 婧,汪曾子,冉淑琼,向天雨,谢友红,孙兴国,3△
(1.重庆医科大学附属康复医院,重庆 400050;2.重庆医科大学医学数据研究院,重庆 400016;3.国家心血管病中心中国医学科学院阜外医院,北京 100037;4.首都医科大学附属北京中医院,北京 100010)
高血压是全世界导致心血管疾病及死亡的主要危险因素[1]。有研究显示,预计到2025 年,全球将有15.6 亿人受高血压的影响[2]。高血压性心脏病(hypertensive heart disease, HHD)是由高血压所引起的以左心室肥厚为特征的疾病,如得不到有效控制,则会逐渐出现代偿性负荷增加,最终导致心力衰竭[3,4]。先前的研究显示,HHD 与死亡风险增加相关,但鲜有价值的生物标志物可预测临床实践中从单纯性高血压到HHD 的进展[5,6]。因此,本文利用机器学习等算法建立高血压进展至HHD 的预测模型,为HHD 的发生提供诊断方法。
数据来源于某医科院校医学数据研究院,该平台共包含7 家附属医院的医疗数据。根据国际疾病分类 第10 版(international classification of diseases 10th edition, ICD-10)从该平台选取2016 年1 月1 日至2019 年12 月31 日诊断为高血压性心脏病或高血压的病例,诊断标准根据中国2018 年高血压指南并参考美国AHA、ACC2017 高血压指南和欧洲ESC2018高血压指南[7-9]。实验组纳入标准:(1)主要诊断为HHD;(2)病案首页中有明确的原发性高血压诊断。排除标准:(1)由其他疾病引发的心脏病[7-9]。对照组纳入标准:(1)主要诊断为明确的原发性高血压[7-9]。排除标准:(1)继发性高血压[7-9];(2)其他疾病引发的高血压[7-9]。
选取研究对象的人口学信息,包含性别、年龄、饮酒、吸烟等;相关的实验室检查、检验指标,包含血细胞分析、生化检查、血清离子、凝血功能检查等共计85 项指标。
采用Excel 2013 录入并核对数据,SPSS 和R 3.6.1 进行统计学分析。采用t检验、卡方检验、非参数秩和检验进行单因素分析。采用logistics 回归模型(α入=0.05,α出=0.10)进一步筛选影响因素。采用random Forest 包、xgboost 包分别建立随机森林(random forest, RF)模型、极限梯度上升(extreme gradient boosting, XGBoost)模型。采用曲线下面积(area under the curve, AUC)等指标评价模型的性能。对于缺失率≤30%的指标采用missForest 包进行填补[7]。
共计获得有效病例5 155 例,其中HHD 3 020 例,原发性高血压2 135 例。病例以老年人为主。男性比例低于女性比例。删除缺失率大于30%的指标,对缺失率小于等于30%的指标进行填补[10],共有78 项指标纳入后续分析。
实验组和对照组在性别、吸烟、饮酒、年龄、收缩压、舒张压、中性粒细胞计数、中性粒细胞百分比、单核细胞计数、单核细胞百分比、嗜碱性粒细胞计数、嗜碱性粒细胞百分比、嗜酸性粒细胞计数、嗜酸性粒细胞百分比、大型血小板比率、平均红细胞体积、平均红细胞血红蛋白含量、平均红细胞血红蛋白浓度、淋巴细胞计数、白细胞计数、红细胞分布宽度变异系数、红细胞分布宽度标准差、红细胞计数、血小板分布宽度、平均血小板体积、血小板计数、血红蛋白、γ.谷氨酰基转移酶、丙氨酸氨基转移酶、乳酸脱氢酶、低密度脂蛋白胆固醇、前白蛋白、天门冬氨酸氨基转移酶、尿素、尿酸、总胆固醇、总胆红素、总蛋白、球蛋白、甘油三酯、白蛋白、直接胆红素、碱性磷酸酶、肌酐、葡萄糖、载脂蛋白A1、载脂蛋白B、间接胆红素、高密度脂蛋白胆固醇、氯、磷、钙、钠、钾、镁、D.二聚体、凝血酶原时间、活化部分凝血活酶时间、纤维蛋白原这59 项指标有统计学差异(P<0.05,表1)。
表1. 高血压性心脏病(HDD)相关指标单因素分析
续表1. 高血压性心脏病(HDD)相关指标单因素分析
为进一步探索HHD 的影响因素,我们将单因素有统计学差异的指标纳入二元Logistics 回归模型分析,结果显示γ-谷氨酰基转移酶、乳酸脱氢酶、凝血酶时间、天门冬氨酸氨基转移酶、平均红细胞血红蛋白浓度、总胆红素、活化部分凝血活酶时间、淋巴细胞计数、红细胞分布宽度变异系数、纤维蛋白原、肌酐、血小板分布宽度、平均血小板体积、载脂蛋白A1、间接胆红素、高密度脂蛋白胆固醇、磷、镁这18 项指标仍具有统计学差异(P<0.05,表2)。
表2. 高血压性心脏病(HHD)差异性指标Logistic 回归分析
将所有样本以7 ∶3 的比例随机分配到训练集和测试集中(训练集中实验组样本2 107 例,对照组样本1 502 例;测试集中实验组样本913 例,对照组样本633 例),训练集用于探究模型最优参数,测试集用于评价模型。通过训练集发现当max-depth 为0.8 时,XGBoost 模型的性能最优;当mtry 为5 时,随机森林模型的性能最优。此时测试集XGBoost 模型、随机森林模型的AUC 分别为0.990 和0983(表3)。
表3. 不同模型性能评价表
HHD 是由高血压所引发的并发症,通常以左心室肥厚、血管及心室硬化、心室充盈受损为主要临床表现,如不积极治疗,会导致心力衰竭[11]。临床上,主要采用心电图、超声、心血管磁共振特征追踪等手段对HHD 进行诊断[12,13]。但有相关研究显示,心电图对于左心室肥厚的测量,尤其是对于肥胖患者,具有敏感度低等特点,而心血管磁共振特征追踪技术存在价格较高等特点[8]。因此,寻找用于诊断HHD 的生物标志物非常必要。
本文通过某医学数据研究平台,选取了高血压和HHD 患者共计5 155 例患者的85 项指标。相对于高血压患者,通过单因素和多因素分析发现HHD 患者的γ-谷氨酰基转移酶等18 项指标存在统计学差异。本文建立的3 种预测模型发现XGBoost 机器学习算法模型最优,可实现γ-谷氨酰基转移酶等18 个指标的敏感度为0.993,特异度为0.984,曲线下面积为0.990的良好预测模型。
研究显示国内外进行了多项针对HHD 诊断标志物的筛选,如学者Kangxing Song 等人通过meta 分析发现HHD 患者血浆中的心肌营养素-1(cardiotrophin-1)明显升高[6]。国外学者Begon˜aLo´pez 等人发现血浆中心肌营养素-1 浓度用于预测HHD 的敏感度为0.70,特异度为0.75[14]。学者张光彩等人发现相对于高血压患者,HHD 患者的血清超敏反应蛋白和同型半胱氨酸升高,可作为预测HHD 不良事件发生的效应指标[15]。学者初志辉等人发现超声心电图联合亲环素A 和亲环素B 诊断HHD 可实现敏感度为0.94,特异度为0.90,曲线下面积为0.987,具有良好的诊断结果[16]。本文建立的XGBoost 预测模型无论是灵敏度、特异度还是曲线下面积,均优于上述的预测模型。其次,本文还基于上述18 个差异指标同时建立了Logistics 回归模型、随机森林模型,所有模型的灵敏度、特异度和曲线下面积均超过了0.90,说明指标比较稳定,模型比较可靠。
本研究的优势包括:(1)选取的指标广,包含了生化检查等78 项指标;(2)样本量大,数据来源于7 家医疗机构;(3)得出的结论相对可靠,同时使用了3 种预测模型,且分成了训练集与测试集。本研究也存在一些不足之处,比如(1)对于缺失率超过30%的指标,采取了直接删除,其于HHD 的关系有待进一步探索;(2)本文预测模型包含18 个指标,指标个数相对较多,有待进一步精简及优化。