基于随机森林的原发性高血压心血管风险预后模型

2020-02-28 12:28崔伟锋刘萧萧韩静旖范军铭
中国老年学杂志 2020年4期
关键词:共线性原发性心血管

崔伟锋 刘萧萧 韩静旖 范军铭

(1河南省中医药研究院,河南 郑州 450000;2郸城县人民医院心内科;3河南中医药大学)

高血压并发症死亡人数为940万,占全部疾病负担的7% (按伤残调整生命年测算),已成为影响全球疾病负担的首要危险因素〔1,2〕。目前关于原发性高血压预后危险因素的研究有很多,但缺少中医证候相关信息。预测模型研究多以线性关系预测模型,尚未建立基于复杂关系的预后模型方法。本研究纳入血管功能评价及中医元素探索建立基于人工神经网络的原发性高血压心血管风险预后模型。该研究结果能够对高血压预后进行全面评估,提供更为准确的预后预判,有助于临床工作者向患者及家属提供更为精准的预后信息、为临床原发性高血压心血管的防治及决策提供依据。

1 资料和方法

1.1研究对象 以原发性高血压患者为研究对象,于2001~2016年在全国高血压中医诊疗中心建立的高血压队列人群。纳入标准:①符合原发性高血压诊断标准;②年龄≥18岁;③病程≥5年;④可以接受随访。采用调查表完成基线的采集和随访,基线采集包括年龄、性别、病程、有无早发心血管病家族史、身高、体重、腰围、臀围、吸烟史、饮酒史、情绪、睡眠、饮食习惯、运动量、总胆固醇(TC)、三酰甘油(TG)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C);血糖:空腹血糖、餐后2 h血糖、糖化血红蛋白、空腹血胰岛素;电解质:钾(K)、钠(Na);肾功能:尿素氮、肌酐、尿酸及血同型半胱氨酸(Hcy)、颈股脉搏波传导速度(cfPWV)、颈桡脉搏波传导速度(crPWV)、踝肱脉搏波传导速度(baPWV)、踝臂压指数(ABI)等;血管内皮功能检测:血流介导的血管舒张功能(FMD);心功能检查:左室后壁厚度、室间隔厚度,左室射血分数(LVEF)、左室舒张末期内径及中心动脉压头晕、头痛、心悸、心慌、易怒、耳鸣、口干苦、面红、失眠、水肿及辩证结果。随访时间为2015年1月至2016年12月。随访主要心血管事件发生情况及时间。主要心血管事件包括:脑血管死亡、脑梗死、脑出血、心肌梗死。

1.2统计方法 采用SPSS21.0软件进行分析,分别采用R语言进行统计分析。计量资料符合正态分布的使用均数±标准差表示,进行独立样本t检验;不符合正态分布则用中位数(四分位间数)表示,采用秩和检验进行分析。计数资料的构成比使用频数(百分数)表示,使用χ2检验或Fisher确切概率法进行分析。使用COX回归分析对可能与预后相关的因素进行筛选。以P<0.05为差异具有统计学意义,对筛选后的变量进行共线性诊断,将存在严重共线性的变量进行删减或替换。用R语言将数据按照7∶3的比例随机分成训练集和测试集,使用R语言“randomForest”包构建预后预测模型,基于训练集的数据将各个变量代入算法进行建模,然后在测试集中验证。模型预测的效力使用混合矩阵评估其准确性。

2 结 果

2.1病例分布情况 本研究共纳入了1 000例原发性高血压患者,剔除无法完成随访的病例后,共有985例进入分析。985例患者随访时的平均年龄为(55.82±5.80)岁,平均病程(10.60±4.20)年,有早发心血管病家族史者431例(43.8%),基线血压水平在正常范围内的为280例(28.4%),基线血压水平达高血压1级的有581例(59.9%),2级者95例(9.6%),3级者29例(2.9%)。985例高血压患者中男833例(84.6%),有吸烟史者295例(30.0%),有饮酒史者384例(39.0%);在运动量方面,经常运动者占比最多,有427例(43.4%),睡眠方面,睡眠较好者占比最多,有536例(54.4%);情绪方面,很少有不良情绪者占比较多,有430例(43.7%);饮食习惯方面,饮食一般者占比较多,有456例(46.3%)。985例患者经查阅整理病例资料及随访资料,至随访结束时,有212例(6.6%)患者出现脑梗死,有8例(0.3%)脑血管病死亡;26例(1.5%)出现脑出血,38例(1.7%)心肌梗死,合计284例患者发生终点事件。

2.2确定建模变量 以是否发生心血管风险为因变量,影响心血管风险的因素为自变量构建风险比例模型,经COX单因素、多因素筛选(多因素分析前共线性诊断后对同类变量进行删除或合并),从48个变量中筛共选出共有13个变量,病程、性别、早发心血管病家族史、体重指数(BMI)、饮食习惯、Hcy、平均ABI、平均动脉压、FMD、气虚血瘀证、阴虚阳亢证、肝肾阴虚证、阴阳两虚证与心血管风险相关。参考相关文献数据并考虑模型的预测全面性及预测能力。糖耐量异常、脂代谢异常、cfPWV均与心、脑血管疾病的发生密切相关,影响原发性高血压患者的预后,本研究高血压首发症状头晕(14.0%)、头痛(6.9%)发生频率较高。最终确定进入预后模型的变量。对以上18个变量进行共线性诊断,发现这18个变量的容忍度均>0.1,方差膨胀因子均<10,各变量之间不存在共线性。见表1。

表1 建模变量的共线性诊断

2.3随机森林建模变量重要程度分析 其中BMI、Hcy、平均ABI、平均动脉压等变量对模型的正确率贡献较大,见图1。

图1 随机森林模型中变量的重要度

2.4预测模型 在模型训练方面,混淆矩阵提示随机森林模型训练集中的总体错误率为28.7%,说明模型的对训练集分类的效果尚可,测试集总体错误率为28.5%,训练集与测试集结果接近。见表2。

表2 高血压心血管风险预测模型混淆矩阵(n)

3 讨 论

高血压在我国甚至全世界的发病率逐年上升,其并发症具有较高的致残、致死率,已成为我国沉重的家庭及社会负担,影响全球疾病负担的首要危险因素〔1〕。尤其是如今我国人口老龄化进程加速,高血压患者数量快速增长,因此预计心脑血管疾病的发病率也将随之上升,造成日益严重的社会负担与社会危害〔3〕。

目前关于高血压发病及其预后相关危险因素的研究较多,但多以现况研究为主、样本例数少,因果论证强度不足;尚无基于中医元素的预后预测模型研究;基于队列研究设计,直接探索中医证型与高血压预后关系的研究较少。目前临床研究中大多以血压及症状等指标为效应指标,对于评判预后更有意义的心脑血管终点事件等结局指标缺乏研究〔4〕。本研究基于回顾性队列研究,随访基线危险因素及心血管风险发生情况,能够推断其因果关系,有利准确原发性高血压心血管风险发生情况。本研究在分析心血管风险的危险因素及建立预后预测模型时加入了动脉功能指标和中医证候,探索两者在高血压预后判断中的作用,证实了血管功能指标、中医证候对判断原发性高血压病预后具有一定的作用,丰富了高血压预后判断的依据。

随机森林是基于决策树算法的分类器,能够利用多棵树对样本进行训练并预测,最后通过综合多棵决策树的表决结果来进行类别判断〔5〕。其优势在于能够自动探索对类别具有较大帮助的变量,进而构建出类别差异明显的分类器,对线性和非线性数据均能进行分类〔6〕,适用性较广。其局限性在于难以实现整个森林的可视化,且在处理某些噪声较大的数据集时容易出现过度拟合的情况,因此在使用该算法过程中要注重对变量的筛选。本研究变量筛选根据原发性高血压的队列人群随访数据,采用Cox单因素、多因素分析、共线性诊断,参考相关文献数据并考虑模型的预测全面性及预测能力,参考最终确定18个变量纳入预测模型变量,避免在构建模型时出现过度拟合的情况。

本研究虽只是探索阶段,仍有许多不足,但在一定程度上弥补了目前原发性高血压病预后研究的不足之处,为其预后模型的构建提供了一种新思路,具有临床参考价值。通过加入动脉功能指标和中医证候,并构建更好的预后预测模型,能够帮助临床医师更好地判断高血压患者预后,为患者提供更科学、更细致的个体化治疗方案,以期改善原发性高血压的预后。

猜你喜欢
共线性原发性心血管
“心血管权威发布”公众号简介
“心血管权威发布”公众号简介
“心血管权威发布”公众号简介
COVID-19心血管并发症的研究进展
8种针灸疗法治疗原发性痛经的网状Meta分析
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
原发性肝癌癌前病变中西医研究进展
原发性肾上腺平滑肌肉瘤1例
不完全多重共线性定义存在的问题及其修正建议