■ 汤 如张金萍刘 畅曹秀堂高岱峰
利用连续健康体检资料构建疾病预测模型
■ 汤 如①张金萍②刘 畅②曹秀堂①高岱峰②
连续健康体检资料 GEE模型 高血压
目的:利用连续体检资料的变化,探讨相关疾病的影响因素,为疾病预测提供新思路。方法:抽取5个单位经过6年体检的943人作为研究样本,以是否患有高血压分为两组。运用重复测量广义估计方程(GEE模型)对选择的样本进行模型构建,将二项反应变量设定为是否诊断为高血压,筛选出高血压的危险因素。结果:5个受检单位之间对高血压的影响存在差异。收缩压、高密度脂蛋白胆固醇、血红蛋白浓度的变化对高血压的发生具有统计学意义。结论:收缩压、血红蛋白浓度是高血压的危险因素,高密度脂蛋白胆固醇是高血压的保护因素;通过建立连续体检资料变化的模型能对疾病的预测提供帮助。
Author’s address:General Hospital of PLA, No.28, fuxing Road, Haidian District, Beijing, 100853, PRC
检后服务是体检服务的延伸,内容包括建立电子档案、提醒跟踪、健康咨询、健康教育、慢病风险评估等,受到各体检机构的日益重视[1]。检后服务是提供优质体检服务、吸引体检客户的重要措施。同时,各体检中心通过定期体检积累了大量体检信息[2]。特别可贵的是人群相对固定的历次体检信息,不仅能够为受检者提供各项指标的动态变化趋势,更能利用这些信息探索疾病发生、发展的规律。作者尝试利用连续体检指标的变化,探索高血压的影响因素,为充分利用体检资料提供方法借鉴,并为提高检后服务水平提供有效的工具和手段。
表1 5个单位体检基线时资料描述
某体检中心对相对固定的14个体检单位,6282名参检人群的体检资料进行整理。其中男性3749人,占59.68%。从中抽取经过6年体检的5个单位943人作为研究样本,尝试进行疾病影响因素模型的构建。资料描述详见表1。
因体检时间较长,有些体检项目不完整,本研究保留了数据采集比较完整的指标,详见表2。
连续体检资料是同一人群的重复测量数据,适合用重复测量广义估计方程(GEE模型)进行模型参数估计[3-5]。
本文使用GEE模型对5个受检单位连续6年重复测量资料进行模型构建。以是否诊断为高血压作为二项反应变量,用表2中列出的解释变量使用SAS 9.1.3统计软件进行模型拟合。假定每个受检者高血压状态是等相关,即可交换相关结构。SAS语句如下:
3.1 GEE模型拟合结果
以G E E模型拟合参数的检验结果为依据,筛选符合要求的变量,最终入选变量的参数估计见表3。研究结果可见,受检单位之间对高血压的影响存在差异,此外收缩压、高密度脂蛋白胆固醇、血红蛋白浓度的变化对高血压的发生具有统计学意义。根据GE E参数估计结果,收缩压的OR估计为1.0218(95%CI:1.0142~1.0295),血红蛋白浓度的OR估计为1.0208(95%CI:1.0093~1.0323),是高血压的危险因素。高密度脂蛋白胆固醇的OR估计为0.4401(95%CI:0.2715~0.7143),是高血压的保护因素。
3.2 慢病风险评估具有现实意义
体检的根本目的是以较小的代价,及时发现影响健康的苗头,指导慢病高风险人群控制风险因素,换取长期的健康状态。对于体检人群来说,根据历年监测指标对患病风险进行预测,据此强化健康管理理念,促进健康生活方式的养成,更具实际意义。充分利用每次体检结果,针对自身指标变化趋势,提出个性化健康指导策略,才能达到健康管理的目的。
3.3 数据采集的规范性需要加强
原始信息的采集不够完整,是体检中心普遍存在的问题。需要加大体检行业标准的建立,完善采集系统,并实现信息共享,只有这样,才能使海量的体检信息发挥更大的价值。受本研究体检中心当前体检模式和体检软件限制,没有采集受检者生活习惯、疾病史、家族史等可能的影响因素,且体检结果描述不够规范,未记录疾病诊断的医疗机构和确切诊断时间。故疾病诊断和记录的准确性可能不准确。
对于高血压患病情况,在数据记录和分析中同样存在一定问题。记录为高血压者可以是新诊断高血压,也可以是药物控制后血压仍然不正常;同样,血压记录为正常者,也可能是药物控制后达到正常。由于未记录服药情况,此混杂因素无法排除。作为示例介绍,本研究仅以体检指标的变化作为疾病预测的影响因素,重在提供模型预测的方法,模型拟合结果仅供参考。
表2 参与模型构建的指标及基线值
表3 GEE参数估计(基于观察的标准误估计)
[1] 王维民,曾强.医院开展体检后续服务的探索与实践[J].中国医院,2010,14(6):74-75.
[2] 钱英,王丽凤.定期健康体检对中老年生活质量的影响[J].中国实用医药,2011,6(8):251-252.
[3] 韩伟,薛芳,姜晶梅.应用广义估计方程对老年冠心病患者非心脏手术术中高血压发生风险的评价[J].中国卫生统计,2011,28(6):613-616.
[4] 冯丽云,J ames Cui.纵向数据准似然独立准则在GE E模型中的应用[J].中国卫生统计,2008,25(4):369-372.
[5] 吴海磊,钱吉生,徐兴大.用广义估计方程研究大气污染对SARS发病的影响[J].中国国境卫生检疫杂志,2005,28(1):12-15.
Using longitudinal physical examination data building disease prediction model
/ TANG Ru, ZHANG Jinping,LIU Chang, CAO Xiutang, GAO Daifeng// Chinese Hospitals. -2015,19(3):5-6
longitudinal health physical examination data,GEE model,hypertension
Objectives: To explore the influence factors of hypertension and new way to predict disease with longitudinal physical examination data. Methods: 943 examiners were extracted as the research sample from five units in six years and were divided into two groups according to hypertension. Generalized Estimating Equations (GEE) model was used to select risk factors of hypertension, set the two response variables as whether diagnosed with hypertension or not. Results: There are differences between 5 tested units on hypertension. Systolic blood pressure, high density lipoprotein cholesterol, hemoglobin concentration change are related with the occurrence of hypertension. Conclusions: Systolic blood pressure, hemoglobin concentration is a risk factor for hypertension. High density lipoprotein cholesterol is the protection factor in hypertension. The establishment of continuous physical examination data change model can provide help for the forecast of disease.
2014-10-25](责任编辑 王远美)
总后保健专项课题(13BJZ23)
①中国人民解放军总医院,100853 北京市海淀区复兴路28号
②中国人民解放军305医院,100017 北京市西城区文津街甲13号
高岱峰:中国人民解放军305医院体检中心主任,副主任医师
E-mail:dfg2001@sohu.com