logistic回归和分类树在慢阻肺影响因素分析中的应用*

2023-07-24 11:47费丽萍许望东李远盛张俊辉
黑龙江医药 2023年13期
关键词:患病心率人群

费丽萍,许望东,范 颂,何 敏,李远盛,张俊辉

西南医科大学公共卫生学院,四川 泸州 646000

慢性阻塞性肺疾病(COPD)是中老年人常见的呼吸系统疾病,我国40 岁以上人群COPD 患病率为13.7%[1]。截至目前,COPD 居全球人群死亡原因的第4 位,是造成我国人群死亡的第3 位大死因[2]。COPD 已成为我国疾病负担排名第3位的慢性病,但其并未得到患者、医生以及相关部门的足够关注[3]。目前,COPD 的确切病因尚不明确。从相关危险因素暴露到COPD 患病是一个缓慢的过程,通常需要数年至数十年时间。如果能识别COPD患病的危险因素、确定COPD 高危人群并在早期进行积极干预,对减少COPD患病率具有重要意义。在流行病学危险因素研究中,logistic回归是探索分类疾病结局危险因素的最常用方法,其参数的可解释性强,但对共线性等问题控制不佳;分类树模型具有对数据的类型和分布无特殊要求等特点,目前也有学者用于疾病危险因素筛选[4]。本研究利用《泸州市人口健康信息平台》的数据,采用成组病例对照研究设计,运用logistic回归和分类树模型对比探讨了泸州市居民COPD 患病的影响因素,为COPD 的病因学研究和防治提供依据。

1 资料与方法

1.1 资料来源

本研究资料来源于四川黑马数码科技有限公司协助开发的《泸州市人口健康信息平台》,该平台整合了泸州市卫生和计划生育委员会管辖内各基层医疗机构的全部健康体检数据。在52 016条COPD患者记录中,剔除关键变量有缺失的、有异常值及重复体检记录,最终整理出COPD患者有效样本共2 271 例。从数据库中抽取非COPD 患者30万条记录,剔除关键变量有缺失的、有异常值及重复体检记录,最终整理出非COPD 患者有效样本共79 065 例。采用成组病例对照研究设计,将2 271 例COPD 患者全部作为病例组,并按照区县分层从非COPD患者中随机抽取2 367例非COPD患者作为对照组。

1.2 基本情况

本次分析的变量包括研究对象的基本信息(性别、年龄、婚姻状况、职业等)、体格检查指标(身高、腰围、体重)、行为生活方式(饮酒、吸烟、厨房燃料等)。

1.3 诊断标准

身体质量指数(BMI)的标准:参照《中国成人超重和肥胖症预防控制指南》,BMI<18.5 kg/m2为低体重,18.5 kg/m2≤BMI<24 kg/m2为正常体重,24 kg/m2≤BMI<28 kg/m2为超重,BMI≥28 kg/m2为肥胖[5]。吸烟的判定:根据1997 年WHO 对吸烟的定义,一生中连续或累积吸烟6 个月或以上为吸烟[6]。心率的判定:指正常人安静状态下每分钟心跳的次数,也叫安静心率,一般为60~100 次/min[7]。COPD 的诊断标准:吸入支气管舒张药后FEV1/FVC<70%可确定为不完全可逆性气流受限。少数患者并无咳嗽、咳痰、明显气促等症状,仅在肺功能检查时发现FEV1/FVC<70%,在除外其他疾病后,亦可诊断为COPD[8]。

1.4 统计学方法

采用SPSS 22.0 软件进行统计分析。分类资料用例数和百分比(%)表示。单因素分析采用单因素logistic 回归,多因素分析采用多因素logistic 回归模型(纳入标准0.05,剔除标准0.1)和分类树模型。以模型预测概率为验证模型的拟合程度检验变量,结局指标为状态变量绘制受试者工作特征曲线(ROC 曲线)并计算ROC 曲线下面积(AUC),用以评价模型的优劣[9]。

2 结果

2.1 一般情况

2 271 例COPD 患者中,女性834 例(36.7%),男性1 437 例(63.3%)。2 367 例对照组中,女性1 411 例(59.6%),男性956例(40.4%),见表1。

表1 患者一般资料情况例(%)

2.2 COPD患病因素的单因素分析

分别对COPD 患病的可能影响因素进行单因素logistic回归分析,结果显示,性别、年龄、心率、BMI、厨房燃料、吸烟情况、职业这7 个因素差异有统计学意义(P<0.05),见表2。

表2 COPD影响因素的单因素logistic回归分析结果

2.3 COPD患病因素的多因素logistic回归分析

以是否患COPD 为因变量(患病=1,不患病=0),将单因素分析结果中差异有统计学意义的7个因素作为自变量,采用多因素logistic回归分析,结果显示:性别、厨房燃料、吸烟、年龄、BMI、心率是COPD 的危险因素,差异有统计学意义(P<0.05),见表3。

表3 COPD相关影响因素的多因素logistic回归分析结果

2.4 COPD患病因素的CHAID分类树模型分析

以是否患COPD 为因变量(患病=1,不患病=0),将单因素分析结果中差异有统计学意义的7个因素作为自变量,采用CHAID 算法建立分类树模型,共建立了21 个节点,13 个终节点,厚度为3 层,筛选出了5 个解释变量,分别是年龄、职业、性别、吸烟情况和厨房燃料。第一层的变量是年龄,说明年龄与COPD患病相关性最强,年龄在40岁以下人群患COPD的比例为2.2%,年龄在40~49岁人群患COPD 的比例为14.4%,年龄在50~59 岁人群为35.1%,60~69 岁人群为67.9%,70 岁及以上人群患COPD的比例为86.8%。在年龄为50~59 岁、70 岁及以上且厨房燃料为沼气、液化气人群中,吸烟是COPD的主要危险因素。在年龄为60~69岁且厨房燃料为沼气、液化气的人群中,性别是COPD 的主要危险因素。在40~49 岁的女性人群中职业是农林人员者患COPD的比例高,见图1。

图1 COPD患病影响因素的CHAID分类树模型分析

2.5 logistic回归和CHAID分类树的模型

分别绘制logistic 回归模型和CHAID 分类树模型的ROC 曲线,logistic 回归和CHAID 分类树模型的AUC 分别为0.925和0.905,都大于0.9,可认为两个模型有较高的准确性,见图2。

图2 logistic回归和CHAID分类树模型的ROC曲线

3 讨论

本研究多因素logistic 回归分析结果显示,性别、年龄、厨房燃料、吸烟、心率和BMI 是COPD 的危险因素。分类树模型结果筛选出5个影响因素,即年龄、职业、性别、吸烟和厨房燃料,且年龄是COPD的主要影响因素。

男性更易患COPD,可能是男性从事粉尘接触职业的人数比女性多,而粉尘是导致COPD 的主要的原因之一[10];此外,男性吸烟的比例也大于女性,所以男性患COPD的风险较女性更高[11]。年龄越大,研究对象受各种危险因素影响的时间越长,同时年龄越大机体抵抗力越来越低,患病的风险也会增高。厨房燃料和COPD 有相关性,煤燃烧产生的氮化物和二氧化硫,能使气道发生炎症反应,从而使气道发生损伤[12]。推广使用清洁能源也是控制COPD 患病的重要措施之一。吸烟是众所周知的COPD危险因素[13],这也与慢阻肺诊治指南(2013 修订版)中提到的危险因素符合。心率异常与COPD有关,但心率异常不是COPD 的危险因素,COPD 患病后引起了肺源性心脏病导致的心率异常[14]。BMI 低于正常水平的人群患COPD 的风险比正常BMI 和高BMI 的人群更高。可能原因是BMI水平低于正常水平的人群由于营养不良,往往体质水平较正常人低下所致[15]。职业与COPD 的患病密切相关,这和国内外的报道内容结果一致[16]。logistic回归是从整体水平上来分析各个因素与COPD的关系,优点是对各自变量的流行病学意义解释很明确,缺点是无法处理自变量间的共线性问题,在分析各变量之间的交互作用时存在缺陷。分类树分析是一种非参数回归模型,利用递归分型将人群分为不同的子集,是消除变量间的共线性影响和探讨影响因素的交互作用的一种有效方法,还可以清晰的显示哪些变量重要。如在本研究中,分类树模型分析挖掘出了职业与COPD 存在关联,分析出了年龄是第一危险因素,可分析高危人群的分布。但分类树也存在一定的局限性,如分析仅限于样本量较大的资料。

综上所述,在使用AUC评估两种模型的准确度时,结果显示logistic 回归和分类树模型的曲线下面积分别为0.925和0.905,都大于0.9,可认为两个模型有较高的准确性。两者相结合的方法能更加仔细挖掘数据中的信息,更加准确分析COPD的相关影响因素。

猜你喜欢
患病心率人群
在逃犯
心率多少才健康
为照顾患病家父请事假有何不可?
野生动物与人兽共患病
糖尿病早预防、早控制
离心率
离心率相关问题
我走进人群
财富焦虑人群
探索圆锥曲线离心率的求解