分类树模型在2型糖尿病危险因素筛选中的应用

2021-03-05 10:05黄倩沈艳明施佳成黄漓莉邹迪莎江仁美于萍刘晓玲王彩梅周燕于健
中国老年学杂志 2021年5期
关键词:患病率血脂人群

黄倩 沈艳明 施佳成 黄漓莉 邹迪莎 江仁美 于萍 刘晓玲 王彩梅 周燕 于健

(广西壮族自治区桂林医学院附属医院 1内分泌科,广西 桂林 541001;2检验科,3呼吸疾病实验室)

随着人口增长、老龄化、城市化及肥胖和缺乏锻炼,糖尿病(DM)的患病率逐年增加,预计全球日益增加的DM患者总数将从2000年的1.71亿增加至2030年的3.66亿人口,这将不可避免地增加心血管疾病死亡人数及其他DM并发症的患病率和相关严重后果的增加〔1〕。作为医务人员,对于DM流行病学特征研究的必要性毋庸置疑。目前针对DM危险因素的调查研究,大多数统计方法采用Logistic回归或多因素线性回归模型,但由于其对于变量共线性的处理存在不足,所以降低了分析效能;而分类树统计方法不受变量间共线性的影响,以树形图这种直接的表现形式展示多水平变量间的相互作用关系,并且可分析出各变量的具体影响人群;自然而然分类树模型作为一种新兴分析方法在医学领域中如疾病的预测和诊断方面越来越受到欢迎〔2〕。因此,本研究以广西壮族自治区桂林市桂林医学院附属医院部分体检人群为研究对象,利用分类树模型筛查2型糖尿病(T2DM)的相关影响因素。

1 资料与方法

1.1研究对象 采用整群随机抽样方法,抽取2017年7~10月在桂林医学院附属医院体检部体检的体检者,最终10 361例(男6 038例,女4 323例)资料完整的体检人群纳入统计分析。所有研究对象签署知情同意书。排除标准:1型DM、急性感染、创伤或其他应激情况下出现的暂时性血糖升高、长期口服如糖皮质激素等影响血糖的药物及严重肝肾功能受损患者。

1.2资料收集 由经过专门培训的专业人员对研究对象进行详细询问,使用本研究设计的调查问卷表格。调查内容包括基本信息(性别、年龄、民族、婚姻状况、膳食、职业、吸烟及饮酒、疾病史如高血压、DM等),体格测量包括身高、体重、收缩压(SBP)和舒张压(DBP)等,并计算体重指数(BMI),24.0 kg/m2≤BMI<28.0 kg/m2诊断为超重,BMI≥28.0 kg/m2为肥胖〔3〕。实验室检测:体检者隔夜至少禁食8 h,次日清晨抽取静脉血;三酰甘油(TG)、总胆固醇(TC)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、空腹血糖(FPG)及口服葡萄糖耐量试验(OGTT)2 h血糖(2 hPG),上述指标采用罗氏Cobas C501全自动生化分析检测。由医院专业超声科医生使用迈瑞 DC-6 ExpertⅡ型超声检查仪对受试者进行腹部彩超检查,确定诊断。

1.3诊断标准 T2DM诊断标准〔4〕参照《2017年中国糖尿病防治指南》:典型DM症状加上随机血糖检测≥11.1 mmol/L;FPG≥7.0 mmol/L;2 hPG≥11.1 mmol/L。

高血压诊断标准〔5〕参照2010年修订版的《中国高血压防治指南》,在未使用降压药的情况下,SBP≥140 mmHg和(或)DBP≥90 mmHg,或既往有高血压病史,正在服用降压药物治治疗者,即被诊断为高血压。

非酒精性脂肪性肝病(NAFLD)诊断标准〔6〕参照中华医学会肝病分会脂肪肝及酒精性肝病学会组制订的《2006年版非酒精性脂肪性肝病诊疗指南》。

血脂异常诊断标准〔7〕参照2016年中国成人血脂异常防治指南的标准:TC≥6.2 mmol/L,LDL-C≥4.1 mmol/L,HDL-C<1.0 mmol/L,TG≥2.3 mmol/L,出现任何一项即诊断为血脂异常。

1.4统计学处理 运用SPSS19.0软件进行χ2检验、分类与回归树、受试者工作特征(ROC)曲线下面积(AUC)分析。

2 结 果

2.1基本情况 共调查体检人群10 361人,检出622例DM患者,以DM患者为病例组,同期体检正常人群为对照组。与对照组相比,病例组BMI、SBP、DBP、FPG、TG、TC、LDL-C水平明显升高,HDL-C的水平明显降低,而且患有NAFLD的人群比例明显升高,差异均有统计学意义(P<0.01),见表1。

表1 两组临床与代谢特征比较

2.2构建分类树模型 以DM为因变量,患有DM赋值为1,未患DM赋值为0。将BMI、性别(男性为1,女性为0)、年龄、NAFLD(患有NAFLD=1,未患NAFLD=0)、高血压(患有高血压=1,未患高血压=0)、TG、TC、HDL-C、LDL-C指标作为自变量代入研究分析,其中性别、NAFLD和高血压定义为分类变量,其余变量为连续变量。根据预先设定树的生长深度和修剪规则,本次建立的DM发病风险分类树模型结果显示:共包含5层,23个结点,其中终末结点12个。最终纳入影响DM的4个解释变量,分别为:年龄、NAFLD、TG、高血压。

2.3模型的分析 树形结构的第一层依据年龄进行拆分,因此年龄是DM最重要的危险因素,拆分点为50.5岁,年龄>50.5岁的DM患者比例(14.5%,444/3 061)明显高于年龄≤50.5岁组(2.4%,178/7 300,P<0.05)提示随着年龄的增长,DM的患病率明显增加。随后第二层筛选出的因素是NAFLD,在年龄>50.5岁时,患有NAFLD的人群DM患病率(25.1%,211/840)明显高于无NAFLD的人群(10.5%,233/2 221),年龄≤50.5岁且患NAFLD的人群DM比例(8.1%,105/1 304)明显高于无NAFLD的人群(1.2%,73/5 996,P<0.05);在模型第三层中,筛选出的因素为TG和年龄,在年龄≤50.5岁、NAFLD人群中,TG>4.015 mmol/L者(20.1%,31/154)的DM患病率明显高于TG≤4.015 mmol/L者(6.4%,74/1 150,P<0.05);在年龄>50.5岁、NAFLD人群中,TG>2.205 mmol/L者(31.5%,105/333)的DM患病率明显高于TG≤2.205 mmol/L者(20.9%,106/507),第四层的分支变量是年龄、高血压,在年龄>50.5岁、无NAFLD、TG>2.505 mmol/L人群中,有高血压的DM比例(31.2%,30/96)明显高于无高血压者(16.0%,21/131,P<0.05);到第五层的分支变量仍是高血压,由此可见,高血压对DM的重要影响。

2.4模型的评价 增益图:累计增益图是从0%开始以100%结束,且良好模型的增益图应先向100%快速增长,最后趋于平稳,此DM分类树模型符合良好模型的标准,提示该模型良好,见图1。

图1 DM发病风险分类树模型收益图

分类树重替代估计量和交叉验证估计量分别为0.060和0.061,标准误差均为0.002,表示采用分类树模型预测DM影响因素的正确率为94%,则证明模型拟合效果良好。

ROC曲线:利用此模型得出预测概率绘制ROC曲线,AUC为0.835(95%CI:0.827~0.842),标准误为0.007,灵敏度为0.868(95%CI:0.839~0.894),特异度为0.660(95%CI:0.570~0.651),表明本次模型精确性较高,可以有效地筛选出DM相关的影响因素。见图2。

图2 DM分类树模型的ROC曲线

3 讨 论

DM是由遗传和环境等多因素共同参与引起的临床综合征。如今,分类树模型因具有针对分析多因素间交互作用的独特优势,在各行各业中得到了广泛应用。医学领域中,在分析疾病的多病因危险因素方面,相应的需求也迅速增长,特别是应用于样本量较大的病因研究。

分类树模型是一种类似树形结构的预测模型,根据各个自变量对因变量的相关程度逐个分层,至分层检验无统计学意义为止最终完成分类树。这样的树形图展现方式不仅直接、方便、简单易懂,而且比传统线性模型更清晰地表达自变量间的交互作用,能直观地得出多个因素对疾病的影响作用顺序。

本研究结合相关临床资料信息,运用分类树建立糖尿病预测模型,为疾病的预防和干预提供有力的理论依据。从本研究构建的分类树模型结果可以看出年龄、NAFID、TG、高血压对DM患病率的重要性,与以往相关研究结果相符〔8,9〕。

具体分析如下,年龄作为第一个分类变量对糖尿病患病风险影响最大,截点为50.5岁,提示针对中老年人应加强健康宣教和早期干预,早发现早治疗从而提高生活质量。处于目前世界经济迅速发展的时代,DM(特别是T2DM)患病率逐渐增加,尤其是老年人,因衰老对代谢的直接影响,使得这一人群DM的潜在病理生理学进展加剧,而且衰老带来的效应与DM相互作用,也会加速许多DM相关并发症的进程。

分类树的第二层拆分变量均为NAFLD,充分说明,无论老少,患有NAFLD的人群发生DM的概率都高于健康体检者,从疾病发生机制角度看,肝脏脂肪变性(即肝脏中脂质的过度沉积)通常伴有胰岛素抵抗〔10〕。虽然迄今为止病毒性肝炎仍是一个重要的健康问题,但是NAFLD是目前世界上非常常见的肝脏疾病,而且呈上升趋势,据估计,其发病率在东南亚城市地区高达60%〔11〕,因此,患有NAFLD人群必须引起高度重视,需要通过改变生活方式和膳食搭配适当减轻体重,其次定期复查肝脏彩超和肝功能指标。有文献报道〔12〕,逆转NAFLD可改善胰岛素抵抗。第三层进一步拆分的变量为TG和年龄。高TG是血脂异常的表现,提示血脂异常与DM之间的密切关联,既往研究显示,血脂异常是由许多遗传和非遗传因素之间相互作用引起,不仅会导致血糖代谢异常,且是发生动脉粥样硬化性心血管疾病的高危因素〔13〕,尤其是血浆TG浓度升高。因此,建议对血脂异常患者应密切检查,对内分泌和心血管相关疾病评估筛查。

根据分类树模型结果,与DM相关的第四层拆分变量含有年龄,另一变量是高血压,紧接着第五层进一步拆分的仍为高血压,说明高血压的患病与否对DM影响显著。已有临床研究表明〔14〕,高血压和胰岛素抵抗之间存在紧密病理生理学联系,饮食盐和热量的过量摄入,与血压升高相关性大。那么,对于有高血压的高危因素特别是有家族遗传史的人群,应当积极改正不健康的生活方式、做好血压管理和合理规范的降压治疗。本次研究所建立的DM危险因素模型具有较满意的说服力和可信度。

值得关注的是,分类树模型同样也有自身的弱点,它需要较大的样本量才能保证逐层细分后单元格内仍有充分的样本数,因此针对小样本量的数据分析具有局限性。其次,对于线性关联、无交互作用的数据,其分析效果和模型解释性均不如普通统计模型。

综上所述,本研究结合相关临床资料信息,应用分类树建立的DM预测模型,提示年龄、NAFLD、TG及高血压是T2DM的危险因素,为疾病的预防和干预提供有力的理论依据,在临床实践中应针对不同高危人群采取个性化的预防措施,减少DM患病率并延缓并发症的发展,降低医疗耗费成本。

猜你喜欢
患病率血脂人群
2020年安图县学生龋齿患病率分析
血脂常见问题解读
昆明市3~5岁儿童乳牙列错畸形患病率及相关因素
糖尿病早预防、早控制
你了解“血脂”吗
我走进人群
财富焦虑人群
428例门诊早泄就诊者中抑郁焦虑的患病率及危险因素分析
老年高血压患者抑郁的患病率及与血浆同型半胱氨酸的相关性
中西医结合治疗老年高血压患者伴血脂异常49例