应用分类与回归树筛选慢性非传染性疾病健康素养影响因素的研究

2016-12-21 06:54崔梦晶郭海健李洋曲晨陈宇胡洁庞媛媛李小宁张徐军

东南大学学报（医学版） 2016年5期

关键词：慢性病人群变量

崔梦晶，郭海健，李洋，曲晨，陈宇，胡洁，庞媛媛，李小宁，张徐军

(1.东南大学公共卫生学院，江苏南京 210009；2.江苏省疾病预防控制中心健康教育所，江苏南京 210009)

·论著·

应用分类与回归树筛选慢性非传染性疾病健康素养影响因素的研究

崔梦晶1，郭海健2，李洋1，曲晨2，陈宇1，胡洁1，庞媛媛1，李小宁2，张徐军1

(1.东南大学公共卫生学院，江苏南京 210009；2.江苏省疾病预防控制中心健康教育所，江苏南京 210009)

目的:探讨分类与回归树(C&RT)在筛选慢性非传染性疾病健康素养相关影响因素中的应用。方法:收集2013年宿迁市105例慢性病患者组成病例组，对地区、年龄、性别进行成组匹配选取210例非慢性病患者组成对照组。结果:分类树模型从纳入慢性病健康素养相关的19个变量中筛选出就医行为素养、运动素养、对健康的理解素养、心理调节素养、家庭年收入、BMI值是否正常以及成瘾行为素养等7个有统计学意义的影响因素，并且说明了不同人群各自的影响因素。模型的错分概率Risk值为0.270，ROC下曲线面积为0.763，模型拟合效果较好。结论:应用分类与回归树能较好地筛选出慢性病健康素养影响因素，同时能显示变量之间的相互作用，还可以研究变量科学定义分界点。

分类树；分类与回归树；慢性非传染性疾病；健康素养

世界卫生组织(WHO)报告指出，2008年全球约有3 610万人(占总死亡人数的63%)死于慢性病，其中80%发生在中低收入国家[1-3]。2012年，我国已有超过2.6亿的慢性病患者，慢性病导致的死亡占总死亡人数的85%[4]。慢性病的患病率和死亡率逐年增高且增长快速。因此，慢性病作为全球性重要的公共卫生问题不容忽视[5]。然而，我们可以采取有效的措施遏制这种增长[6]。个人健康观念和生活行为习惯是慢性病发生的重要影响因素，因此在防治慢性病的过程中，患者的主动参与以及自我管理十分必要，而患者的健康素养水平对治疗效果有着关键性的作用[7]。健康素养是指在卫生保健环境下完成基本的阅读和计算的能力，以及个人获得和理解健康信息，并运用这些信息维护和促进自身健康的能力[8]。健康素养的高低在一定程度上影响着健康行为[9]。提高居民慢性病健康素养，不但有利于遏制我国慢性病发病率快速上升的趋势，也可以有效地改善慢性病患者的不良健康结局[10]。本研究通过分类与回归树(classification and regression tree,C&RT)算法分析慢性病健康素养影响因素，为提高慢性病患者的健康素养、降低慢性病发病率、改善慢性病患者健康结局提供依据。

1 基本原理

C&RT由Brieman等在1984年提出[11]。此法属于非参数分类和回归方法，构建二叉树的过程包括构建树—修剪树—评估树。若因变量为连续变量，则生成回归树；若因变量为分类变量，则生成分类树。

1.1 模型的构建

1.1.1 树的生长及变量处理

1.1.1.1 连续型变量首先对变量的值按照从小到大的顺序排列，然后计算每个值作为临界点所产生的子节点的异质性统计量。目标值为最终叶子的均值或者中位数。

1.1.1.2 分类型变量首先列出变量两两组合的所有可能性，然后计算每种组合下所生成子节点的异质性。目标值为最终叶子中概率最大的类。

1.1.2 分支变量及拆分点的选择

分类树最终结果是使树形模型中每一个叶节点成为纯节点或者差异很小。对于分类树，判断指标有Gini指标(Gini值越小数据越纯)、Twoing指标、Order Twoing等；对于回归树，判断指标有最小平方残差(使组内方差最小，组间方差最大)、最小绝对残差等。通过以上指标，分别计算每个变量的各种切分/组合情况，找出该变量的最佳值组合/切分点；再比较各个变量的最佳值组合/切分点，最终找出最佳变量和该变量的最佳值组合/切分点。

1.2 树的修剪

1.2.1 前剪枝(pre-pruning)

为了防止分类树的过度拟合，可通过设定树的深度以及节点中的样本个数来停止树的构造，从而对树进行剪枝。

1.2.2 后剪枝(post-pruning)

构造完整的决策树之后，采用代价-复杂度剪枝法(cost-complexity pruning)自下而上逐层进行剪枝。代价(cost)主要指样本错分率；复杂度(complexity)主要指树的叶节点数。此法同时度量错分风险和树的复杂程度，使两者越小越好。

1.3 模型评价

1.3.1 错分概率Risk统计量

利用测试样本数据选择出平均错分代价最小的子树，主要方法有两种：测试样本评估法(test sample estimates)和交叉验证评估法(cross-validation estimates)。

1.3.2 受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)

ROC曲线的横坐标为假阳性率(1-特异度)，纵坐标为真阳性率(灵敏度)，根据计算出的ROC曲线下面积说明模型的预测价值。

2 实例分析

以下应用江苏省宿迁市健康素养调查数据为例，介绍C&RT算法建立分类树模型并对其进行评价。

2.1 对象与方法

2.1.1 调查对象

江苏省宿迁市15～69岁居住≥6个月的居民。

2.1.2 调查方法

采用分层整群随机抽样法，抽取宿迁市的2个区，共调查930人,由经统一培训并考试合格的调查员在社区工作人员的陪同下进行入户调查。

2.1.3 调查内容

采用《全国居民健康素养监测调查问卷》，问卷内容包括基本知识和理念、健康生活方式与行为以及基本技能3个方面。慢性病定义为由医疗机构确诊的高血压、糖尿病、脑血管病、慢性阻塞性肺病等疾病。具备健康素养定义为答题正确率80%及以上。

2.1.4 统计方法

用EpiData 3.1软件建立数据库并进行数据录入，用SPSS 18.0统计软件进行统计分析。105例慢性病患者组成病例组；采用单纯随机抽样技术，从数据库中按照地区、性别、年龄进行成组匹配(P>0.05)，抽取210例非慢性病患者组成对照组。建立分类树模型并计算ROC曲线下面积。

2.2 分类树模型建立

2.2.1 模型构建参数

采用Gini指标；最大生长深度设置为8；父节点和子节点中的最小样本含量分别为40和20。变量设置如下：(1) 因变量：是否患有慢性病(1=患有慢性病，0=未患慢性病)；(2) 自变量(19个)：对健康的理解素养、运动素养、个人卫生习惯素养、健康相关态度素养、成瘾行为素养、生理卫生常识素养、心理调节素养、慢性病相关知识素养、保健与康复素养、理解沟通能力素养、法规政策素养、自我保健技能素养、营养与膳食素养、利用基本公共卫生服务的能力素养、获取信息能力素养、就医行为素养等(1为具备健康素养，0为不具备健康素养)、BMI是否正常(1为正常，0为不正常)、文化程度(1为小学及以下，2为初中，3为高中，4为大专/本科及以上)以及家庭年收入(1为0～9 999元，2为10 000～49 999元，3为50 000～99 999元，4为≥100 000元)。

2.2.2 模型结果解释

根据上述模型参数的构建，所建立的分类树模型共包含4层，16个节点。该模型共筛选出7个解释变量。

从分类树模型图中可见，树形结构的第1层是对就医行为素养进行拆分的，所以就医行为素养是慢性病发病的重要影响因素。不具备正确就医行为素养的人群慢性病发病率为48.4%，约为具备正确就医行为素养人群的2.5倍。影响不同就医行为素养人群的慢性病健康素养因素各不相同。在不具备正确就医行为素养的人群中，运动素养成为主要影响因素，具备运动素养人群慢性病的发病率(13.2%)显著低于不具备运动素养人群(30.4%)，说明具备运动素养是慢性病发病的保护因素。而在具备正确就医行为素养的人群中，筛选出的主要影响因素为对健康的理解素养。不具备对健康的理解素养人群会增加慢性病的发生率。随后，不具备心里调节素养、家庭年收入过高或过低以及BMI值异常均是慢性病的危险因素。最后，在分类树的末端显示不具备成瘾行为素养及不具备对健康的理解素养的人群慢性病发生率高(图1)。

2.3 分类树模型评价

2.3.1 错分矩阵和Risk统计量

模型评价方法为交叉验证评估法。此分类树模型对慢性病发病预测正确率为73%，其中Risk统计量为0.270，标准误(St)为0.025，可见模型拟合效果较好。

2.3.2 ROC曲线

分析结果显示ROC曲线下面积为0.763(95%CI：0.708～0.818，P<0.001)，标准误(St)为0.028，说明该模型预测价值较高，可以有效地筛选出慢性病健康素养相关的影响因素(图2)。

3 讨论

2008年我国首次对居民健康素养进行调查，结果显示我国居民健康素养的总体水平为6.48%，而其中慢性病预防素养仅有4.66%，为最低[12]。研究表明低健康素养水平人群发生不良结局的可能性是高健康素养水平人群的1.5～3倍[13]。故进行慢性病健康素养的研究十分必要。

目前国内外对健康素养的研究方法多为卡方检验、多元线性回归法及Logistic回归分析[14-16]。上述方法对分析资料的类型和分布都规定严格，故降低了分析效能；且这些统计分析方法无法处理变量间的共线性影响以及交互作用关系[17]。同时国内缺乏对慢性病健康素养影响因素的研究，其研究人群集中在大学生、流动人口、老年人、一般居民等[7]。且纳入的影响因素多为人口学特征；基本知识和理念、健康生活方式与行为以及基本技能三大内容；科学健康观、传染病预防素养、慢性病预防素养、安全与急救素养、基本医疗素养以及行为素养6个维度，未能全面细致地分析各类健康素养影响因素[15-16]。

分类与回归树模型已被广泛应用于各类疾病及伤害危险因素的筛查[17-19]。本研究应用C&RT算法，纳入19个变量，对慢性病患者健康素养影响因素进行分析，与多元线性回归法、多因素Logistic回归分析等经典方法相比，分类与回归树模型不仅能分析出各类危险因素，而且具有如下特点：(1) 分类与回归树模型以树形图作为直观的表现形式，不受变量间共线性的影响且能显示出多水平变量间复杂的相互作用关系，易于理解[17，20]。本研究不仅能说明就医行为素养、运动素养、对健康的理解素养、心理调节素养、家庭年收入、BMI值是否正常以及成瘾行为素养等7个变量是慢性病健康素养影响因素，而且可以看出对具备不同就医行为素养、不同对健康理解素养等人群各自的影响因素。针对不同慢性病患者采取不同干预措施，提高其健康素养具有重要的指导意义。(2) 分类与回归树模型可将无统计学意义的分类自动重组为有统计学意义的分类，使分析结果更科学合理[18]。本研究将家庭年收入分为4个等级，结果显示差异无统计学意义，而模型将其自动合并成有统计学意义的2个等级。与其它主要的分类树的算法(CHAID、QUEST)相比，C&RT算法的应用范围更为广泛，变量类型既可以是连续型，也可以是分散型[11]。

图1 慢性病健康素养影响因素分类树模型图

Fig 1 Classification tree model diagram of health literacy factors on chronic diseases

综上所述，本研究采用C&RT算法筛选出慢性病健康素养的7个影响因素。可以针对不同人群采取不同策略，提高慢性病患者的健康素养，以减少慢性病的发病率并改善慢性病的发病结局。同时，将C&RT与经典的健康素养研究方法结合起来，运用针对慢性病患者的健康素养调查问卷，可更加全面深入地挖掘出慢性病健康素养影响因素。

图2 分类树预测概率ROC曲线

Fig 2 ROC curve of classification tree predicted probability

与此同时，本研究也存在一定的局限性。C&RT模型适用于大样本量的统计分析，对小样本量数据进行统计分析时不够稳定，对结果影响较大[17]。同时，当树形模型中解释变量较多时，须进一步研究怎样处理变量及修剪二叉树才能保证模型的简洁又不会损失有用的信息[17]。

[1] New WHO report：deaths from non communicable diseases on the rise，with developing world hit hardest[J].Cent Eur J Public Health，2011，19(2):114-120．

[2] AlWAN A，MACLEAN D R，RILEY L M，et al.Monitoring and surveillance of chronic non-communicable diseases：progress and capacity in high-burden countries[J].Lancet，2010，376(10):1861-1868．

[3] World Health Organization.Global status report on non-communicable diseases 2010[R].Gevana：World Health Organization，2011：9-31．

[4] 程怀志，郭斌，谢欣，等.我国慢性病患病率的社会人口学分析[J].医学与社会，2014，27(3):4-6．

[5] World Health Organization.Preventing chronic diseases：a vital investment.WHO Global Report[R].Geneva：WHO，2005．

[6] 徐怀伏，王雅珍.南京市某社区老年人慢性病及生活方式调查[J].现代医学，2015，43(4):485-488．

[7] 张庆华，黄菲菲，朱爱群，等.国内外慢性病健康素养的研究进展[J].中国全科医学，2014，17(7):814-817．

[8] PARKER R M，WILLIAMS M V，WEISS B D，et al.Health literacy：report of the Council on Scientific Affairs[J].JAMA，1999，281(6):552-557．

[9] 孙浩林，彭慧，傅华.慢性病患者健康素养量表信效度的研究[J].复旦学报：医学版，2012，39(3):268-272．

[10] 林丰，杨克志，刘国栋，等.深圳某街道居民慢性病预防健康因素影响因素[J].职业与健康，2014，30(18):2649-2653．

[11] 张超.分类树中C&RT算法与判别分析的比较及其医学应用[J].数理医药学杂志，2008，21(2):139-141．

[12] 卫生部统计信息中心.2008中国卫生服务调查研究，第四次家庭健康询问调查分析报告[M].北京：中国协和医科大学出版社，2009．

[13] DEWALT D A，BEKMAN N D，SHERIDAN S，et al.Literacy and health outcomes：a systematic review of the literature[J].J Gen Int Med，2004，19(12):1228-1239．

[14] MIHSIU W.The associations between health literacy，reasons for seeking health information，and information sources utilized by Taiwanese adults[J].Health Edu J，2014，73(4):423-434．

[15] 严丽萍，魏南方，安家璈，等.中国农村职业人群健康素养现状及影响因素分析[J].中国公共卫生，2012，28(7):902-905．

[16] 郭海健，李小宁，黄明豪，等.江苏省居民健康素养影响因素回归分析研究[J].江苏预防医学，2012，23(1):12-14.

[17] 张勇晶，陈坤，金明娟，等.应用分类树模型筛选恶性肿瘤危险因素研究[J].中华流行病学杂志，2006，27(6)：540-543．

[18] 杜琳，刘伟佳，刘伟，等.SPSS中的分类树模型在分析伤害影响因素中的应用[J].中国卫生统计，2010，27(5)：546-548．

[19] TURE M，TOKATLI F，KURT I.Using Kaplan-Meier analysis together with decision tree methods (C&RT，CHAID，QUEST，C4.5 and ID3) in determining recurrence-free survival of breast cancer patients[J].Expert Syst Appl，2009，36(2):2017-2026.

[20] 赵自强，郑明.应用分类树模型筛选logistic回归中的交互因素 [J].中国卫生统计，2007，24(2):114-116．

Study on health literacy factors of chronic non-communicable diseases by using classification and regression trees

CUI Meng-jing1，GUO Hai-jian2，LI Yang1，QU Chen2，CHEN Yu1，HU Jie1，PANG Yuan-yuan1，LI Xiao-ning2，ZHANG Xu-jun1

(1.SchoolofPublicHealth，SoutheastUniversity，Nanjing210009，China; 2.HealthEducationInstitute，JiangsuProvinceCenterforDiseasePreventionandControl，Nanjing210009，China)

Objective： To explore C&RT methods in screening health literacy factors of chronic non-communicable diseases.Methods： Database was created from Suqian in 2013.Case group composed by 105 patients with chronic diseases.Control group composed of 210 staff without chronic diseases matched by region，age and sex.Results： Seven out of 19 affecting factors were selected，which were willingness to see a doctor，exercise，understanding of health，psychological adjustment，annual family income，BMI index and addictive behaviors.Influence factors of different groups were also explained.The Risk value of model error probability was 0.270，and the area under the ROC curve was 0.763，suggesting that the classification tree model fit the actuality well.Conclusion： The classification tree model can screen out the major affecting factors quickly and effectively and could also identify the cutting-points for continuous and ordinal variables，as well as revealing the complex interaction among the factors at many levels．

classification tree; classification and regression tree; chronic non-communicable diseases; health literacy

2016-03-08

2016-04-26

全国健康素养现状评估与结果推广项目(1311206600002)

崔梦晶(1988-)，女，江苏南通人，助理工程师，医学硕士。E-mail：573426350@qq.com

李小宁 E-mail：395777673@qq.com；张徐军 E-mail：xjzhang@seu.edu.cn

崔梦晶，郭海健，李洋，等.应用分类与回归树筛选慢性非传染性疾病健康素养影响因素的研究[J].东南大学学报：医学版，2016，35(5)：704-708.

R195

1671-6264(2016)05-0704-05

10.3969/j.issn.1671-6264.2016.05．012

应用分类与回归树筛选慢性非传染性疾病健康素养影响因素的研究

1 基本原理

2 实例分析

3 讨 论

3 讨论