基于分类树与Logistics回归的影响因素分析

2019-10-21 07:47刘雁
科学导报·学术 2019年40期
关键词:健康素养影响因素

刘雁

摘要:本文以桂林市雁山区524名居民为研究对象,运用CHAID分类树模型和Logistics逐步回歸方法比较和分析影响居民健康素养的重要因素。研究表明,两种模型在分析影响因素时均取得一致结果,同时二者各有优势。

关键词:分类树;Logistics回归;健康素养;影响因素

1 数据来源

数据来源于雁山区卫生和计划生育局的当地基层卫生人员对雁山区居民的实地抽样调查,所得数据仅用于统计分析,问卷采用国家卫生计生委统一编制的2018年全国居民健康素养监测调查问卷,根据雁山区的实际情况及研究内容做适当删改。

2 基本情况

调查对象为桂林市雁山区15—69岁的居民,共发放问卷540份,回收有效问卷524份,有效率97.04%。在调查的性别成分中,男性272名,占51.9%,女性252名,占48.1%,男女的性别比例为 1.08:1。在年龄构成中,调查对象的年龄范围在15~69岁,年龄分布以[55,69]岁组最多,占26.7%,其次为[45,54]岁组,为21.6%,最少为[25,34]岁组,占13.2%。在婚姻情况下,大多数已婚人士,其次是未婚,占24.2%,其余的小部分是分居,离婚或丧偶状态。教育比例最大的是初中水平,占42.4%,其次是小学,占25.4%。大专/本科仅占2.5%。在职业构成上,大多数调查对象以务农为主,占比为72.9%;其次是学生组,占16.4%,而企事业单位等其他职业占比很小。在乡镇划分上,三个乡镇的构成比接近1:1:1。

3 讨论

关于性别,年龄段,婚姻状况,教育水平,职业,乡镇划分等因素进行统计学分析,发现只有年龄段、婚姻状况、文化程度以及乡镇划分与是否具备健康素养之间存在相关关系,且各因素之间的相关程度较低。因此,根据不同特征下的总体健康素养特点,将相关分析中具有显著相关的变量作为解释变量放入模型中,是否具备健康素养作为被解释变量。每个变量的赋值如表1所示。

采用CHAID分类树模型对数据进行分析,以寻找居民健康素养较高人群和显著影响因素,因变量是整体健康素养水平,自变量是年龄组、婚姻情况、教育水平和乡镇分布。父节点的默认数量为100,子节点数为50,最大树深度为3,拆分节点和合并类别的显著性水平α=0.05,卡方检验选择Pearson卡方。健康素养水平按照影响因素贡献大小依次差分,第一层的贡献度最大,逐层减少。若在某节点不存在统计学差异的拆分,则停止分层。结果见图1。

由图1可知,最终生成的分类树有2个父节点,3个子节点(终端节点),树深度为2。影响雁山区居民健康素养的两个重要因素分别为文化水平和乡镇。图中第一级是文化程度,表明受教育程度对居民健康素养的贡献度最大。这一层中,高中至本科学历的健康素养水平高于初中以下学历的健康素养水平,说明教育水平越高,越具备健康素养。对于初中及以下学历,第二层为乡镇划分,雁山镇具备健康素养的比例比柘木和草坪镇的要好。

表2的Logistic回归分析的结果表明,模型中显著性水平α<0.05的自变量为文化水平和乡镇划分。受教育程度以及居住地理位置对整体健康素养水平产生重要影响。健康素养总体水平随着学历的上升而不断提高,偏远地区的农村地区的健康素养水平相对较低。

采用逐步寻优剔除变量,分别剔除了年龄段和婚姻情况,最终构建的模型包含的变量为常量,文化程度和乡镇划分。详见表3。

Logistics回归模型为:

ROC曲线可以直观的比较二者模型的优缺点。“1-特异度”与“敏感度”分别代表横纵轴。模型的合适度与否可以根据曲线下面积的大小作为判断标准。ROC曲线下的面积(缩写为AUC)介于0.5和1.0之间,当AUC>0.5时,AUC越接近1,说明诊断效果越好[9] 。如图2所示,Logistics回归和分类树的预测曲线远离参考线。由表4知,其AUC均大于0.77,表明模型具有一定的准确性。

CHAID分类树模型在树图形上能够分析总体健康素养水平的各个影响因素,还能显示出变量间的交互作用关系,具有直观、简洁、明了的表现形式。作为非参数方法,其逻辑性很强,输出结果明确,适用范围较广泛。作为参数方法的Logistics回归可以得到一个回归方程,用于预测新加入的数据健康素养具备率,相较于分类树模型,更容易操作。在分析影响因素上,两种模型都算得上比较好的分析方法,二者结合可以取长补短,发挥各自的优势。

4 结论

结果显示,影响雁山区居民健康素养的两大重要因素是教育水平和乡镇分布。许多研究表明[2] [3] ,高学历的人群更乐于主动去获取健康知识,从而对不利于健康的行为做出规避。政府部门应加强居民文化教育,尤其是相对落后的贫困地区的居民的文化教育。同时,还应对不同教育水平的人采取不同的干预活动,开展健康促进,努力提高个人健康素养。

参考文献:

[1] 杨宏辉,朱利杰,高传玉.分类树模型与logistic回归在高血压危险因素预测中的应用分析[J].中国卫生标准管理,2017,8(24):7-10.

[2] 单诗洋.2014年辽宁省居民健康素养调查分析[D].吉林大学,2017.

[3] 胡鸿宝,苟莉莉,石呈,黄芩,黄永康,李金山.2016年南京市居民健康素养调查结果[J].职业与健康,2017,33(22):3070-3073+3077.

(作者单位:广西师范大学数学与统计学院)

猜你喜欢
健康素养影响因素
基于文献计量的国际健康信息素养评估研究
上海市民健康自我管理小组
上海市2008—2015年15—69岁居民健康素养变化趋势研究
以健康共治实现全民健康管理
优化护理首诊宣教内容对心血管患者阶段性掌握宣教内容的影响
突发事件下应急物资保障能力影响因素研究
农业生产性服务业需求影响因素分析
村级发展互助资金组织的运行效率研究
基于系统论的煤层瓦斯压力测定影响因素分析