决策树分析在高校大学生生活压力影响因素分析中的应用

2013-12-03 07:35陈新林包生耿颜伟红王小广万建成吴丹桂
卫生软科学 2013年2期
关键词:结点决策树变量

陈新林,包生耿,颜伟红,王小广,万建成,吴丹桂

(1.广州中医药大学,广东 广州 510006;2.广东外语外贸大学,广东 广州 510420;3.广东药学院,广东 广州510006;4.中山大学中山医学院,广东 广州 510080;5.广州医学院,广东 广州 510182)

大学阶段是人格发展,世界观形成的关键时期。这一时期大学生要面临着一系列重大的人生课题:如大学生活的适应、专业知识的学习、交友恋爱、择业就职等。而且随着社会的发展,大学生承受的压力越来越大。但是,大学生由于身心发展尚未完全成熟,自我调节和自我控制能力不强。大学生面对复杂的问题,容易导致强烈的心理冲突,从而产生较大的心理压力,甚至产生心理障碍或心理疾病[1]。这使得大学生的身心健康受到日趋严重的危害。而大学生的生活压力受到很多因素的影响,本研究以广州地区大学生为研究对象,试图通过决策树的方法以及 Logistic回归方法探讨影响大学生生活方式的因素,为促进大学生的心身健康提供科学依据。

1 对象与方法

1.1 对象及一般情况

采用多阶段整群随机抽样方法,从广州医学院、广州中医药大学、中山大学、广东药学院、广州外语外贸大学随机抽取学生。抽样方式:以学院作为第二阶段抽样总体,以学院的专业作为第三阶段抽样总体,抽取到某专业的班级,则该班级所有学生均是调查对象。一共抽取到2319名学生,发放问卷2319份,回收2319份,回收率100%,有效问卷2306份,有效率99.4(94.7)%。

本研究采用刘贤臣等人于 1987年编制的青少年生活事件量表(ASLEC)[2];还调查了大学生的一般人口学特征(包括性别、年级、专业、家庭子女数等)及生活行为方式(运动、学习时间、人际关系、恋爱情况等)。

1.2 决策树分析

本文采用C5算法和CHAID算法建立决策树。

CHAID(Chi-square automatic interaction detection)算法是按照卡方检验的显著性进行多元列联表的自动判断分组。其过程是:用自变量与结果变量进行交叉分类,产生一系列二维分类表,分别计算二维分类表的值,以产生 P值最小的二维列表的变量为最佳的初始分类变量,然后在此基础上继续分类,直到P大于设定的有统计意义的a值时停止[5]。CHAID算法是一个不断合并和拆分的过程[6],每一个自变量每个水平都要两两配对比较,如果两个类别相似的话就划归为一类,如果有差别就不能够划分为一组。决策树生长“枝条”分割显著性检验水准定为0.05。采用预修剪的方法,事先设定决策树生长的深度为3层,事先指定母结点上的最小样本量为80,子结点上的最小样本量为40,如果结点上的样本量达不到此要求,则这一结点为终末结点,不再进行分割。

1.3 统计分析

采用横断面调查方法。使用 Epidata对资料进行录入。用SPSS建立logistic模型(前进法筛选变量)探索压力总分的影响因素,使用Clementine软件的C5.0算法和Answer Tree软件的CHAID算法分别建立决策树。

2 结果

通过前进法筛选后,经济情况、兼职、家庭子女数、人际关系对生活压力有影响(P<0.05)。其中经济情况、人际关系是保护因素,家庭经济条件好、人际关系好的大学生生活压力小。而独生子女、兼职是危险因素,独生子女或者需要参加兼职的大学生生活压力大(见表1)。

表1 Logistic回归结果

C5.0决策树分为三层(见图1):树的第一层是按照人际关系进行分枝,大学生生活压力最主要的影响因素是人际关系。第二层是按照经济情况进行分枝。第三层是按照子女数进行分枝。从整个决策树分支可以看出,人际关系差的大学生最容易出现生活压力问题(63.72%),其次是人际关系好、经济情况好的独生子女大学生 (59.79%)。而经济情况好、人际关系好的大学生的生活压力较小(38.22%)。人际关系好、经济情况好的非独生子女大学生的生活压力也较小(49.05%)(见表2)。

图1 C5.0分类树形图

CHAID决策树分为三层,共7个结点(见图2)。树的第一层是按照经济情况进行分枝。经济情况差的那支又按照人际关系分支。第三层按照子女数分支。经济情况好的那支按照人际关系分支。第三层按照参加兼职分支。从整个决策树分支可以看出,经济情况差、人际关系差的大学生生活压力所占的比例最大(68.84%),其次是经济情况好、人际关系差的大学生(60.23%)。另外,经济情况差、人际关系好、独生子女的大学生生活压力大的所占比例也较大。经济情况好、人际关系好的大学生的生活压力都较小(见表3)。

表2 C5.0树模型终末结点的分类规则

表3 CHAID模型终末结点的分类规则

3 讨论

Logistic回归可以直观阐述各个因素对生活压力的影响。通过前进法筛选后,经济情况、人际关系是生活压力的保护因素;而家庭子女数、兼职情况是生活压力的危险因素。

决策树分析采用的是一个多次分层的办法,把样本划分为若干个亚群,生成的树型图非常直观,能够清楚地显示出不同特征的亚群其发生不同结果的比例,而且在生成二维分类表时把解释变量的类别进行了重新划分。C5.0算法按照信息增益来对样本进行划分,CHAID按照产生P值最小的二维列表的变量进行划分,两者的结果大体相同。

C5.0和CHAID决策树分析法只显示出的是变量之间相互作用的关系,而无法反映因素的主效应和叠加效应。本文中,C5.0决策树分析方法没有体现出兼职这一因素的作用,但是logistic回归中显示这一因素的主效应有统计学意义。兼职与经济情况存在密切相关,得到关联系数等于 0.184;兼职与人际关系也存在关系。决策树分析方法在纳入了人际关系和经济情况后,由于表现出大量的交互作用,可能就忽略了兼职的效应。但logistic回归模型表明,这一作用是不可忽视的。

C5决策树既可以非常直观的解释,也可以根据规则进行解释,适合对某一属性作深入的分析。决策树容易理解、结果简单、结构直观,能清楚显示对分类或预测有意义的变量,同时可以处理有数值型、两分类和多分类资料,并且可以处理缺失数据,生成一些规则(从根节点到每个叶子节点对应的路径就是“规则”)为决策提供依据[7]。

它可以分析类别变量、等级变量以及连续变量。CHAID算法是先固定一个首要影响因素,接着固定次要影响因素,而不是用穷尽法把每一种可能性都列举出来,其对最末枝人群的划分不是最优的分类,而是一种比较恰当的分类。它能够给我们提供人群的划分结果和划分标准,并且能揭示自变量之间交互作用。Magidson[8]发现这种交互作用有一定的限制,其得到的是次要因素进行的交互作用,并不是全局的交互作用。Magidson认为进行Logistic分析时,首先需要用CHAID算法模型来进行检验,然后再建立Logistic模型。Green也认为CHAID算法模型能得到结果的基本结构,而Logit模型则能够提供这些表述的参数[9]。

本次研究由于时间和客观条件等因素的限制,所采用的生活压力预测变量不尽完善,数据集中个别危险因素结果无统计学意义,如应对方式等因素未纳入预测指标集。

本文旨在为大学生生活压力的研究提供一种新的思路。不同属性的大学生的生活压力可能有不同的危险因素,应分别构建预测模型。开展大学生心理健康教育和指导时,要结合不同亚群人群的特点,有针对性开展;要特别关注人际关系差、经济情况差或者独生子女的大学生。

[1]倪有娣,楼美丽.大学生生活事件及应对方式的研究[J].杭州师范学院学报(医学版),2005,(05):84-86,89.

[2]刘贤臣,刘连启,杨杰等.青少年生活事件量表的编制与信度效度检验[J].中国临床心量学杂志,1997,(5):34-36.

[3]方俊群,罗家有,姚宽保,等.C5.0决策树法在出生缺陷预测中的应用[J].中国卫生统计,2009,26(5):473-476.

[4]张家旺,韩光胜,张 伟.C5.0算法在RoboCup 传球训练中的应用研究[J].计算机仿真,2006,23(4):132-134.

[5]石 玲,王 燕.婴幼儿死亡危险因素的研究--兼论CHAID方法的原理及应用[J].中国卫生统计,2002,19(5):283-285.

[6]PERREAULT WD,BARKSDALE HC.A model-free approach for analysis of complex contingency data in survey research[J]. Journal of Marketing Research,1980,17(4):503-515.

[7]陆安生,陈永强,屠浩文.决策树C5算法的分析与应用[J].电脑知识与技术,2005,(3):17-20.

[8]MAGIDSON J.Some Common Pitfalls in Causal Analysis of Categorical Data[J].Journal of Marketing Research, 1982,19(4):461-472.

[9]GREEN P E. An AID/Logit procedure for analyzing large multiway contingency tables[J].Journal of Marketing Research,1978,15(1):132-137.

猜你喜欢
结点决策树变量
LEACH 算法应用于矿井无线通信的路由算法研究
基于八数码问题的搜索算法的研究
抓住不变量解题
也谈分离变量
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
分离变量法:常见的通性通法
变中抓“不变量”等7则