晏杰
(武夷学院 数学与计算机学院,福建 武夷山 354300)
决策树算法的研究及其在大学生心理健康数据处理中的应用
晏杰
(武夷学院数学与计算机学院,福建武夷山354300)
摘要:决策树分类是数据挖掘中的一种重要方法。探讨了决策树算法的基本思想和常用算法,并将决策树挖掘技术应用于大学生心理健康数据,分析挖掘影响大学生心理健康的因素。文章选择C5.0算法,通过Clemen⁃tine12.0进行决策树挖掘模型的构建,建立数据流,通过不断测试分析,发现影响大学生心理健康主要症状是强迫症。以强迫症为分类目标查看模型,可以了解到焦虑症和人际关系也起到很大的影响作用。将目标属性分别设置为焦虑_程度和人际关系_程度,输出变量设为剩余的9个因子变量,执行数据流挖掘出导致强迫症的主要原因,为指导心理健康的工作人员提供参考。
关键词:数据挖掘;决策树;心理健康;大学生
随着社会的迅速发展,科学技术不断进步,人们的生活节奏在不断加快。由于大学生受到来自不同方面的压力,形成了复杂多样的大学生心理问题,使得心理健康教育成为各高校正视大学生教育的重要内容之一,对于大学生今后的人生规划及健康发展具有重要意义。大多数高校在新生报到时,采用症状自评量表SCL-90进行心理健康测试,虽然积累了海量的心理数据,但是仅仅停留在表面工作上,导致大量有用的规则和模式不能被提取,心理健康档案没有充分发挥它的作用。因此,本文借助数据挖掘中的决策树技术对心理数据进行挖掘,说明数据挖掘技术在学校的大学生心理辅导和决策中提供的参考作用。
顾名思义,决策树是一棵树,用来表示人们为了做出某个决策而进行的一系列判断过程。决策树算法采用的是自上而下的递归方式[1],其构造的主要元素为训练元组及其相关标号,是一种逼近离散函数值的方法。同时它也是一个典型的分类方法,第一步是决策树算法对数据进行处理,然后基于归纳算法进行可读规则或决策树的计算,接着对构造好的决策树进行数据分析与处理。
决策树的基本思想是对于给定的一组属性,构造决策树的数量能够达到某个高度。尽管存在更准确的决策树,但由于搜索的空间限制为指数级,所以要找到最佳的决策树在计算上是不可行的[2]。想要在合理的时间内,找到一个准确率比较高的最佳决策树,采用的算法非贪心算法莫属,以一系列的局部最优决策构建决策树分类数据。
2.1 ID3算法
ID3算法是由J R QUINLAN在1979年提出来的,主要针对离散型属性数据。该算法利用信息增益最大的属性建立决策树,为了能获得关于被测试记录最大的类别信息,用信息增益作为属性的选择标准,对每一个非结点进行测试。通常采用这种方式选择节点属性是为了确保拥有最少的分支数量和最小的冗余度的决策树。
ID3算法的基本策略如下[3]:
(1)树开始于单个节点来代表训练样本,它没有入边,但有零条或多条出边;
(2)如果样本都在同一个类中,则这个节点成为树叶结点并标记为该类别,即为内部节点,恰有一条入边和两条或多条出边;
(3)否则为了帮助选择合适的将样本分类的属性,算法将使用信息熵(称为信息增益)作为启发知识,使特定样本被分成几个子集。该属性就是一个测试属性或相应节点的审判属性,且所有的属性必须是离散值;
(4)测试属性中的值都是已知的,若它是离散值,那么建立正确的分支,并据此划分样本;
(5)使用同样的过程,自上而下的递归,直到满足给定结点的所有样本属于同一类,没有剩余属性可以用来划分样本和分枝没有样本3个条件之一成立时就停止递归。
2.2 C4.5算法
C4.5算法是构建决策树中常用的一种算法,它形象直观。C4.5算法在ID3算法的基础上进行了改进,不仅拥有ID3算法的优点,还增加了以下几项功能:①用信息增益比例的概念;②合并具有连续值的属性进行;③可以对缺少属性值的训练样本进行处理;④为了避免树的不平衡可以通过使用不同的修剪技术;⑤K次迭代交叉验证;⑥规则的产生。
使用C4.5算法训练所得的决策树,不仅可以做状态判断树,而且更有价值的是决策树本身的结构所表现出来的附加含义,即决策树中的各个因素对目标属性的影响程度。一般情况下,如果某个属性与目标属性完全相关时,则完全可以由该属性推测出目标属性的变化情况。根据C4.5算法原理可以了解到,决策树选择在信息增量最大的属性上进行节点的分裂[4],即对目标属性影响最大的因素就是决策树中每个节点对应的属性。也就是说,一个属性在决策树中所处的位置越接近根节点,则表示它对目标属性的影响作用就越大。C4.5算法当训练集大得无法在内存容纳时,程序就无法运行,因此C4.5算法也只适合能够驻留于内存的数据集。
2.3 C5.0算法
C5.0是在C4.5的基础上扩展出来的,它属于经典的决策树模型的算法之一,而且它是Clementine12.0的决策树模型中的算法。它生成的决策树有很多分支,目标变量为分类变量,使用C5.0算法不仅生成决策树还可以生成推理规则集。一般来说,C5.0模型要划分样本取决于能够带来最大信息增益的属性[5]。C5.0算法可以处理数据不完整性,而且可以对不适合的属性进行标记,保持资料的完整,还可以处理多种数据类型,如date、times、timestamps等,数据处理速度更快,内存占用方面的性能大大提高,由于采用了提升(Boosting)方法,产生的决策树是较小的,拥有更高的分类精度。其优点主要表现为:在面对数据遗漏和输入字段很多的问题时非常稳健;通常不需要很长的训练次数进行估计;C5.0模型比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;提供强大技术以提高分类的精度。但C5.0算法对连续性的字段比较难预测。
3.1 数据的选择和预处理
本研究采用的数据来源于福建省某高校某一年级学生的SCL_90心理数据,本次测试有1 643人,女生989人,男生654人。
数据挖掘的最关键的步骤是数据预处理,为了准备用于建模的有效数据集,这一步在挖掘中是最耗时的过程[6]。数据预处理分为数据选择、数据清洗、数据综合、数据格式的子任务。因为选取的数据较多,存在着杂乱性、重复性和不完整,要保证数据的质量就要对数据进行预处理。对于选择影响心理症状的属性时,分析数据表格,选取数据较全、特殊的属性,如性别、家庭收入、是否单亲等。对表中具有连续值的属性,若存在缺失值,则填补该属性值的平均值;若属性的值为离散化存在缺失值,则找出出现频率最高的属性值,并用这个值来填补缺失值。
3.2 决策树模型的构建
采用Clementine12.0作为挖掘工具,它包含了多种算法模型,其中决策树算法有:C&Rs树、C5.0、CHAID、QUEST等模型,本文选择C5.0算法,建立的数据流如图1所示[7]。
图1 决策树挖掘数据流Fig.1 Data flow of date mining of decision tree
通过不断测试分析,影响大学生心理健康主要症状是强迫症。所以以强迫症为分类目标查看模型,可以得出如图2所示的结果;根据C5.0算法原理,从图2可以了解到焦虑症和人际关系也起到很大的影响作用。将目标属性分别设置为焦虑_程度和人际关系_程度,输出变量设为剩余的9个因子变量,执行数据流,结果分别如下图3和图4所示;挖掘出导致强迫症的主要原因如图5所示。
图2 强迫症状_程度模型结果Fig.2 Model of compulsion_degree
图3 焦虑_程度模型结果Fig.3 Model of anxiety_degree
图4 人际关系_程度模型结果Fig.4 Model of social relationship_degree
图5 强迫症状决策树挖掘结果Fig.5 Results of decision tree data mining of compulsion
3.3 评估和建议
从各个角度分析来看,整体而言,大学生的心理素质是健康的。在此次应用中,大学生心理中的强迫这项因子比率占据比较高。根据C5.0算法原理可知,焦虑、人际关系、偏执这3项对目标属性强迫症影响作用很大。
由图2可以看出,若焦虑_程度=中,不论人际关系_程度如何,都有强迫症倾向;若焦虑_程度=无时,当偏执_程度=[轻、中],强迫症状_程度=轻,当偏执_程度=无,则与人际关系和敌对等有关系,若偏执_程度="重" "极重",则强迫症状_程度=无;若焦虑_程度=轻,不论人际关系_程度如何,都有强迫症倾向;若焦虑_程度=重,强迫症状_程度=中。
由图3可以看出,若抑郁_程度=中,焦虑_程度=中;若抑郁_程度=无时,当恐怖_程度=中,焦虑_程度=轻,当恐怖_程度=[无、轻、重],几乎不存在焦虑;若抑郁_程度=轻,强迫症状_程度=无时,不存在焦虑倾向;若抑郁_程度=重,焦虑_程度=重。
由图4可以看出,若抑郁_程度=中,人际关系_程度=中;若抑郁_程度=无时,当恐怖_程度=轻且存在精神病时,人际关系_程度=轻;若抑郁_程度=轻,存在强迫症时,则人际关系方面都存在问题。
由图5可以看出在已知的挖掘结果中,发现导致大学生心理产生强迫症的原因主要分布在家庭氛围、家庭结构、来源地。在和谐的家庭中长大的孩子,身心愉悦,而家庭中充满了争吵,冷淡、溺爱、暴力,孩子的身心必然受创,导致孩子心理健康问题也越来越多,越来越严重。健康家庭的孩子对生活充满希望,对自己的感情生活也非常有信心。父母双亡的大学生由于父母关爱的缺失,缺乏安全感,神经敏感、感情脆弱,做事情总是畏首畏尾,其心理问题极为显著。单亲或父母离异的不健全家庭,总会不同程度、不同层面地对子女的心理健康有所伤害。
对于大学生来说,在学校提高心理素质,引导他们顺利度过大学时光是十分重要的[8]。心理辅导工作者在与学生交流或接触中,不仅要留意存在强迫症的学生,也要多关注存在焦虑、人际关系症状的同学的行为举止,做好预防工作。通过开设心理讲座或课外心理教程,完善心理健康教育主渠道,采用多种多样的教育方法,充实心理健康教育的内容,同时备齐专业的心理辅导队伍,这对于提高大学生整体心理健康水平是很重要的。
本文探讨了决策树算法的基本思想和常用算法,尝试在大学生心理健康症状分析中引入数据挖掘技术,利用数据挖掘工具Clementine12.0从数据中挖掘导致大学生心理问题的各因素之间的关系及主要因素等,从而发现了大量数据背后隐藏的规律与模式,为学校开展心理健康教育的规划、决策提供更有效、更科学的依据,使学校的心理辅导工作更有针对性。
参考文献(References)
[1]纪希禹,韩秋明,李微.数据挖掘技术实例[M].北京:机械工业出版社,2009.
[2]张婧.基于数据挖掘的汽车售后服务业客户消费行为分析研究[D].武汉:武汉理工大学,2009.
[3]高玉蓉.基于决策树的土地利用现状信息提前研究[D].杭州:浙江大学,2006.
[4]吴小刚,周萍,彭文惠.决策树算法在大学生心理健康测评中的应用[J].计算机应用与软件,2011(10):240-244.
[5]薛薇,陈欢歌.Clementine数据挖掘方法及应用[M].北京:电子工业出版社,2010.
[6]亓文娟,晏杰,郭磊,等.关联规则挖掘在大学生心理健康测评系统中的应用研究[J].湖南工业大学学报,2013(11):94-99.
[7]熊蜀峰,聂黎明.基于C5.0算法的学生成绩分析决策树构造[J].科技信息,2010(8):24-25.
[8]姜松.当代大学生心理健康问题分析及教育方法[J].教育教学论坛,2014(3):55-56.
(责任编辑:范建凤)
Research on Decision Tree and Its Application on Students′Mental Health Data Treatment
YAN Jie
(College of Mathematics and Computer Science,Wuyi University,Wuyishan 354300,Fujian,China)
Abstract:Classification of decision tree is an important method in data mining.The basic ideas and common algorithms of decision tree algorithm are discussed,the decision tree mining is applied to students′mental health data analysis,and to analyse the impacting factors on students′mental health.With the C5.0 algorithm,performed by Clementine 12.0,the decision tree mining model was constructed,the data flow was also set,with continuous test and analysis,discovered that compulsion was the main symptom which impacted the mental health of students.To view the model with compulsion as the classification object,it can be find out that anxiety and social relationship also have big influences.The target attribute were set as anxiety_degree and social relationship_degree,output variables were set as the left nine factors,dug out the main factors which cause the compulsion,to provide the reference to the mental health domain.
Keywords:data mining;decision tree;mental health;student
作者简介:晏杰(1977—),男,讲师,硕士,研究方向:计算机应用、算法与数据结构及数据挖掘。
基金项目:福建省“大学生创新训练计划”项目(201310397022);武夷学院校科研基金资助项目(XL201307)
收稿日期:2015-05-11
DOI:10.16389/j.cnki.cn42-1737/n.2015.04.016
中图分类号:TP391;R195
文献标志码:A
文章编号:1673-0143(2015)04-0371-05