路旭明 杨嘉琦 大连科技学院
大学生因受到不同方面的压力形成了多种心理问题,因此,针对大学生进行的心理监控具有非常重要的意义。本文利用决策树中的ID3 和CART 算法实现大学的情绪分类,为高校的心理教育工作提供参考作用。
采用大数据技术对大学生在校园中产生的各类心理数据进行客观分析和预测,可以有效的评价学生的心理状态,评估工作量对睡眠、活动、情绪、等的影响,使用6 个含有分类能力的特征,72 小时以内的数据,用决策树算法对情绪做分类实验。
决策树算法采用的是自上而下的递归方式,是一种逼近离散函数值的方法。
1.ID3 算法
ID3 算法主要针对离散型属性数据。该算法核心思想就是通过计算出的信息增益最大的特征来建立决策树当前的节点。
2.CART 算法
CART 决策树是Breiman L 等提出的决策树模型构造方法,基本构造原理是通过对由测试属性和目标类(或数值)组成的训练数据进行循环分析得到的二叉树结构。通过基尼系数来确定决策树的最优节点。
CART 是一棵二叉树,每次分裂只产生两个节点,把其中一个特征值当做一个节点,其他特征值当做另外一个节点。
1.清洗数据
数据挖掘的需要做数据预处理,为了准备用于建模的有效数据集,这一步在挖掘中是最耗时的过程,将json 中的数据转换为csv文件,经过数据清洗后,得到总数为128 条。
2.训练和测试算法
本文从清洗后的数据中随机抽出70% 形成训练集,余下的30%作为测试集,得到训练好的决策树结构,如图1 所示。
本文以大学生的三种情绪:开心、焦虑、疲惫作为学习与分类目标。如图1 所示,ID3 决策树的Sleep_hour 的信息增益最大是最优切分点,Class2_chanllenge反之,CART决策树的Class_hours 是最优切分点。
图1 分类情绪的决策树结构Fig.1 Decision tree structure of classified emotions
使用决策树对大学生情绪分类是本文主要讨论的内容。本文介绍了利用决策树的ID3 与CART 算法对大学生的心理数据做情绪分类的过程,通过数据清洗、样本拆分和训练测试,最终得到决策树模型。实验表明:决策树算法对大学生的心理分类是可行的。进一步研究应该思考如何将决策树内置到大学生心理检测应用中。