基于Xgboost算法的大学生积极心理品质预测及影响因素分析

2021-04-09 02:48刘俊彤

黑龙江工业学院学报(综合版) 2021年1期

杨利，昌杰，张浩，刘俊彤

(皖南医学院医学信息学院，安徽芜湖 241002)

当前，社会竞争日益激烈和社会环境日益复杂，大学生承受着学习、人际、情感和择业等诸多压力。培养大学生的积极心理品质，提高大学生心理素质，使他们能以积极的心态面对多方面压力，从而更好的适应社会的发展。随着机器学习技术的快速发展和广泛使用，可将其应用于大学生的积极心理品质数据的分析，挖掘影响大学生积极心理品质的影响因素，预测大学生积极心理品质状况，从而找到可提高大学生积极心理品质的有效方法。

积极心理品质最早由Seligman于2002年在《真实的幸福》提出，他用“积极品质”(positive character)描述个体的积极心理品质[1]。官群、孟万金认为积极心理品质是人本身固有的、潜在的、建设性的，是一种正向的或主动的心理品质，并针对中国学生人群开展了大规模问卷调查，挖掘出20项积极品质，分为6大类：认知、人际、情感、公正、节制、超越[2]。国内不少学者对这6个维度20项积极心理品质进行了进一步研究，各种研究表明，年龄[3]、家庭教养方式[4]、体育参与度[5]、社交[6]、是否独生子女[7]等因素对个体积极心理品质有重要影响。因此本文选取性别、年级、科别、生源地、独生子女、父母的教养方式等因素，预测大学生的积极心理品质状况，并对这些影响因素进行分析。

机器学习是研究计算机模拟或实现人类的学习行为，重组已有的知识结构并使之不断改善[8]，广泛应用于心理领域[9-13]，但大部分机器学习算法存在计算量大、过拟合及预测的准确率不高等缺点。Xgboost是一种性能优异的机器学习算法，2016年由陈天奇提出，是一种改进的GBTD(Gradient Boosting Decision Tree)算法[14]。近年来，大量研究学者对Xgboost算法展开了深入研究，该算法已作为分类、回归和特征排序的有效方法并迅速发展，广泛应用于电子商务推荐[15]、商业预测[16]、住房预测[17]、信用评估[18]等领域。

因此，本文通过量表收集积极心理品质相关数据，建立基于XgBoost算法的大学生积极心理品质预测模型，预测出大学生积极心理品质，同时分析其影响因素。

1 Xgboost算法

Xgboost是一种提升方法(boosting)。提升方法通过构造多个“弱学习器”，这些“弱学习器”之间有着很强的依赖关系，通过线性组合，最终形成一个“强学习器”，可大幅提升分类算法的准确度，“弱学习器”一般通过改变训练数据的的概率分布或权值分布所得。代表性的提升方法有AdaBoost和GBDT(Gradient Boosting Decision Tree)。AdaBoost主要用于二分类问题，选用指数损失函数作为损失函数，通过提高前次学习器分错样本的权值用于训练下一个学习器[19]。而GBDT以决策树为基分类器，可选用多种损失函数，计算前次学习器的残差，在残差减少(负梯度)的方向上拟合下一个决策树(学习器)。GBDT只需拟合当前分类器的残差，相对于AdaBoost算法要简单的多[20]。然而对于一些复杂的损失函数，GBDT难以计算其负梯度。Xgboost对损失函数进行了二阶泰勒展开，通过计算参数的一阶和二阶导数替代负梯度，同时Xgboost还引入了树的复杂度作为正则化项，树的复杂度由树的叶子节点数目和权值构成，有效降低了计算的复杂度，显著提升了模型的泛化能力。

下面对Xgboost算法的决策树模型、目标函数及具体步骤进行说明。

1.1 决策树模型

设训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)}，xi为第i个样本点，yi为第i个样本点对应的标签。决策树模型定义如下：

(1)

1.2 目标函数

对于第k次训练，设目标函数为：

(2)

目标函数由损失函数和正则化项构成，正则化项Ω(fk)定义如下：

(3)

使用二阶泰勒展开式(3)并优化可得：

(4)

1.3 Xgboost算法具体步骤

1.3.1 初始化f0(xi)=0。

1.3.2 使用贪心算法构建第k(k∈1,2,…,K)次决策树模型。

对树中的每个叶子节点，使用贪心算法遍历所有特征值及其切分点，选取切分后目标函数变化最大的作为当前决策树fk(xi)。目标函数变化的计算公式如下：

(5)

GL、GR分别为切分后左、右子树对参数的一阶导数，HL、HR为切分后左、右子树对参数的二阶导数。

1.3.4 设定Gain阈值或树的深度，终止节点分裂，得到最终模型式(1)。

2 实验与结果

2.1 实验数据

采取整群抽样的方法，从安徽芜湖6所高校选取在校大学生为施测对象，通过纸质问卷和网络问卷的方式发放量表，施测对象共计2764人，有效回收量表数据2053人，有效率74.3%。

施测量表由以下两部分组成：

2.1.1 大学生积极心理品质影响因素调查表

包括性别(男、女)，年级(大一、大二、大三、大四、大五)，科别(文科，理科)，生源地(农村，城市)，独生子女(是、否)，父母的教养方式(民主型、专制型、溺爱型、忽视型)，父母的受教育程度(小学及以下、中学及高中、大学及以上)，学习成绩(班级排名前30%、班级排名70%至30%、班级排名后30%)，恋爱(是、否)，每周锻炼时间(0～2小时、2～5小时、5小时以上)，家庭经济状况(较差、一般、较好)，社团活动(从不参加、很少参加、一般、经常参加)共计12个因素。设项目选项数为n，则计分为1至n，例如每周锻炼时间0～2小时、2～5小时、5小时以上分别计分为1、2、3。每条记录最多允许存在2个缺失值，否则作为无效数据，对于缺失值用众数填充。此次统计数据的被试的人口统计学变量(已填充缺失值)如表1所示。

表1 被试对象的人口统计学变量

2.1.2 中国大学生积极心理品质量表

表2 大学生积极心理品质总体情况

2.2 数据模型训练

2.2.1 评价指标

实验采用R2(Coefficient of Determination，决定系数)作为评价指标，R2的计算公式如式(6)所示。

(6)

2.2.2 模型参数

本实验环境为python3.7，使用xgboost.sklearn包中的XGBRegressor模块训练数据。实验中，随机从这2053份大学生心理健康数据中选取70%(1437份)作为训练样本，30%(616份)数据作为测试样本。以R2为指标，使用GridSearchCV函数搜索learning_rate(学习率)、n_estimators(迭代次数)和max_depth(树的最大深度)等参数，找出最佳模型。GridSearchCV函数主要功能为自动调参，给出参数范围，能找出最优结果及其对应的参数，适用于小数据集。通过多次不断变化样本数据及设定参数范围，最终确定参数为learning_rate=0.12，n_estimators=322，max_depth=5。

2.2.3 实验结果

使用Xgboost和目前常用的心理数据分析方法决策树、SVM(support vector machines，支持向量机)、随机森林对大学生积极心理品质数据进行预测，先用GridSearchCV函数对决策树等3种方法进行参数优化，每种方法进行10次实验，每次实验随机选取总样本的70%进行训练，30%用于测试。记录R2指标的最大值和平均值，实验结果如表3所示。

表3 四种模型的的最大值和平均值

3 大学生积极心理品质影响因素分析

使用内置函数get_booster().get_fscore()分析Xgboost模型的特征权重，找出影响大学生积极心理品质的重要因素，为制定大学生积极心理品质培养策略提供决策支持。根据特征权重对模型贡献所占的百分比进行排名，结果如图1所示。

图1 特征重要性排名

从图1可以看出，与家庭环境相关的特征有：父母的教育方式、家庭经济状况、父母的受教育程度、独生子女，其特征权重分别排在第1、5、6、8位，说明家庭环境对于大学生积极心理品质的影响较大，相关教育工作者可通过建立有效的家庭联系常态化机制，及时掌握学生的家庭环境变化。模型贡献度较高的特征还有：每周锻炼时间、学习成绩以及社团活动，利用线性回归分析单独分析每个特征与积极心理品质关系发现，这三个特征与积极心理品质均呈现出一定的线性正相关性，因此鼓励学生积极参加体育运动、培育良好的学习氛围及各类社团活动，均有利于培养大学生积极心理品质。年级对模型的贡献度排在第4位，说明随着大学生的成长，其积极心理品质也不断发生变化，反映出大学生积极积极心理品质可塑性较高，因此需定期开展积极心理品质教育，确保变化朝着有助于提高积极心理品质的方向发展。

4 结论

本文使用Xgboost算法构建模型对大学生积极心理品质进行了预测，并使用GridSearchCV函数对模型参数进行优化，指标的最大值达到0.93，高于决策树、SVM和随机森林等算法。同时，对模型中的特征依据贡献度进行了排序，对影响大学生积极心理品质的重要因素进行了分析。本文不足之处在于使用了GridSearchCV函数对Xgboost算法模型进行调参，但这种调参方式一般适用于小样本，后续将研究大样本下Xgboost算法在大学生积极心理品质分析中的应用。