许惠惠
(山西药科职业学院器械工程系,太原 030031)
大学生心理健康问题是当今社会广受关注的重要议题之一。在现代社会中,大学生面临来自学业、人际关系、未来就业等多个方面的压力,这些压力可能对他们的心理健康产生负面影响。因此,重视大学生心理健康问题,提供必要的支持和帮助显得尤为关键[1]。
目前,全球范围内各个国家对大学生心理健康的重视程度逐渐增加。越来越多的国家和教育机构认识到大学生心理健康的重要性,并采取积极的措施来支持和关注这一问题。在许多国家,大学生心理健康已经成为教育政策的重要组成部分[2]。中国教育部、卫生健康委员会等相关部门已经多次发布关于大学生心理健康的政策文件和指导意见,如《普通高等学校学生心理健康教育指导原则》等。这些文件强调了加强心理健康教育的必要性,要求学校加强心理健康教育课程的设置,提供心理咨询和支持服务,加强心理健康教师队伍的建设等[3-4]。
在评估大学生心理健康时,传统的方法大多是居于心理健康问卷调查、心理咨询和面谈、心理测评工具、学业成绩和行为观察以及学生自助工具和在线资源等。然而,这些方法存在一些问题。例如,它们可能无法有效地捕捉复杂的模式和关联关系,只能从为数不多的几个指标中分析出大学生的一些心理情况,缺乏全局的特征分析。
为了克服这些问题,本文提出了一种基于多分支深度学习的大学生心理健康评估模型。该模型利用先进的深度学习技术,结合多种学生心理属性数据,对潜在的大学生心理异常状态(尤其是抑郁)进行评估和预测。相比传统方法,这种模型具有更高的准确性和实用性,能够更全面地了解大学生的心理健康状况,为学校和相关机构提供更有效的干预和支持策略。
本研究旨在构建一种基于多分支深度学习的大学生心理健康评估模型,以综合评估大学生的心理健康状况并预测其心理健康水平。该模型的构建理念主要是基于多分支深度学习思想,将每种不同的心理特征类型视为独立的分支,通过并行处理和融合不同分支的特征来获取综合的心理健康评估结果。通过多分支设计,我们能够充分利用不同数据类型的特征信息,从而提高模型的信息提取能力和预测准确性。
该模型的应用研究主要包含以下内容:首先,利用大学生的不同类型指标心理评估结果等信息,对其潜在抑郁状况进行预测;其次,通过对模型的解释性分析,我们能深入了解不同心理属性对心理健康的影响;最后,基于模型对大学生的心理健康水平进行预测,提供个性化的心理健康建议和支持,为进一步的研究和干预提供指导。
由于调查问卷中数据的特殊格式,无法直接用于抑郁症状的预测,所以首先需要对数据进行预处理。
首先,我们需要消除填写问卷的时间异常短,或者某些测量得分异常的数据[5]。如果关键字段的得分为0或者是某种明显的最大值,这可能表明参与者在填写问卷时没有认真填写,我们将这些异常数据按学生删除,这样的处理有助于过滤掉未认真填写问卷的异常数据。
其次,我们对数据中的缺失值进行了补充,检查心理健康各种属性数据中的缺失值。对于缺失值,我们采用平均值插值的方法对缺失值进行了补充,具体公式如下。
其中,表示第i个缺失值的估计值,Xj表示已知的样本值,N表示已知样本的数量。
为了通过调查问卷的数据预测学生的抑郁状况,我们采用了三分支的深度学习模型,如图1所示。每个分支都被设计来处理学生问卷中的一种特定类型的心理特征数据:积极特征数据、负向特征数据和中性特征数据。下面简要介绍模型结构。
图1 多分支深度学习心理评估模型框架
首先,我们构建一个全连接神经网络(fully connected neural network,FCN)分支处理学生积极特征类数据[6-7]。这类数据包括了参与者的聪慧性、责任性、敢为性、独立性和自律性。根据研究表明,高聪慧性增加压力和期望,高责任感导致自责,高敢为性面对挫折,高独立性可能感到孤独,高自律性增加压力,这些积极心理特征对学生的抑郁情况有潜在的反面作用,而FCN 可以抓取这些积极心理数据中的非线性模式,为模型预测学生抑郁状况提供部分信息特征。
其次,我们构建了一个随机森林模型来处理学生负向特征心理评估类数据。这类数据包括学生的幻想性、世故性、支配性、敏感性、怀疑性、忧虑性和紧张性得分。这些特征是学生个体心理负向特征方面的数据,相比积极心理特征与抑郁症的关联性更大。较高的幻想性和世故性、较强的支配性、敏感性、怀疑性、忧虑性和紧张性可能与抑郁症风险增加相关。缺乏社交支持、情绪波动大、过度控制他人、焦虑、敏感、猜疑、忧虑和紧张可能导致抑郁情绪。这些信息深度描绘了学生的负向心理状态和行为表现,由于这些属性和抑郁性都是作为负性心理指标,所以具有高度的预测价值。随机森林作为一个非参数的集成学习模型,能够有效处理各种特征之间的复杂交互关系,对心理评估数据进行深度分析。
最后,我们构建一个新的全连接神经网络(FCN)分支处理学生心理中的中性特征数据。这类数据包括了学生的合群性、稳定性、兴奋性和开放性得分。这些特征涉及个体的内外向倾向和对新奇体验的接受程度。它们与抑郁症之间的关系可能相对较弱,与处理积极特征类数据的FCN 相似,这个FCN 也可以捕获这些特征之间的非线性关系,并进一步辅助主要特征提高预测的准确性。
以下是该模型的算法表示:
算法:三分支深度学习心理评估模型
输入:学生的积极特征数据X1,消极(负向)特征数据X2,中性特征数据X3
输出:预测的抑郁状况Y
步骤:
第一步:初始化模型参数。
第二步:对每一个训练实例执行以下步骤:
①将积极特征数据X1输入到全连接神经网络(FCN)分支,得到特征表征结果Y1;将消极特征数据X2输入到随机森林模型分支,得到特征表征结果Y2;②将中性特征数据X3输入到全连接神经网络(FCN)分支,得到特征表征结果Y3;③拼接整合三个分支的预测结果Y1,Y2,Y3,生成综合预测结果Y。
第三步:使用交叉熵损失来计算预测结果Y 与实际值之间的差距。
第四步:使用随机梯度下降法更新模型的参数。
第五步:重复步骤二~步骤四,直到模型收敛,即损失值不再显著下降或达到100训练轮数。
第六步:输出预测的抑郁状况Y。
1.4.1 全连接神经网络模型(FCN)
全连接神经网络(FCN)是一种常见的深度学习模型,由多个层次的节点(或称为神经元)组成,每一层的节点与上一层和下一层的所有节点都相互连接。这种全连接的方式意味着网络可以捕获输入特征之间的复杂关系。每个节点都是输入数据的加权求和,然后通过一个非线性激活函数,如ReLU或sigmoid,得到输出。
下面是FCN 方法的分步介绍:
(1)输入层:多层感知机的输入层接受输入数据x=(x1,x2,…,xn),其中n为特征数量。
(2)隐藏层:隐藏层的任务是从输入数据中提取有用的信息。隐藏层的神经元将使用权重和偏置对输入数据进行线性变换,然后通过激活函数进行非线性变换,得到一个内部状态值hi:
其中wij和bi分别表示第i个神经元的权重和偏置项。
(3)激活函数:隐藏层的每个神经元都会对内部状态值hi应用一个非线性激活函数g(hi),得到输出值ai:
常用的激活函数包括Sigmoid 函数、ReLU函数和Tanh 函数等,本实验使用ReLU 函数。ReLU 函数具有简单、高效、非线性和正则化等优点,因此在多层感知机模型中广泛使用[12]。
(4)输出层:多层感知机的输出层对隐藏层的输出值ai进行线性变换,得到最终的输出值y:
除了基本的全连接层和激活函数,全连接神经网络中使用其他的技术,Dropout 和Batch Normalization来提升模型性能。
Dropout 是一种正则化技术,它在训练过程中随机忽略(即设置为0)部分神经元的输出,以防止模型过拟合。
Batch Normalization 是一种归一化技术,它将每一层的输入标准化到0 均值和1 标准差,以加速训练过程,并提高模型的泛化能力。
1.4.2 随机森林
随机森林(random forest,RF)是一种集成学习方法,它结合了多个决策树的预测能力来生成最终的输出。随机森林在处理回归问题时,通过对每个树的预测结果进行平均,产生一个连续的输出值。
对于一个给定的训练集D=(xi,yi)N i=1,随机森林的基本工作流程如下:
首先从D中进行有放回的抽样(Bootstrap)以产生一个新的训练集,然后在这个训练集上构建T个决策树。
基于以上构建的T个决策树,对于一个新的输入x,随机森林的预测值是所有决策树预测值的平均,可以表示为
其中,ft(x)是第t棵决策树的预测值。
首先,本文实验平台基于英特尔I7处理器、64 GB运行内存的超微高性能服务器,并搭载了8 块NVIDIA GeForce GTX 3090 显 卡。操 作 系 统为Ubuntu 16.8。软件方面,使用基于Anaconda3 5.0.1 软件包管理系统开发,CUDA 版本为9.0。深度学习框架采用PyTorch开发环境。
本研究以山西药科职业技术学院2021 年心理健康测评数据为实验数据集。这个数据集包含了19 个班级,其专业包括药品质量与安全、中药制药技术和中药学。
本数据集基于《卡特尔十六种人格因素测验》探讨了大学生的16 种人格因素的测试,其中包括实验设计中提到的合群性、聪慧性、稳定性、支配性、兴奋性等16 种人格因素,它整合了重要的人口统计信息以及自我报告的数据和心理测试结果,以全面了解医学领域大学生的心理状态。
我们的目的是基于数据集中的三类数据类型(积极、消极、中性)对学生的抑郁情况进行预测,从中分析学生各个数据属性和潜在抑郁心理情况的相关性,从而构建学生的心理健康评估模型。
由于抑郁情况评估任务为回归问题,本文使用的评价指标包括:
(1)均 方 误 差(mean squared error, MSE):MSE 是预测值与实际值之差的平方的平均值。公式为
其中,n是样本数量,Yi是实际值,是预测值。
(2)均方根误差(root mean squared error,RMSE): RMSE 是MSE 的平方根,更易于解释,因为它的单位和原始目标变量相同。公式为
(3)平 均 绝 对 误 差(mean absolute error,MAE):MAE 是预测值与实际值之差的绝对值的平均值。公式为
(4)R 方值(R2Score): R 方值,也称为确定系数,衡量的是模型的预测能力。它的取值在0~1 之间,越接近1 表示模型的预测性能越好。公式为
其中,是实际值的平均值。
对于回归问题,我们希望MSE,RMSE 和MAE的值尽可能小,而R2的值尽可能大。
为了验证所提出模型的有效性,本文设计了以下方法作为对比方法,并进行相应的对比实验:
(1)线性回归(linear regression):线性回归是最基础的回归算法,其目标是找到一条使得预测值与实际值之间误差平方和最小的直线[8];
(2)岭回归(ridge regression):岭回归是一种修改版的线性回归,通过对系数的大小施加惩罚来防止过拟合[9]。
(3)决策树回归(decision tree regressor): 决策树回归是一种非线性回归方法,它将特征空间划分为一系列的矩形区域,对于每个矩形区域的预测值为该区域内的目标变量的平均值[10]。
(4)支持向量回归(support vector regression,SVR): SVR 是支持向量机的回归版本,它尝试寻找一个超平面,使得所有点到该平面的距离都小于或等于预设的值,并且距离超平面最远的点尽可能多[11]。
以上算法在本数据集上的预测准确率见表1。
表1 各模型预测结果
从表1可以看出,本文提出的多分支心理健康评估模型在各个指标上均优于其他模型。本文模型获得值为0.3 的MSE,说明本文模型预测的残差平方和最小,进一步阐明本文模型从其他的属性特征中挖掘抑郁相关信息的能力较强。在R2方面,本文模型有最高的确定系数0.85,说明模型在挖掘各项不同的属性数据上的能力最强,从中成功捕捉到学生心理抑郁情况的能力最强,而线性回归模型的R2值最低,为0.72,在解释变量对结果的影响的能力最弱,预测精度相对较低。
图2是本文方法和对比方法在RMSE和MAE指标上的结果对比,可以看到本文的方法具有最佳的预测性能。
图2 不同模型的RMSE(↓)和MAE(↓)结果对比
为了验证学生的不同指标对学生抑郁情况的影响,我们进行了部分属性的相关性分析,结果如图3所示。
图3 心理属性相关性分析热图
首先,我们发现,学生的忧虑性和紧张性与抑郁症状存在正相关关系。忧虑性得分越高,对应的潜在抑郁情况分数也越高。随着年龄的增长,学生可能会面临更多的学业和生活压力,导致对学习和生活的忧虑,这可能会提高抑郁症的风险。同时,紧张性也和抑郁有正相关关系,过度的忧虑和紧张导致负面情绪的积累,增加抑郁的风险。抑郁和焦虑常常共同存在,相互影响,形成一种恶性循环。忧虑情绪增加可能导致抑郁情绪的加重,而抑郁情绪的存在又会进一步加重个体的忧虑和紧张感。
此外,我们发现责任感和学生的抑郁情况也存在相互影响。责任感较强的个体可能更容易在面对困难和挫折时产生自责和抑郁情绪。他们可能过分追求完美,对自己的要求过高,当无法达到自己设定的目标时,会感到失望和沮丧。同时,抑郁情绪可能会降低个体对自我责任的感知,导致其对任务和义务的执行能力下降。
最后,我们的实验进一步验证了积极心理特征中的敢为性与抑郁具有负相关性关系。具有较强敢为性的同学,普遍具有较低的抑郁风险。这可能是因为敢为性的同学更加乐观和自信,更能够积极面对挑战和困难,从而减少抑郁的发生。
本研究成功开发出一种基于多分支深度学习模型的大学生心理健康评估工具。通过综合处理和分析学生的各项心理咨询数据以及心理评估数据,能够有效地预测他们的潜在抑郁风险。
研究结果表明,本文模型在预测精度和可靠性上明显优于传统方法。此外,我们还发现学生一些消极心理评估结果与他们的抑郁状况显著相关,尤其是忧虑、紧张和责任性等因素对学生抑郁风险的影响最为显著,同时敢为性可以最大程度地减少抑郁风险。
总体来看,本研究为深入理解大学生抑郁症状的成因和影响因素,以及设计更精确和针对性的预防和干预措施提供了重要依据。