文本挖掘技术下大学生群体心理状态研究

2023-12-08 08:39西南民族大学经济学院孙婷覃继桃马润昕西南民族大学电子信息学院吴霞
办公室业务 2023年22期
关键词:特征词心理健康文本

文/西南民族大学经济学院 孙婷 覃继桃 马润昕;西南民族大学电子信息学院 吴霞

一、问题研究

党的十八大以来,以习近平同志为核心的党中央高度重视大学生心理健康工作。张守连等认为掌握大学生群体的认知规律和心理特征可以提升其思想政治教育获得感[1]。吴海燕根据大学生特殊群体心理特征和行为特征,探讨了心理健康教育途径[2]。李莉等提出探索心理教育创新机制的前提是紧密把握大学生群体的心理特点[3]。

在对研究大学生心理健康问题所采用的方法上,王东方等采用问卷和访谈的方法,考察心理体验评估(CAPE-P8)的效度和信度[4]。白学军等对被试进行深度访谈,探索耐挫心理结构的因素构成[5]。张迪宇采用症状自评量表(SCL-90)、心理健康量表(MHS-CS)评价心理健康状况[6]。社交媒体的广泛应用为我们了解大学生心理状态提供了新的思路,如可通过文本挖掘网络用户的情感倾向等。从社会心理学的角度来说,当前的学者侧重于理论研究,对于数据分析较少。而大学生作为使用互联网的主流群体,不应忽视其在网络平台的发言等关键信息。

二、研究方法与数据来源

文本挖掘是指从大量没有结构的文本数据中抽取所需要的信息或知识,并将其转化为有结构的数据的过程。本文采用文本挖掘的方法,从社会心理学的视角,对大学生在百度贴吧上发表的文本数据进行文本挖掘,通过文本情感分析将百度贴吧文本情感划分为积极、消极和中性三种心理情感状态,从而判断大学生群体的心理状态,并通过构建主题模型深入挖掘情感的影响因素。具体文本挖掘流程如图1所示。

图1 大学生情感文本挖掘流程图

(一)数据获取与预处理。网络爬虫通过模仿浏览器,能够自动获取用户需要的网页信息。本研究通过python 软件并采用网络爬虫的方法,获取了成都市八所高校大学生在百度贴吧上的网络言论共36923 条。爬取到的百度贴吧文本数据包含帖子的作者昵称、内容、时间、ID 号、点赞和回复数量,未涉及作者个人信息和地理位置等信息,高度重视作者的隐私保护。文本数据预处理:首先使用panda 库读取数据进行清洗,采用jieba 分词工具分词,然后进行词性标注,并删除无意义且出现频率高的停用词,最后进行词频统计。

(二)网络文本情感分析。使用情感词典是目前情感挖掘的主要使用方法,通过匹配文本情感词,将其汇总后进行评分,能得到文本的情感倾向。使用情感词典的情感分析方法主要有两种:第一种是基于BosonNLP 情感词典;第二种是基于知网情感词典的情感挖掘原理。情感分析研究采用Python 程序和知网情感词典结合进行情感挖掘,其分析准确率达到90%。本研究采用第二种方法进行情感分析。

(三)情感百度贴吧文本主题挖掘。由于词云图无法精准判断情感特征词,为进一步探究大学生积极与消极两种情感的影响因素,本文采用了将LDA 主题模型和TF-IDF 算法相结合的方式深入挖掘积极与消极情感文本的主题及其特征词。LDA 主题模型是一种可对大量文本主题信息特征进行建模的三层贝叶斯模型,可用于挖掘文本的潜在主题。TF-IDF 算法是一种用于信息检索与数据挖掘的常用加权技术,由词频和逆文档词频两部分组成。TF-IDF 算法对文本特征词重要性辨别程度较高,弥补了LDA 主题分布在考虑语义分析时特征词对描述主题重要性无法判别的缺点。

三、研究情况与分析

(一)情感状态分析。通过知网情感词典的情感挖掘,将从百度贴吧上爬取到的八所高校学生发表的36923 条网络发言,分为积极、消极、中性三种情感极性,其中积极性网络发言13437 条,消极性网络发言4569 条,中性网络发言18917 条。高校大学生在社交媒体上的网络发言以中性为主,占比超过高校大学生发言总数的一半,而积极性网络发言仅占了发言总数的36.39%,消极性网络发言占发言总数的12.37%。从三种情绪极性占比来看,高校大学生群体在社交媒体上的积极性网络发言较少,这从一定程度上反映了大多数高校大学生群体在某段时间内的情感倾向并非完全正能量化。

(二)大学生心理情绪状态的影响因素分析。1.积极文本下的LDA 主题模型分布。从积极文本的LDA 主题模型分布来看,高校大学生积极情绪的影响因素主要有:(1)集体的友好人际关系。表1 中的Topic6 和Topic8 反映本科生和研究生以及低年级和高年级学生之间关于考研或学习经验分享的现象,Topic11 中“感谢”“好心人”等词反映了老师与同学、同学与同学之间的良好关系。(2)需求得到满足。在学习上、生活中、个人情感的需求得到满足可以引发积极情绪,体现在“学习”“淘宝”“吃货”“表白”等特征词上。(3)兴趣和目标。由表1 中Topic12 的特征词“希望”“兴趣”“祝福”等反映了学生带着兴趣去完成一件事情或者祝福他人时,会引发积极情绪。(4)良好的环境。良好的城市和校园文化氛围能够让人产生积极情绪。表1 的“成都”“学校”等特征词反映了学生对地区和学校的满意度,在一定程度上引发了大学生的积极情绪。

表1 积极情绪文本主题挖掘特征词

2.消极文本下的LDA 主题模型分布。从消极文本的LDA 主题模型分布来看,高校大学生消极情绪的影响因素主要有:(1)学业和生活压力。表2 中Topic3描述了学生参加某些活动、考试、毕业等事件带来的压力。各主题中“考研”“考试”“图书馆”“穿戴”等特征词反映高校大学生面临着学业和生活中的压力,由此引发消极情绪,部分学生抗压能力较弱。(2)就业压力。表2 中Topic4 描述了大学生面临毕业后就业、实习等各类问题,“难受”“受不了”等特征词反映了大学生的感受。社会竞争的激烈和就业市场的不景气,导致大学生就业压力越来越大,消极的心理情绪也由此产生。(3)疫情防控。表2 中特征词“隔离”“学校”“无聊”反映了大学生因为疫情防控,导致活动范围局限于学校甚至寝室,给生活和学习带来了不便。(4)交际困难。由表2 中Topic2 的“不好”“宿舍”“老师”等特征词反映高校大学生在宿舍关系、师生关系、同学关系的建立与维系上存在一定难度。不良的人际交往会阻碍身心的正常发展,从而导致消极心理的产生。(5)反诈防骗意识不强。表2 中的Topic4 描述了部分大学生由于防骗意识弱,导致上当受骗,引发受骗学生消极情绪。根据相关研究显示,近年我国的大学生上当受骗人数大幅上涨,对大学生造成了心理上的伤害和恐慌。

表2 消极情绪文本主题挖掘特征词

四、结论与建议

综上所述,高校大学生群体发表在社交媒体上的言论积极性程度不高,带有消极情绪的网络发言较多,大多数大学生群体的情感倾向并非正能量化。

根据上文结果分析,为各高校的学生心理健康教育提出以下建议:第一,高校应充分整合心理健康教育资源,将心理健康的理论知识和相关实践相结合,针对大学生生理、心理发展趋向,构建全方位、多渠道,既分工明确又相互配合的心理健康教育体系。通过心理健康必修课程及思政课程,提升大学生心理素养和综合素质。第二,疏导学生学业和就业压力,积极引导学生加强抗压能力,减少因外部环境变化对自身的影响。学校应通过开展相关讲座、心理辅导课程、班主任一对一谈话等措施,疏导学生压力,提高学生自身的抗压能力。第三,鼓励学生加强人际关系建设。学校应加大校园文化的宣传,丰富学生的校园活动,鼓励学生走出寝室,通过参加感兴趣的社团或各种各样的活动、比赛结交朋友,融入群体,通过积极群体的传染性提高大学生心理情绪的积极性。第四,提高学生防骗意识和能力。各高校应积极开展防诈防骗教育,加强防骗宣传工作,通过宣传栏、录制视频、编排节目、举办讲座等方式提升大学生防骗意识和能力。建立学生受骗后心理抚慰机制,在学生被骗后及时进行心理辅导,对受骗人的心理状态进行监测,防止学生出现心理压力过重的情况,导致严重的后果。

本研究选择的目标院校在地区和数量上有一定的局限,获取的数据仅来源于百度贴吧且数据覆盖面和研究范围有限,研究结果的普适性有待进一步考证。以后将继续深入挖掘数据,拓展数据来源,优化挖掘方法,使研究结果更准确。

猜你喜欢
特征词心理健康文本
心理健康
心理健康
心理健康
心理健康
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
面向文本分类的特征词选取方法研究与改进