新冠肺炎疫情下大学生情感状态及其影响因素分析
——基于微博文本挖掘的证据

2022-10-26 07:15李彤彤郭栩宁周彦丽
开放学习研究 2022年5期
关键词:特征词博文消极

李彤彤 郭栩宁 周彦丽 李 坦

(1.天津师范大学 教育学部,天津 300387;2.北京师范大学 教育学部,北京 100875)

一、研究问题

2019年12月暴发的新冠肺炎疫情严重威胁到人民生命安全和心理健康。为做好疫情防控工作,全国采取了居家办公、“停课不停学”等措施,大学生群体原有的学习生活节奏被打乱。大量研究表明,疫情对大学生的心理、情感等造成了一定的负面影响,如赵波、蔡特金和张志华(2020)通过问卷调查和访谈发现,疫情会导致大学生恐惧、悲伤、愤怒等消极情感增加;王轲等(2021)对西安某高校学生进行问卷调查发现,疫情期间大学生群体焦虑水平和抑郁水平均高于全国常模;吴怡、韩相如和钱东福(2020)研究发现,在新冠肺炎疫情下大学生更易出现不同程度的焦虑及抑郁等心理问题。而且,疫情对大学生心理造成的不良影响具有持续性(汪媛,陈秋红,赵会鹏,刘俊,2021)。也有研究进一步探究疫情期间大学生心理状况的影响因素,如昌敬惠、袁愈新和王冬(2020)指出新冠肺炎疫情下年龄、性别、专业背景、居住区域不同的人群发生焦虑和抑郁的概率不同,乔晓梅、郭文秀、郭小明、袁永旭和戴玥赟(2021)发现新冠肺炎疫情下环境变化、社会支持、健康管理等因素会影响大学生心理和情感状态。李景婷、黄亦莲、李艳敏和罗翱翔(2021)指出对于应届毕业生而言,是否为独生子女、就业状况和身体状况都成为导致其焦虑和抑郁情绪的因素。

研究方法上,已有研究多采用问卷调查法分析疫情期间大学生的情感或心理状态,这种方法只能反映某一时刻大学生的状态,无法反映学习者情感或心理状态的变化,存在测量误差大、效率低、时效性差等问题。社交媒体(如微信、微博等)的广泛应用以及大数据技术的发展为我们提供了新的思路。已有基于微博文本大数据挖掘的相关研究,如张放和甘浩辰(2020)采集了甘肃、青海与西藏等地疫情初期的微博文本数据,并采用情感分析和词频信息分析等方法探究疫情心理时空距离对公众情绪的影响。鲁雨晴等(2021)基于微博用户公开评论探究民众对复工复学事件的情感倾向和情感强度,发现多数民众对此事持积极态度。王仁鑫、叶欣梁和孙瑞红(2020),王晰巍、李玥琪、刘婷艳和张柳(2021)、张柳、王晰巍、黄博和刘婷艳(2021)分别对“日本钻石公主号邮轮”整船隔离事件的微博评论数据进行挖掘,探究微博用户对该事件的情感倾向、关注主题、意见领袖等。微博是当代大学生群体获取疫情突发事件信息及表达个人意见和情感的主要阵地,真实、准确、及时的微博文本为大学生情感状态分析提供了有效的数据来源,对其进行文本挖掘可以了解大学生群体对某一事件的看法和个人的情感倾向等。

经分析,已有研究还存在如下不足:①现有研究多探讨疫情对大学生情感状态造成的影响及其影响因素,少有研究探究消极情感的具体成因。②多数研究探究疫情对学生情感状态的影响时并未区分时间段,亦没有考虑疫情动态变化对学生的不同影响。③基于微博文本挖掘的相关研究大多针对具体的舆情事件展开,而新冠肺炎疫情期间影响大学生群体的舆情事件较多,围绕某一具体事件进行分析太过于狭隘,不能反映大学生情感及其影响因素的过程性和动态性特征。

基于以上分析,本研究旨在通过对疫情期间不同阶段大学生群体的微博文本进行情感分析和文本主题挖掘,深入探究大学生疫情期间情感的倾向、变化情况及诱发大学生群体消极情感的相关事件或因素,以期为高校管理者决策和实施干预提供依据或参考。

二、研究方法与过程

根据国务院新闻办公室发布的《抗击新冠肺炎疫情的中国行动》白皮书2019年12月27日为新冠肺炎疫情的开始时间,本研究对2019年12月27日至2020年8月30日新冠肺炎疫情期间某高校大学生所发表的微博文本进行挖掘分析,同时也考虑了高校相应的疫情应对决策,将时间段细划为五个阶段。第一阶段是疫情暴发期(2020.1.20~2020.2.20),新冠肺炎疫情在国内暴发,微博热度居高不下,引起大学生群体的极大关注;第二阶段是“停课不停学”初期(2020.2.21~2020.3.17),为阻止疫情向校园蔓延,教育部要求延期开学,采用“停课不停学”的线上教学模式;第三阶段是“停课不停学”适应期(2020.3.18~2020.4.28),国家疫情防控机制发挥作用,全国各地疫情防控工作态势良好,进入疫情常态化阶段,国内正式迈入后疫情时代;第四阶段是复学初期(2020.4.29~2020.6.30),目标院校学生疫情后第一次返校;第五阶段是复学后常态化防控期(2020.7.1~2020.8.30),国内疫情已基本稳定,目标学生群体放假返家,基本恢复正常的生活。

本研究采用文本挖掘方法,一方面,通过文本情感分析将微博文本情感划分为“积极”和“消极”,从而判断疫情期间大学生的情感整体状态,另一方面,通过对学生的消极情感文本进行文本主题挖掘,发现导致大学生消极情感的相关因素或事件。研究过程(见下页图1)可以分为三个步骤:①情感分析模型构建:采用公开数据集完成模型训练,选出效果最优的支持向量机(Support Vector Machine,简称SVM)算法模型;②微博文本情感分析:使用SVM算法对某高校大学生微博文本进行情感分析,将微博文本分为积极和消极两类;③消极情感微博文本主题挖掘:构建LDA主题挖掘模型探究不同时间阶段消极文本的主题特征词分布情况,通过词频-逆文档频率(TF-IDF)获取高权值特征词,结合两者结果挖掘不同阶段潜在的主题,以此探究诱发大学生群体消极情感的事件或因素。

图1 微博文本情感分析及影响因素分析过程

(一)情感分析模型构建

情感分析,又称情感倾向性分析(钟佳娃,刘巍,王思丽,杨恒,2021),其主要任务是完成积极和消极观点的识别和分类(Cambria, Schuller,Xia, & Havasi, 2013;Wilson, Wiebe, & Hoffmann,2005)。本研究采用机器学习算法进行情感分析,首先需要构建情感分析模型,这一过程分为以下四个步骤。

1. 数据获取

情感分类模型的性能依赖于数据集标注的质量,本研究采用国际自然语言处理与中文计算会议(NLPCC)2013年和2014年人工标注核验的公开数据集进行模型训练。以一条微博文本为单位,粗粒度将情感划分为“积极”“消极”两种倾向。根据公开数据集的结构特性实现数据清洗后,提取公开数据集中微博文本情感倾向和微博文本内容构建语料库,语料库包含1 078条积极情感文本、1 094条消极情感文本,将语料库划分为训练集和测试集进行模型训练和选择。

2. 文本预处理

文本预处理是指将自然语言的原始语料处理成计算机可以识别的机器语言数据(余正涛,樊孝忠,郭剑毅,2005),过滤掉低质量和重复的文本数据,主要包括数据清洗、分词、去停用词等工作。数据清洗是删除文本数据中的重复数据、无用空格和符号等。分词是指将一个句子切分成独立的词汇。本研究采用中科院分词系统进行分词,根据语料库分词的实际情况自建分词词典,逐步细化分词规则,提高分词准确率。去停用词是去除文本中出现频率高却无意义的词语,如对语义表达贡献度较小的连接词、代词等虚词以及标点符号。

3. 文本向量化

文本向量化是将自然语言文本转化为语义表示向量的过程,本研究选取Google著名的开源工具Word2Vec中的Skip-gram模型对训练集文本数据进行词语向量化,使每个词都有特定的数值来代表其特征。

4. 模型训练与选择

当前基于机器学习的情感分类方法使用较多的经典模型有支持向量机(李苍柏 等,2020)、朴素贝叶斯(Naive Bayes,简称NB)(韩素青,成慧雯,王宝丽,2020)和K近邻法(K-Nearest Neighbor,简称KNN)(刘述昌,张忠林,2017)等。为选取效果最优的模型,采用F值(F1-score)、查准率(Precision)和召回率(Recall)三个评估标准对不同模型的效果进行测试和评估,值越高,模型越有效。如表1所示,SVM算法的各项指标都更高,因此,本研究选择SVM算法进行微博文本情感倾向分析。

表1 微博文本情感分析模型评估

(二)微博文本情感分析

本研究使用Python语言编写大数据采集程序,以微博文本发表定位为主要识别标志,获取2019年12月27日至2020年8月30日某高校学生群体发表的微博文本内容以及发表的时间,最终获得27 091条有效微博文本记录以及发表时间。采集过程中注重保护用户隐私,并未获取实名用户个人信息、地理位置等信息。

采集的数据需进行预处理。数据清洗阶段,使用正则表达式剔除用户名、微博文本话题和其他无关的文本数据。分词阶段,采用中科院分词系统以及自建分词词典完成微博文本分词。去除停用词阶段,在原有的停用词表的基础上不断调整,以提高处理文本的效率和精准度。将预处理后的数据采用Skip-gram模型进行向量化,进而采用SVM情感分析模型完成文本“积极”和“消极”的情感倾向分类。

(三)消极情感微博文本主题挖掘

为进一步探究诱发大学生消极情感的事件或因素,采用主题挖掘方法对消极情感文本进行分析。当前常用的主题概率模型主要有概率潜在语义分析模型(Probabilistic Latent Semantic Analysis,简称PLSA)(Hofmann, 1999)和隐含狄利克雷主题模型(Latent Drichlet Allocation,简称LDA)。LDA模型是PLSA模型的扩展(王洪鑫,闫志明,陈效玉,张铭锐,2021),它运用概率方法进行推导,寻找文档集的语义结构,从大量文档中获取其隐含的主题,并采用特征词集合来表示隐含的多个主题(Blei, Ng, & Jordan, 2003)。LDA在表达文本主题方面有着显著的优势,广泛用于微博文本挖掘领域(张晓艳,王挺,梁晓波,2011;Phan, Nguyen, &Horiguchi, 2008),但在抽取主题时考虑文本的语义信息,特征词的区分度不明显,无法判断特征词对描述主题的重要性。

词频-逆文档频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)是一种统计加权方法,词频(TF)指某词在一篇文档中出现的次数。逆向文档频率(IDF)即对某个词在语料库中普遍重要性的度量。TF-IDF方法对特征词在文本集合中重要性的区分度较高,在一定程度上能有效解决采用LDA所提取的特征词对主题表征重要程度不明显的问题,辅助LDA各个主题的识别。

因此,本文将LDA和TF-IDF方法结合,首先通过LDA主题模型挖掘不同阶段消极情感文本数据中的20个主题,其次,计算每个阶段消极情感微博文本的TF-IDF权值,获取热词排序。根据LDA主题模型中的特征词概率和TF-IDF权值,筛选出重要性高、表征性好的5个主题及其主题特征词。同时,我们给出了基于TF-IDF所获取的30个权值较高的特征词,用以补充主题,提高主题表征的准确度和完整度,增强主题事件的可解释性。

三、研究结果与分析

新冠肺炎疫情期间五个阶段目标学生群体微博文本情感分析结果如表2所示,消极微博文本占比变化如图2所示。可见,目标学生群体在五个阶段的情感状态都偏向于积极,不同阶段消极情感微博占比相差不大,其中,“‘停课不停学’初期”和“复学后常态化防控期”两个阶段消极情感文本占比偏高。

表2 微博文本情感分析结果

图2 目标学生群体消极情感微博文本占比变化趋势

(一)“疫情暴发期”大学生消极情感相关因素或事件分析

表3和下页表4分别为“疫情暴发期”阶段经过筛选的消极情感微博文本LDA主题挖掘特征词与TF-IDF特征词统计结果。

表3“疫情暴发期” 消极情感微博文本LDA主题特征词

表4 “疫情暴发期” 消极情感微博文本TF-IDF特征词

“疫情暴发期”阶段,正值寒假期间,学生消极情感与新冠肺炎疫情高度相关,与教育教学事件相关性较小。基于TF-IDF权值较高的特征词回溯原始微博数据并进一步分析可以发现,该阶段引发学生消极情感的因素主要分为以下两类。

1. 疫情暴发直接引发的消极情感

如上页表3中Topic1中主题特征词主要描述国内新冠肺炎确诊病例不断增加,出现了重症患者以及死亡,Topic2和TF-IDF特征词中“新闻”“口罩”显示众多学生对疫情突发深感意外,且高度关注疫情相关事件,这一时期口罩需求量猛增且有抢购恐慌,“祈祷”“呜呜”“希望”等反映了学生个人感受,疫情蔓延以及防疫物资紧缺会导致学生产生消极情感,学生期盼疫情早日结束。

2. 疫情防控带来的生活不便引发消极情感

如Topic3描述受疫情影响学生群体需居家隔离,Topic4描述学生在隔离期间熬夜观看篮球赛、直播等娱乐活动,生活作息紊乱,TF-IDF特征词中“在家”“无聊”等特征词印证了疫情引发的居家隔离事件让学生产生消极情绪。Topic5描述在疫情的影响下,学生群体不能按时返校学习,开始线上学习。与此同时,TF-IDF中出现“我爸”“我弟”等家庭成员,说明学生群体担心受家人影响而无法专心学习。

(二)“‘停课不停学’初期”大学生消极情感相关因素或事件分析

表5和表6分别为“停课不停学初期”阶段经过筛选的消极情感微博文本LDA主题挖掘特征词与TF-IDF特征词统计结果。

表5“‘停课不停学’初期”消极情感微博文本LDA主题特征词

表6“‘停课不停学’初期”消极情感微博文本TF-IDF特征词

“‘停课不停学’初期”阶段,高校响应教育部“停课不停学”号召,正式开展线上教学活动,学生群体开始进行在线学习。与“疫情暴发期”相比,该阶段学生消极情感受疫情影响的比例开始下降,逐步向日常生活与教育教学转移,这一阶段引发学生消极情感的因素分为以下三类。

1. 学业压力

表5中的Topic6和Topic7表明目标群体在教育领域更加关注的是网课、考试、论文、公选课等与自身相关的问题。通过回溯原始数据发现,目标群体普遍认为网课的学习效果不佳,导致临近考试会产生焦虑情绪。同时毕业论文的压力、英语四六级考试延迟等也会增加学生的焦虑。

2. 疫情防控相关事件

如Topic8的特征词“邮轮”与“钻石公主号”邮轮事件有关,表明目标群体仍关注疫情且担心疫情反复。

3. 生活常态被打破

如Topic9中出现主题特征词“运动”“坚持”“有氧”,学生长期居家隔离,缺乏运动,特别是对于长期坚持锻炼或是经常进行户外活动的学生群体不适感异常强烈,产生抱怨、焦虑等消极情绪。

(三)“‘停课不停学’适应期”大学生消极情感相关因素或事件分析

表7和表8分别为“‘停课不停学’适应期”阶段经过筛选的消极情感微博文本LDA主题挖掘特征词与TF-IDF特征词统计结果。

表7 “‘停课不停学’适应期”消极情感微博文本LDA主题特征词

表8 “‘停课不停学’适应期”消极情感微博文本TF-IDF特征词

“‘停课不停学’适应期”阶段,国内的疫情防控工作初见成效,国内疫情相关事件引起目标学生群体的消极情感也相应减少。该阶段引发学生消极情感的主要因素分为以下三类。

1. 国外疫情暴发

如Topic11关于疫情主题目标群体将关注度从国内转向世界,学生群体对世界的疫情防控以及对中国的反向传输产生担心。

2. 学业压力

“停课不停学”线上教育从适应期阶段进入正式线上学习,根据权值较高的TF-IDF特征词回溯原始微博文本数据发现,课程作业增多以及学习难点得不到及时解答也成为大学生焦虑的原因之一。临近毕业季,Topic12和Topic13表明毕业生对论文以及就业的焦虑情绪加重,甚至影响到了睡眠。

3. 正常运动需求无法获得满足

通过分析Topic15的主题分布特征词发现,长期居家隔离导致正常的运动状态被打破,部分女生群体开始焦虑体重、减肥等,导致出现消极情感。

(四)“复学初期”大学生消极情感相关因素或事件分析

表9和下页表10分别为“复学初期”阶段经过筛选的消极情感微博文本LDA主题挖掘特征词与TFIDF特征词统计结果。

表9 “复学初期”消极情感微博文本LDA主题特征词

表10 “复学初期”消极情感微博文本TF-IDF特征词

“复学初期”阶段,引发目标学生群体消极情感的多为校园生活相关的主题,疫情对学生的消极影响已经弱化。研究发现以下因素对目标群体产生消极影响。

1. 学习环境因素

临近考试周,目标群体有学习场所的需求,但受到疫情影响,高校图书馆并未完全开放;学生群体需要运动,但在室外运动时遭到蚊虫叮咬;Topic18、Topic19相关原始数据显示,部分学生群体对学校未安装空调产生不满的消极情感。

2. 学习生活节奏的转变

居家学习期间作息不正常,进入正常的学习生活后出现短暂不适。

(五)“复学后常态化防控期”大学生消极情感相关因素或事件分析

表11和表12分别为“复学后常态化防控期”阶段经过筛选的消极情感微博文本LDA主题挖掘特征词与TF-IDF特征词统计结果。

表11“复学后常态化防控期”消极情感微博文本LDA主题特征词

表12“复学后常态化防控期”消极情感微博文本TF-IDF特征词

“复学后常态化防控期”阶段进入了后疫情时期,目标群体受到疫情的消极影响几乎消退,造成目标群体消极情感的事件也趋于常态化,主要有以下事件。

1. 假期返乡购票难

Topic21和Topic23中的特征词“回家”“放假”等表明临近暑假学生最关注的问题是放假返家,通过溯源数据发现,购票难引发学生的强烈不满。

2.学业压力

Topic22和Topic24涉及考试问题,学生在备考期间心理压力较大,会出现失眠等问题。图书馆的位置供不应求,引起学生抱怨。Topic25中的特征词“考研”等表明,目标群体处于向社会人转变的阶段,升学与就业难以抉择,导致消极情感的产生。

(六)疫情期间大学生情感状态影响因素整体分析

通过分析研究周期内各个阶段学生消极情感的微博文本,发现引发学生消极情感的因素与疫情及其所带来的学习、生活、社会环境等方面的变化密切相关。“疫情暴发期”学生群体对疫情的关注度最高,消极情感产生的影响因素主要是疫情的发展和冲击。“‘停课不停学’初期”正值开学季,疫情对学生的学习和生活的冲击进一步显现,学校主要开展线上授课,学生无法返校接受教育,加上假期作息不规律、未能及时调整学习状态等因素的影响,对线上学习产生不适应,消极情感占比有所上升。“‘停课不停学’适应期”国内疫情基本得到控制,学生也逐步适应线上学习模式,在学业方面引发消极情感的影响因素开始转变为作业、学习困难和毕业论文等学习常态化事件。“复学初期”疫情影响进一步弱化,学生基本回归校园生活,引发消极情感的主要是学习和生活等日常事件。“复学后常态化防控期”疫情对高校学生群体的影响基本消退,临近期末,面对期末考试、考研等高强度学业压力,学生消极情感占比上升。

由此可见,造成学生消极情感的因素可以概括为“疫情”“学业压力”“生活环境”和“社会舆情”四个方面,其中,前三个方面对学生的影响具有持续性特征,同时具有随疫情和学习阶段的变化而变化的阶段性特征,社会舆情的影响则具有偶发性特征。

对于消极情感文本占比较高的两个阶段——“停课不停学初期”和“复学后常态化防控”,可以看到,两个阶段分别处于开学初和学期末,从学习周期来看,即使没有疫情,这两个阶段学生也容易因开学初的“假期综合症”以及期末的“期末综合症”现象而产生消极情绪,而疫情的冲击更是加剧了学生消极情感的产生。

四、总结与建议

本研究对目标院校学生群体的微博文本数据进行情感分析并综合采用LDA模型和TF-IDF方法对消极情感微博文本进行主题挖掘,探究新冠肺炎疫情期间诱发学生群体消极情感的因素或事件,这些因素或事件可以分为以下几类:①突发性公共卫生事件,例如:新冠肺炎疫情致使延迟开学、疫情期间返校风险加大、致使长期隔离等负面事件,这些都导致学生生活节奏改变致使其产生消极情感。②事关国家民族利益的相关事件,大学生群体往往会对这类事件表现出极大关注,当他们觉得国家民族利益受到威胁时,往往会表现出愤怒等消极情感。③学习环境因素,如对图书馆等公共学习场所资源的需求不能得到满足容易引发学生的不满情绪,空调资源的不合理管控极易引发室友之间的矛盾等。④学业和就业压力因素,目标群体无论是在疫情期间还是常态化期间学业压力一直存在,尤其是毕业生群体,学业和就业的双重压力也容易导致消极情感。

根据以上分析,为高校的教育管理提出以下几方面建议。

第一,继续推进疫情常态化防控。学校应采取多种形式主动、积极地宣传新冠肺炎防疫相关知识,特别要结合国内外疫情的最新形势,引导大学生正确对待、科学防疫。学校应坚持做好日常的防控工作,如出入管理、教职工、学生健康状况监测、公共场所的消毒。同时,高校还应建立疫情快速响应机制,将疫情防控常态化,减少学生对疫情本身的恐惧情绪。

第二,积极引导大学生正确对待国家重大事件。国家出现各种重大事件,大学生群体往往会表现出极大关注,学校要在主动、积极地疏解学生情绪的同时,引导其正确对待各类事件。

第三,不断优化学生的学习、生活、出行等环境。学习环境优化涵盖两方面,一方面通过集中调配未在授课的教室作为自习室、改善图书馆学习环境等方式优化线下学习环境,另一方面为教师提供教学支持服务(高明,张婧婧,牛晓杰,2020),通过向教师推荐线上教学工具、在线优秀教学方案等方式提升线上教学质量。为改善学生的生活环境,可以引入新的商户,增加并修缮健身器材和场地,举办丰富多彩的校园活动。对于学生的校园出入权限,需要在保证疫情防控的前提下最大可能地开放,而且要结合疫情防控需要让学生错峰返家、分批返校等。

第四,疏导学业和就业压力。学业压力对大学生的影响具有持续性和阶段性的特征,而且与疫情的影响交叠作用,更容易引发大学生的消极情绪,因此,高校首先应采取多种有效手段缓解学生学业压力和就业压力,如增加过程性考核,降低总结性评价比重,丰富教学活动形式,以讲座、思政课程等多种形式引导学生树立正确的择业和就业观,增加就业宣传及招聘信息渠道,加大校企合作力度等。

第五,健全心理危机发现、心理咨询和辅导机制。高校相关部门要建立健全大学生心理危机发现及干预的有效机制,多渠道进行心理危机的筛查并积极开展心理咨询和辅导等活动。

本研究目前仅限于目标院校单个案例,数据覆盖面和研究范围有限,结论的普适性有待考证。后续将继续拓展数据源,不断完善数据分析算法,以便更准确、更深入地揭示问题。

猜你喜欢
特征词博文消极
基于Simhash改进的文本去重算法
第一次挣钱
基于类信息的TF-IDF权重分析与改进①
一种面向财务文本分类的TF-IDF改进算法
谁和谁好
OPEN:一个基于评论的商品特征抽取及情感分析框架
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
让自己发光
家庭教育:你种的是积极树还是消极树?
为何当代艺术很多都是消极的,血腥的?