王冬燕,张秀琴,周甦
摘要:在疫情的大环境下,大学生的心理健康状况需要更多的关注。本文通过文本采集及分析工具和技术,对大学生较为关注的几个心理健康方面进行了文本收集、预处理与文本挖掘分析。从语义网络模型,可以看出大学生目前最关心的是情绪问题,其次是与他人的交往。高校教育者需要更多地关注大学生的情绪,在疫情期间,尽可能帮助他们创造更多的机会与他人交往。
关键词:文本挖掘;语义网络模型;心理健康
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2022)32-0020-02
1 问题提出
疫情背景下,大学生心理健康问题尤为受到关注。国家也多次出台《高等学校学生心理健康教育指导纲要》等文件,旨在强调心理健康教育在高校中的重要地位。现在心理健康课程和心理咨询都在高校中发挥重要作用,可是随着疫情的发生,很多课程改为线上形式,这样就不能让学生体验面对面的情感交流,因此在课程形式上也是不断改进,希望能给予学生尽可能多的帮助。有研究表明,社会环境的变化会对人的心理产生巨大而深刻的影响[1]。因此为了弥补不能当面交流的情况,也为了能在疫情环境下更好地掌握学生当下的心态,同时顺应“互联网 + ”时代的课改要求,教师可以利用课余时间,让学生以文字的方式写下困惑或烦恼,以便在课程中有针对性地讨论。而这些文本一方面可以作为课上讨论的参考,另一方面,可以进行整体的分析,从而了解学生目前集中的心理问题点。
在心理现象的研究中,大多采用数据的形式,以及有关数据的统计分析方法,较少采用纯文本的分析方法,除了质性研究。因此,想了解学生关注的问题有什么特点,如果用传统的统计方法,很难对这种文本的描述方式进行分析,需要借助数据挖掘方法中的文本挖掘方法。文本挖掘(Text Mining)是从非结构化文本中获取有用信息的[2]。文本挖掘也是机器学习的一种方法,可以帮助我们找到隐藏的相互关系。文本挖掘不强调文本的计算和定量分析,而是通过理论揭露隐藏的观点和真相。文本挖掘的应用非常广泛,尤其在舆情[3-4]、用戶评价等方面应用较多[5-6],在心理学的研究中应用较少。一般会与网络爬虫技术结合使用,爬取文本信息后,再进行相关语义分析。文本挖掘过程需要从海量的文本信息中提取重要可用的信息,因此要经过文本整理、文本的分词、提取高频词等一系列预处理过程,才能最终建立语义模型。而对文本进行预处理,词的分割、单词去除和特征提取等过程都十分重要[7]。本研究则利用ROSTCM6 软件,对采集的学生问题文本进行分词处理、高频词汇统计以及语义网络模型的分析,使繁杂的文本内容得到提炼与简化,从而了解学生较为关注的问题焦点在哪里。
2 研究方法
(1)研究对象
南京中医药大学大一新生349名,在整学期课程中围绕:自我意识、人际关系、恋爱与性、压力与情绪四个主题,让学生分别写出自己的困惑,共收集有效问题490条。
(2)分词与词频整理
首先,需要进行数据的预处理。对于文本而言,就是将文本格式同一,并对内容进行过滤,例如将一些无意义词或者出现次数较多的单字词删除。利用ROSTCM6 软件的“分词”功能对文本进行分词[6]。分词后,将与研究内容关联程度较弱的词,例如“怎么办” “什么”等无意义词删除,并另存为新的分词文件。
其次,对过滤过的分词文件进行词频统计,得到一个较长的词频统计表,由于篇幅太大,词频频数也逐渐递减,因此只列举前12个关键词频表,见表1。从表中可以看出,用于分析大学生关注的心理健康问题的高频词汇中,名词主要有情绪、恋爱、自我、关系、朋友、他人和异性;而动词则有认知、影响、交往、相处和控制。可见大学生比较关注情绪、自我,以及交往中的各种问题。
(3)建立语义网络模型
从语义网络模型看,有点类似神经网络的样子,都是由一个个节点组成。而词语就是这网络中的一个个节点,词语之间的联系(也就是节点之间的联系)则表明了它们之间的相互关系。由于词语是否共现,以及共现频次的高低,也预示着节点不同的地位和角色。一般情况下,关键词都反映了话题的讨论热点。有些词与词联系紧密,有些则相对比较疏远。因此通过语义网络分析,可以发现隐藏的很多关系,对分析学生讨论的话题热点有一定的帮助。
利用分词后删除整理过的语句表建立语义网络模型,经过分析,得到核心词语义网络分析图,从网络图中可以看出数据内容的核心是围绕“情绪”“自我”“恋爱”和“朋友”等关键词展开,说明了大学生很关心的核心问题大概集中在这些方面。从语义模型分析图中的箭头指向,可以看出“情绪”和“自我”是学生困惑的主要来源,见图1。
3 讨论
从各个大学不断完善心理健康课程与咨询服务,可见大学生的心理健康状况是很受重视的。在疫情背景下,大学生的心理健康更是需要更多关注。从语义模型中可以看出,首先,大学生最关心的就是情绪问题。包括从情绪节点出发的情绪认识、调节和控制等,以及回到情绪节点的他人的情绪、时常的情绪,负面的情绪怎样去面对。其次,大学生很迫切地想要了解自己,从而能更好地投入友谊与爱情的关系中去。全面、完善、影响、偏差等词都与自我紧密相关,而朋友与恋爱也都是从自我的发展中引出的。朋友和恋爱之间的关系也是十分微妙,较多的学生会纠结在是友谊还是爱情的困惑里。最后,本研究是在课程上,围绕情绪、人际关系、自我和恋爱几个主题来讨论的,可是我们通常认为的最主要的人际问题,在语义网络中都被分散到了其他主题中,比如他人的情绪的认识,自我与交友的关系,朋友和恋爱中的表达与联系等,无不隐藏着人际关系的问题。再看学生的具体问题,比如“在别人面前表现负面情绪是不是不好”“很害怕拒绝他人,该怎么调整”“恋爱中能不能表现真实的自己”……大多数的问题都不仅仅是一个维度,里面都包含着自我的认知与成长,以及怎样处理现在的关系,如何让关系变得更好。因此,从语义模型中,会发现自我是学生关注的一个焦点,而在表1的词频中,大多高频词汇与交往有关,可见学生对良好的人际关系的重视与渴望。情绪与交往也是疫情环境下,比较容易出现困惑的方面,需要高校的管理者以及心理健康老师格外要关心,主动帮助学生去面对和解决的问题。
在大数据时代,每时每刻都会产生大量的数据。用人工或者传统的心理统计方法,往往已经满足不了研究者的需要,也会在处理复杂数据中产生更多的困难。心理学的研究也是会涉及更多跨学科的内容,比如说人工智能,如果还用传统的实验和测量也是不够的,而且不能全面地反映问题。文本提取,为心理学研究提供了新的思路,在条件允许的情况下,我们可以做更多的主观研究来代替客观数据。对被试来说,有更大的发挥空间和自由,不必拘泥于固定的实验范式或问卷描述。而研究者要做的,就是如何从主观文本中获得更多的相关信息与结论。虽然没有了统计学的p值,准确性略有下降,但可以有效地提取大量信息,仍然可以给研究者带来启发和思考。总之,文本挖掘技术易于理解且具有良好的可操作性,可重复性,便于心理学领域广泛使用。
4 建议与结论
(1)大学生关注的心理健康问题主要集中在情绪的管理和与他人的交往方面。另外,学生对这种能给予解答的课堂充满兴趣,而且可以得到同辈人的建议,对学生来说参与性十分高。大多数学生认为通过这种讨论的方式,可以让他们发现很多问题都是这个年龄共有的问题,因此更容易自我开导,反而使一些困惑很轻松地被解决,至少能被自己接受。
(2)文本挖掘的方法可以很好地用于分析心理问题。文本挖掘和大多数据挖掘方法一样,对数据的形式不是很严格,且能挖掘出一些意想不到的信息,这对在繁杂的心理现象中发现更多的关系,是十分有帮助的。
参考文献:
[1] 俞国良,王浩.文化潮流与社会转型:影响我国青少年心理健康状况的重要因素及现实策略[J].西南民族大学学报(人文社会科学版),2020,41(9):213-219.
[2] 薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报(自然科学版),2005,19(4):59-63.
[3] 姚丽梅,杨秋娜,缪林.基于新媒体文本挖掘的高校在线教学舆情事件分析[J].呼伦贝尔学院学报,2020,28(5):114-119.
[4] 杨单,程键,姚怡琦,等.基于文本挖掘的高校网络舆情用户情感分析研究[J].武汉纺织大学学报,2020,33(5):74-80.
[5] 孟令爽.基于文本挖掘技术的用户产品评论研究[D].石家庄:河北经贸大学,2022.
[6] 刘音.基于文本挖掘的网购产品评论稳健情感分类研究[D].南昌:江西财经大学,2021.
[7] 张幸芝,雷润玲,杨超.文本挖掘——基于ROSTCM和NetDraw的内容分析[J].科技文献信息管理,2017,31(1):17-21,33.
【通聯编辑:李雅琪】