在线教学的网络情感演化分析
——以“停课不停学”为例

2021-05-31 00:35赵洪凯肖玉芝冶忠林
关键词:停课不停学博文语料

赵洪凯,宋 越,肖玉芝*,冶忠林

(1.青海师范大学计算机学院,青海西宁 810016;2.青海省藏文信息处理与机器翻译重点实验室,青海西宁 810008;3.藏文信息处理教育部重点实验室,青海西宁 810008)

0 引言

应对公共危机的能力是衡量教育治理能力现代化水平的重要维度.在面对新冠重大疫情危机过程中,教育的保证需要家庭、学校和社会共同建立.如何快速做出应对措施,更需要依赖新媒体力量.通过大数据挖掘技术,分析互联网用户对突发事件的情感态度,研究情感演变趋势,有助于决策者精准制定政策以及快速引导舆论.在各类新媒体中,微博凭借其便捷的信息发布方式和庞大的用户基数成为了网络舆情传播的主要媒介[1].2020年1月29日,为防控新型冠状病毒肺炎在学校蔓延,降低疫情对高校正常教学的影响,教育部提出“停课不停教、停课不停学”的新举措[2].这一举措引发了广泛的社会关注,“停课不停学”相关内容成为微博热议话题,舆论热度居高不下,教师、家长和学生对其关注持续增长.从“停课不停学”期间产生的大量微博短文本数据中挖掘有价值的信息,可视化展现微博用户的情感演变规律,有助于在公共危机下教育管理者迅速响应,同时为网络舆情研究提供了一种基于数据挖掘融合情感分析的研究路线和理论方法.

伴随着自然语言处理的蓬勃发展,情感分析成为了网络舆情研究中不可或缺的一部分.现有的微博情感分析方法可以分为两大类:基于情感词典的分析方法和基于机器学习的方法[3].如姜金贵[4]等通过构建情感词、程度副词和否定词词典,根据微博文本中出现三类词语的次数给出计算情绪值的模型.为了进一步细化情感分析结果,安璐[5]等对微博表情进行情绪量化从而得到表情符号词典,并结合情感词典判别微博文本的情感倾向.在情感分析的研究领域中机器学习的方法往往更能取得较好的研究结果,基于机器学习的方法分为有监督的机器学习和弱监督的深度学习,前者如任中杰[6]等人使用朴素贝叶斯算法对微博文本进行情感分析,并构建舆情情感生态演变模型,以舆情发展过程中消极情绪出现的时间段进行划分和分析.邓君[7]等使用Word2vec+SVM的模型判别微博文本的情感倾向,有效预测出网民的情感态势.后者如王义[8]等通过Word2vec将本文数据分为三类级别的向量表示,分别输入卷积神经网络后得到更加精确的文本特征向量,在此基础上获得了更好的情感分类效果.Zhang[9]等提出一种基于RNN情感分类方法,将短句中的词语转为向量表示,在输出层使用softmax回归分类器预测每个句子的情感倾向.

本文在现有的研究基础上将参与讨论的主体对象(教师、家长和学生)考虑在内,构建了面向微博文本的共词网络,利用社团挖掘技术划分出包含三类主体对象的社团,结合基于贝叶斯定理的情感分类模型和Word2vec+K-means的主题检测模型,对主体对象情感极性进行计算和话题关键字抽取.此外,通过数据可视化方法多维度展示公众情感态度和关注的主题内容.

1 研究方法

1.1 数据采集

数据来源于微博公众平台,时间跨度为2020年2月1日至2020年4月30日(共计90天).为了使采集的数据更加全面,设置策略为按天和话题热度的高低排名进行采集.最终获得博文数据60872条,评论数据14405条.为了提高分析的准确性,深层次获取数据信息,对每条博文和评论发布者个人信息进行二次采集,采集的信息字段包括用户编号、用户名称、用户性别、用户地址、微博文本、评论文本和发布时间等.

1.2 数据清洗

对初始数据中包含重复、无关、无效以及缺失严重的数据进行清洗.由于一条博文被多个用户转发,对于博文内容相同的数据只保留一条.例如在某位明星转发的有关“停课不停学”的博文评论中,有不少评论是表示对明星个人的崇拜,与本文研究的内容无关,对这些评论进行删除.又如含有大量表情、链接和教育机构广告类博文均视为异常数据,将这些数据对应的记录进行删除.处理后的博文数据为21 683条,评论数据为9 604条.

采用Jieba分词[10]对清洗后的文本内容进行分词处理,同时使用哈工大停用词表[11]过滤出现频率极高和无实际意义的词语,并对分词后的语料进行二次存储.

1.3 话题聚类

文本聚类是一种常用的文本处理方法,如何从海量的数据中快速获取有价值的主题信息,对于互联网舆情监管、信息过滤等信息内容安全领域的研究具有重要意义[12].Word2vec作为计算词向量的工具由Mikolov[13]等人在2013年提出.其本质为一个双层的神经网络,通过训练给定的语料库得到一个词向量模型,并考虑词语的上下文含义将词语转化为向量表示.由此,词语语义之间的相似性可以转变为向量空间上的相似性,进而可以做聚类分析、词性分析等.Word2vec核心架构包括Skip-gram模型和CBOW模型.本文采用Skip-gram模型做聚类分析,以Gensim库下的Word2vec模块为训练工具,采用Skip-gram+HuffamSoftmax模型结构,将已处理好的语料库输入到模型中进行训练,其中模型参数设置窗口大小为5、词频阈值为5、词向量维数为256.最后将语料中的每个词语表示成包含上下文语义关系的词向量,在此基础上使用K-means方法按阶段对词向量进行聚类,得到每个阶段讨论热点话题的关键词组,聚类流程如图1所示.

1.4 情感分析

1.4.1 朴素贝叶斯分类器

朴素贝叶斯模型具有坚实的数学基础和稳定的分类效果,常用于文本分类,对于大规模的训练具有较快的速度,对结果的解释容易理解且算法较为简单.朴素贝叶斯分类器在诈骗检测[14]、人脸识别[15]和垃圾邮件拦截等应用领域具有良好的效果.因此,本文采用贝叶斯分类器对微博文本数据进行情感倾向性判定.

假设研究的问题中,分为2个类别(正向/负向)的文本,即C={C1,C2},训练样本属性特征为(W1,W2,…,Wn),其分别代表样本中出现的n个词语,且每个词语是相互独立的,则属于C1类别的贝叶斯模型为:

(1)

其中:

P(W1,W2,…,Wn)=P(W1,W2,…,Wn|C1)P(C1)+P(W1,W2,…,Wn|C2)·P(C2)

(2)

(3)

如果P(C1|W1,W2,…,Wn)>P(C2|W1,W2,…,Wn),那么就判定为C1;如果P(C1|W1,W2,…,Wn)>P(C2|W1,W2,…,Wn),那么就判定为C2.

1.4.2 情感预测

采用SnowNLP库下sentiment模块来训练情感模型,SnowNLP常用于文本分类、文本分词和情感分析等[16].首先将训练样本分为正负文本数据,并对其进行词频统计;然后使用贝叶斯定理分别计算正向和负向的先验概率P(s)和P(n),对要预测的文本进行分词并分别计算出每个词语的后验概率P(word|s)和P(word|n);最后根据计算出概率较大的类别来判断该文本属于正向还是负向.以评论“在家也可以提高成绩”为例,则有:

(4)

(5)

由贝叶斯定理的条件独立假设,两两词语之间是相互独立的,则有:

P(“在家”“可以”“提高”“成绩”|s)=P(“在家”|s)×P(“可以”|s)×P(“提高”|s)×P(“成绩”|s)

(6)

由于SnowNLP本身自带的语料库具有滞后性,因此使用部分微博语料对自带的语料库进行扩充,在此基础上对其进行二次训练重新得到sentiment.marshal模型.由此,计算出每条微博文本的情感值,表1为部分文本数据的情感值.

表1 微博文本数据情感分析结果

1.5 社团挖掘

1.5.1 共词网络

共词网络是以语料集中的关键字为节点,以不同语料中的共现关系为连边而构建的网络模型.以表1中的前四条微博文本数据为例构建共词网络.首先从原始文本中提取出表现微博语义的关键字,如表2所示,然后根据每条文本的关键字构建共词网络,如图2所示.A、B和C三条博文的关键字分别构成了图2中的三个完全子图,而D博文对应的关键字将三个子图关联到一起.两条博文中出现相同的关键字越多,则说明这两条博文之间的联系越紧密,语料集中的高频词则是连接孤立完全子图的枢纽,一般语料集的大小决定了共词网络的复杂程度.

表2 微博文本关键词数据表

图2 微博文本共词网络图

1.5.2 基于共词网络的社团挖掘

利用社团挖掘技术对网络中的节点进行聚类,基于微博共词网络,采用Louvain算法[17],快速检测出与主体对象有潜在关联的关键字.Louvain算法是非重叠社团划分算法中运行结果稳定且划分效果较好的算法之一,通过优化网络中的模块度Q函数来实现社团划分.模块度Q函数[18]作为衡量社团划分质量的评价指标,其表达式为:

(7)

其中,m为网络中所有连边的数量,didj/2m为节点和之间连边的平均值,Ai,j-didj/2m为社区效应强度.为了清晰展现社团挖掘的过程,采用几条包含主体对象的语料对其实现步骤进行说明,表3为分词之后构建的语料集.

Step1:对原始数据进行分词,并过滤停用词.

Step2:构建语料集.其数据格式为包含语料编号和语料内容关键字的二元组.

Step3:构建关键词字典.包含语料集中出现的所有词语并对其进行编号且不重复.

Step4:网络构建.以关键词字典中的词语为网络节点,以语料集中的共现关系为连边.

Step5:通过Louvain算法进行社团发现.

表3 包含主体对象的部分微博语料集

续表

通过表3给出的语料集,构建的共词网络中含有64个节点和268条连边,使用Louvain算法对共词网络进行社团挖掘,其模块度大小为0.63,社团划分结果如图3所示.图中节点的度数由节点的大小来体现,在划分出的5个社团中,0号社团为描述老师的社团,其中和老师最为相关的是“网课”其度数为15;1号社团为描述疫情的社团,其中和疫情最为相关的是“学”其度数为16;3号社团为描述学生的社团,其中和学生最为相关的是“笔记”和“自律”其度数都为7.通过社团划分可以挖掘出与主体对象有潜在关联的关键词,结合相关微博文本对主体对象的情感态度进行分析.

图3 基于微博共词网络的社团划分结果

2 研究结果

2.1 阶段性情感倾向

利用1.4中提出的情感分析方法,对微博文本情绪进行评分,评分值介于0到1之间.接近1说明正向情感越强烈,反之说明负向情感越强烈.图4给出了三个月内日情感均值随时间的变化曲线.显然,网民对于“停课不停学”的总体态势趋于正向,曲线大致呈先降低后升高的趋势,其中9天的情感值小于0.5,81天的情感值大于0.5.根据疫情期间网民发布的微博数据量和图4的情感曲线图将网民对于“停课不停学”的情感态度划分为4个阶段进行分析.

图4 每日情感均值分布图

第一阶段,即图中0~8天,受到新冠疫情的影响,为确保全国师生身体健康,2020年01月29日教育部发布延期开学的通知,并提出从实际出发,科学安排,合理选择学习资源,利用网络平台实施“停课不停学”.由此引发公众热议,网民对教育部发布的“停课不停学”通知响应较为积极,有不少网民在微博上发布了个人学习动态并打上“停课不停学”的标语,部分地区陆续开始了网上教学.在此期间,微博内容大多偏向正向,情绪值在0.47~0.61之间波动,只有2月4号情绪值小于0.5,第一阶段网民情绪状态较为缓和,正向情绪显著.

第二阶段,即图中9~28天,经过几天的发展,网民对于“停课不停学”的讨论热度逐渐升高.2月11号人民日报在微博发布“教育部回应停课不停学:不得强行要求学生每天上网打卡”的博文,在短短的几天内对于该条微博网民点赞数达到70多万,之后的阅读量更是超过1.4亿次.随着先前负面情绪的积累,11号和12号两天的情绪值跌入谷底,负面情绪显著.经过短暂的情绪低落期后,情绪值开始慢慢攀升,最后稳定在0.5到0.55之间.

第三阶段,即图中29~60天,随着部分教育机构推出大量线上课程倡导网络学习以及学生们对网课的适应,情绪值出现小幅上升趋势,主要在0.5到0.65之间波动.

第四阶段,即图中61~90天,伴随部分学校的开学和老师的积极引导,网民情绪值进一步提升,正向情绪较为显著,平均情绪值达到了0.63.

总体而言,网民对于“停课不停学”的态度呈现出“积极—消极—积极”的转变.从第二阶段开始情绪值缓慢上升“停课不停学”的教学模式也被网民逐渐接受.

2.2 主体对象情感分析

微博文本内容主要围绕老师、学生和家长展开,因此将参与“停课不停学”话题讨论的主体对象归为3个类别,分别为老师、学生和家长.在微博共词网络的基础上使用Louvain算法挖掘出与三类主体对象有潜在关系的关键词,通过整理微博语料库得到20455条微博文本,对每条文本进行编号,并对其内容进行关键字抽取,最终得到预处理的语料集.每条博文构成一个独立完全子图,不同博文中出现的同一个关键词将两个完全子图连接起来.构建的共词网络含有20047个节点,通过Louvain算法将其划分为50个社团,其模块度大小为0.27.

从划分好的社团中筛选出包含老师、家长和学生的社团,老师、家长和学生所在的社团中其社团成员个数分别为5890、2779和4567,三个社团的成员节点总和占比达到整个网络节点的66%,按共词网络中节点度数的大小给出三个社团中部分成员节点,如表4所示.最后,结合社团成员统计出和老师、学生、家长相关的微博文本并计算情感值,分析这三类主体对象的情感态度,图5给出主体对象的正向情感占比柱状图.

表4 包含主体对象的社团划分结果

图5 主体对象阶段性正向情感占比图

老师的情感态度:老师所在的社团有不少成员为正向的情感词如“抗疫”“可爱”“阳光”“担当”“齐心协力”和“共渡难关”等,可见对于老师正面情绪大于负面情绪.像“耽搁”“尴尬”“太难”等负向情感词主要出现在第二阶段,由于老师不熟悉网络直播授课,初次尝试遇到各种问题应对不足,还有网络延迟和直播软件发生故障是引发线上授课负面情绪的另一个原因.

学生的情感态度:学生所在的社团包含“疫情”“线上”“武汉”“宅家”“空中课堂”“灾难”“急躁”等.网络教学初期,学生讨论的重点在于线上授课是否能够真正掌握知识,每天长时间的线上学习,造成眼睛不适等.随着时间的推移,学生对网络教学逐步适应,感情值较为正向.面临着高考、中考等各种考试,后期学生期待疫情早日结束回到学校.

家长的情感态度:家长所在的社团,成员有“网课”“孩子”“作业”“知识”“辅导”“教学方式”等,正向文本内容主要集中于对老师线上授课的讨论、教学方式的思考和辅助孩子线上学习等.从整体来看正向情绪显著,家长希望孩子在老师的指导下跟进学习,后期家长也期待学校早日开学.

2.3 热点话题分析

为了迅速获取用户关注的主要话题,对微博文本进行词频统计,并使用WordColud库绘制出“停课不停学”整个阶段的词云图,如图6所示,其中过滤“不停”和“停课”两个超高频词.在图中话题讨论的热度是由关键词字体的大小来体现.词频数最高的两个关键词是“视频”和“学习”,说明关于“停课不停学”讨论的话题是以线上学习为核心.其次,“老师”“网课”“孩子”“打卡”“直播”“网校”等关键词也在词云图中清晰的展现出来,这些词语是对核心话题的进一步扩展,指明了学习的方式和参与讨论的主体对象.再次,“眼睛”等词语也出现在了热议话题中,网课学习导致用眼疲劳,“生活费”的出现是学生们在家上网课为失去生活费而感到失望,“幼儿园”的出现是网民对幼儿园的开学时间比较关注,还有讨论较为热烈的是幼儿园是否有必要上网课.此外,“武汉”等地名也出现在词云中,武汉作为此次疫情的发生地,一直受到全国各地网民的高度关注.

图6 词云图

除了分析“停课不停学”的词云特征,在微博语料向量化的基础上,采用K-means方法对词向量做聚类分析,得到每个阶段热点话题的关键词组如表5所示.根据关键字概括出每个阶段的热点话题,如第一阶段的Topic3对应的关键字为“电脑”“远程”“宅”“上学”“雅思”“考研”“考虫”“词汇”“平台”等,概括讨论的热点话题为“疫情背景下如何准备各类考试”;第二阶段的Topic1可以概括为“网络教学的适应度”;第三阶段的Topic3意味着网络教学的逐渐适应;第四阶段的Topic2反应了家长、教师和学生期待学校开学.

表5 各阶段聚类簇中筛选的部分话题分布

2.4 区域性情感分析

为了更加直观地表现出“停课不停学”区域性的讨论热度,对全国各行政区参与讨论的用户数量进行统计,以各行政区用户发布博文和评论的频次作为该地区讨论的热度.如图7给出全国各行政区参与讨论的用户分布柱状图.参与讨论的微博用户遍布全国各个地区,从图中明显看出西北地区的讨论热度低于中部地区和沿海地区,其中北京和广东用户讨论最为激烈,其次讨论较为热烈的地区分别是湖北、山东、四川、河南、浙江和江苏等地区,以上地区作为教育强省对“停课不停学”表现出极高的关注度.

图7 微博参与讨论用户人数分布图

除此之外,本文进一步对不同时间段和不同行政区之间的微博用户情绪时空演变规律进行统计分析,如图8所示.其中不同颜色分别代表了第一阶段到第四阶段不同地区微博用户的情感演变过程,从图中可以看出,全国部分行政区情感变化同样呈现先降低后升高的趋势.第一阶段,中部地区参与讨论人数较多且用户情绪值大于0.5;第二阶段,参与讨论人数增多,用户区域逐渐扩大且热度较高,情绪值普遍偏低;第三阶段,伴随着部分省市陆续开学,讨论热度逐渐下降,用户情绪值开始慢慢上升;第四阶段,随着疫情的控制和学校开课以及教育部及时出台的政策引导,正向情绪显著,全国平均情绪值更是超过0.62.

图8 四个阶段全国各行政区情绪值分布图

3 建议和结论

3.1 建议

重大公共事件通过社交媒体的传播和蔓延致使网民产生极强的情感倾向.本文通过研究“停课不停学”微博用户的情感变化规律和热议话题,得出四条网络舆情治理方法:

(1)阶段性引导:舆情传播演化具有潜在规律,负向情绪集中在舆论高潮期间.重点监测舆情初期,了解舆情的最新状况,对可能出现的舆论高峰进行预测,同时做好舆情衰退期的引导工作,防止舆论高峰的再次出现.

(2)关注热点话题:网络舆情传播过程中,伴随着多个热点话题的出现,不同话题的情感倾向将会影响整个事件的发展方向.如第一阶段“疫情背景下如何准备各类考试”的话题,此时,相关教育部门和高校对国考、考研、高考、四六级等考试信息进行及时公示,解除学生的疑虑.

(3)关注舆情主体:舆情主体对象是整个舆论事件发展的基础,不同主体对象在舆情传播中处于不同的地位,他们的情感态度将会影响整个事件的传播速度.针对家长、学生和老师,相关领导及时主动走进网络,“面对面”地与他们交心,“键对键”地倾听他们的声音,切实将他们的关切与诉求及时有效的转化为施政之源.

(4)区域性引导:舆情在全面爆发期具有普遍性,后续时间段大部分地区表现较为缓和,高考大省表现较为热烈,对云课堂的声音较为强烈,此时需要决策者做出精准措施,对这些重点地区进行积极引导.

3.2 结论

本文利用数据挖掘关键技术对微博文本数据进行分析.文中采用中文分词技术和朴素贝叶斯分类器,训练情感分类模型,计算每条文本的情绪值.在情感分析的基础上,分析不同阶段的微博用户情感变化趋势.此外,引入社团挖掘方法获得与三类主体对象(老师、学生和家长)有潜在关系的关键词并挖掘与之相关的文本,得出主体对象的情感变化趋势.针对舆情过程中讨论的热点话题,进行词频分析和词云特征分析,并在微博语料向量化的基础上,对词向量进行聚类分析,概括出不同阶段的热点话题.最后,通过地理统计分析方法进行数据的时空规律挖掘,展现出全国参与讨论的用户分布规律和不同时间段不同行政区之间的情感变化差异.本文的研究结果对于在突发事件下,线上教育方法的管控策略提供了一定的理论支撑.

猜你喜欢
停课不停学博文语料
第一次挣钱
面向低资源神经机器翻译的回译方法
关于“停课不停学”北京特级教师这么说……
“停课不停学”,家长作用不可或缺
濒危语言与汉语平行语料库动态构建技术研究
谁和谁好
应用在线教育平台实现恶劣天气下的“停课不停学”
利用网络平台实现“停课不停学”的教学新探索
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
国内外语用学实证研究比较:语料类型与收集方法