郭荣荣,闵素芹
(中国传媒大学 数据科学与智能媒体学院,北京 100024)
自2020年1月,突如其来的新冠疫情对我国各个行业产生了巨大的冲击。教育工作面临空前未有的挑战,开学时间不断延后,网上教学成为教育教学新常态,科技与教育的融合得以深化。为做好防控措施,教育部决定实施2020年春季学期延期开学,提出“停课不停学”的举措,全国各地认真落实教育部的通知,安排学生进行一段时间的线上学习。
网络舆情分析不仅可以帮助研究大众的情感变化,也可以为政府和媒体引导舆论趋势提供建议。
它主要的办法是利用网络爬虫,从知乎、微博等平台爬取舆论数据信息,利用情感特征提取等方法对舆情数据进行分析处理。例如:王树义等[1]、HAN等[2]以新浪微博为载体,利用Python完成数据采集,通过量化分析、情感特征提取等方法对爬取的数据做出分析,研究相关舆情信息的内容,探讨舆情期间的公众情感。同时在舆情分析中最为重要的一部分内容是情感分析,与它有关的应用研究也在迅速发展。张琛等[3]、谭荧等[4]、Isa Maks等[5]以搜索微博关键字的微博数据为信息基底,包括使用SnowNLP对语料进行情感倾向性抽取完成正负向的情感分类;总结在社交媒体平台情感分析的适用方法并提出改进;为情感分析与观点挖掘提出了词典模型。由于疫情的原因,2020年春季学期的教学方式为线上教学,许多学者对于“停课不停学”的在线学习和教学展开研究。例如:刘燚和张辉蓉[6]、贾文军等[7]通过网络调查或采集新浪微博关于学生在线学习的情况,通过情感分析、词频统计的方法对数据进行分析,发现学生在线学习自主能力总体不高,教学平台功能不完善和网络卡顿问题比较明显,并提出改善的有效建议。
本文以“线上学习”这一热点事件为研究事件,基于“后羿采集器”爬取舆情数据,运用实证研究方法分析“线上学习”微博信息的时间序列、词频、词云、文本情感,进而得出网络舆情的传播特征,有助于了解、引导网络舆情。通过分析“线上学习”的舆情信息,可以了解学生的学习情况,并对这一舆情事件提出有效的建议。
微博是指一种基于用户关系信息分享、传播以及获取的通过关注机制分享简短实时信息的广播式的社交媒体、网络平台。它具有传播性、便捷性、原创性的特点。通过爬取微博的数据研究,结果具有准确性和代表性。同时,新浪微博具有高级搜索功能,能够依据需求按照特定的关键词,在一定时间范围内对微博用户发表的微博内容进行搜索,这个功能为搜集舆情信息提供了便捷[8]。
“后羿采集器”是本次舆情信息采集的工具。它是一个网络爬虫软件,可以提供丰富的采集功能,包含打开网页、页面滚动、循环翻页等功能。因此,利用“后羿采集器”,可以对新浪微博指定时间范围内的博文信息进行采集。
经过调查发现,大部分高校开展“线上学习”的时间是2月17日,故选取这一个月内的微博数据进行舆情分析。本文对2020年2月17日0时到2020年3月17日24 时之间(合计30天)以“线上学习”为关键词的微博内容进行时段分割,每天为一小段,共计30段,每一小段按发文时间抓取微博,删除重复数据和无效信息,共计9904条微博数据。每条微博爬取内容包含的是用户昵称、发文内容、地区、发文时间、评论数、转发数等。
2.4.1 词频分析
词频分析起源于情报学,通过词频分析可以叙述和预测事物发展的趋势,判别事物之间的关联性[9]。词频的一些波动与热点事件的出现具有内在关联。通过 Python的jieba[10]库对博文内容进行分词,统计词语的出现频数,并依据出现的频数由大到小对词语进行排序,作成高频词汇表。通过分析高频词汇,能够反映出人们对某一社会热点事件的整体态度、观点。
2.4.2 词云展示
词云是一种基于语言分析技术对文本进行分析后产生可视化图像的技术,可以直观清楚地将关键信息显示出来[11]。将Python的Jieba库与Wordcloud[12]库结合,制作词云图,图中字体大小反映词频大小,清楚的展示了“线上学习”不同时间内受大众关心话题的变化,并分析总结出微博用户的情感变化,从而展示了微博用户关注的舆情热点信息。
2.4.3 情感分析
新浪微博用户数量众多,产生了很多用户参与评论的热点事件,从中搜集的新浪微博内容信息是属于一分为二的极性研究,即“肯定”和“否定”。对于新浪微博的发文内容,利用Python的SnowNLP库进行情感分析。可以对2月17日到3月17日的每一条微博进行情感分析,得到每天的每条微博的情感分数,再对每天的每条微博情感分数加权平均就可以得到这一天的情感分数,最后对得到的每天平均情感分数作出基于时间的排列,用Excel绘制折线图,可以更清晰地显示出微博用户对于“线上学习”网络教学平台的情感变化趋势。
2020年突如其来的新冠疫情对我国各行各业产生了巨大的冲击。教育部先后下文,采取政府主导、高校主体、社会参与的方式,统筹各类在线教育资源,力求实现“停课不停学”,高等教育领域迅速掀起“线上学习”热潮[13]。根据网络舆情的周期演化理论,统计单位为天数,在微博上对以“线上学习”为关键词的微博发文量进行时间序列分析。如图1所示,得到日微博发布数量随时间变化的曲线图。
图1 微博发布数量时间序列变化
由图1可见,“线上学习”微博发布数量的曲线图高低起伏,在线上学习期间工作日的发文数量明显高于非工作日。通过分析博文内容可以发现其原因有以下三点:(1)学生上网课期间学习费力、课程内容学不会、自律性差,经常会做与学习无关的事;(2)学习场所从学校转变为居家生活环境,从集体学习转变为个体单独学习;(3)发布微博的对象大多数为学生。当这些原因在网课期间出现的时候,这些学生往往会在微博发布相关言论,因此就使得微博数量波动、工作日发文数量高。同时,也符合实际情况疫情居家学习学生发布微博讨论的时间特点。总体而言,微博发文数量曲线符合实际规律,并且在周一达到了几次的高潮点。
将“线上学习”微博数据信息依据地域进行数量统计,统计了我国34个省级行政地区(包括台湾、香港、澳门)和海外/其他地区的舆情信息数量情况,详细统计结果如表1所示。分析表1的数据可以知道,这一个月内微博发文数量最多的地域是北京,然后是安徽、河南、江苏等地,发布微博数量最少的地域是西藏。
表1 微博地域分布统计表
“线上学习”舆情信息地域分布情况如图2所示,从图2可以看出微博关于“线上学习”舆情信息数量最多的地区是北京和广东,其次是分布在我国东部、东南部地区,中部地区也有较多的微博发文数量,而在我国的西北部、西南部地区有关“线上学习”的微博发文数量就比较少。
图2 微博信息地域分布情况
词频分析在网络舆情研究中被广泛应用,通过分析博文内容的高频词语,能够反映出人们对“线上学习”事件的态度和观点。微博用户发布的博文内容能够反映出“线上学习”的网络舆情热点。通过对博文内容的词频分析,获取高频词语,得到频数排名前10的词语如图3所示。
图3 词频分析柱状图
其中“学习”、“线上”、“疫情”这些词跟事件直接相关,因此出现频次最高。
此外,“教学”、“教育”的出现频次也比较高,表明在新冠肺炎疫情防控的时期期,全国各个学校积极配合教育部提出的“停课不停学”的措施,开展线上教学方案。同时,还有两个角色“学生”和“老师”的出现频次也很高,这是因为线上教学期间,在物理空间上老师和学生被迫分离,老师的主导作用减弱,学生的自主学习能力则需增加[6]。然而传统的教师心中更难以接受与适应,新型的“教为主导,学为主体”的师生关系也将受到挑战,从而引发了热议。总体来说,微博用户对于“线上学习”关注的话题是较为积极的,高频词语中并未出现任何消极的词语,人们关注的话题是如何更好的在疫情期间展开教学。
在词云统计图中,字体越大表明词语出现频次越多。图4为词频排名前32的词语可视化分布图。除去图3词频分析柱状图上的这些高频词语,可以看到此外的其它热议话题。首先“直播”、“网课”、“在家” 等词汇在词云中清晰地呈现了出来,这表明了网课可以采用直播的方式进行实时教学,学习地点从学校搬到了家中。其次,词云中还出现了“疫情”、“肺炎”、“开学”,反映了新冠肺炎疫情的产生,导致开学时间不断延后,微博用户不仅对此讨论热度增高,而且持续时间较长。此外,还有词云图上的“上课”、“作业”,“打卡”也较为明显,研究发现微博博文中学生对于平台体验也发表了很多的言论,平台体验也是影响学生学习的重要因素之一。
图4 线上学习话题词云图
3.4.1 情感倾向
在高频词语中,位于前面的都是对“线上学习”事件的客观描写,这些词汇不带有感情色彩。从词频分析的结果里,挑选出带有感情色彩的词汇,就能在一定程度上掌握微博用户的情感倾向[8]。带有感情色彩且出现频数较高的词语如表2所示。
由表2可知,微博用户对“线上学习”事件的感情倾向大概分为2类:
(1)积极与努力。“加油”、“希望”、“顺利”这些词的频数出现很高,说明网络舆论对“线上学习”的主流情感是正向的。大多数微博用户对“线上学习”的教育模式表示赞同,并且对此保持一种积极正向的心态。以这些词为关键词检索微博发文内容,发现“积极”表示各个学校对展开线上教学的高度配合,同时也体现了老师线上授课内容设计新颖,以激发学生线上学习的积极性与主动性;“努力”表示学习环境虽然局限于家中一隅天地,但是大多数学生还是有较强的自律性,能够完成学习的目标;“顺利”表示借助“腾讯会议”、“钉钉”等这些网络平台,教学、班会、活动可以用线上形式开展,并顺利完成。
(2)困难。通过表2的数据可以看出来,“困难”出现的频率很高。以“困难”为关键词检索微博发文内容可以发现产生困难的原因主要有两个:(1)网络卡顿。教师直播使用“学习通”、“一直播”、“ 腾讯会议”等软件有时候会出现签到闪退,页面卡死,直播延迟这些问题,会造成学生听课产生困难;(2)家庭困难。教育部在面对疫情的时期提出“停课不停学”的教育方针,并提出了“线上学习”的教学模式,但对于困难家庭的学生来说,因为缺少电脑、智能手机等终端设备,想要居家线上听课并不是一件容易的事情。
3.4.2 情感变化
本文研究“线上学习”的微博发文内容时间是2020年2月17日到2020年3月17日,选取这一个月中间的日期3月2日(周一)为分界的日期,研究展开“线上学习”前后时间段内微博用户的情感变化。对3月2日前后的微博发文内容利用Python进行词频分析,用来探究微博用户的情感趋势变化,分析结果如图5所示,其中柱状图代表词语出现的频数,折线图代表频数与相应时间段内博文总数量的比值。
图5 3月2日前后微博用户的情感变化
从图5可以看出,在3月2日之后,“坚持”、“喜欢”、“顺利”这三个词的出现频率几乎没有变化。变化比较明显的是“积极”、“困难”,相比于3月2日之前,出现频率几乎增长了一倍。“加油”、“希望”这二个词出现的频率相对于3月2日之前有点减小。“努力”、“认真”出现的频率相对于3月2日之前略有增加。
“积极”出现频率的增加,表明微博用户在进行一段时间的“线上学习”后能够逐步适应网课的教学形式,同时也表明了全国各地为了把在线教学工作做好都积极作出了有力的贡献。“困难”一词出现的频率增加,以它为关键词检索博文,可以发现各地为了在特殊时期关心家庭困难的学生,调动各种资源,想尽各种办法让他们能够进行线上的学习。在疫情防控的期间,努力做到“停课不停学,一个都不能少”,体现了国家关爱家庭困难学生的社会正能量。以上分析说明在展开“线上学习”的这一个月内,随着时间的不断变化,微博用户对于“线上学习”的感情倾向也在不断发生变化,通过对比可以发现随着时间的增加“线上学习”的网络舆情是朝向正能量的方向发展的。
3.5.1 线上教学平台信源分布
从“线上学习”的信源来看,结果如图6所示。可以发现有关教学平台的舆情信息量中,“钉钉”约占整体的35%、“学习通”约占整体的34%,是线上教学平台的主要渠道;“腾讯会议”约占整体8%;“慕课”约占整体8%;“雨课堂”约占整体6%;“腾讯课堂”约占整体5%。总体来看“钉钉”和“学习通”成为教学平台舆论主要来源,总计占比达到73%。
图6 线上学习期间教学平台来源分布
3.5.2 线上教学平台微博信息TF-IDF计算及Kmeans文本聚类
TF-IDF(Term Frequency-InversDocument Frequency)是一种经常用在信息分析和数据挖掘的技术。它是依据词语在文档中出现的次数和在整个语料中出现的文档频率来计算一个词语在整个语料中的重要程度。它的优点是能过滤掉一些常见的却无关紧要的词语,同时保留影响整个文本的重要字词。计算公式如下所示:
TF-IDF=TF*IDF
其中TF(Term Frequency)表示某个关键词在整篇文章中出现的频率;IDF(InversDocument Frequency)表示计算倒文本频率,文本频率是指某个关键词在整个语料所有文章中出现的次数,它是文档频率的倒数[14]。
从“线上学习”的微博数据下筛选出网络教学平台的微博数据,组成线上教学平台的微博信息数据。通过利用Python分析计算线上教学平台微博舆情信息的TF-IDF,得到的结果如图7所示,可以发现“学习”、“教学”、“疫情”、“学生”等都是出现的高频词语,同时也是在这些线上教学平台舆情信息里大众普遍关注的主题。
图7 TF-IDF关键词
通过利用Python编程,Kmeans文本聚类的方法,可以将线上教学平台微博信息进行简单的文本聚类,结果如图8所示。可以发现线上教学平台微博舆情信息被聚为了两类,黄色是舆情信息中积极主题的一类,黑色是舆情信息中消极主题的一类。
图8 线上教学平台微博舆情信息文本挖掘聚类
3.5.3 线上教学平台微博用户情感倾向
选择Python的开源分词库Jieba进行中文分词,得到分词结果后的数据集,利用SnowNLP进行情感分析。SnowNLP情感分析得到的数值在0到1之间,当结果大于0.5时,情感较为积极,越接近1,情感越正向;当结果小于0.5时,情感较为消极,越接近0,情感越负面[15]。从“线上学习”的微博数据下筛选出网络教学平台的微博数据,进行分析每天的线上教学平台微博情感分数变化,对情感分数结果做了取平均值的处理,如图9所示。
图9 线上教学平台每日博文SnowNLP情感分析数值(平均值)
由曲线的变化趋势来分析,这一个月内微博用户对“网络教学平台”的情感态度大概可以分成两个阶段。第一阶段为2月17日~3月9日,这段时间内微博用户情绪上下波动,较不平稳,出现了正负面情绪交替的状态;第二阶段为3月10日~3月17日,这段时间内微博用户情绪从负面转到了正面,逐步上升并且稳定在正面的、积极的情感状态。
“网络教学平台”第一个阶段在2月17日~3月9日之间的波动较大。从图9中可以看出其中2月17日,2月24日是最低值,通过分析可以发现在这两天内为大多数高校开学的日期,由于在线人数过多,造成了“慕课”、“学习通”、“腾讯会议”软件的崩溃并且出现了卡顿状况,网课软件崩了的消息一时间也成为微博的热门话题,说明面对网课软件的崩溃,微博用户出现了强烈的不满、担忧的负面倾向。然而在其它的时间内也呈现了积极的情绪,这表示了网络教学平台的便利,能使得教学顺利进行。
“网络教学平台”的第二个阶段在3月10日~3月17日之间逐步爬升。从图9可以看出经历了3月10日的负值,到11日之后,转变为正值。这是因为经历了一段时间的网络教学后,3月10日“钉钉”等学习软件再此崩溃,微博用户对软件的崩溃表现出了负向的情绪。“钉钉回应软件崩溃”也成为微博热门话题,引起了强烈的讨论。在3月11日之后情感数值变为正向,这说明在第二阶段,微博用户对网络教学软件在态度上是积极向上的,在情绪上由担忧转向赞同。
本文使用“后羿采集器”对微博“线上学习”话题进行数据抓取,利用Python的Jieba、Wordcloud库得到“线上学习”的高频词语和词云图,并对采集到微博博文进行情感分析。结果初步验证了微博用户对在线学习的情感态度变化趋势,总结了在这段时间内微博用户关注的多个话题。研究发现的意义主要有以下几个方面:
(1)微博用户对“线上学习”事件颇为关注,积极讨论引起了很高的热度,体现了舆情信息的爆发性。舆论的主流倾向是对“线上学习”呈现积极的正向情感,希望能够使得“停课不停学”的政策顺利进行;
(2)通过分析高频词柱状图和词云图,可以发现线上学习期间微博用户关心的热点事件,大多数与如何更好地开展在线教学活动与如何更好地进行疫情防控有关,这体现了舆情的主要话题导向;
(3)通过微博用户的情感变化,了解到“线上学习”开展时间的前后,情感倾向发生了变化并且舆情情感是朝着正能量积极的方向发生变化的,这与实际情况开展“线上学习”民众的情感倾向相符合。同时,利用SnowNLP得到的情感分数,可以发现舆情情感也是朝向正向的情况发展。
依据研究结果,本文为在线教学工作提出几点建议:
(1)借助线上教学契机,转变教学方式。疫情期间线下教学及时转向线上,是学校、老师、学生都没有经历过的新型教育模式,提出了新挑战的同时也迎来了教育的新机遇,推动了教育教学方式的转变[16]。开展高质量的线上教学,应该利用网络技术设计以学生为中心的教学方式。老师在线上教学时候应该充分利用网络信息化优势,及时掌握分析学生的学习进度以及学习过程中遇到的困难,从而保证线上学习的效果;
(2)合理使用电子产品,促进学生身心健康发展。“线上学习”不仅给学生近视防控带来了很大的挑战,而且疫情造成了部分学生焦虑、不认真学习的心理状态,因此学校应当重视对学生的心理辅导,引导学生科学合理化的使用电子产品,控制好线上学习的时间,并应该注重培养好良好的用眼习惯;
(3)跟踪舆情热点,加强网络管理。关注“线上学习” 网络舆情不同时期的情感变化和可能出现的极性观点,针对性地选择内容重点进行推送,可以提高用户的热点话题的关注程度从而有效引导网络舆论。同时,通过情感分析还能有效控制负面情绪,应该避免负向情绪汇聚过快导致的群体极化现象,营造良好的网络舆情环境。