基于大数据技术的新冠疫情后网课热点数据分析

2021-04-18 00:13唐青余金松林君贤胡林伟虞宇翔薛义博
科技研究·理论版 2021年18期
关键词:词频聚类文本

唐青 余金松 林君贤 胡林伟 虞宇翔 薛义博

摘要:自从新冠病毒疫情爆发以来,社会经济教育等方面发生了巨大的改变,在线学习成为了中国大学生学习的主要方式之一。在线学习依托于互联网,其不同于传统的现场教学,本文通过Python编程爬虫搜词、数据清洗、词频统计和聚类分析,使用大数据技术研究目前在线学习中学生体验现状和趋势以及一些未解决的问题。

关键字:网络爬虫;舆情数据分析

1.获取数据源

网络爬虫技术是指一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。本项目为了获取到大量数据需要使用到网络爬虫模拟用户操作向服务端发起请求提取有用的数据存储到本地,其中包括利用Cookie技术模拟用户登录、第三方平台API搜索两种途径,分别从新浪微博、知乎、慕课网、百度贴吧等在线学习平台爬取用户评论数据。考虑到疫情爆发和大学生复学的时间,本项目爬取了2019年1月至6月以及2020年1月至6月的数据,一共获取5万余条数据记录。

2.数据清洗

数据信息的中分词是统计词频的重要步骤之一, 本文使用了python第三方库jieba,jieba是优秀的中文分词第三方库,支持三种分词模式:精确模式、全模式和搜索引擎模式,精确模式可以将语句精确切分,不存在冗余数据,适合本项目做文本分析。经过分词之后,词频中仍然存在大量的无用词语,类似于“那个”、“啊哦”、“这个”等等,所以在统计词频前需要进行数据清洗,即删除停用词。笔者采用的方法是提前创建一个停用词列表“stopwords”,遍历每一条初步分词后的文本数据,如果存在即把这个词删去。

2.词频统计和聚类分析

经过在线数据清洗后,本文从清洗后的数据源,获取各时段词频前20名作为聚类分析的数据源。本文聚类分析是将词频数据利用Python生成词频矩阵,词频矩阵中每一列代表一个关键词,用数字1表示该评论中含有对应的关键词,数字0表示该评论不包含关键词。

通过词频矩阵的形式,可以将每条文本数据转换为 n 维 1/0 值向量的形式,对比分析每个向量之间的相似性从而给文本数据进行分类处理。利用SPSS软件进行分析-分类-系統聚类,经过多次试验发现,系统聚类的方法选择组间连接-欧氏距离效果较好,此法采用简单匹配系数度量评论之间的相似性,简单匹配系数是当两条评论在关键词上的数值相同时出现的频率,频率越高说明两条评论越相似。

3.自然语言处理与情感分析过程

(1)加载语料数据,并将每条数据保存为list的元素; (2)计算 TF-IDF。计算 TF-IDF 时还可以选择将出现频率高于一定值,以及出现次数非常低的词语删去,同时还可以借助正则表达式去除数字、符号等不利于分析的元素; (3)获取模型中的所有字词特征(如果特征数量非常多的情况下可以按照权重降维),经过程序统计一般有 20000个左右的特征词;(4)导出权重矩阵,此时已经实现了将文字向量化的过程,矩阵中的每一行就是一条文本的向量表示;(5)将文本数据的向量进行 k 均值聚类,K 均值聚类算法是在向量空间中分配 k 个随机点作为 k 个簇的初始虚拟均值。然后,将每个数据点分配给平均值最近的聚类。接下来,重新计算每个聚类的实际平均值。根据均值的偏移,重新分配数据点。重复此过程,直到集群的平均值停止移动;(6)利用sklearn机器学习库,得出聚类结果进行词频统计。

本文目选用了情感分析作为参考大学生对于线上教学的评价标准之一。情感是文本所具有的属性,这里我们使用了Python的SnowNLP 库,可以粗略判断文本的情感,得出的数值是该文本蕴含积极情感的概率。根据统计结果得出,疫情前都是一些主动去接触在线学习的同学,所以对于在线学习的评价大多表现为积极情感,疫情到来之后,在线学习人数激增,对于在线学习消极评论的比例明显提高,特别是在2020年2月大学开学并且普遍实行在线学习网课的第一个月,积极情绪文本占比最少。总体而言,2020 年的每月积极文本占比均小于 2019 年同期,但是随着时间推移,线上教学的软件、硬件条件发展以及学生们对于线上教学形式的熟悉,大家对于在线学习模式的评价逐渐升高。

3.结果分析与趋势预测

根据对比疫情前后的文本类型可以发现,在疫情爆发大学生普遍参与线上学习后,关于“网课感受”的评论数量大大增加,同时因为疫情前大部分人是主动自愿使用网课学习,而疫情后是学校要求,所以2020年类型出现了关于“上课形式”的种类。在疫情前,大部分同学是出于自己的需要,例如“课程种类”中的“考研”等而主动选择了线上学习,结合情绪分析结果可以发现主动选择线上学习的这部分同学对于这种学习方式还是比较认可的。在疫情后,有些同学较线下教学更喜欢线上学习的方式,认为网课可以重复观看,并且不受场地的限制,甚至对于有些人可以节省住宿的费用,上网课不用浪费路途中的时间,自由度高,可以休息得更好等优点。但是通过调查发现,线上教学仍存在许多问题。通过分析 2019 年至 2020年聚类后的 7 类文本,统计出每个类别的词频得到高频词,归纳总结其中的关键词可以将 7 类文本归类,得到相关信息如图1所示。

图1 2019年及2020年高关联度关键词

4总结

线上教学是运用互联网、多媒体、人工智能等现代信息技术进行教与学互动的教育方式,是教育服务的重要组成部分。教育信息化已成为教育现代化的重要内涵和显著特征,充分运用信息技术促进教育观念更新、模式变革是信息化社会的时代要求。疫情给高校正常教学带来了冲击,也为提升线上教学质量提供了机遇,通过疫情前后学生线上教学的评价分析,根据学生体验现状可以发现线上教学并不能完全取代线下教学,不过经过技术的发展,学生对于线上教学的评价正逐渐增高。疫情爆发以来,得益于线上教学的实现与进步,线上与线下教学协同发力、融合互补的教学模式正逐步完善,学生对于线上学习认可程度将越来越高,这将是今后高校教学改革的重要任务和努力方向。

参考文献:

[1]殷凤敏.突发事件网络舆情的引导策略[J].法制博览.2020(03)

[2]吴婧钰,张欢.大数据时代高校思政教育的推进对策探析[J].科教文汇.2021(05)

资助项目:国家大学生科技创新项目(202011488026,202011488025)作者唐青,衢州学院2019级物联网工程专业本科学生。

猜你喜欢
词频聚类文本
文本联读学概括 细致观察促写作
基于数据降维与聚类的车联网数据分析应用
基于模糊聚类和支持向量回归的成绩预测
挖掘文本资源 有效落实语言实践
搭文本之桥 铺生活之路 引习作之流
文本与电影的照应阅读——以《〈草房子〉文本与影片的对比阅读》教学为例
基于密度的自适应搜索增量聚类法
毛泽东话语的词语特征
词频,一部隐秘的历史