梁梓煜 朱丽佳 陈俊 常国将
摘 要:终身化学习背景下,MOOC作为普及性在线学习形式已受到学术界的日益关注。同时,MOOC课程质量与学习者满意度问题亟待解决。研究基于理性选择理论与联通主义理论构建LDA-LSTM深度主题情感分析模型,进而挖掘学习者理性因素与情感极性。实验结果表明,学习者考虑的因素主要具备全面性与多样性的特点;学习者对教师与学习效果普遍给予肯定评价,较少负面评价则针对教师授课风格、课程资源与平台服务质量。研究据此给出了建议策略。
关键词:在线课程评论;LDA-LSTM模型;主题挖掘;情感分析;深度学习
中图分类号:TP391.1;G434 文献标识码:A 文章编号:2096-4706(2023)16-0079-06
Research on Sentiment Analysis of Online Course Reviews Based on LDA-LSTM Model
LIANG Ziyu1, ZHU Lijia2, CHEN Jun1, CHANG Guojiang1
(College of Education, Guizhou Normal University, Guiyang 550025, China;
2.College of Foreign Languages, Guizhou Normal University, Guiyang 550025, China)
Abstract: Under the background of lifelong learning, MOOC, as a popular form of online learning, has attracted increasing attention from the academic community. Meanwhile, the problems of the quality of MOOC courses and the satisfaction of learners need to be addressed urgently. Based on the theory of rational choice and the theory of connectivism, this paper constructs the LDA-LSTM deep topic sentiment analysis model, and then mines rational factors and sentiment polarity of learners. The experimental results show that the factors considered by learners are comprehensive and diverse. Learners generally give positive evaluation to teachers and learning effects, and less negative evaluation to teachers' teaching style, course resources and platform service quality. According to this, the research gives some suggested strategies.
Keywords: online course comment; LDA-LSTM model; topic mining; sentiment analysis; Deep Learning
0 引 言
在当今人工智能时代,在线学习需求呈现井喷式增长并且逐渐成为一种主流的学习方式,对在线学习产生了深刻影响[1]。中国大学慕课作为中国最大的在线学习平台,使用与注册用户达到近5亿人次,用户所产生的过程性数据是一种教育大数据[2],具备体量大(Volume)、种类多(Variety)、速度快(Velocity)、易变性(Variability)、真实性(Veracity)和价值密度低(Value)六大特性[3],评论数据作为一种过程性数据,真实地反映了学习者在学习过程中最真实的感受与实际的学习效果[4]。面对数量如此庞大的数据,如何对于这些数据进行有效的分析与评估,如何能够分析学习者的总体学习状况以及解决学习者个性化的问题以便能够更好地适应学生进行学习,是当今在线学习领域所面临的发展瓶颈与亟待解决的难题。
针对以上的问题,已有研究在处理用户生成的文本数据时借助文本情感分析技术这一方法。如刘三女牙[5]等以果殼网慕课学院的“财务分析与决策”课程为例,采取LDA无监督机器学习方法对评论文本信息进行数据挖掘,并追踪了主题演化趋势。李慧[6]提出一种融合情感词典和机器学习模型的学习者情感分析模型,能够实现对段落级、篇章级的学习体验文本的多级情感分类。Onan[7]等对机器学习方法、集成学习方法与深度学习方法三种不同的方法进行对比分析,实验结果表明长短期记忆网络(LSTM)的预测结果最好。
已有研究已经取得了一些研究成果,但是对于课程评论文本的研究分析还不够深入,大多是基于传统的无监督算法与机器学习算法,很少有研究基于深度学习算法分析基于主题的文本评论情感倾向及其演变趋势,因此本文在已有研究的基础上,以理性选择理论与联通主义为理论基础,使用潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)融合长短期记忆神经网络深度学习模型(Long Short-Term Memory, LSTM),分析不同时间序列下学习者主要考虑的理性影响因素,抽取其中的关键性因素并对其做出分析与解释并形成最终结论。
1 研究设计
1.1 理论基础
理性选择理论源于对人们所做出的经济决策背后的缘由所做出的合理性解释,其代表人物马克斯·韦伯将理论研究范围扩展为社会学领域中,关注人的行动层面,并区分了四种社会行动的类型。理性选择理论同样适用于教育领域,教育抉择归根到底是人的抉择。理性选择理论强调既不忽视个体的主观能动性,又同时强调了环境对于行动者决策的影响[8]。
联通主义认为知识由实体间各种连接所组成,因为相互连接,一个实体的变化可能导致另一个实体的变化,学习指的是这些连接的生长、发展、变化或加强的过程[9]。在联通主义看来,课程质量关联到教师风格,课程资源,课程内容等多方面的内容。因此课程设计需要兼具深度与广度,打破设计壁垒,形成具有生命感的整体课程设计。因此,本文以理性选择理论与联通主义理论为理论支撑,对课程评论数据进行主题挖掘与情感分析,探索影响学习者进行教育选择决策的影响因素,为教师及平台运行者提供支撑。
1.2 LDA-LSTM混合模型
南京大学心理学慕课课程作为评论数据量较多的热门课程,在评论内容方面具有一定的广泛性与代表性,涉及众多不同的主题内容,且不同用户对于不同的主题内容的关注程度与情感倾向也不尽相同。基于这样的语料库特征,需要筛选出大多数学习者关注的核心主题内容,并对评论内容进行基于主题的情感分析,以得出最为关心的核心主题的用户情感倾向,因此选用较为流行的LDA主题模型,结合LSTM神经网络模型,构建基于主题的情感分类模型,以便能够更进一步对用户情感进行分析。基于LDA-LSTM混合模型评论文本情感分类图如图1所示。
1.3 研究步骤
1.3.1 数据预处理
第一步,文本去重。在评论区中会出现与前面某一条评论完全重复的评论,这些评论对后续分析没有价值和意义,且对后续分析起到干扰作用,仅保留第一条评论数据,其余需要剔除。第二步,去除无用评论。评论数据中夹杂着许多类似于“哈哈哈”“很好”等无用评论,需要去除。第三步,去停用词。去除中性词语,例如“老师”“课程”“学习”“知识”以及做语气停顿的语气用词和标点符号等,本文使用自适应后的哈工大停用词表对停用词进行过滤处理。第四步,分词。使用Jieba分词工具对中文文本进行分词,便于后续进行文本向量化处理。
1.3.2 文本建模
MOOC评论文本数据是高度非结构化数据,计算机程序无法对其识别并进行处理分析,因此需要对其进行向量化处理,本文借助Gensim工具包中的Word2Vec工具,将经过LDA主题模型聚类后的每个主题的主题特征词映射到300维的高维向量空间中,转换成LSTM神经网络所需要的数据格式。
1.3.3 文本语义特征提取
LSTM深度学习网络提取特征共分为三步,首先将经过向量化处理的词向量矩阵作为权重值输入,其次将词向量矩阵作为权重值输入到遗忘门层,当遗忘门值为0表示Ct-1中没有任何信息传递给Ct进行计算,当遗忘值为1时表示Ct-1的全部信息都被保留下来并传递给Ct进行计算,当遗忘门值大小介于0~1之间表示Ct-1中有部分信息传入到Ct进行计算,遗忘门值大小取决于输入的词向量矩阵中数值的大小,越重要的特征词向量权重值越大,保留的信息越完整,反之则会被部分舍弃或者全部舍弃。最后经过激活函数将特征进行非线性化处理,可以使模型学习到更多的特征。
1.3.4 情感分类
本研究在Softmax分类器中对于文本情感做出分类,情感计算公式如式(1)所示:
zj = wj1 · x1 + wj2 · x2 + bj (1)
其中wj表示第j类特征的权重矩阵,例如wj1表示第一类(正向情感)的權重值,wj2表示第二类(负向情感)的权重值,x表示来自全连接层的最终保留下来的输入值,bj表示偏置项,zj表示300维的列向量,首先对权重参数进行随机初始化,随后在训练过程中不断迭代优化权重参数矩阵,并将最终优化得到的权重参数矩阵经过Softmax激活函数映射为(0,1)之间的概率值,并取概率值最大的作为最终分类结果。
1.3.5 关注主题满意度计算
在经过LSTM情感分类模型,得到最终情感分类结果后,依据每个主题的情感分类结果得到各个主题的主题满意度,并绘制满意度时间序列演化图,主题满意度计算式如式(2)所示:
(2)
其中vk,t表示t时间内主题k的满意度,ht表示t时间内主题k的好评评论数量,Mk,t表示t时间内主题k所对应的评论总数。
2 实证研究
2.1 数据来源
本文通过使用Selenium爬虫框架爬取中国大学MOOC的学习者文本评论数据,时间跨度从2018年1月17日至2022年12月13日,以南京大学心理学慕课课程评论留言区的学员评论数据作为数据来源,爬取内容包括评论用户昵称,评论内容,评论时间,点赞数以及开课次数,共形成13 562条初始评论数据,随后对数据进行清洗操作,去除无用特征列,剔除重复数据以及对分析无效的评论数据,最终得到有效评论数据11 729条,根据已有标签的评论数据对现有新数据进行打标签操作,形成带有标注的情感数据集。
2.2 实验环境
本实验的实验环境参数如表1所示。
2.3 基于LDA的用户评论主题挖掘
借助LDA主题模型挖掘慕课课程评论中隐含的主题,为了解学生的学习实际情况并做出及时教学反馈。本文利用Gensim工具包构建了LDA主题模型,将清洗后的数据集导入到LDA主题模型中,根据主题困惑度,经过多次采样与反复测试,当主题数量为4时,每个主题下的主题词为10个时,达到了最好的效果,超参数α与β最终确定为0.25与0.1。表2展示了课程评论文本主题词-概率分布矩阵。
依据表1中每个主题下词的概率分布,可将学习者主要关注的影响因素(主题)分为四类,分别是教师风格,知识学习,教与学评价,课程内容。
主题1是关于教师的授课风格和授课方式。“幽默”“风趣”“生动有趣”“喜欢”,表明学生乐于接受教师的授课风格,这个主题主要是学生对教师的认可和表扬。
主题2是关于知识学习。“生活”“受益匪浅”“通俗易懂”“生动有趣”等词语,表明教学内容与生活实际紧密结合,学生能够结合自身生活实际去更好地理解心理学知识,并且注重心理学的知识在日常生活中的运用,加深对于心理学的运用与理解。
主题3是关于教与学的整体评价。“幽默”“风趣”“教学”“生动”等词语表明学生对于教师的授课内容、整体的授课方式与授课风格是认可与赞赏的,认为能够学习到对自己有用的知识,有部分学生还表明会期待教师后续其他有趣实用的课程。
主题4是关于课程内容。“课程内容”“有意思”“幽默”“易懂”表明对于课程内容与教学质量的认可,但是有部分学生反馈授课内容比较浅显,以及存在平台的技术方面的问题,还有待提升与改进。因此将学习者对于在线课程关注点归纳为:授课风格、知识学习、教师评价与课程内容四个方面。
2.4 基于LDA主题时间序列演化分析
在对评论文本进行主题抽取后,进行主题关注度计算,计算各主题关注度随时间的变化,得到四个主题的演化趋势如图2所示。
在2018年至2022年期间,用户评论主要关注Topic1,即学习者在进行选择时主要考虑的是教师风格,关注度在26%~32%之间,明显高于其他影响因素,并且从2020年至2022年关注度在持续上升,其次关注Topic2,即关注知识学习,浮动范围在25%~30%之间,呈现出先上升后下降的趋势,依据理性选择理论说明用户会根据授课教师的授课风格的好坏进行课程选择,因为教师的授课质量的好坏会直接影响整体的课程质量,并且由于在新冠疫情期间,无法到校复课,因此更加关注教师的授课质量与知识学习方面的问题。
Topic3的关注度呈现明显增加而后又下降的趋势,最高值达23%,即对教师评价的关注度明显增加,后又在一个稳定的范围上下浮动。而Topic4的关注度即课程内容呈现一个明显下降的趋势,从25.56%下降到20.85%,表明用户对于教师的整体授课质量,包括教学内容、教学风格、平台服务等方面有较为综合的考量与评价,而不仅仅关注于某一影响因素,表明学习者对于慕课课程质量有一个综合的评估标准,课程的综合质量正逐渐成为主要关注点,从理性选择视角出发,学习者会从多个维度不同方面对课程质量进行评估,判断从中能否获得最大的学习收益。
2.5 基于LSTM的用户关注热点主题满意度
在LSTM模型训练方面,采取式(1)对评论进行情感分类。将整个数据集按照8:2的比例切分为训练集和测试集,为了降低过拟合风险,达到理想的分类效果,进行了参数调整与测试,共分为20个训练周期,在Softmax分类器上获得最终分类结果。最终模型准确率在训练集上达到90.6%,在测试集上达到86.2%,在训练集上的损失值为23.7%,在测试集上的损失值为34.3%。最后由LSTM分类器得到的评论文本的分类结果为:正面评论11 525条,负面评论2 033条。如表3所示,分别展示了准确率、召回率、F1值三个反映模型性能的参数值。
依据式(2)对用户关注主题满意度进行计算,关注主题满意度随时间序列的演化图如图3所示。
3 结 论
依据理性选择理论与联通主义理论,基于学习者主题关注度与主题满意度变化趋势分析学习者主要关注以下三个方面,因此本文提出以下建议:
1)关注教师授课方式与风格,教师学生共同成长。对于课程评论的研究发现,绝大多数的学习者对教师的授课风格从2018年到2022年对于教师风格的满意度呈现出下降的趋势,从92.6%下降到88.3%。在联通主义看来,教师作为课程具有核心影响力的中心节点,教师本身就会对学生的学习产生影响,因此教师本身应该是合格的学习者,用自身行为引领学习者前进,才能更好地提供学习支持服务,更好地融入学生群体,才能提升学生的学习满意度,与学生一起共同成长。
2)关注课程内容资源与平台服务质量建设,互补资源相辅相成。由实验结果发现,对知识学习的满意度介于91%至95%之间,教和学的整体评价从2018年至2021年一直是下降的趋势,从90.76%至71.91%,2021年至2022年有所回升,从71.91%至83.34%,表明在课程资源质量提升与学习过程体验方面仍有待加强。联通主義主张既关注集体学习又关注个人成长,因此课程资源建设也应兼顾集体和个人两个维度,既满足集体学习诉求同时助力于学生个性化成长,因此可以在共有资源的基础上进行个性化学习资源的推荐。同时教师也要鼓励学习者从多角度对课程进行评价,以便能够细化课程优化与改进的方向,提升课程整体质量。
参考文献:
[1] 桑新民,谢阳斌,杨满福.“慕课”潮流对大学影响的深层解读与未来展望 [J].中国高等教育,2014(Z1):12-15.
[2] 杨现民,王榴卉,唐斯斯.教育大数据的应用模式与政策建议 [J].电化教育研究,2015,36(9):54-61+69.
[3] 祝智庭,沈德梅.基于大数据的教育技术研究新范式 [J].电化教育研究,2013,34(10):5-13.
[4] 江波,高明,陈志翰,等.基于行为序列的学习过程分析与学习效果预测 [J].现代远程教育研究,2018(2):103-112.
[5] 刘三女牙,彭晛,刘智,等.面向MOOC课程评论的学习者话题挖掘研究 [J].电化教育研究,2017,38(10):30-36.
[6] 李慧.面向学习体验文本的学习者情感分析模型研究 [J].远程教育杂志,2021,39(1):94-103.
[7] ONAN A. Sentiment Analysis on Massive Open Online Course Evaluations:A Text Mining and Deep Learning Approach [J].Computer Applications in Engineering Education,2020,29(3):572-589.
[8] 王进,汪宁宁.教育选择:理性还是文化——基于广州市的实证调查 [J].社会学研究,2013,28(3):76-100+243.
[9] 史蒂芬·道恩斯,肖俊洪.联通主义 [J].中国远程教育,2022(2):42-56+77.
作者简介:梁梓煜(1998—),男,汉族,安徽宿州人,硕士研究生在读,研究方向:自然语言处理;朱丽佳(1984—),女,土家族,贵州铜仁人,硕士研究生在读,研究方向:自然语言处理;通讯作者:陈俊(1979—),男,苗族,贵州铜仁人,教授,博士,研究方向:自然语言处理;常国将(1998—),男,汉族,云南昭通人,硕士研究生在读,研究方向:中小学编程教育。