徐振国 王佳宁 王悦 郭顺利 谢万里
[摘 要] 自媒体平台存在海量在线课程,但质量良莠不齐,严重影响学习者的学习体验和学习效率,因此,探索客观、准确、高效的自媒体平台在线课程质量评价方法成为亟待解决的现实问题。针对该问题,研究首先构建在线课程质量评价体系,并利用层次分析法确定各指标权重。其次,利用深度学习和自然语言处理等技术对在线课程评论数据进行粗粒度情感分析和细粒度情感分析,以实现自媒体平台在线课程质量评价。最后,采集Bilibili平台在线课程评论数据进行应用研究,并通过实验证实该方法具有较高的可行性、可信度和准确率,可实现对自媒体平台在线课程质量的有效评价,以促进在线课程良性发展,优化学习者的学习体验。
[关键词] 在线课程; 自媒体平台; 课程质量; 深度学习; 课程评价
[中图分类号] G434 [文献标志码] A
[作者简介] 徐振国(1989—),男,山东泰安人。副教授,博士,主要从事教育人工智能、数字化学习资源、在线学习行为研究。E-mail:xu.zhen.guo@163.com。谢万里为通讯作者,E-mail:wanlix2021@163.com。
一、引 言
党的二十大报告指出,推进教育数字化,建设全民终身学习的学习型社会、学习型大国。当前,以Coursera、Udacity、中国大学MOOC等为代表的MOOC平台和以YouTube、Bilibili、抖音等为代表的自媒体平台包含大量在线课程资源,成为学习者开展在线学习和终身学习的重要渠道[1]。自媒體平台具有传播速度快、影响范围广、交互性强等鲜明特点,持续保持良好发展势头[2]。与MOOC平台课程相比,自媒体平台课程拥有相对多元的授课风格、更轻松的学习氛围和更便捷的交互形式,深受学习者喜爱。然而,自媒体平台课程的准入门槛较低,缺乏监管约束,导致课程质量良莠不齐,学习者通常需要花费较长时间才能找到满足学习需求的高质量课程。课程质量评价能够通过对课程的科学评判,实现课程筛选和优质课程推荐[3],从而提高学习者的学习体验和学习效果,并激励上传者开发更多优质课程。因此,探索客观、准确、高效且有针对性并易于操作的自媒体平台在线课程质量评价方法成为目前亟待解决的现实问题。研究利用深度学习和自然语言处理等技术对在线课程的评论数据进行情感分析,以实现对自媒体平台在线课程质量的有效评价,促进在线课程的提质增效和日臻完善。
二、相关研究
传统的在线课程质量评价主要有三种方法:专家评价法、质量标准评价法和学习者评价法。然而,每种方法都有其局限性。专家评价法是选择具备扎实专业知识的专家和具有丰富教学经验的教师,以“背靠背”打分的方式对在线课程做出定量评价[4]。此种方法优点是具有较强的可靠性、适应性和稳定性,并能够在有限的数据资料条件下进行定量估计;缺点是费时费力,并依赖于专家的知识和经验,通常用于小规模优质课程评选。质量标准评价法是采用成熟的准则作为评估标准,然而此方法常常忽视学习者的学习体验。学习者评价法是学习者按照自己的标准和体验对课程进行评价,虽然该方法体现了学习者的主体性,但学习者的评分通常具有较强的概括性,并易受学习者主观倾向的影响,根据评分往往难以确定影响在线课程质量优劣的因素。
自媒体时代用户生成内容(User Generated Content,UGC)承载着信息传播、思想碰撞、情感宣泄等多种功能[5],弹幕、评论等互动方式具有新颖性、即时性、交互性、简便性、风格化等特征,深受青年群体的青睐,并是用户表达诉求、态度和观点的重要方式。针对自媒体平台在线课程,学习者的弹幕和评论既可表达真实想法,也可抒发内心情感。因此,部分研究者利用数据挖掘方法,对学习者的弹幕、评论等内容进行分析,以便弥补传统在线课程质量评价方法的缺陷。Cong Qi、Xian Peng、Aytu Onan等基于传统机器学习方法,挖掘学习者评论所隐含的态度倾向,实现对在线课程的评价[6-8]。相较于态度倾向,情感倾向更能反映学习者对在线课程的直观感受,以及对教师和课程的真实意见,评论的情感倾向需要借助文本情感分析方法进行判断。目前研究者常采用WordNet、HowNet、Ntusd等词典实现对在线课程评论数据的情感分析[9]。基于情感词典的文本情感分析方法耗时费力,所得结果的准确性依赖于所选取情感词典的质量和覆盖范围。随着计算机性能的提升和人工智能算法的优化,有研究表明,基于深度学习的文本情感分析方法具有更高的准确率和更强的适应性,综合性能优于基于情感词典的方法[10]。
综上所述,目前研究者主要围绕Coursera、Udacity、中国大学MOOC、学堂在线等MOOC平台在线课程进行研究,对自媒体平台在线课程缺乏关注。在线课程质量评价多基于学习者评论内容的态度倾向和情感倾向,其情感倾向识别常应用情感词典和传统机器学习方法。构建适用且科学的在线课程质量评价体系,并基于深度学习算法对学习者评论进行情感分析,以此实现对自媒体平台在线课程质量的评价,可更好地体现课程质量评价的导向作用、激励作用、反馈作用和辨别作用,并提升自媒体时代学习者的学习体验。研究以Bilibili平台在线课程为研究对象,基于深度学习模型ERNIE对在线课程的评论数据进行情感分析,从学习者的角度探讨在线课程质量的评价方法。
三、研究设计与方法
研究主要包括两个步骤:第一,构建自媒体平台在线课程质量评价体系,通过德尔菲法征集专家意见,并根据专家意见进行完善;利用层次分析法,采用9级比例标尺构造判断矩阵,进而得出评价体系各指标的权重。第二,提出基于深度学习的自媒体平台在线课程质量评价方法,包括在线课程评论数据采集与预处理、计算TF-IDF值确定关键词、选取在线课程质量评价体系各指标的标签词;使用深度学习模型ERNIE对课程评论数据进行情感分析,并加权计算在线课程的最终得分。研究过程和方法如图1所示。
(一)自媒体平台在线课程质量评价体系构建
目前,研究机构已发布诸多有关在线课程质量评价体系的文件,如我国教育部教育信息化技术标准委员会制定的《网络课程评价规范》、美国国防部高级分布式学习联合实验室发布的《网络教学设计与评价指南》、英国高等教育质量保证署发布的《远程学习质量保证指南》等。此外,姚凯等建立了包括5个一级指标的MOOC评价指标体系,从教学设计、课程内容、界面设计、媒体技术、课程管理等方面对MOOC进行评价[11]。童小素等以《网络课程评价规范》为蓝本,探索性地建立了包含3个一级指标和26个二级指标的MOOC质量评价指标体系[12]。刘颖等构建了信息素养MOOC教学质量评价体系,利用层次分析法计算指标权重,并采用模糊综合评价法对部分信息素养MOOC教学质量进行评价[13]。
本研究根据既有在线课程质量评价研究成果和自媒体平台特点,初步构建自媒体平台在线课程质量评价体系,通过德尔菲法征集教育技术、远程教育等领域专家意见,对其进行完善。研究构建的自媒体平台在线课程质量评价体系见表1。
(二)采用层次分析法确定指标权重
层次分析法(Analytic Hierarchy Process,AHP)强调定量和定性相结合,具有过程明晰、运算简便、结果明确、系统性强等特点,能够有效解决难以用定量方法解决的实际问题[19]。本研究利用Yaahp软件计算自媒体平台在线课程质量评价体系各指标权重,并对判断矩阵进行一致性检验。首先,邀请教育技术和远程教育领域的5位专家对各指标进行两两比较,构建判断矩阵。其次,将数据录入Yaahp軟件,进行权重计算。经过计算,自媒体平台在线课程质量评价体系各指标权重见表1。最后,计算一致性比例C.R.。结果显示,一致性比例C.R.小于0.1,符合要求,判断矩阵为满意一致性矩阵。
自媒体平台在线课程质量评价体系各指标中,能力层面、教学实施、情感层面、认知层面、技术支持所占权重较高。相比较而言,学习效果下的3个指标较为重要。与MOOC平台不同,自媒体平台对学习者的学习过程很难进行监督和考核,通过学习者的评论内容可以得知学习者对课程各方面的评价,以及学习课程后学习者在认知、能力、情感等方面是否得到了提升。各指标权重反映了专家们结果导向的、基于学习效果的评价倾向。此外,专家们意识到,自媒体平台在线课程同质化程度越来越高,并指出应该更加重视能使在线课程质量产生较大差异的指标。由于目前自媒体平台多数在线课程仍以教师讲授为主,课程开设门槛较低,很多教师没有教育学背景,甚至没有任何教学经验,致使课程质量难以达到预期。因此,专家认为教学设计与实施较为重要,是保证学习者学习效果的前提和基础,权重仅次于学习效果维度,其中的教学实施在二级指标中所占权重较高。
(三)基于深度学习的自媒体平台在线课程质量评价方法
文本情感分析,也称为倾向性分析、意见挖掘,是指利用数据挖掘、机器学习、自然语言处理等智能技术对文本的观点、情绪、极性等进行分析,以便对文本的情感倾向作出判断。本研究通过粗粒度情感分析和细粒度情感分析的综合应用评价自媒体平台在线课程质量。
1. 基于深度学习的粗粒度情感分析
百度于2019年推出基于深度学习的语义理解预训练模型ERNIE,其使用多层Transformer作为基本编码器,并强调对知识进行整合,以达到增强表达的目的[20]。ERNIE借鉴了BERT的掩码策略,在基本级别掩码基础上,增加短语级别掩码和实体级别掩码。基本级别掩码是指将句子视作由基本的语言单元组成,具体而言,汉语的基本语言单位是汉字;短语级别掩码是将由多个基本语言单位组成的短语作为概念单元进行屏蔽;实体级别掩码是将地名、人名、组织等专有名词抽象为实体进行屏蔽。通过多阶段知识掩码策略,可以获得语义信息丰富的表达。实验结果显示,ERNIE在语义相似度、自然语言推理、文本情感分析等自然语言处理任务方面优于BERT等方法。此外,训练数据方面,ERNIE除了使用百科类、资讯类中文语料外,还引入论坛对话类数据,进一步提升模型的语义表示能力,使其在基于上下文的知识推理中具有较好表现,以便更好地捕捉上下文情感信息,从而实现更高精度的正负性情感划分。因此,本研究使用ERNIE进行粗粒度情感分析,以得到单条评论语句的情感得分。
2. 基于自然语言处理的细粒度情感分析
本研究中细粒度情感分析是指利用通过粗粒度情感分析得到的单条评论语句情感得分和通过TF-IDF值计算筛选出的标签词,进行更为细致层面的情感倾向分析,以求得在线课程在评价体系各指标的得分。
(1)标签词选取
TF-IDF算法用以评估某个词在文本集中对某份文本的重要程度,越重要则越可能是此份文本的关键词,是目前常用的无监督关键词提取算法。这种算法在提取关键词时将词语位置属性考虑到了关键词选择的指标当中,能甄别在语料中多次出现的非关键词以及偶尔出现的关键词。TF-IDF算法由TF算法和IDF算法组成。TF(Term Frequency)指词频,TF算法是统计字词在某份文本中出现的次数,即求字词在文本中出现的频率,频率越高,说明该字词越重要。IDF(Inverse Document Frequency)指逆向文件频率,IDF算法是统计某个字词出现在多少份文本中,字词在越少的文本中出现,说明其对文本的区分能力越强。某个字词的IDF值具体计算方法是文本总数除以包含该字词的文本数量,再将求得的商取对数。TF-IDF值是TF值与IDF值的乘积,本研究中将关键词按照TF-IDF值降序排列,取前n个词作为关键词,通过此种方法得到的关键词具有较好的代表性。然后根据构建的自媒体平台在线课程质量评价体系,从关键词中选取与评价体系各维度相匹配的词作为标签词。
(2)在线课程各指标情感得分计算
在粗粒度情感分析基础上,结合各指标标签词进行细粒度情感分析。首先,将标签词作为索引,通过与每条评论语句逐一匹配,实现每条评论语句到评价体系各指标的映射。其次,根据每条评论语句的情感得分,计算在线课程在各指标的情感得分。若有多条语句与某指标匹配,则取与之匹配的所有评论语句情感得分的平均值。最后,结合评价体系各指标权重进行加权计算,得出在线课程的最终得分,以实现对自媒体平台在线课程质量的评价。
四、自媒体平台在线课程质量评价方法应用
(一)数据采集与处理
1. 评论数据采集
Bilibili是国内知名自媒体平台,截至2022年12月注册用户数量达3.5亿,并且设有专门的在线课程栏目。因此,本研究选择Bilibili作为数据来源。研究以数学、英语、地理、历史、计算机编程、物理等为关键词在Bilibili中搜索在线课程,将搜索结果按照评论数量降序排列,每种随机选取3个评论数量高于1000的在线课程,共选取18门在线课程作为研究对象。Bilibili提供了丰富的应用程序接口(Application Programming Interface,API),可利用API获取在线课程的评论数据。本研究首先利用Python的request模块获取json数据;然后对其进行解析,以便定位对应的评论数据字段;最后,读取评论的详细内容。
2. 数据清洗与预处理
由于网络文化的多样性、开放性和自由性,在线课程的评论内容复杂多样,通常有超越传统表达的信息,如绘文字、颜文字、表情符号等,甚至还存在广告信息、垃圾信息和低俗用语等。这些信息无用且对正常研究造成干扰,影响文本情感分析的效率和准确性。因此,要在情感分析前对通过网络爬虫得到的数据进行清洗,删除无效的有害信息和干扰信息,提高数据分析的有效性。
与此同时,对爬取的数据进行整理,剔除评论内容中的标点符号、数字等无效字符以及停用词。停用词包括你、他(她)、你们、他们(她们)等人称代词,的、地、得、所等助词,哟、啊、哎、哇等语气词等。这些词语在文本中出现次数较多,但是对文本情感分析并无实际意义。最后,删除重复评论以及少于3个字符的无效评论。经过数据清洗和预处理,共得到有效评论数据86099条。
(二)标签词选取
1. TF-IDF值计算
本研究利用Python中的jieba库对有效评论数据进行分词,并计算TF、IDF和TF-IDF的值。jieba是目前常用的第三方中文分词库,支持三种分词模式,即精确模式、全模式和搜索引擎模式。部分关键词及其TF-IDF值见表2。
2. 标签词选取
本研究将关键词按照其TF-IDF值降序排列,并从中选取前3000个关键词。根据前面构建的自媒体平台在线课程质量评价体系,从中选取与评价体系各指标相匹配的词作为标签词。表3描述了在线课程质量评价体系中各指标对应的部分标签词。
(三)粗粒度情感分析
ERNIE是百度推出的较为成熟的语义理解预训练模型,得到广泛应用,并取得令人满意的效果。因此,本研究通过百度的自然语言接口AipNlp调用预训练的深度学习模型ERNIE,进行粗粒度情感分析,并逐句计算情感得分。例如,“老师的声音真好听,逻辑清晰,学习真快乐”的情感得分为0.9998,“一位只会念教材、原理不分析、说话听不清、提问不回答的老师”的情感得分为0.0190。
(四)细粒度情感分析
对根据粗粒度情感分析得到的在线课程单条评论语句情感得分和标签词进行细粒度情感分析,以便得到在线课程质量评价体系各指标的得分情况。图2为选取的18门在线课程各指标的情感得分。
(五)自媒体平台在线课程质量评價
根据自媒体平台在线课程质量评价体系各指标权重和通过细粒度情感分析得出的各指标情感得分,计算在线课程质量的加权得分,以此作为在线课程的最终得分,用于评价在线课程质量。本研究选取的18门在线课程的最终得分如图3所示。
五、自媒体平台在线课程质量评价方法验证
既有研究指出,Bilibili平台用户往往通过点赞、收藏等行为表达对视频的认可和喜爱[21]。为了验证本研究提出的自媒体平台在线课程质量评价方法的应用效果,本研究首先随机选取Bilibili平台评论数量高于1000的另外10门在线课程,然后邀请3位教育技术领域专家通过背靠背打分的形式对这10门课程进行评价,最后结合点赞数和收藏数等客观平台数据进行应用效果分析。
为了保证3位专家评价结果的一致性,本研究采用肯德尔和谐系数对主观评价的信度进行检验。结果显示,肯德尔和谐系数为0.927,并在0.01水平上显著相关,说明3位专家的评价结果较为可信。取3位专家打分的平均值作为每门课程的最终得分,并归一化到0~1之间,保留三位有效数字。结果如图4所示,虽然每门课程专家评价法得分和本研究方法得分并不完全相同,但根据得分的折线趋势和基于得分的课程排序可知,本研究方法对在线课程质量的评价结果和专家评价法的结果基本一致。
结合点赞数和收藏数进一步分析,课程8是中学物理课程,综合得分最高,同时拥有16.8万次点赞和28万次收藏。笔者学习该在线课程发现,该课程视频、音频的质量较高,授课教师着装正式,仪态大方,普通话标准,思路清晰,并且通过自编趣味“顺口溜”的方式帮助学习者掌握知识点,因此,深受在线学习者的喜爱。课程9是语言类课程,该课程由于各维度都有较多消极评论,其综合得分小于0.5。多数学习者评论该课程过于浅显、视频质量差、虚假宣传、内容陈旧、包含广告等,例如,“完全就是蹭热度的视频,一点干货没有,无语”“大家别浪费时间了,内容真的很无语”“看了以后感觉没有讲什么很有用的东西,这些方法早就知道了,别人都讲了好多遍”。因此,其点赞数和收藏数与同类课程相比较少,笔者学习该在线课程后确认学习者的评论基本属实。
綜上所述,本研究提出的在线课程质量评价方法具备较高的可行性和可信度,评价效果较为理想,对自媒体平台在线课程质量有一定的评价效用。
六、结 语
针对自媒体平台在线课程质量评价问题,本研究首先根据既有研究和自媒体平台特点构建自媒体平台在线课程质量评价体系,该体系包括4个一级指标和9个二级指标;然后通过层次分析法确定各指标的权重,专家们具有以结果为导向的评价倾向,同时肯定了异质性在自媒体平台在线课程质量评价中的重要性,具体体现为学习效果和教学设计与实施两个指标的权重较高;接着,利用深度学习模型ERNIE对学习者评论数据进行文本情感分析,学习者是学习的主体,其评论内容包含着对课程的真实感受和情感倾向;最后,对各指标权重和各指标情感得分进行加权计算,以便对在线课程质量进行整体评价。与传统的在线课程质量评价方法相比,本研究所提方法效率高,更具客观性和实效性,可满足大数据时代对海量在线课程的评价需求。但也存在一些局限性,用于文本情感分析的标签词是人工从TF-IDF值较高的关键词中筛选的,工作量繁巨且不可避免地受到筛选者主观意识的影响。未来研究和实践中,将尝试通过聚类分析等方法选取标签词,并比较探讨两种方法的准确性。此外,本研究仅以Bilibili平台部分在线课程为例,接下来将扩大数据采集范围,以增强评价方法的普适性。
[参考文献]
[1] CURRAN V, SIMMONS K, MATTHEWS L, et al. YouTube as an educational resource in medical education: a scoping review[J]. Medical science educator, 2020, 30: 1775-1782.
[2] 黄楚新.我国自媒体发展现状、问题及对策[J].人民论坛,2022(22):104-107.
[3] 王璐,赵呈领,万力勇.基于扎根理论的在线开放课程质量评价指标体系构建研究——以国家精品资源共享课为例[J].中国远程教育,2017(11):70-76.
[4] 肖婉,卢锋,季一木.什么样的在线课程受学习者欢迎?——基于15门在线课程评论的文本挖掘与组态分析[J].电化教育研究,2023,44(5):60-66.
[5] 李欣苗,陈云.基于特征选择和倾向分析联合优化的UGC情感自动识别方法[J].管理工程学报,2019,33(2):61-71.
[6] QI C, LIU S. Evaluating on-line courses via reviews mining[J]. IEEE access, 2021, 9: 35439-35451.
[7] PENG X, XU Q. Investigating learners' behaviors and discourse content in mooc course reviews[J]. Computers & education, 2020, 143: 103673.
[8] ONAN A. Sentiment analysis on massive open online course evaluations: a text mining and deep learning approach[J]. Computer applications in engineering education, 2021,29(3):572-589.
[9] 聂卉,首欢容.基于修正点互信息的特征级情感词极性自动研判[J].图书情报工作,2020,64(5):114-123.
[10] GENG S, NIU B, FENG Y, et al. Understanding the focal points and sentiment of learners in mooc reviews: a machine learning and sc-liwc-based approach[J]. British journal of educational technology, 2020,51(5):1785-1803.
[11] 姚凯,李思志,李艳红,等.MOOC评价模型研究[J].复旦教育论坛,2017,15(3):65-71.
[12] 童小素,贾小军.MOOC质量评价体系的构建探究[J].中国远程教育,2017(5):63-71,80.
[13] 刘颖,吉久明,李楠,等.学生视角下的MOOC课程教学质量评价体系构建研究——以学术信息素养类MOOC课程为例[J].图书馆杂志,2021,40(2):95-103.
[14] 教育部教育信息化技术标准委员会.网络课程评价规范[EB/OL].(2014-03-17)[2023-06-30]. http://www.doc88.com/p-062198781 6389.html.
[15] DYOMIN V, MOZHAEVA G, BABANSKAYA O, et al. Mooc quality evaluation system: tomsk state university experience[EB/OL].(2017-05-20)[2023-03-25].https://link.springer.com/chapter/10.1007/978-3-319-59044-8_23.
[16] SUNG Y T, CHANG K E, YU W C. Evaluating the reliability and impact of a quality assurance system for e-learning courseware[J]. Computers & education, 2011,57(2):1615-1627.
[17] MILLIGAN C, LITTLEJOHN A. Supporting professional learning in a massive open online course[J]. International review of research in open and distributed learning, 2014,15(5):197-213.
[18] JANSEN R S, VAN LEEUWEN A, JANSSEN J, et al. Supporting learners' self-regulated learning in massive open online courses[J]. Computers & education, 2020,146:103771.
[19] 徐振国,赵春雨,王悦,等.智慧学习环境下大学生深度学习的影响因素[J].现代教育技术,2023,33(1):58-65.
[20] 沈彬,严馨,周丽华,等.基于ERNIE和双重注意力机制的微博情感分析[J].云南大学学报(自然科学版),2022,44(3):480-489.
[21] 黄炜,沈欣芸,李伟卿.视频博客Vlog用户的持续使用行为影响因素研究——以Bilibili为例[J].现代情报,2022,42(6):69-79.
Research on Quality Evaluation of Online Courses for We Media Platforms
Based on Deep Learning
XU Zhenguo1, WANG Jianing2, WANG Yue1, GUO Shunli1, XIE Wanli1
(1.School of Communication, Qufu Normal University, Rizhao Shandong 276826;
2.Research Institute of Science Education, Beijing Normal University, Beijing 100875)
[Abstract] There are a large number of online courses on we media platforms, but the quality is uneven, which seriously affects the learning experience and learning efficiency of learners. Therefore, exploring objective, accurate and efficient quality evaluation methods of online courses for we media platform has become a practical problem to be solved. To address this problem, this study firstly constructs an online course quality evaluation system, and uses the analytic hierarchy process to determine the weight of each index. Secondly, deep learning and natural language processing technologies are used to conduct coarse-grained sentiment analysis and fine-grained sentiment analysis of online course review data in order to realize the quality evaluation of online courses on we media platforms. Finally, the review data of online courses on Bilibili platform is collected for application research, and the experiment has proved that the method has high feasibility, credibility and accuracy, and can realize the effective quality evaluation of online courses on we media platforms, so as to promote the healthy development of online courses and improve the learning experience of learners.
[Keywords] Online Courses; We Media Platforms; Course Quality; Deep Learning; Course Evaluation
基金項目:2020年国家自然科学基金青年科学基金项目“学习画面情感对学习者情感的影响机制及其自适应调整方法研究”(项目编号:62007020);2022年中国博士后科学基金资助项目“在线学习环境下学习画面情感的自适应调整方法研究”(项目编号:2022M711883)