张 莹 宋 磊 韩 丹 蔡永明
济南大学商学院 山东济南 250022
自美国麻省理工学院2001年启动开放课程运动后,各国200多所名校逐渐加入开放课程体系。近年来,国内网络教育平台进入飞速发展时期,目前较著名的平台主要有网易公开课、MOOC学院、Coursera等。大量优质课程资源在各大学习平台聚集,涵盖国内外高校开设的精品开放课程,学习者可以通过网络挑选课程并进行自主学习。然而,面对海量的学习资源,学习者如何快速找到适合自己的课程资源成为一大难题。学习者大多通过课程简介选择课程,很多人往往花费了数小时之后才发现课程内容、讲授方式并不适合自己。因此,急需一种方法帮助学习者快速、有效地把握课程内容、讲课风格及讲授质量。
在网络课程内容评价方面,早有研究者从各个角度给出评判。宋志明[1]提出传承知识、启迪智慧,满足学习者的学习需求是网络公开课的主要目的。刘进军(2011)[2]提出要建立完善的评价体系,实行学生和专家打分评价的模式。孙传远(2013)分析爱课程网的评论内容得出了开放课程质量评价的八个维度,给出正面或负面的评价倾向[3]。上述研究主要停留在人工评价方面,面对海量课程信息该方法费时费力,效率不高。本文利用LDA文本挖掘技术通过抽取用户评论的主题,获取课程的内容主题及用户评论的情感倾向,为后来学习者提供课程选择的重要依据。
潜在狄利克雷分配模型LDA是由DavidM.Blei等人在2003年提出的一种概率主题模型。其在PLSA基础上,增加了文档-主题分布及主题-特征词的Dirichlet共轭先验,生成一种更完备的概率主题模型。其贝叶斯生成图如图1所示。图中,K为主题个数,M为文档总数,Nm是第m个文档的单词总数。 是每个主题下词的多项分布的 Dirichlet先验参数,是每个文档下主题的多项分布的 Dirichlet先验参数。Zm,n是第m个文档中n个词的主题,Wm,n是m个文档中的n个词。两个隐含变量 m和 k分别表示第m个文档下的主题分布和第k个主题下的单词分布,前者是k维(k为主题总数)向量,后者是v维向量(v为词典中单词的总数)。
图1 LDA贝叶斯生成模型图
文档的生成过程可描述为:首先,依据参数 ,生成文档-主题多项式分布 和主题-单词多项式分布 ;其次,对第m篇文档,随机抽样 得到文档中每个词的主题分布 m;根据所得每个词所在的主题k,随机抽样 k到主题上的一个单词。持续该过程直到生成整篇文档。
本文以网易公开课浙江大学《王阳明心学》为研究对象,该课程共9集,由浙江大学董平老师主讲,目前在网易公开课平台上有5874人参与学习,579人跟帖评论。自课程站点(http://open.163.com/movie/2011/10/F/G/ M7GF17HPS_M7GHGQTFG.html)利用火车头软件抓取该页面中的用户评论数据,部分评论数据如下面图2所示:
图2 《王阳明心学》网络评论数据
为保证分类过程中各环节的透明化,以减少中间过程的不可控因素,因此分词方法主要采用中科院ICTCLAS分词系统进行分词,经过分词、去除重复词汇和停用词、以及网页非文字符号,生成分析语料库。对模型进行训练以获取最优参数的设定,将LDA模型中超参数 和 设为默认值 =50/k,=0.01,迭代次数设置为1000次。本文采用困惑度结合肉眼观察结果,模型主题数最终确定为4个。从主题分布上看,比较突出的主题词是“王阳明”,查看相关主题词主要有:“不错”、“内容”、“平淡”、“唯心”……,分析可见该课程隶属唯心主义范畴,内容尚可,讲课风格比较平淡。
对网络课程的在线评论进行主题抽取,能快速获取评论中的有效信息内容,为后来学习者和主讲教师提供了重要的参考依据。不足之处在于,受分词影响,主题挖掘仅能获取零散的用户评论中的情感词,未能全面刻画课程不同纬度的精确情感倾向。因此,下一步拟针对网络课堂在线评论展开意见挖掘研究。
[1]宋志明.视频公开课“中国传统哲学通论”建设的经验与体会[J].中国大学教学,2012,(1):13-15.
[2]刘进军.视频公开课:有挑战才有价值[J].中国教育网络,2011,(7):20.
[3]孙传远,刘玉梅.中国大学视频公开课评价——基于爱课程网“精彩评论”的内容分析研究[J].现代教育技术,2013,23(12):91-95.