刘晋泽,肖枫涛,王伊
[摘 要] 在MOOC教育蓬勃发展的背景下,军队在互联网上开设了军职在线平台,并引进了学堂在线等知名地方学习平台中的大量优质MOOC。为了更好地进行管理、维护,如何从这些引进的MOOC中找出相似的资源并归类,成为当前军职在线的资源运营工作所面临的问题。鉴于此,实现了一种基于协同过滤的MOOC相似资源聚类算法,并基于军职在线中的用户真实学习数据开展了实验,结果表明,该算法可有效发现军职在线中的相似MOOC的资源并将其聚类,为平台资源运营工作开展提供了便利。
[关 键 词] 协同过滤;相似聚类;MOOC
[中图分类号] G642 [文献标志码] A [文章编号] 2096-0603(2021)50-0140-02
一、引言
国内在线教育从2013年以来发展迅速,MOOC(Massive Open Online Courses,大规模开放在线课程)逐渐成为一种流行的学习模式[1],学堂在线、中国大学MOOC、智慧树等一系列MOOC学习平台应运而生[2]。在此背景下,我军在互联网上开设了军职在线平台,为部队官兵和社会人员提供学习服务。根据相关政策,军职在线、同学堂在线、中国大学MOOC等地方学习平台开展了深度合作,引进了这些平台中的大量优质MOOC,学习资源也得到迅速扩充。与此同时,为了更好地进行管理、维护,如何从这些来自不同平台的MOOC中找出相似的资源并归类,成为当前军职在线的资源运营工作所面临的问题。鉴于此,本文实现了一种基于协同过滤的MOOC相似资源聚类算法,旨在提升平台运营人员对相似MOOC进行归类的效率。
二、基本概念及研究现状
聚类是指将一个数据集中的离散点划分为不同的簇,使同一个簇中的数据点具有较高的相似性,而不同的簇之间的点具有较低的相似性[3]。聚类和分类最大不同之处在于聚类所要求划分的类是未知的,聚类是观察式学习,而不是示例式学习[4]。从机器学习的角度来讲,聚类是搜索簇的无监督学习过程,它不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象则由预先设置的类别标记。对于军职在线的资源运营人员而言,他们事先不知道平台上的MOOC应该被划分为哪些类别,因此是一个典型的聚类过程。
聚类分析的常用方法是相似性度量,然而相似是比较主观的概念,在实际计算中往往采用距离这一量化的数值来衡量相似性。德国数学家闵可夫斯基提出了一组用于衡量N维时空中的两点之间间隔的定义,被称为闵可夫斯基距离,其在一维空间和二维空间的特例分别又被称为曼哈顿距离和欧氏距离[5]。印度统计学家马哈拉诺比斯提出了马氏距离,它与欧氏距离不同的是考虑到了各种特性之间的联系,并且是尺度无关的[6]。余弦相似度首先将数据点映射为向量,再通过计算任意两个向量的夹角余弦值来衡量它们之间的距离,进而评估相似度[7]。英国数学家皮尔逊提出了相关系数,它是研究变量线性相关程度的统计指标,也用于反映变量之间的距离[8]。俄罗斯数学家莱文斯坦提出了莱文斯坦距离,它是指两个文本字符串之间,由一个转成另一个所需的最少编辑操作次数[9]。
如果将一门MOOC映射为一条向量,其属性包含标题、简介、教师、所属院校等,都是文本类字段,然而,对于MOOC来说,难以通过简单的文本差异比对来衡量其相似性。因此,尽管研究者已经提出了很多基于距离度量的相似性量化算法以便于聚类分析,但不适合采用这些方法测算MOOC之间的相似度。
三、算法介绍
协同过滤是一种经典的推荐算法,最早被用于网络新闻过滤[10],与基于距离度量的相似性量化不同,协同过滤算法,尤其是基于物品的协同过滤算法,不是根据物品自身的内容属性来计算物品之间的相似度,而是通过用户对物品的行为记录来量化物品之间的相似性。本文基于MOOC数据类型的实际情况,通过分析用户对MOOC的学习行为以求解MOOC之间的相似性,进而进行相似资源的聚类,由此实现了一种基于协同过滤的MOOC相似资源聚类算法,其总体流程如图1所示。
在算法中,第一步是构建“用户——MOOC倒排表”,表示每门MOOC被哪些用户所喜爱,本文规定,如果用户选择了某一门MOOC,并且学习进度超过50%,则视为用户喜爱该门课程,即:
Preferenceu,k=1 Progressu,k ≥ 0.50 Progressu,k < 0.5 公式(1)
其中,Preference(u,k)表示用户u对MOOC k的喜爱程度,Progress(u,k)表示用户u在MOOC k上的学习进度。
第二步是計算MOOC之间的相似度,对于MOOC i和MOOC j,如果喜爱MOOC i的用户中,有越多的用户也喜欢MOOC j,则MOOC i和MOOC j的相似度越高,即:
Similarityi,j=■ 公式(2)
其中,Similarityi,j表示MOOC i和MOOC j之间的相似度,Ni表示喜爱MOOC i的用户数,Nj表示喜爱MOOC j的用户数。
然而,当一门MOOC k十分热门,大部分用户都喜爱它时,使用公式(2)进行相似度计算会造成所有MOOC都与该门MOOC k相似。为了避免这种情况,可将计算方法改进为公式(3):
Similarityi,j=■ 公式(3)
第三步是基于第二步的计算结果,填充MOOC相似度矩阵,接着第四步即基于该相似矩阵,利用谱聚类算法对MOOC集合进行聚类。
四、实验分析
本文基于军职在线中的用户真实学习数据开展了实验,通过分析超过1000万条用户的学习行为记录,将平台中的8000余门MOOC分成了若干类,再交由资源运营人员进行人工确认。表1列出了部分MOOC聚类的结果,实验发现,大量用户同时选修了“隋唐建筑概说”“明清古典园林”“元明城市与建筑”等,这些课程对建筑类专业的用户大有帮助。“大国航母与舰载机”“我国周边14个陆地邻国基本情况介绍”“军事理论”“孙子兵法中的思維智慧”也经常被一起选修,运营人员将其归为了国防军事类课程。此外,还有“贞观之治”“光武中兴”“楚汉之争”等历史爱好者喜爱的课程等。运营人员反馈,基于该算法的聚类结果,极大地提升了他们对相似MOOC进行归类的效率。
五、结语
本文针对军职在线MOOC数量较多、平台运营人员难以归类相似MOOC的问题,实现了一种基于协同过滤的MOOC相似资源聚类算法,并基于平台的用户真实学习数据开展了实验。结果表明,该算法可有效发现军职在线中的相似MOOC的资源并将其聚类,为平台资源运营工作开展提供了便利。
参考文献:
[1]王雪宇,邹刚,李骁.基于MOOC数据的学习者辍课预测研究[J].现代教育技术,2017,27(6):94-100.
[2]程翥,李贵林,刘海涛.中国高等教育平台现状分析[J].高等教育研究学报,2014,37(2):15-19.
[3]白璐,赵鑫,孔钰婷,等.谱聚类算法研究综述[J].计算机工程与应用,2021(14):15-26.
[4]李璐萍,赵小兵.基于文本聚类的主题发现方法研究综述[J].情报探索,2020(11):121-127.
[5]周志华.机器学习[M].北京:清华大学出版社,2016.
[6]黄飞,周军,卢晓东.基于马氏距离的一维距离像识别算法仿真[J].计算机仿真,2010,27(3):31-34.
[7]张振亚,王进,程红梅,等.基于余弦相似度的文本空间索引方法研究[J].计算机科学,2005,32(9):160-163.
[8]何春雄,龙卫江,朱锋峰.概率论与数理统计[M].北京:高等教育出版社,2012.
[9]Navarro G. A guided tour to approximate string matching[J].ACM computing surveys(CSUR),2001,33(1):31-88.
[10]Resnick P,Iacovou N,Suchak M,et al. Grouplens:An open architecture for collaborative filtering of netnews[A].Proceedings of the 1994 ACM conference on Computer supported cooperative work[C],1994:175-186.
◎编辑 栗国花