李宁 刘志勤 王耀彬
摘 要:本平台通过引入社会化标签,改进了推荐算法,弥补了协同过滤算法的数据稀疏问题,通过社会化标签对学习资源进行标注,进而计算出学习资源间的相似度,得到用户对未评分资源的评分,填充了评分矩阵。本平台对学习者和学习资源建模的过程进行了详细的阐述,尤其注重了对学习者隐形数据的提取和收集,为学习者更准确地推荐他们感兴趣的学习资源。
关键词:社会化标签;学习平台;协同过滤
中图分类号:TP311.56 文献标志码:B 文章编号:1673-8454(2014)19-0044-04
引言
泛在学习是一种随时随地的、个性化的学习过程,是人们最喜欢的一种学习模式。泛在学习是现在信息社会最流行的一种非正式学习方式,它弥补了数字学习的不足和限制,也是构建学习型社会的主要途径之一。泛在学习环境中需要数量巨大的各类学习资源,但由于泛在学习的随时随地性与个性化等特点,学习主体对各类资源的需求层出不穷,如果能在数量巨大的各类学习资源中找到学习者需要的学习资源,屏蔽那些学习者不喜欢的学习资源,建立起这种学习者与学习资源的匹配机制,将大大提高学习者的学习效率。[1]不同的学习者兴趣爱好不同,为不同的学习者提供自己喜欢的学习资源,让学习资源来适应学习者,这将是以后研究的热点。
一、个性化学习的现状
目前绝大多数的网络学习资源平台都可以对本平台的资源进行管理,可以进行资源的分类浏览和基于关键知识点的资源检索功能,当不同的学习者访问网络学习资源平台,平台为所有学习者的服务是完全一样的,未考虑每位学习者的个性化需求,不能为学习者提供他们需要的、想要的服务和需求。 “大量资源”和个性化学习网络的人的需求之间的矛盾就已经存在,这种矛盾的存在,一方面降低了资源的有效利用、造成了资源的浪费;另一方面给学习者使用资源带来了诸多困难。[2]
个性化推荐是目前一种重要的解决“信息过载”问题和提供个性化服务的方案。个性化推荐是利用已有的Web用户兴趣爱好和行为信息,讲web学习者和学习资源关联起来,通过Web用户与Web用户、Web用户与学习资源之间相似性、相关性关系挖掘和发现学习者潜在感兴趣的学习资源,进而对Web学习者进行个性化推荐服务。本质上是对信息进行帅选、提取,它根据Web用户的偏好、兴趣等,对其提供具有个性化特征的信息产品推荐。
二、推荐策略的组合使用
1.社会化标签的引入
社会化标签是近几年新使用的一种标注网络资源的工具,其思想是根据用户的访问内容来判断用户的行为和需求,和基于内容的推荐很类似。基于内容的推荐技术是以资源信息为研究对象,利用信息检索技术来分析项目的内容,通常应用邻居函数和分类技术来分析和聚类项目的文本内容,并基于项目特征与用户档案产生推荐。[3]通过使用社会化标签,资源信息变得更加准确和明白,进而给资源信息定义了一种新的社会属性。
标签由用户定义,反应了用户的兴趣偏好,我们可以通过分析用户标签来判断出用户的兴趣爱好。同时,标签表达了与资源之间的语义关系,可以用来分析资源的潜在属性。我们可以根据标签建立相似资源集,为目标用户找到感兴趣的学习资源,同时社会化标签还提供了解决冷启动问题的方法。
因为标签可以由用户自己定义,会遇到同义词标签的问题,解决方法为:通过穷举的方式查询同义词库,对同义词标签进行归一。
2.协同过滤算法的改进
(1)通过社会化标签计算资源之间的相似度
对于新增的学习者,由于学习者对资源的评分很少,不能进行很好的协同过滤的推荐,这就是冷启动问题。这里我们根据用户注册时填写的兴趣标签,向学习者推送学习者所感兴趣标签相似度最大的资源。
对于评分数据稀疏的问题,我们通过社会化标签计算资源之间的相似度,通过资源间的相似度来对评分矩阵进行进一步的填充。其流程如图1所示。
1)计算资源之间的相似度。这里使用向量空间模型(VSM)对资源和社会化标签进行描述,向量空间模型就是用一组关键词及其权重(形如((key1,weighty1),(key2,weight2),(key3,weighty3),(keyn,weightyn)),其中n为关键词维度)。这里的关键词即转换为社会化标签,而权重通过TF-IDF算法计算得来(具体计算时,对于资源——标签,weight的计算公式为:tag在该资源中年出现的次数/该资源所有的标签数 + tag标识过的资源数量/总的资源数量),形成(tag1,weight1), (tag2,weight2), (tag3,weight3)……(tagn,weightn)再根据标签和资源形成资源—标签矩阵表。[4]
2)通过Pearson算法计算资源之间的相似度,选取相似度最大K个资源。Pearson算法:Tij表示标签i和标签j所标注的资源的交集,j表示标签j所占的平均权重,i表示标签i所占的平均权重。
3)根据资源的相似度来填充学习者——资源评分矩阵,解决数据稀疏问题。相似资源的集合Su,Rn,表示资源n的评分,sim(u,n)表示资源u、n的相似度,u表示资源u所得到的平均评分。
(2)通过协同过滤算法得到最相似的Top-N个学习者
协同过滤算法是根据学习者和资源的评分矩阵,计算出学习者之间的相似度,来推算出那些学习者没有进行评分的资源的评分,并且系统综合学习者的兴趣爱好,给学习者推送他们可能会评分高的资源[10]。基于协同过滤的个性化推荐具体流程:
1)得到m个用户对n个资源的评分矩阵。
2)通过Pearson算法计算用户的相似度,选取相似度最大的前k个用户。
Pearson算法:Iij表示用户i评过分的项目和j评过分的项目的交集,j表示用户j评分的平均分。endprint
3)根据用户的相似度得到用户对其他的没有评过分的项目的评分,产生推荐。相似用户的集合Su,Rn,j表示用户n对项目i的评分,sim(u,n)表示用户u、n的相似度,u表示用户u对项目的平均评分。
三、学习平台的架构
本学习平台设计主要分为三部分:学习者管理模块、资源管理模块、个性化推荐模块。其总体架构如图2所示。
学习资源建设主要通过两种方式:服务器中存放的大部分的学习资源、学习者自己上传自己感兴趣的资源。学习者模块主要是记录学习者的学习情况,分析学习者的兴趣爱好。学习者和资源之间有一个资源描述文件,该文件记录了资源本身的内容特征、学习者访问的次数、访问的时间和各种行为,形成一种学习者和资源之间的关系表。
个性化推荐模块是平台的主要功能模块。该模块中最主要的是推荐算法,推荐算法的使用直接会影响到本系统的准确性。该平台采组合使用了多种推荐算法,引入了社会化标签,并且对协同过滤算法做了一定的改进。
四、学习者模型和资源模型的具体构建
1.学习者模型
对学习者的学习兴趣抽取,并对兴趣爱好进行量化,建立学习者模型,并且不断地更新用户的兴趣变化,进一步地完善学习者模型,凸显出以学习者为中心的学习理念[2]。其创建流程如图3所示。
(1)显性数据的获取
显性数据主要包括学习者注册时填写的学习者的基本学习情况和相关的兴趣爱好以及学习者的直接评分和评价。学习者注册信息主要有学习者的教育层次、正在学习的课程资源、使用的资源标签、喜欢观看视频还是文字等。其相关数据如表所示。
(2)隐性数据的获取
学习者在平台中学习时,对学习资源就会产生收藏、下载、浏览、在页面停留的时间、浏览的次数和评价等学习行为,这些学习行为就表现出了他的学习兴趣,我们将学习者的学习动作收集并记录下来。根据学习者的行为的不同进行打分,作为学习者对资源的评分。[5]例如:浏览一次得2分、浏览并且收藏了得4.5分等。
用户特征的提取中,不同用户的浏览行为反映了不同用户的兴趣爱好,而且,用户的兴趣总会随着时间的变化,具有一定的漂移性,动态转移的。这样,在用户模型中,用户的兴趣度值也会相应变化的;用户对感兴趣的资源也会在一段时间内是高频点击浏览的,时间也是会越长的,那么,用户就会对其相应感兴趣的资源的兴趣度值也会提高。[6]
2.学习资源模型
学习资源是学习者学习、交流、互动的根本和媒介,建立符合学习者的学习资源模型同样重要,目前大多数学习资源的建立都是根据学习者的学习需求建立的,但是学习资源之间的联系很松散,学习资源都是在杂乱无序的生长,所以我们对学习资源进行统一的管理和归类。[7]
学习资源分为学习主题、学习文档、学习序列,每个资源都必须要用两个以上的标签进行标注,这样每个学习资源都用标签来代替,标签的引入有助于对资源内容进行分类,实现资源的统一管理和高度共享。
五、展望
1.推荐系统实时性的提高
推荐系统都需要学习者的反馈,所以会产生一个冷启动的问题,一个新的资源很难很快地推荐给学习者。如果系统可以及时地向学习者推荐新的学习资源,推荐的质量就要受到很大的影响,如何保证这两个的协调需要进一步的研究。
2.深化学习资源特征的描述
可以把学习资源先根据某些标准进行分类,并且和学习者的教育级别相结合,在大的方向上向学习者推荐。随着信息时代的发展,信息量的扩大,数据挖掘技术的发展,我们可以将协同过滤算法和数据挖掘相结合,向学习者更准确地推荐学习资源。同时加大对新的资源的引入和分类,将信息更及时地推向给学习者。
参考文献:
[1]杨丽娜,肖克曦,刘淑霞.面向泛在学习环境的个性化资源服务框架[J].中国电化教育,2012(7):84-88.
[2]杨丽娜,颜志军,孟昭宽.基于个性化推荐思想的虚拟社区学习共同体动态构建[J].现代教育技术,2012(1):88-92.
[3]王永固.基于协同过滤技术的学习资源个性化推荐研究[J].远程教育杂志,2011(3): 66-71.
[4]李高敏.基于协同过滤的教学资源个性化推荐技术的研究及应用[D].北京交通大学,2011:58.
[5]程成.基于社会化标签和混合模式的教学资源个性化推荐系统的设计[D].北京交通大学,2012:66.
[6]余胜泉,杨现民,程罡.泛在学习环境中的学习资源设计与共享——学习元的理念与结构[J].开放教育研究,2009,15(1):47-53.
[7]韩李侠.网络资源个性化推荐技术研究及应用[D].西北大学,2012:79.
(编辑:杨馥红)endprint