基于频繁项集的资源推荐技术在网络教学平台中的应用研究

2014-11-01 07:27吴振慧
扬州职业大学学报 2014年1期
关键词:项集关键字学习者

吴振慧,缪 勇

(扬州职业大学,江苏扬州 225009)

随着网络技术和多媒体技术的发展,越来越多的人开始通过互联网进行学习。相比于传统的学习方式,网络学习的优势在于学习者的学习活动完全不受时间、空间限制,使学习者实现了真正的自主学习。但目前的状况是多数网络教学平台仍以系统为中心,并没有充分考虑学生的需求与习惯,无法满足学习者的个性化要求。主要表现在:

(1)现有的网络教学网站基本上都是静态的,通常只是将教师的各种教学资料堆砌在网站中,缺乏对不同学习内容之间的合理性设计。

(2)不同层次的学生所能够利用的网络资源都是相同的,缺乏对学生自主学习的个性化引导和推荐。

(3)现有网络教学平台对资源信息的检索支持程度还比较弱,学习者难以高效地寻找到自己真正需要的学习资源。[1]

上述这些问题制约了网络教学的进一步发展。如何建立一个个性化智能化的网络教学环境,成为网络教学平台开发和利用中的一个关键问题。

针对这个问题,本文提出将智能推荐技术运用到网络教学平台中,并以基于频繁项集的资源推荐为例进行具体的推荐,以此为学习者提供智能化服务。

1 智能推荐技术

智能推荐就是能够根据不同用户的兴趣爱好提供有针对性服务的一种技术。智能推荐系统能够根据不同用户的个性特征,为他们做出个性化的推荐。目前,智能推荐系统比较广泛地应用于电子商务和数字图书馆等领域,能够根据用户的商品购买历史或图书借阅记录,按照相应的推荐算法帮助用户完成对其它商品或图书的选择。目前,几乎所有大型的电子商务系统,如Amazon、eBay等,都在一定程度上使用各种形式的推荐系统,如Amazon能够充分利用用户的浏览体验、购买历史,以及用户购买商品后的评价,为其他用户做出有效的商品推荐。

所以,如果在网络教学平台中增加智能推荐服务的功能,就能有效提高学习者获取学习资源的智能化水平,满足不同学习者的个性化需求。[2]

2 基于频繁项集的资源推荐

学习者在利用网络教学平台学习的过程中,常常会下载自己所需的资源(如word文件、ppt文件或视频文件等)。这些资源通常由管理员或教学工作者提供,如果规定上传资源时必须提供关键字,则针对所下载资源的关键字组可进行频繁项集的挖掘。这样,学习者在下次登录时,系统就可以根据挖掘结果对学习者进行其他相关学习资源的推荐。

类似地,学习者也会使用系统提供的搜索功能,寻找平台中提供的各种教学资源,针对学习者的搜索关键字进行频繁项集挖掘,其结果也可以用于资源推荐。

2.1 Apriori算法

对于某个数据库的记录而言,通常每个记录都是由多个数据项来组成的,我们将多个数据项的集合称为项集(Itemset),那么含有k个数据项的集合就称k-项集。某个项集的出现频率则是整个数据集中含有该项集的记录的数量,这也被称为这个项集的支持度(supportcount)。如果某一项集的出现频率大于一定阈值的频率就可以称为频繁项目集,记为Lk。

下面以2017年全国高考北京卷理科的第18题为例,对题目条件相关问题进行了探究,以揭示看似简单的条件背后的秘密.

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。在该算法中,寻找最大项集(频繁项集)的基本思想是:算法需要对数据集进行多步处理。第一步,简单统计所有含一个元素项集出现的频数,并找出那些不小于最小支持度的项集,即1项频繁集。从第二步开始循环处理直到再没有频繁项集生成。循环过程是:第k步中,根据第k-1步生成的(k-1)项频繁项集产生k项频繁侯选集,然后对数据库进行搜索,得到侯选项集的项集支持度,与最小支持度进行比较,从而找到k项频繁集。对于Apriori算法的详细过程在此不再赘述。[3]

2.2 基于下载资源关键字的频繁项集挖掘流程

利用Apriori算法的频繁项集挖掘思路,可以对登录用户下载资源关键字进行频繁项集挖掘,其挖掘流程如图1所示。

在图1所示的频繁项集挖掘流程中,Apriori-Gen运算运用连接定理根据k项频繁集生成k+1项频繁候选集。若有两个k项集,每个项集按照“属性-值”(一般按值)的字母顺序进行排序。如果两个k项集的前k-1个项相同,而最后一个项不同,则证明它们是可连接的,即这两个k项集可连接生成k+1项集。如有两个3项集:{a,b,c}{a,b,d},这两个 3项集就是可连接的,它们可以连接生成4项集{a,b,c,d}。又如两个3项集{a,b,c}{a,d,e},这两个3项集显示是不能连接生成3项集的。

2.3 频繁项集挖掘实例

假设有如下9组下载资源关键字:

java jsp struts,jsp spring,jsp hibernate,java jsp spring,java hibernate,jsp hibernate,java hibernate,java jsp hibernate struts,java jsp hibernate。

按上述算法及流程挖掘频繁项集步骤如下所示:

(1)对上述9组下载资源关键字进行一次扫描,对每个项进行计数(即计算支持度),得到1项频繁候选集 C1,其中{java}、{jsp}、{hibernate}、{spring}和{struts}支持度分别为 6、7、6、2和2。

(2)舍掉C1中支持度小于阈值(假设阈值为2)的项集,得到1项频繁集L1,L1=C1。

图1 基于下载资源关键字的频繁项集挖掘流程图

(3)运用Apriori-Gen运算,由1项频繁集L1生成2项频繁候选集C2。对上述9组下载资源关键字进行第二次扫描,对C2中的每个项进行计数。其中{java jsp}、{java hibernate}、{java spring}、{java struts}、{jsp hibernate}、{jsp spring}、{jsp struts}、{hibernate spring}、{hibernate struts}、{spring struts}的支持度分别为 4、4、1、2、4、2、2、0、1、0。

(4)舍掉C2中支持度小于阈值2的项集,得到2项频繁集L2。L2中包括的项有:{java jsp}、{java hibernate}、{java struts}、{jsp hibernate}、{jsp spring}、{jsp struts}。

(5)运用 Apriori-Gen运算,由2项频繁集L2产生3项频繁候选集C3。C3中包括的项有:{java jsp hibernate}和{java jsp struts}。对上述9组下载资源关键字进行第三次扫描,对C3中的每个项进行计数。其中,{java jsp hibernate}和{java jsp struts}的支持度分别为2、2。

(6)舍掉C3中支持度小于阈值2的项集,得到3项频繁集L3。L3=C3。

(7)运用Apriori-Gen运算,由3项频繁集L3产生4项频繁候选集C4。C4中只有一项,即{java jsp hibernate struts},扫描下载资源关键字组,计算其支持度为0,小于阈值2,因此4频繁项集不存在。频繁项集挖掘结束。

2.4 基于频繁项集的推荐策略

在网络教学平台中,当学习者登录后,根据学习者下载资源的频繁项集,从系统其他资源(该学习者未下载或未发现)中获取包含频繁项集的资源,将其通过页面弹窗或超链接等方式推荐给学习者,可以有效提高学习者查找资源的效率和对平台的满意度。

2.5 推荐功能的实现

当某个学生登录后,单击“根据频繁项集推荐”超链接,页面中列出不同频繁项集下推荐结果列表,如图2所示。

图2 根据关键字频繁项集推荐结果

从图2可以看出,频繁度越高,推荐资源数越少,此时推荐的资源越接近用户的需求。

用于推荐的资源来源于系统资源库,假如系统中包含如图3所示的课件资源。

图3 系统课件资源列表

备注用于记录了资源的关键字,资源关键字由教师或管理员上传资源时提供。根据关键字计算频繁项集时,不是针对所有资源的关键字,而是只考虑该学生已下载过(或访问)的资源关键字,这样更能反映用户对资源的需求情况。学生下载(或访问)资源记录表如图4所示。

图4 下载(或访问)资源记录表

其中,stuid字段表示下载(或访问)资源的学生编号,coursewareid表示资源的编号(课件号),以学生编号2为例,先根据其所下载(或访问)课件资源编号获得这些资源的关键字集合,然后依次计算它们的频繁2项集、3项集…,直到找到最大频繁项集。进行资源推荐时,从资源库中将该用户未下载(或访问)且关键字包含在频繁项集中的资源显示出来,推荐给用户。

3 结语

本文的主要任务是在网络教学平台中研究并初步实现智能推荐的功能。首先对智能推荐技术及挖掘频繁项集的Apriori算法进行简要介绍,然后给出基于在线辅助教学系统中下载资源关键字的频繁项集的挖掘流程,并基于频繁项集给出推荐策略,最后对推荐结果进行展示与分析,验证了文中所研究的推荐技术具有一定的可行性。

[1]吴飞.新一代网络教学平台特征和技术难点的分析与探讨[J].开放教育研究,2009(1):10-20.

[2]丁雪.基于数据挖掘的图书智能推荐系统研究[J].情报理论与实践,2010(5):107-110.

[3]曾子明,余小鹏.电子商务推荐系统与智能谈判技术[M].武汉:武汉大学出版社,2008.

猜你喜欢
项集关键字学习者
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
你是哪种类型的学习者
十二星座是什么类型的学习者
成功避开“关键字”
青年干部要当好新思想的学习者、宣讲者、践行者
基于矩阵相乘的Apriori改进算法
不确定数据的约束频繁闭项集挖掘算法
高校学习者对慕课认知情况的实证研究
分布式数据库的精简频繁模式集及其挖掘算法*
智能垃圾箱