一种基于Web挖掘技术的远程个性化学习平台的设计与实现

2017-12-11 10:45黄金晶
苏州市职业大学学报 2017年4期
关键词:页面数据挖掘个性化

黄金晶

(苏州工业园区服务外包职业学院 软件与服务外包学院,江苏 苏州 215104)

一种基于Web挖掘技术的远程个性化学习平台的设计与实现

黄金晶

(苏州工业园区服务外包职业学院 软件与服务外包学院,江苏 苏州 215104)

将Web挖掘技术应用于远程教育,设计一种个性化学习平台,通过收集用户的访问行为,分析用户的访问模式,为教师进行分组网络教学、资源推送提供依据,有助于用户实现个性化学习。

远程教育;Web挖掘;个性化学习

远程教育是传统教育的补充,它建立在现代信息技术平台上,是一种新的教学模式[1]。随着计算机技术不断发展,远程教育逐渐展现了其突破时间、空间限制的优势,体现了以学习者为中心,并能为用户提供更加丰富的教学资源。用户在网站上访问的过程中,会留下大量的访问数据,将Web数据挖掘技术[2]运用于远程教育平台中,通过分析用户在学习过程中的相关数据,获得用户学习的特征信息,建立相应的学习模型,为用户提供个性化的学习环境。

1 研究现状

目前,网络教学在国外已成为主流教学方式之一。EML-ART是最早的个性化网络教学平台之一,现在美国已有超过350所高校通过网络平台来授课,如Blackboard、eCollege等。将Web挖掘技术应用于个性化学习,国内外有较为深入的研究,利用贝叶斯网络、神经网络等构建学生的学习模型,预测学习者的学习动态,为学习者提供相关的学习资源。文献[3]将数据挖掘技术用于在线辅助教学平台的设计。文献[4]将ID3和Apriori的算法融入个性化网络学习平台中。文献[5]根据学习者的认知水平为用户推荐难度适合的学习资源。本研究主要从学习者的学习兴趣出发,根据学生个性化的学习需求,利用top-k查询为用户推荐最具价值的k个节点。

2 系统设计目标

远程教育通常是通过在网站上的信息展示来进行的。一个远程教育网站由若干页面构成,页面间存在交叉链接。如图1所示的是一个网站结构的示意图。用户在学习过程中,会在各页面间切换,且在某些特定页面会停留一定的时间,从而形成一个学习模式,如图2和图3所示。

图1 网站结构图

图2 用户A的学习模式

图3 用户B的学习模式

由图1至图3可以看出,用户在学习系统中的学习是通过在某网页(节点)的停留来体现的,同时不同的用户访问页面和在页面间切换的顺序是不同的,体现了用户的个性。为了便于描述系统的设计目标,特给出如下定义。

定义1(学习):一次学习是一个二元组〈v,t〉,其中v代表网站结构图中的某一个节点(即页面),t是用户在该节点停留的时长。

定义2(学习模式):学习模式是由若干次学习构成的序列S=(〈v1,t1〉,〈v2,t2〉,…,〈vn,tn〉)。

个性化学习平台的设计目标是建立从历史学习模式样本库到某一特定用户user的可能最感兴趣的前k个节点的映射关系,即从网站访问历史中为特定用户user求出一个节点集合,构成映射关系fuser∶{S1,1,S1,2,…,S1,n}→{v1,v1,…,vk}。

个性化学习平台可以根据用户的访问模式,挖掘用户的兴趣、爱好,通过相关的推送技术将用户所需的学习资源动态地呈现在页面上,最大程度地满足了用户个性化学习的需求,有利于提升学习的效率。

3 远程个性化学习平台的实现方法

个性化学习平台的目标是为某特定用户推荐可能最感兴趣的前k个节点。给定某特定用户,系统通过top-k查询方法[6]求出对该用户最具推荐价值的k个节点。

top-k查询方法的节点评价函数f(v)=αA+βB+γC,

式中:v为某一特定网页;A为某用户访问v的频度;B为全部用户访问v的频度;C为该用户的相似用户访问v的频度;α、β和γ均大于0,且α+β+γ=0。

单纯使用A值做推荐的缺陷是无法推荐出用户未访问过的节点;单纯使用B值做推荐是基于无差别的平均值,缺乏推荐的针对性和特异性;使用f(v)=αA+βB+γC做推荐可以兼顾个人、群体和同类人群访问偏好,推荐效果较好。

使用f(v)值进行推荐的难点是求出C值。为方便叙述C值的求解方法,特给出如下相关概念的定义。

定义3(学习模式的节点序列):设有学习模式S=(〈v1,t1〉,〈v2,t2〉,…,〈vn,tn〉),则称ρ(S)=(v1,v2,…,vn)为学习模式S的节点序列。

定义4(学习模式的Levenshtein距离):设有学习模式S1=(〈v1,1,t1,1〉,…,〈v1,n,t1,n〉)和S2=(〈v2,1,t2,1〉,…,〈v2,m,t2,m〉),则学习模式S1和S2的Levenshtein距离[7]是指ρ(S1)和ρ(S2)之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个节点替换成另一个节点,插入一个节点,删除一个节点。

定义5(学习模式相似度):设S1和S2是两个学习模式,则S1和S2的Levenshtein距离η(S1,S2)被称为这两个学习模式的相似度。

定义6(用户相似度):设{S1,1,S1,2,…,S1,n}和{S2,1,S2,2,…,S2,m}分别为用户1和用户2的学习历史。不失一般性,假设n

由上述定义可以看出,求f(v)值的关键在于求出两个学习模式的Levenshtein距离。算法1描述了用动态规划方法[8]求两个学习模式的Levenshtein距离的方法。

算法1:整数Levenshtein距离(ρ1=(v1,1,v1,2,…,v1,n),ρ2=(v2,1,v2,2,…,v2,m))

// 声明变量,d[n,m]用于记录(v1,1,v1,2,…,v1,n)与(v2,1,v2,2,…,v2,m)的Levenshtein距离

int d[n,m]

// 初始化

for i from 0 to m do d[i,0]:=i

for j from 0 to n do d[0,j]:=j

// 用动态规划方法计算Levenshtein距离

for i from 1 to m do {

for j from 1 to n do {

// 计算替换操作的代价,如果两个字符相同,则替换操作代价为0,否则为1

if ρ1[i]==ρ2[j] then cost:=0

else cost:=1

// d[i,j]的Levenshtein距离,可以有

d[i,j]:=minimum

(

// 在ρ1上ρ1[i]位置删除 (或者在ρ2上i位置插入ρ1[i])

d[i-1,j]+1,

// 在ρ1上j位置插入ρ2[j](或者在ρ2上j位置删除ρ2[j])

d[i-1,j]+1,

// 替换操作

d[i-1,j-1]+1+cost

)

}

}

return d[n,m]

4 验证与效果

4.1 数据采集与处理

网站中的日志[9]记录了用户的访问信息,从这些日志中可以分析出不同用户的访问行为。用户的访问日志记录如表1所示。

此外,当用户登录到系统,通过跟踪用户的行为,比如用户点击的URL、访问信息的类型、学习课件的内容及时间,获得用户的访问兴趣。

根据挖掘的内容,将原始采集到的数据进行清洗和转换,将其转变成适合挖掘的模型。比如想要对学习数据结构的用户进行聚类,教师根据学生不同的学习进度进行资源的推送[10],可以将原始数据转换成如表2所示的结构。

表1 用户访问日志

表2 转换后的数据表

由表2所示的数据表明,“数据结构”这门课程,学生在最近一段时间每个章节累计的访问时间,以分钟为单位。比如Alice在章节1访问了5 min,在章节2访问了93 min,其他章节没有访问。

4.2 方法与结果

取数据集中的80%作为推荐的素材,余下20%作为检测推荐结果的素材。推荐结果的准确率、召回率和F值见表3。

表3 推荐结果的准确率、召回率和F值

4.3 实现效果

图4所示的是个性化学习模块,通过分析用户的学习行为,给他推送了相关学习资料,包括学习文档、书籍等。

4.4 方法对比

文献[3]主要利用关联规则挖掘,找到各章节易错知识的联系,对学生的学习行为进行指导。文献[4]侧重于利用分类算法和关联规则挖掘算法,为用户进行学习策略的推荐。文献[5]更多地考虑学生认知能力水平和学习资源难度之间关系,构建适合学习者能力水平的个性化学习机制。本文则更加关注学习者的学习兴趣,利用top-k查询,设计了相关评价函数,为特定用户推荐可能最感兴趣的前k个学习资源,帮助用户能快速找到自己感兴趣的学习内容。

图4 个性化学习模块实现图

5 结论

远程教学不同于传统教学模式,学习者可以通过网络根据自己的兴趣、水平选择相关的学习内容。本研究在远程教学平台中引入个性化服务,设计了一种基于Web挖掘技术的远程个性化学习平台,教师可以根据不同类别的用户组织网络教学,推送用户感兴趣的学习资源,真正做到因材施教。

[1] 王春旸.网络远程教育学习行为及效果的分析研究[D].成都:西南交通大学,2011.

[2] 韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[3] 樊妍妍.基于数据挖掘个性化在线教学辅助系统的研究与设计[D].合肥:安徽大学,2011.

[4] 林真真.基于个性化学习的网络教学平台研究—以衡水科技工程学校为例[D].石家庄:河北师范大学,2016.

[5] 葛庆敏.基于WEB的个性化学习指导系统设计与开发[D].济南:山东师范大学,2016.

[6] ROCHA-JUNIOR J B, GKORGKAS O, JONASSEN S, et al. Ef fi cient processing of top-k spatial keyword queries,2011[C]// Advances in Spatial and Temporal Database 12th Intl Symp, Minneapolis: Springer Press, 2011.

[7] 姜华,韩安琪,王美佳,等.基于改进编辑距离的字符串相似度求解算法[J].计算机工程, 2014,40(1):222-227.

[8] 唐名华.数据结构与算法[M].北京:电子工业出版社,2016.

[9] 张小娣.一种改进的Web日志挖掘数据预处理方法[J].计算机工程与应用,2006,42(17):160-162.

[10] 朱楠.个性化推荐算法在网络教学中的应用[J].科技通报,2013,29(4):127-129.

Design and Implementation of a Web Mining Based on Distance Personalized Learning Platform

HUANG Jin jing

(School of Software and Service Outsourcing,Industrial Park Institute of Services Qutsourcing,Suzhou 215104,China)

This paper applies web mining technology to the distance education and designs an individual learning platform. It collects users’ accessing behavior and analyzes their access patterns, providing the basis for group teaching with Internet and resource pushing. It is beneficial for users to realize personalized learning.

distance education;Web mining;personalized learning

TP391

A

1008-5475(2017)04-0020-05

10.16219/j.cnki.szxbzk.2017.04.006

2017-08-02;

2017-08-20

江苏省现代教育技术课题(2015-R-41388)

黄金晶(1984-),女,安徽黄山人,讲师,博士生,主要从事数据挖掘研究。

黄金晶.一种基于Web挖掘技术的远程个性化学习平台的设计与实现[J].苏州市职业大学学报,2017,28(4):20-24.

(责任编辑:李 华)

猜你喜欢
页面数据挖掘个性化
刷新生活的页面
探讨人工智能与数据挖掘发展趋势
坚持个性化的写作
新闻的个性化写作
基于并行计算的大数据挖掘在电网中的应用
上汽大通:C2B个性化定制未来
一种基于Hadoop的大数据挖掘云服务及应用
满足群众的个性化需求
基于GPGPU的离散数据挖掘研究
Web安全问答(3)