蒋冬梅
(北京市海淀区职工大学,北京 100083)
随着基于Web的现代远程教育的发展,模拟教师的智能,按学习者的学习行为和学习状态动态导航学习内容,提供个性化教学服务,已成为开发远程教育系统的需求。
目前,国内外研究人员已开展了学习系统的自适应性研究,并取得了一定的成果。系统自适应性的关键是实现对学习者学习情况的诊断和资源推荐,通常采用分析学习者的学习特征与资源特征间关系的方式。Brusilovsky[1]开发的自适应学习系统,根据学习者的学习能力进行学习情况诊断和资源推荐。CHEN C M等[2]开发的自适应学习系统,根据学习者能力和学习资料的难度推荐资源。WANG H C等[3]开发的自适应学习系统,根据学习者特征和学习资源特征的最大相似度匹配策略进行学习者情况的诊断和资源推荐。知识是分层次的,以知识点来推进整个学习过程,更符合认知规律。但上述系统未考虑某一知识点对整个单元知识体系的影响,忽略了从流媒体对象的角度考察学习者交互式请求的学习特征,不能充分反映学习者的学习适应性。此外,由客观题测试得到的测试结果并不能充分反映学习者的学习情况。因此,本文从学习者学习特征、知识点类别和测试结果出发,预测学习者的学习情况和知识水平,并根据学习者的学习情况与学习者的知识水平最大匹配策略推荐学习资源。
对于学习者学习某一单元的流媒体课件后是否能进入下一单元的预测属于数据挖掘和人工智能的范畴。
自适应点播系统模型如图1所示。系统定期或触发式地检查服务器日志,从服务器向用户流化数据时产生的流化日志条目和用户对流化到缓存的数据进行访问时产生的播放日志条目中了解用户访问流媒体课件的情况,如用户的IP地址、访问 ID、访问的视频名称、起始时间、观看视频的时间以及前跳、暂停、后跳交互请求等[4]。经过一个单元的学习后,得到一张学习过程记录表,其形式如表1所示。系统根据学习特征自动诊断学习者学习情况,即内容容易、内容较难、内容难。
图1 自适应点播系统模型图
表1 学习过程记录表
学习者学习一个单元后进入单元测试,并自动生成单元成绩测试表,如表2所示。系统根据各类知识点成绩预测学习者拥有该单元的知识水平,即水平高、水平一般、水平较低、水平极低。
表2 单元成绩表
系统自适应地设置视频点播导航及相关资源的调整策略如下:
R1:IF学习者感觉学习内容难and(学习者当前的知识水平极低or低)THEN点播导航为前驱视频单元及提供相应学习资源链接。
R2:IF学习者感觉学习内容难and(学习者当前的知识水平一般or高)THEN导航为当前单元练习测试及提供相应学习资源链接。
R3:IF(学习者感觉学习内容较难 or容易)and(学习者当前的知识水平极低)THEN点播导航为当前视频单元及提供相应学习资源链接。
R4:IF(学习者感觉学习内容较难 or容易)and(学习者当前的知识水平较低)THEN导航为当前单元练习测试及提供相应学习资源链接。
R5:IF(学习者感觉学习内容较难 or容易)and(学习者当前的知识水平一般or高)THEN点播导航为后继视频单元及提供相应学习资源链接。
对学习者学习情况和知识水平分类诊断需要进行数据挖掘。常用的分类预测方法很多,贝叶斯分类法因简单易行、分类效果较好而被广泛应用。
朴素贝叶斯分类基于类条件独立性假设,在已知先验概率与条件概率情况下进行分类识别。令U={X1,X2,……,Xn,C}是有n个属性的离散型随机变量的有限集,具有 m 个类的类集 C={Ci,i=1,2, ……,m}, 类 Ci发生的概率P(Ci)是先验概率,由训练集数据计算所得。由于拾取了观测数据X,对分类结果有了新的认识,根据式(1)找到具有最大概率P(Cj|X)的类作为分类预测的结果,这就是贝叶斯估计。
其中,P(Cj)=Sj/S=类Cj的训练集样本数/训练集样本总数;P(Xk|Cj)=Sjk/Sj=属于 Cj类且属性 Ak取值 a的训练样本数/属于类Cj的训练样本数。
由于某单元各类知识点的分数段与预测类别之间存在或大或小的关联,需尝试对属性与类别之间的关联进行量化,放松朴素贝叶斯中条件独立假设,以提高贝叶斯分类器的准确度和分类效率。特征加权的贝叶斯分类的模型如式(2)、(3)所示。
[5]提出了通过有序加权算子作为概率乘积的权重办法,参考文献[6]提出用ID3信息增益的决策树技术确定权重,参考文献[5]和参考文献[6]忽略了特征属性与其他各个类别间的相关度,并需要考虑权值为0的问题。参考文献[7]用互信息可信度的方式标识条件属性与类别之间相互关联的强弱程度,进一步提高分类准确率,但它的计算时间长。为此,将特征权值改进为式(4):
其中,S′k为训练集中属性 Ak取值 a的样本数。
由于 Wkj≥1,所以用式(3)比式(2)更能突显重要属性对分类的影响。基于概率加权的朴素贝叶斯分类算法如下:
(1)数据预处理,从成绩表中选取训练样本和测试样本。
(2)扫描训练集生成统计表,统计具备某种知识水平时各类知识点的不同分数段的样本数,以及各类知识点的不同分数段的样本数。
(3)概率参数学习,生成概率表。
(4)权值参数学习,计算属性 Xk的权 Wkj。
(5)生成加权贝叶斯分类器,按式(3)生成概率表及权值列表。
(6)调用概率表及权值列表得分类结果。
根据学习者操作媒体的特征预测学习者的学习情况是容易、较难或难,可使用朴素贝叶斯分类的方法实现。贝叶斯分类是在某一指定的时刻进行的。在流媒体课件的播放过程中,学习者对媒体的操作是不断变化的,它与时间t有关,因此,学习者的学习情况集要用时序状态集来表示,即 C={Ci,i=1,……,m(m=3)}t={容易,较难,难}t,t=1,2,3……,T。 学习情况 Ci的概率 Pt(Ci)表示它们的统计特征。这里,t为广义时间单位,即定期诊断或检测次数乘以间隔时间得到的实时时间[7]。相应地,任何时刻学习情况Ci的后验概率公式为:
加入时序t的朴素贝叶斯分类过程如下:
(1)初始化先验信息:t=0,根据历史数据计算 P0(Ci)(i=1,2,……,m)。
(2)以 Pt(Ci)为先验概率,按式(5)计算 t=t+1时刻的后验概率 Pt(Ci|Xj)。
(3)若 t≤T,则返回(2),否则输出预测结果。
为了验证算法的有效性,基于校园局域网环境,对23名学习者学习网络基础、C#程序设计两门课程流媒体课件的部分数据,用朴素贝叶斯分类法NB、概率加权的贝叶斯分类法PWNB、加入时序的贝叶斯分类法TNB进行测试,结果如表3所示。结果表明,上述贝叶斯分类器预测学习者的学习情况和知识水平的算法简单有效,根据学习者的学习情况与学习者的知识水平最大匹配策略推荐资源的方法可行。
以上讨论了学习系统中自适应流媒体点播系统的实现过程及学习者学习情况、知识水平的诊断流程,设计了一个自适应流媒体点播系统模型,重点讨论了贝叶斯分类算法,并应用于实际教学。通过学习者学习过程中反馈的数据,评估系统及算法设计的合理性、科学性。
表3 实验结果表
参考文献
[1]BRUSILOVSKY P.Layered evaluation of adaptive learning systems[J].Int.J.Cont.Engineering Education and Life Long Learning, 2004,14(4):402-421.
[2]CHEN C M,LEE H M,CHEN Y H.Personalized E-learning System Using Item Response Theory[J].Computers&Education, 2005, 44(3):237-155.
[3]WANG H C, LI T Y, CHANG C Y.A Web-based tutoring system with styles-matching strategy for spatial geometric transformation[J].Interacting with Computers, 2006,18(3):331-355.
[4]Huseyin Koyun.Logging model for windows media services[EB/OL].http://www.microsoft.com/ardcles/LoggingModel.Aspx September.2007.
[5]YAGER R R.An extension of the naive Bayesian classifier[J].Information Sciences,2006,176(5):577-588.
[6]HALL M.A decision tree-based attribute weighting filter for Naïve Bayes[J].Knowledge-Based Systems,2007,20(1):120-126.
[7]令狐红英,陈梅,王翰虎,等.基于互信息可信度的贝叶斯网络入侵检测研究 [J].计算机工程与设计,2009,30(14):3288-3290.
[8]吴今培.模糊诊断理论及其应用[M].北京:科学出版社,1995.