缪广寒
摘 要 利用数据挖掘技术中的贝叶斯分类技术可以对大量学习数据进行分析,确定其学习风格,完善个性化特征提取,为系统进一步的学习推荐与教学引导提供有效依据,进一步的提高学习质量与效率。
【关键词】叶贝斯分类 数据挖掘 个性化学习 学习风格
网络环境下的个性化学习是以学生作为教育系统的中心与教育服务主体。在个性化的教育系统中我们在营造数字学习氛围的同时要强调并坚持学生的主体地位,开展个性化学习,把它看作是一种探索式性、实践性、创造性的学习。实现网络个性化学习的关键在于根据学习者的信息数据分析提取个性化特征,进而实现对学习者的个性化推荐或教学指导。
本文针对目前网络学习系统中存在的个性化单一与实现难度大的问题,利用叶贝斯分类算法解决学习风格分类问题,让学生更深入的了解自己的学习模式与需求,实现真正自主式、个性化学习。
1 数据挖掘与分类
1995年,美国计算机学会(Association for Computing Machinery ,简称ACM)组织提出了数据挖掘(Data Mining)概念。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先未知的、但又是潜在有用的信息和知识的过程。数据挖掘又称为数据库中知识挖掘(Knowledge Discovery in Databases)、知识提取(Knowledge Extraction)、数据采矿等。
数据挖掘是一个跨学科技术领域,它是数据库技术、统计学、人工智能、数据可视化、信息提取、并行计算和分布式计算等多个学科结合的产物。发现潜在未知的规则,是数据挖掘的重要特征也是它的目标,它与数据分析的差别在于数据分析通常从一个假设出发,通过建立方程、模型来验证假设是否成立,而数据挖掘则是直接挖掘信息之中隐藏的规律,发现新的知识。
分类是常用的数据挖掘手段之一。它是将一组组个体分门别类的归入预先设定的几个类中。分类的目的是建立一个分类模型,该模型能把数据库中的数据项映射到类别中的某一个类别。常用的分类方法有:决策树分类方法、贝叶斯分类方法和规则归纳方法。
2 应用叶贝斯分类算法判定学习风格
学习风格是指学习者一贯持续的带有个性特征的学习方式,它是学习倾向和学习策略的总和。学习风格是个体在长期的学习过程中逐渐形成的,受特定的家庭、教育和社会文化的影响,通过个体自身长期的学习活动而形成,具有鲜明的个性特征。心理学认为人有七种学习风格:Linguistic(语言)、Logical(逻辑)、Visual(视觉)、Musical(音乐)、Kinesthetic(动觉)、Intrapersonal(内省)与Interpersonal(人际)。使用叶贝斯分类算法我们可以通过分析学习记录,获得学生的学习风格。 叶贝斯分类算法基于贝叶斯定理,应用于文本分类时,通过计算文本属于每个类别的概率.将该文本归为概率最大的一类中。
2.1 朴素贝叶斯分类和贝叶斯网络
贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。
P(A|B) = P(A^B) / P(B) = P(A)*P(B|A) / P(B)
其中P(A|B)表示在B发生的情况下A发生的可能性。其中P(A)是A的先验概率或边缘概率。(A|B)是已知B发生后A的条件概率, P(B|A)是已知A发生后B的条件概率, P(B)是B的先验概率或边缘概率,也作标准化常量。由此,贝叶斯定理可表述为:
后验概率 = (相似度*先验概率)/标准化常量
由于,比例P(B|A)/P(B)也有时被称作标准相似度,所以贝叶斯定理又可表述为:
后验概率 = 标准相似度*先验概率
贝叶斯分类方法是基于贝叶斯定理的,朴素贝叶斯(Naive Bayes)和贝叶斯网络(Bayesian Networks)看作是两种不同情形下的分类方法。
2.1.1 朴素贝叶斯分类
朴素贝叶斯分类方法是一个基于概率的分类方法,它通过计算后验证概率的方法来确定所属类别的概率。
Vj属于V集合, 其中Vmap是给定一个example,得到的最可能的目标值。其中a1...an是这个example里面的属性。这里面,Vmap目标值,就是后面计算得出的概率最大的一个.所以用max 来表示。
朴素贝叶斯分类默认基于一个简单的假定:给定目标值时属性之间相互条件独立。因此,该假定说明给定实力的目标值情况下。观察到联合的a1,a2...an的概率正好是对每个通过概率计算,从待分类的样本数据的属性 a1,a2,...,an 中求出最可能的分类目标值,即计算各类 Vj∈ V对于这组属性的条件概率 P(Vj|al,a2,...,an),其中j=1,2,...m(类别标识数),并输出条件概率最大的类别标识作为该样本数据的所属类别。这个假设是朴素贝叶斯不同于贝叶斯网络等其它贝叶斯分类算法的根本,也是朴素贝叶斯这个名称的由来。
2.1.2 贝叶斯网络
在实际应用中,大多数情况下不支持朴素贝叶斯的假设,即各特征并非彼此独立,此情况下可以使用贝叶斯网络进行分类。
贝叶斯网络是根据变量之间的依赖关系,使用图论方法表示变量集合的联合概率分布的图形模型,它引入了一个有向无环图(Directed Acyclic Graph)和一个条件概率表集合。DAG的结点v包括随机变量(类别和特征),有向连接E(A->B)表示结点A是结点B的parent,且B与A是有依赖关系的。同时引入了一个条件性独立(conditional independence)概念:即图中任意结点v在给定v的parent结点的情况下,与图中其它结点都是独立的,也就是说P(v|par(v),x1,x2...,xn) = P(v|par(v))。这里par(v)表示v的parent结点集,x1,x2,...,xn表示图中其它结点。如果已知所有联合概率值(joint distribution),那么就可以解决任何形式的概率问题。但现实中的特征集合数量过多(>10),几乎无法通过统计得到。所以,这个问题要通过条件独立的概念来对各条件概率值进行优化来解决。贝叶斯网络的建模有两个步骤:创建网格结构与估计每一个结点的概率表中的概率值。endprint
2.2 贝叶斯分类过程
在本学习系统中,主要使用朴素贝叶斯分类方法对网络学习某一体育课程的学习者的学习风格进行分类。
2.2.1 建立样本数据
根据体育学科的学习特点,我们可以把学习者的学习风格简要概括为视觉型(V)、语言型(L)和动觉型(K)。把每一个学习者看作一个矢量 S,学习者的每一次学习记录作为属性 Ai,学习者的风格(视觉型、听觉型和动觉型)作为可能的类别 C,对于随机分类向量S={a1,a2,…,an},由此知道 s对每个类别的概率P( Ci|S)分布,其中P( Ci|S) 由贝叶斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 计算得到,概率最大的那个就是 s的预测类别。
当学生登入系统时,系统首先根据学号查看学习风格数据库中是否有该生的学习风格类型记录,如果有,系统则推荐学生适合其风格的学习内容,如果无,则系统将学习者这次学习的学习记录保存在学生学习记录库的学习过程数据表中。
经过数据预处理,我们可以确保建模的数据是正确有效的。分析处理中我们需要得到分类模型需要的训练样本集的相关属性,包括文本学习次数(T)、视频学习次数(V)、活动次数(A)、文本学习平均成绩(TS)、视频学习平均成绩(VS)、活动成绩(AS)、学习风格类型(S)。当学生登录次数达到某值时,系统自动将这些属性值计算并存储。在分析训练样本时我们把学习次数属性值分为<5、5-10、>10 三个区间,将成绩分为 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。朴素贝叶斯分类法对于学习次数和学习成绩这类连续属性的类条件概率计算,一是把连续的属性用相应的离散区间替换进而离散化,或是通过训练数据估计分布的参数。
2.2.2 建立学习风格建模
根据贝叶斯的最大后验准则,对任一未知样本 s={a1,a2,…,an},确定后验概率 P(Cj| a1,a2,…,an),把最大的类确定为该样本的学习风格。具体步骤为:
(1)计算得到每一种学习风格类型的先验概率P(Ci )。
(2)相对于每个类别的概率 P(aj|ci),训练样本集计算得出各属性的所有取值。
(3)计算出未知样本对三种类别的概率,选取概率最大的类别为学生的学习风格类型。
其中,建立学习风格分类模型最关键的步骤就是建立训练样本集。见表2-1。
2.2.3 建立算法
根据上述分析,设计算法如下:
初始化训练集D;计算每个学习风格类型的先验概率
由上述算法得出概率最大的类别为学生的学习风格类型。
3 结论
本文将叶贝斯算法应用在判定学习者的学习风格中,发现了学生的学习成绩、学习兴趣与学习风格之间的潜在联系。经过实际应用发现当朴素贝叶斯分类的假定条件成立时,它是一种非常精确的分类方法。 使用贝叶斯分类对系统中的学习者的学习风格进行分类,其特点主要有:
(1)它结合了概率与贝叶斯网络的分类方法,可以利用领域知识和其它先验信息,计算假设概率。
(2)可以把所有的属性都参与分类。
(3)针对离散属性的对象进行分析。
(4)数据样本可以增加也可以减少,这样可以进行增量学习。
(5)利用有向图的表示方式非常直观,弧表示变量之间的关系。
参考文献
[1]田文诗.基于学习者行为的序列模式挖掘算法研究与实现[D].硕士学位论文,吉林:吉林大学,2011(05).
[2]邓晖、徐梅林.网络学习环境之个性化属性调查及启示[J].现代教育技术,2003.13(1):49-54.
[3]凌江荣.在e_Learning中建立自适应学习路径的研究[D].硕士学位论文,湖南:湘潭大学,2007.
[4]田晓辉.基于Web的个性化学习系统在远程教育中的应用研究[D].硕士学位论文,西安:陕西师范大学,2007.
[5]史春秀.基于数据挖掘的个性化学习系统的研究[D].硕士学位论文,天津:天津大学,2007.
[6]王志平.基于数据挖掘技术的个性化学习系统的研究[D].硕士学位论文,重庆:重庆大学,2007.
作者单位
1.无锡高等师范学校 江苏省无锡市 214000
2.无锡城市职业技术学院 江苏省无锡市 214000endprint
2.2 贝叶斯分类过程
在本学习系统中,主要使用朴素贝叶斯分类方法对网络学习某一体育课程的学习者的学习风格进行分类。
2.2.1 建立样本数据
根据体育学科的学习特点,我们可以把学习者的学习风格简要概括为视觉型(V)、语言型(L)和动觉型(K)。把每一个学习者看作一个矢量 S,学习者的每一次学习记录作为属性 Ai,学习者的风格(视觉型、听觉型和动觉型)作为可能的类别 C,对于随机分类向量S={a1,a2,…,an},由此知道 s对每个类别的概率P( Ci|S)分布,其中P( Ci|S) 由贝叶斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 计算得到,概率最大的那个就是 s的预测类别。
当学生登入系统时,系统首先根据学号查看学习风格数据库中是否有该生的学习风格类型记录,如果有,系统则推荐学生适合其风格的学习内容,如果无,则系统将学习者这次学习的学习记录保存在学生学习记录库的学习过程数据表中。
经过数据预处理,我们可以确保建模的数据是正确有效的。分析处理中我们需要得到分类模型需要的训练样本集的相关属性,包括文本学习次数(T)、视频学习次数(V)、活动次数(A)、文本学习平均成绩(TS)、视频学习平均成绩(VS)、活动成绩(AS)、学习风格类型(S)。当学生登录次数达到某值时,系统自动将这些属性值计算并存储。在分析训练样本时我们把学习次数属性值分为<5、5-10、>10 三个区间,将成绩分为 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。朴素贝叶斯分类法对于学习次数和学习成绩这类连续属性的类条件概率计算,一是把连续的属性用相应的离散区间替换进而离散化,或是通过训练数据估计分布的参数。
2.2.2 建立学习风格建模
根据贝叶斯的最大后验准则,对任一未知样本 s={a1,a2,…,an},确定后验概率 P(Cj| a1,a2,…,an),把最大的类确定为该样本的学习风格。具体步骤为:
(1)计算得到每一种学习风格类型的先验概率P(Ci )。
(2)相对于每个类别的概率 P(aj|ci),训练样本集计算得出各属性的所有取值。
(3)计算出未知样本对三种类别的概率,选取概率最大的类别为学生的学习风格类型。
其中,建立学习风格分类模型最关键的步骤就是建立训练样本集。见表2-1。
2.2.3 建立算法
根据上述分析,设计算法如下:
初始化训练集D;计算每个学习风格类型的先验概率
由上述算法得出概率最大的类别为学生的学习风格类型。
3 结论
本文将叶贝斯算法应用在判定学习者的学习风格中,发现了学生的学习成绩、学习兴趣与学习风格之间的潜在联系。经过实际应用发现当朴素贝叶斯分类的假定条件成立时,它是一种非常精确的分类方法。 使用贝叶斯分类对系统中的学习者的学习风格进行分类,其特点主要有:
(1)它结合了概率与贝叶斯网络的分类方法,可以利用领域知识和其它先验信息,计算假设概率。
(2)可以把所有的属性都参与分类。
(3)针对离散属性的对象进行分析。
(4)数据样本可以增加也可以减少,这样可以进行增量学习。
(5)利用有向图的表示方式非常直观,弧表示变量之间的关系。
参考文献
[1]田文诗.基于学习者行为的序列模式挖掘算法研究与实现[D].硕士学位论文,吉林:吉林大学,2011(05).
[2]邓晖、徐梅林.网络学习环境之个性化属性调查及启示[J].现代教育技术,2003.13(1):49-54.
[3]凌江荣.在e_Learning中建立自适应学习路径的研究[D].硕士学位论文,湖南:湘潭大学,2007.
[4]田晓辉.基于Web的个性化学习系统在远程教育中的应用研究[D].硕士学位论文,西安:陕西师范大学,2007.
[5]史春秀.基于数据挖掘的个性化学习系统的研究[D].硕士学位论文,天津:天津大学,2007.
[6]王志平.基于数据挖掘技术的个性化学习系统的研究[D].硕士学位论文,重庆:重庆大学,2007.
作者单位
1.无锡高等师范学校 江苏省无锡市 214000
2.无锡城市职业技术学院 江苏省无锡市 214000endprint
2.2 贝叶斯分类过程
在本学习系统中,主要使用朴素贝叶斯分类方法对网络学习某一体育课程的学习者的学习风格进行分类。
2.2.1 建立样本数据
根据体育学科的学习特点,我们可以把学习者的学习风格简要概括为视觉型(V)、语言型(L)和动觉型(K)。把每一个学习者看作一个矢量 S,学习者的每一次学习记录作为属性 Ai,学习者的风格(视觉型、听觉型和动觉型)作为可能的类别 C,对于随机分类向量S={a1,a2,…,an},由此知道 s对每个类别的概率P( Ci|S)分布,其中P( Ci|S) 由贝叶斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 计算得到,概率最大的那个就是 s的预测类别。
当学生登入系统时,系统首先根据学号查看学习风格数据库中是否有该生的学习风格类型记录,如果有,系统则推荐学生适合其风格的学习内容,如果无,则系统将学习者这次学习的学习记录保存在学生学习记录库的学习过程数据表中。
经过数据预处理,我们可以确保建模的数据是正确有效的。分析处理中我们需要得到分类模型需要的训练样本集的相关属性,包括文本学习次数(T)、视频学习次数(V)、活动次数(A)、文本学习平均成绩(TS)、视频学习平均成绩(VS)、活动成绩(AS)、学习风格类型(S)。当学生登录次数达到某值时,系统自动将这些属性值计算并存储。在分析训练样本时我们把学习次数属性值分为<5、5-10、>10 三个区间,将成绩分为 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。朴素贝叶斯分类法对于学习次数和学习成绩这类连续属性的类条件概率计算,一是把连续的属性用相应的离散区间替换进而离散化,或是通过训练数据估计分布的参数。
2.2.2 建立学习风格建模
根据贝叶斯的最大后验准则,对任一未知样本 s={a1,a2,…,an},确定后验概率 P(Cj| a1,a2,…,an),把最大的类确定为该样本的学习风格。具体步骤为:
(1)计算得到每一种学习风格类型的先验概率P(Ci )。
(2)相对于每个类别的概率 P(aj|ci),训练样本集计算得出各属性的所有取值。
(3)计算出未知样本对三种类别的概率,选取概率最大的类别为学生的学习风格类型。
其中,建立学习风格分类模型最关键的步骤就是建立训练样本集。见表2-1。
2.2.3 建立算法
根据上述分析,设计算法如下:
初始化训练集D;计算每个学习风格类型的先验概率
由上述算法得出概率最大的类别为学生的学习风格类型。
3 结论
本文将叶贝斯算法应用在判定学习者的学习风格中,发现了学生的学习成绩、学习兴趣与学习风格之间的潜在联系。经过实际应用发现当朴素贝叶斯分类的假定条件成立时,它是一种非常精确的分类方法。 使用贝叶斯分类对系统中的学习者的学习风格进行分类,其特点主要有:
(1)它结合了概率与贝叶斯网络的分类方法,可以利用领域知识和其它先验信息,计算假设概率。
(2)可以把所有的属性都参与分类。
(3)针对离散属性的对象进行分析。
(4)数据样本可以增加也可以减少,这样可以进行增量学习。
(5)利用有向图的表示方式非常直观,弧表示变量之间的关系。
参考文献
[1]田文诗.基于学习者行为的序列模式挖掘算法研究与实现[D].硕士学位论文,吉林:吉林大学,2011(05).
[2]邓晖、徐梅林.网络学习环境之个性化属性调查及启示[J].现代教育技术,2003.13(1):49-54.
[3]凌江荣.在e_Learning中建立自适应学习路径的研究[D].硕士学位论文,湖南:湘潭大学,2007.
[4]田晓辉.基于Web的个性化学习系统在远程教育中的应用研究[D].硕士学位论文,西安:陕西师范大学,2007.
[5]史春秀.基于数据挖掘的个性化学习系统的研究[D].硕士学位论文,天津:天津大学,2007.
[6]王志平.基于数据挖掘技术的个性化学习系统的研究[D].硕士学位论文,重庆:重庆大学,2007.
作者单位
1.无锡高等师范学校 江苏省无锡市 214000
2.无锡城市职业技术学院 江苏省无锡市 214000endprint