彭丽蓉,周 磊
PENG Lirong1,ZHOU Lei2
1.重庆工业职业技术学院 科研处,重庆 401120
2.国际商业机器(中国)有限公司,浙江 宁波 315040
1.Scientific Research Office,Chongqing Industry Polytechnic College,Chongqing 401120,China
2.IBM(China)Company Limited,Ningbo,Zhejiang 315040,China
随着教育的不断发展,教学和管理工作中积累了大量的数据,但这些数据并没有得到有效利用。如果能将这些数据充分利用,则可以有效地提升教学质量[1]。数据挖掘是一种核心的、非教学的、客观的评价技术,可用于基于学习及训练系统的应用分析[2]。基于学习者表现的分类是一项重要的任务,可以节约学习者的时间和精力[3]。因此,如何将数据挖掘技术运用到教学中来提升教学质量显得非常重要。
数据挖掘过程的目的是运用不同的技术从大量的数据集中去发现新的、有趣的及有用的知识,包括预测、分类、聚类联合规则挖掘和序列模式[4-5]。学者们提出了许多不同的运用于教学的数据挖掘方法,例如,文献[6]针对传统的求总分统计成绩方法的不足提出了一种基于K-Means算法的成绩聚类分析算法,实验结果表明,聚类方法比传统的求总分方法更合理、更科学,聚类结果蕴含更多有用的信息,而且改进后的聚类方法降低了随机选取初始聚类中心所产生的结果的不稳定性,聚类效果更好。文献[7]根据本科学生的知识体系不够完善的问题提出了经济管理类本科生“数据挖掘”课程有针对性的教学方法,实践表明,这种注重数据挖掘方法思想及实践的方法在该课程的教学质量及实效方面起到了良好的推动作用。文献[8]将数据挖掘技术中的关联规则挖掘算法Apriori应用于教学评价中,通过对这些数据的分析,表明了高校教师的教学效果与教师的年龄、职称、学历等密切相关。文献[9]在现有教学评估系统研究的基础上,重点论述了基于数据挖掘技术的教学评估智能辅助决策平台设计的相关方法,并对该平台的应用情况进行了分析,结果表明该平台能智能化提升教学质量。这些数据挖掘方法都集中在自适应学习[7]上,分析学习解决方案,进而在在线学习中寻找最佳的学习路径。文献[10]提出,学习者的学习行为和他们感觉满意的互动对于涉及和评估这些活动显得尤为重要。
受文献[10]的启发,为了更好地改善教学质量,提出了基于认知行为计算模型的数据挖掘模型,搜索了一些技术去确定学习课程的目标、详细的互动内容及学习行为随时间推移而发生的变化,通过学生类别选取实验表明了所提模型的有效性。
本文着重关注学习策略问题以及使用数据挖掘方法的学习表现,以更好地支持教师的教学工作。该问题由所收集的六个感知参数和三个行为参数描述。对于输入来说,三个感知参数和三个行为参数很重要。数据挖掘(Data Mining,DM)帮助提取和分析各种感知与行为参数之间有意义的关系,并且它提供基于307条记录的有关参数的相对重要性。根据应用在C&RT的实验,有两种规则用于分类(上、中和下),对于C&RT而言,其算法的整体精度为100%。
很多学者都对认知计算模型进行过研究,考虑到心理状态、心理参数和认知参数会在一般性的任务中体现出来,开发了BDI(信念、意愿及决心)理论用于在认知任务中对精神状态进行建模。
(1)表现成绩:根据学生回答问题的优秀类数目、相对较好类数目、无缺陷类别数目,对学生的表现成绩进行计算:
该问题中,假定 wg=0.4,wavg=0.15,wb=0.45。 wb取较高数值时,式中起消极作用。
(2)性能(带难度权重):用wd乘以,wd与问题的难易程度相关,表现成绩(带难度权重)定义为:上式中,是带难度权重的表现成绩,wd根据难易程度的难度权重值确定。
(3)能力:它是在表现成绩、难度权重、带难度的表现成绩及回答问题的总数基础上计算得到的,能力值体现了某个特定的学生可以回答问题的多少。能力由下式定义:
该问题中,假定 wg=0.4,wavg=0.15,wb=0.45,wss,b取较高数值时,在式中起消极作用。
(4)意愿:它表征了学生回答问题的意愿,基于总因子X和难度权重。意愿由下式定义:
(5)取向:一个学生的取向在社会实践推理中起着积极的作用,选择问题并用决心去完成它。取向由下式定义:
该问题中,假定 wg=0.4,wavg=0.15,wb=0.45,wb取较高数值时,在式中起消极作用。
(6)决心:决心表示学生承诺去完成的一些问题,是基于选择(意愿)和取向计算得到的。决心如下定义:
(7)承诺:它意味着将你自己绑定到某种行动中。承诺如下定义:
(8)认知指数因子(Cognize Index Factor,CIF):认知指数因子是基于学生的承诺和能力计算得到。感知指数因子如下定义:
(1)愉快:通常,“愉快”这个词语表示一种高兴的状态和自我享受的感觉,这里指的是学生行为的积极性。
(2)疲劳:疲劳是指一种极度劳累的状态,可通过观察学生的面部表情发现,当重复地问问题时,他们一般不能全部回答出来。
(3)扭曲:意思是通过拉或者扭,形状改变。这里用于定义一种行为参数。
(4)行为表达指数因子(Behavior Expression Index Factor,BEIF):借助行为表达指数因子,可以针对特定的问题选取学生,它是基于愉快、疲劳、扭曲计算得到的,由下式定义:
上式中,wdist>wfatig。
学生指数因子(Students Index Factor,SIF):借助于学生指数因子可以针对特定的问题选取不同类别的学生,它是基于感知指数因子和行为表达指数因子计算得到的。α是一个调控指数因子,通过α可以控制SIF,一般0<α<1,这里,α=0.5。SIF如下定义:
根据以上分析,考虑既要较全面描述学生,又便于实现,基于认知计算模型和行为计算模型,得到一个综合学生模型,数据结构如图1所示。
图1 学生数据结构
在该模型中,引入了认知模型的成分,每个单元学习并测试后都要计算认知能力,以确定后续学习内容的难度以及调整知识学习的次序;同时,考虑了行为因素(如情绪等),由于对影响学习心理因素的划分,心理因素对学习的影响也仅仅是停留在一些简单的定性认识上,这里只考虑学习积极性、回答问题的表情及行为参数。基于认知计算模型、行为计算模型,通过本文提出的数据挖掘模型计算影响学生成绩的指数因子、认知指数因子、行为指数因子,从而判断学生指数因子受认知参数和行为参数的各自影响程度,传统的教学中针对所有类别的学生都采取同样的策略,只对部分学生有利,而运用本文提出的数据挖掘模型后,可根据学习影响因素将学生分为不同的类别,教师可以根据不同类别的学生采取不同的教学策略,具有很强的针对性。
上述数据结构描述了学生模型的静态结构,而图2则描述了学生模型的动态结构,动态结构表现了学习的过程中学生模型的四个因素的形成及其关系,以及在教学决策中的作用可以看出,学生模型是一个动态结构,它跟踪学生的学习活动,通过对学生学习行为的分析,记录并调整学生的知识结构、学习能力、学习习惯等描述学生个性化特征的信息,依此得出新的教学策略,其中,数据挖掘算法处于中心地位,其功能是有关数据库的维护、决策的生成、决策冲突的消解等。
图2 数据挖掘模型
从图2可知,整个模型中,数据挖掘算法(如决策树、人工神经网络等)处于核心地位,整体步骤如下:
步骤1根据认知能力计算模型、行为能力计算模型得到认知能力表、行为能力表,记录每个学生的成绩表现、能力、意愿、取向、决心、承诺、愉快、疲劳、扭曲等状态。
步骤2根据认知能力表、错误类型表计算学生的学习偏差。
步骤3根据专家知识库计算学生的学习进度。
步骤4基于认知能力表、行为能力表、学习进度、学习偏差,根据所搜集的六个认知参数及三个行为参数,运用学习策略库和数据挖掘算法得到学生知识库。
步骤5给出学习内容、呈现方式、教学方式,结合各个学习活动得到学习测评表。
步骤6根据学习测评表、行为能力计算模型、认知能力计算模型将学生分为不同的类别,分析各类别学生中,不同的行为能力和认知能力对学生成绩的影响因子。
如此,教师可根据不同类别的学生采取不同的教学策略,相比以往的教学模式,可明显提高教学质量。
数据挖掘(Data Mining,DM)通常定义为,通过对大量的数据进行搜索、分析及筛选,找出关系、模式或者任意一些重要的统计相关性。随着计算机、大型数据库和互联网的问世,可以很容易地收集到百万、十亿甚至万亿份数据,可对其进行系统地分析,进而帮助寻找其中的相关关系,并且找出各种问题的解决方案。
决策树是一种用于决策的分析算法,尤其是在有潜在风险或者高成本的情况下更显重要。本文试图使用数据挖掘算法在磋商中驾驭某些属性的重要性。决策树法是一种视觉的、易于理解的,可代替其他决策分析算法中的数值图或者统计概率,如电子表格。决策树适应性强,这意味着可以把它们修改成新的决策去描述它们本身,或者修改成新的信息去变得可用,进而改变原来的方案。本文运用了决策树中的分类回归树(Classification and Regression Tree,C&RT)算法[11],具体的实现步骤可见图3。
图3 通过决策树(C&RT算法)对参与者分类规则的设定
人工神经网络(Artificial Neural Network,ANN)模型执行时,使用快速法[12]、动态法[13]以及径向基函数网络(Radial Basis Function Network,RBFN)[14]。快速法产生更小的隐性层,隐性层训练得更快,生成得更好。动态法创建初始拓扑,然后在训练过程中通过增加或者移除隐性单元的方式去修改拓扑。RBFN采用类似K均值类聚算法根据目标的数值去划分数据。比较这三种算法而言,动态法提供了最准确的情况描述,针对准确性而言,它优于其他两种算法。这种算法产生更小的隐性层,该隐性层训练得更快,生成得更好。快速法中,有六个输入参数,并且所有参数都有绝对值。在这六个参数中,每个参数有三个阶段。所以对于有三个阶段的每个绝对值,有三个神经元。因此,ANN中的输入层的神经元总数是(3×6=18)。所有组合的ANN方法如表1所示。
表1 所有联合ANN法对比
灵敏度分析(Sensitivity Analysis,SA)[15]是一种分析和反映模型的输出对于不同环境而发生分布变化的灵敏度算法。通过删除一些对网络训练没有影响或者影响很小的变量,灵敏度分析可以减少网络结构的复杂性,也可以用于理解每个变量对网络训练的影响度。灵敏度越大,那么它对于人造神经网络的输出的影响就越大。对于灵敏度分析,特征选择节点有助于领域的识别,这在某个特定的输出中是最重要的。它可能会随着更快、更有效的算法而结束,这些算法使用更少的预测,执行得更快,可能也更容易理解。对于灵敏度分析,特征选择节点有助于领域识别,这在某个特定的输出中是最重要的。ANN法的灵敏度分析如表2所示。
表2 ANN法灵敏度分析对比一览
本模式中,运用Clementine 11.1软件的特征选择节点来识别各个域。对于数百或者甚至上千个类别的预测,特征节点过滤、排列并且选择这些预测,可能是最重要的。最终,它可能会以更快,更有效的模式结束,该模式下,会使用更少的预测,执行得更快,可能也更易于理解。特征选择的重要参数如表3所示。
本项研究中,开发了一个基于学习系统的网页去执行上面提出的算法。这里,设计了Window环境下的.net。利用Apache Tomcat作为服务器。执行结果如表4所示。
表3 特征选择的重要参数
表4 所提出的在线学习系统执行结果
从表4中可以看出,最好的学生指数因子SIF是49.375,各个学生的CIF相比BEIF,都非常低,又根据式(11)可得出,SIF取决于行为表达指数因子BEIF,而认知指数因子CIF可以忽略不计。
为了对学生进行精确的分类和范畴化,根据重要的认知、行为输入参数,将数据挖掘技术应用于学生数据集中,运用了人工神经网络、灵敏度分析、数据挖掘及分类回归树算法,联合ANN模型(快速、动态、RBFN)去确定输入问题类型的重要程度,将学生划分成三种不同的类别。实验结果表明,学生指数因子取决于行为表达指数因子,而认知指数因子可以忽略不计,由此可以得出结论,在学生分类问题中,行为参数远比认知参数重要,教师可根据不同类别学生的愉快、疲劳、扭曲等行为表现对其施行不同的教学策略,从而提升各类学生的成绩、改善教学质量。
未来会将基于人工神经网络的数据挖掘技术运用到其他的学生数据集上,改变参数的初始设置,进行大量的实验,挖掘出更多有意义的信息,从而更好地在教育系统中支持教师的教学工作。
[1]方耀楣,何万篷.可拓数据挖掘在高校教学质量评价中的应用[J].数学的实践与认识,2009,39(4):82-87.
[2]阮卫华.数据挖掘在教学系统中的应用[J].微计算机信息,2010(12):161-162.
[3]岳耀亮.数据挖掘在高校网络教学平台中的应用研究[J].中国教育信息化,2009,21(8):75-77.
[4]韩心慧,龚晓锐,诸葛建伟,等.基于频繁子树挖掘算法的网页木马检测技术[J].清华大学学报:自然科学版,2011,51(10):1312-1317.
[5]陈伟,黄蕾,刘峰,等.双语平行网页挖掘系统的设计与实现[J].计算机工程,2009,35(14):267-269.
[6]刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010,31(5):1130-1133.
[7]邓克文,乔兴旺.高校经济管理类本科生“数据挖掘”教学研究[J].科教文汇,2011,23(9).
[8]李红林,孔德剑.基于Apriori算法的高校教学评价数据挖掘[J].中国科技信息,2010,21(2):241-242.
[9]丁卫平,王杰华,管致锦.基于数据挖掘技术的教学评估智能辅助决策平台的设计与实现[J].电化教育研究,2009,32(4):90-92.
[10]Misra K,Misra R.Multiagent based selection of tutorsubject-student paradigm in an intelligent tutoring system[J].InternationalJournalofIntelligentInformation Technology,2010,5(1):46-70.
[11]方敏,牛文科,张晓松.分类回归树多吸引子细胞自动机分类方法及过拟合研究[J].计算机研究与发展,2012,49(8):1747-1752.
[12]林和平,张秉正,乔幸娟.回归分析人工神经网络[J].吉林大学学报:信息科学版,2010(2):147-152.
[13]琚亚平,张楚华.基于人工神经网络与遗传算法的风力机翼型优化设计方法[J].中国电机工程学报,2009(20):106-111.
[14]朱福珍,李金宗,朱兵,等.基于径向基函数神经网络的超分辨率图像重建[J].光学精密工程,2010,18(6).
[15]侯建平,宁韬,盖双龙,等.基于光子晶体光纤模间干涉的折射率测量灵敏度分析[J].物理学报,2010,59(7):4732-4737.