洪雪峰
(湖南第一师范学院信息科学与工程系,湖南长沙,410205)
近年来,在教育领域中教育数据挖掘(EDM)理念风靡于全球。教育数据挖掘在很多教育机构为教育决策者作决策并为决策提供必要的支撑数据等方面起着关键的作用,使得人们对教育数据挖掘的关注度越来越大,也使得教育数据挖掘为提高教学成果及教学决策提供必要的数据已成为行之有效的工具。
目前国内有李婷、傅钢善运用文献计量与内容分析法,对国内外公开发表的关于教育数据挖掘的文献进行统计分析,为进行教育数据挖掘的研究与实践提供参考[1]。魏顺平介绍了教育数据挖掘这一新领域的兴起历程及相关概念,提出了教育数据挖掘中主要用到的五类挖掘算法[2]。徐鹏则认为,未来我国教育领域的大数据研究和应用应加强国家和地方对相关的研究和应用,并在技术层面、管理体制层面以及法律制度层面获得支持,实现真正意义上的个性化学习,进而实现教育公平[3]。但是就国内研究现状而言,真正把该技术应用于教育领域并进行实践研究的并不多。
国外关于教育数据挖掘的研究成果远多于国内。国外学者发现教育数据挖掘能够回答与学生表现相关的一些问题。他们认为教育数据挖掘技术,作为一种新时期的新工具,能够通过学术分析方法,解决教育领域相关问题[4]。学者们的研究主要应用于以下几个方面:① 用于学习成果的提升;② 高危学生预警功能;③ 预测学生将来的学习情况。本文主要介绍教育数据挖掘方法,对国外教育数据挖掘研究进行综述,并探讨国外教育数据挖掘的研究应用是如何影响学习成果等。
教育数据挖掘是将存储在教务系统中的大量教务数据通过分析来挖掘出数据之间存在或隐藏的有用的信息。在多种教育数据挖掘分析程序中,所采用的可靠技术可以用于帮助老师、教务管理者及其他教育工作者发现提高学生学习成果的隐藏信息。教育数据挖掘还可以帮助回答学生实际上已知什么以及他是否在学习相关的内容等问题。教育数据挖掘与学习分析非常相似,只是教育数据挖掘主要强调为数据分析做出挖掘新方法的开发,而学习分析仅仅强调已知方法的应用。教育数据挖掘不同于其他用于普通数据挖掘的方法则在于所挖掘的数据之间存在着不同数据以及数据集之间的复杂关系。例如,在教育数据中就有不同的层级。
数据挖掘的研究早在20世纪80年代就已经开始,已经广泛并成功应用在金融、市场营销和商业等领域。数据挖掘在教育方面研究的一个重要里程碑产生在 2008年 6月,第一届教育数据挖掘国际学术会议在加拿大魁北克省的蒙特利尔召开。教育数据挖掘从机器学习与人工智能中借鉴了很多应用方法,直到20世纪90年代末,教育数据挖掘才从人工智能中独立出来。
2012年国外学者Bienkowski等[5]阐述了教育数据挖掘的四个目标:① 通过创建涵盖诸如学生知识、动机、元认知及态度等详细信息的学习模型来预测学生未来的学习行为;②发现和改进学生学习内容特征的域模型和最佳教学顺序;③研究学习软件所能提供的不同教学辅助类型的效果;④ 通过构建涵盖学生模型、域模型以及软件教学法模型在内的电脑模型,提升关于学习和学习者的科学知识。
大致说来,教育数据挖掘包括五种方法。第一种是预测,如预测成绩,观察学生行为,预测和理解学习成果。第二种是收集,这种方法能使研究者们收集学生的行为、喜好和表现等数据并对收集的信息进行分类。第三种是关联规则,这种方法能够帮助研究者们在数据中发现变量间隐藏的关系,如识别诸多课堂活动及课堂互动之间的关系;这些关系能够确定哪些活动或互动方式对学习效果更有成效。第四种是人工智能的判定,该方法能使研究者们能够迅速识别及区分数据集中的特征,该方法使用机器学习模型并与视觉数据分析方法重叠。第五种,通过模型发现,即采用一个通过预测方法和收集方法可以拓展已被发现的现象。
事实上,教育数据挖掘中的数据是分层级的。换句话说,就是不同层面的数据被归于不同的类别,如学生层、教师层、管理层以及学校层。教育数据挖掘的其他重要之处在于数据的时间性或者历史性,以及数据的顺序性。如不同层级的数据是如何构建的以及模型构建的环境,因为要考虑到每一情境中不同特征、不同情况等。此外,通过数据挖掘所获得的信息有助于创建一个基于学生行为和特殊要求的学生学习系统。这样,学生学习系统就能以恰当的方式在恰当的时间发挥恰当的作用。
教育数据挖掘可向教育工作者提供更多、更客观的信息,为教育工作者在制定教育决策及怎样调整和优化教育决策中起着非常重要的作用,并根据学生的学习状态来重组教学内容,优化教学计划。要充分发挥教育数据挖掘的作用,学校应首先建立一个教育数据挖掘数据结构。教育数据挖掘结构需确定以下几点内容:① 确定教育数据挖掘计划的目标;② 确定数据的来源;③ 选择教育数据挖掘模型中所需的数据;④ 确定每一组数据的变量或关键点,如测验得分和课堂表现的成绩;⑤ 将数据编码进列表中,这样数据挖掘者就能使用EXCEL数据挖掘程序将他们放入模型中;⑥ 根据计划目的选择挖掘方法,如分类、收集、预测等;⑦ 给模型命名,如高等学校模型;⑧ 创建和使用教育数据挖掘模型。
在国外,研究者们使用不同工具研究了在教育数据挖掘中所获信息的应用对学习成果的影响。有些学者将逻辑 ITA作为教育数据挖掘的工具来探究逻辑 ITA对提高教学质量的影响,并且采用一种新颖的方法观察和挖掘学生的在线工作。在一项旨在研究优秀表现的特点的研究中,Affendey等采用开放性资源数据挖掘,这些研究者们得出结论证实Naive Bayes等分类器所预测的准确度最高,达到95.29%[6]。
Ramaswami和 Bhaskaran为区分学习迟钝的学生以及研究影响学生学业表现的主要因素开发了一种预测性数据挖掘模型,并且指出,教育数据挖掘在预计学生寻求帮助所需的时间方面非常实用[7]。Kabra 和Bichkar通过决策树演算法模型对学生的历史学业表现预测新生学业表现的研究中,发现这个模型能以0.907的准确率预测会不及格的学生,这就说明这个模型能够成功预测可能会不及格的学生。他们还运用其他教育数据挖掘方法从学生之前所有的学习情况记录中发现一种关键的学习模式,并且指出教育数据挖掘工具能够优化教学,使学习成果更富有成效。
Baker(2011)归纳了教育数据挖掘的方法如下:① 对需要应用分类,还原,估计的方法的预测。② 集成。③ 关系挖掘,包括如关联规则挖掘,相互联系挖掘,连续性形式挖掘,原因数据挖掘等方法。④ 提炼数据以方便人们决策;⑤ 模型探索。还有学者应用决策树等方法表明这些教育数据挖掘分类主法可以预测学生的考试表现,并指出,这些预测使老师准确识别较差的学生,以便帮助他们获得好的分数[8]。
研究者采用不同的可以用于提高学习成果的技术来提取数据。Thai-Nghe等应用预测技术,得出结论:这一技术可以更好地预测成绩。与之前的教育数据挖掘研究相比,他比较倾向于使用因素法与预测法结合进行分析并获得满意的结果。
教育数据挖掘一般将学生学习分成可以迅速用专业数据挖掘软件识别与分析的可测量的小部分。Baker曾经试图判断使用复读软件重复叙述故事是否或多或少在教育学生如何阅读的过程中起作用。同时,研究人员想知道如何识别什么样的学生可以从不同的阅读练习中获益。他们从346所美国小学中收集了一年的数据进行分析,最后得出结论:那些阅读速度慢且获得老师较多关注的学生确实可以从复读软件中获益。Baker表示95%的数据说明重复读一个故事可以比读一个新故事多学一半[8]。
总的来说,许多教育数据挖掘研究证明了教育数据挖掘在教育中起着积极的作用。研究人员对于教育数据挖掘所收集必要的、有价值的学生信息提出了可靠的见解。如根据能力、行为和表现将学生分类并预测他们将来的行为和表现。还有一些研究发现通过教育数据挖掘收集的信息对学习者的学习效果起着重要的作用,并且还发现了本来就已经存在但未被发掘的重要信息。
Ogundokun(2011)根据从教育数据挖掘得来的信息,以学习方式、学校环境和考试焦虑作为学习成果的预测因子对初中生进行了研究,得出这三个因素可以预测学生的学习成果,其中考试焦虑是影响学习成果最关键的预测因素。他们还用教育数据挖掘收集到的信息因材施教,帮助教师为每个学生制定学习任务[9]。
通过以上的教育数据挖掘研究,发现其对于提高和影响学习效果主要在以下几个方面:① 根据学生表现将学生分组。② 预测有可能失败的学生,并提出帮助计划。③ 能够预测学生未来的表现。④ 识别优秀表现的特点及影响学习的因素。⑤ 识别并预测哪些学习任务会提高学生的优秀表现。⑥ 为教师的教学表现提供依据。
教育数据挖掘很多研究是基于一定的学习方法取得一定的效果的基础上展开的。一些研究人员指出,用教育数据挖掘对提高学习成果具有积极作用。尽管如此,几乎很少人验证通过教育数据挖掘所获信息在学习成果中的应用。本论文旨在考查应用教育数据挖掘所获信息对学生学习和学习成果的作用和效果。
Affendey等(2010)用公开的资源数据挖掘分析了高中学生的表现并发现其第一年的课程影响着一些课程的设置,而该课程就是为预测学生表现准确性而设立的。他们还表示数据挖掘以95.29的准确性揭示了2427位学生在他们第一年的计算机课程中的学业表现[6]。Ramaswamit和Bhaskaran(2010)为学生表现开发出一个名为CHAID的预测数据挖掘模型,它既可以识别学习迟钝的学生也可以检测影响学生学业表现的主要因素。他们的研究表明,教育数据挖掘模型在预测中学学生表现时是非常有用的[7]。
Kabr和Bichkar(2011)用教育数据挖掘模型——决策树算法模型——去识别哪些学生更容易失败。他们在研究中记录了教育数据挖掘在识别这些需要帮助的学生的有效性。他们还做了其他的研究,比如应用教育数据挖掘预测学生将来的分数,并识别决定学生在不同科目领域得分的影响因素。利用该研究成果,可以使学生在来年取得更好的成绩。同样,这些研究表明学校可以通过为更具毅力的学生提供学术帮助从而减少其滞留率。这样不仅仅是学生,学校也可以使自身从教育数据挖掘中受益。
有的学者采用教育数据挖掘研究了有效课堂活动和有效互动活动之间的关系,指出教育数据挖掘能帮助老师识别哪些活动可以促成更有效的学生互动。这些结果得到业内同行的支持,他们用从教育数据挖掘得到的信息分析学生互动并且发现,在使用这种信息的学生中间,他们的互动和合作能力得到了提高。
Ogtindokun(2011)将教育数据挖掘应用于研究初中生学业成绩的影响因子(如学习方式、学校环境以及考试焦虑等),并指出教育数据挖掘可以帮助老师识别什么因素可以预测学习成果[9]。
有学者总结教育数据挖掘得到的信息可以对每个学生进行个性化预测;老师可以用推荐的方法为学生推介任务和练习以建立个性化的学习系统。同样,还有学者总结教育数据挖掘预测方法,尤其是决策树,可以有效地预测及格、失败或进步的学生的数量,并提供方法提高这些学生的表现。此外,应用教育数据挖掘预测方法可以帮助弱势学生提高学业表现,利用此工具从学生的历史记录中识别“关键学习方式”并且记录教育数据挖掘工具可以使老师为达到更好的教学成果而优化教学。
本文在统计分析了国外 148项教育数据挖掘研究的结果认为,未来的研究应注重以下四个方向:第一,研究应该注重可以提高老师的表现以及学习成果的特定挖掘工具。第二,应检验教育数据挖掘方法,如分类、收集、预测、关系挖掘、人类判断力的升华、模型发现法等对于提高学习成果的有效性。第三,研究人员应确定什么样的教育数据挖掘预测工具在预测学习环境中学生有效参与更为准确。第四,应当识别并充分重视应用教育数据挖掘并提高学习成果的有效专业发展计划。
教育数据挖掘在提高学习成果中起着重要的作用。正如以上大量研究人员所展示的,教育数据挖掘已显示并持续显示了它在影响学习成果中的重要性。本文认为,通过使用教育数据挖掘提供更多关于学生如何学习的有效信息可以提高学习成果,而渴望提高学生学习成果的人也将获得更多的可靠信息。
目前,随着教育数据挖掘不断的应用,学习成果的提高变得越发的显而易见。对学生数据的深层分析也有利于老师改进教学,决策者能制定提高学习成果的行之有效的政策。各级别的研究人员、政策制定者以及老师都将受益于对教育数据挖掘的可行性和应用的理解。
[1]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J].现代教育技术,2010(10):21-25.
[2]魏顺平.教育技术挖掘:现状与趋势.第 13届计算机模拟与信息技术学术会议论文集[Z]. 2011:25-28.
[3]徐鹏.大数据视角分析学习变革[J].远程教育杂志,2013(5):10-13.
[4]Campbell,J. P.,DeBlois,P. B. & Oblinger,D. G. AcadÉMie Analytics:A New Tool for New Era[J]. Education Review,2007:41-51.
[5]Bienkowski,M.,Feng,M.,& Means,B. Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics:An Issue Brief[M]. Washington,D. C,2012.
[6]Affendey,L. S.,Paris,I. H.,Mustapha,N.,Nasir Sulaiman,M.,& Muda,Z. Ranking Of Influencing Factors in Predicting Students' Academic Performance[J]. Information Technology,2010(4):832-837.
[7]Ramaswami,M.,& Bhaskaran,R. A CHAID Based Performance Prediction Model in Educational Data Mining[J]. IJCSI International Journal of Computer Science Issues,2010(1):10-18.
[8]Baker,R. S. J. Data Mining for Education. International Encyclopedia of Education[M]. 3rd ed. Oxford,UK:Elsevier,2011.
[9]Ogtindokun,M. O. Learning Styles. School Environment and Text Anxiety as Correlates of Learning Outcomes among Secondary School Students[J]. IFE PSYCHOLOGL,2011(2):321-366.