教育数据挖掘:大数据时代的教育变革*

2017-06-05 15:04陈雯雯夏一超
中国教育信息化 2017年7期
关键词:数据挖掘分析教育

陈雯雯,夏一超

(1.华南理工大学 发展规划处,广东 广州510641;2.华南理工大学 公共管理学院,广东 广州510641)

教育数据挖掘:大数据时代的教育变革*

陈雯雯1,夏一超2

(1.华南理工大学 发展规划处,广东 广州510641;2.华南理工大学 公共管理学院,广东 广州510641)

大数据开启了教育领域本质上的变化和发展,一个大规模的生产、分享和应用教育数据的时代正在开启,而发掘数据价值、征服庞大教育数据的“武器”就是教育数据挖掘。本文通过文献分析法,对国内外文献进行分析和综述,首先对EDM进行概念界定和历史溯源,比较EDM相关概念的区别和联系,针对EDM作为大数据时代下的新技术,对其研究、发展和应用等方面进行了较系统的阐释,最后总结了EDM目前面临的挑战和展望,以期对EDM进行全方位的阐述和梳理,并促进该领域在中国的深入研究。

教育数据挖掘;学习分析;大数据

一、前言

随着大数据时代的到来,教育数据正如漂浮在海洋中的冰,第一眼只能看到冰山一角,绝大部分都隐藏在表面之下。[1]而发掘教育数据价值、征服教育数据海洋的“动力”就是教育数据挖掘 (Education Data Mining, EDM)。EDM最初应用于智能导学系统(ITS)和教育人工智能(AIED)研究领域,这些技术的深入应用也带来教育数据爆炸式膨胀。日益增长的教学软件中储存着巨大的学生数据,互联网教学E-learning等网络教育学习行为更是呈现出极具增长的数据流趋势。[2]这些数据集过大、难以被传统数据库软件工具捕捉、储存、管理和分析的教育类大数据,目前已成为困扰教育机构的一大难题,研究们逐渐开始关注这些教育数据的潜在价值。教育数据挖掘用统计、机器学习和数据挖掘等方法来解决这些教育领域的问题,从而对更好的理解学生学习和提高教育管理决策的质量。[3]

2012年3月,在教育部正式颁布的《教育信息化十年发展规划(2011-2020年)》[4]中提出,促进教育管理科学决策就要“大力推行教育信息化”,而这种科学的决策来源于教育信息化与教育管理的深度结合。而教育数据挖掘则是促进这种结合的有效手段。与此同时,“智慧教育”也将改变学习和教育方式,促进传统教育向智慧教育的转变,使得教育变得更灵活和个性化。以教育数据挖掘为基石,深度挖掘学生的各方面情况数据,“智慧教育”也需要教育数据挖掘的发展作为支撑加快,从而加快教育管理系统信息系统和智能学习平台建设。

国外的研究与国内相比,对于教育数据挖掘有着更为广泛、成熟的应用。虽然2005年在国际会议上首次提出“教育数据挖掘”这一概念,但是在不到十年的发展过程中,教育数据挖掘相关应用已经越来越受到学界的关注。本文尝试用文献分析方法对教育数据挖掘进行综述和梳理。国外文献分析主要有四个文献来源:一是利用笔者在中山大学图书馆检索系统(http://library.sysu.edu. cn/web/guest/index)以“EDM(教育数据挖掘)”、“Educational Data Mining”、“学习分析(Learning Analysis,LA)”、“知识发现(knowledge Discovery in Database,KDD)”等相近关键词对论文、图书、电子书、DVD、以及论文题目、图书题目和杂志题目,进行文献搜索,其中Education Data Mining检索论文,在Willey Online Library中有4个搜索结果,tandfonline.com有3篇文献,在CSA原剑桥科学文献数据库中搜到40篇相关文献,选择其中12篇文献作为研究对象,通过Google学术搜索以“教育数据挖掘(Education Data Mining)”等关键词进行文献搜索,在搜索到的上百篇文献中,根据引用频率进行筛选。三是对可获取到的教育数据挖掘领域著名国际会议,例如第六届教育数据挖掘国际会议(the 6th International Conference on Educational Data Mining)中的30多篇文献,国际教育数据挖掘学会(International Educational Data Mining So-ciety)、学习分析研究学会(SoLAR)、教育数据挖掘IEEE专责小组中28篇论文,根据作者文章引用频率和领域知名度进行筛选。四是根据每年的国际教育数据挖掘研讨会(Workshop of Education Data Mining)中论文,根据引用频率进行选读和筛选。根据以上四个途径选取的文献资源,除去相同文献之外,最终获得相关文献70多篇,其中国内相关文献主要来源是“中国知网”等学术文献库中的相关文献。

二、数据挖掘与教育数据挖掘

1.什么是数据挖掘与教育数据挖掘

数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。主要应用于银行、电信、交通、零售(如超级市场)等商业领域,而用在 elearning方面还是处于起步阶段。数据挖掘是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术。由于数据挖掘是数据库中知识发现的核心步骤,发现了隐藏的模式,所以从模式处理的角度,许多人认为两者是等同的。[5]

目前,学术界对于教育数据挖掘的定义并未有统一的描述,比较常用的几个定义分别来自于教育数据挖掘网站(http://www.educationaldatamining.org)是这样定义教育数据挖掘的,“教育数据挖掘是应用数据挖掘方法从教育系统中的数据提取出有用的信息,从而更好地理解学生及其学习系统的新兴学科。”这一版本的定义成为之后学者广泛讨论的基础,引发学术界对教育数据挖掘的探讨和深究。Luan认为教育数据挖掘应该是从构建数据的模型、任务、方法和算法来探索教育环境中的数据信息。[6]Baker和Yacef认为教育数据挖掘是分析教育系统中的数据并且解决教育研究问题的一门新兴学科。[7]2011年出版的《教育数据挖掘手册》上是这样描述,“教育数据挖掘是开发、研究和应用计算机方法来对传统教育环境中的大量数据进行分析和监测,而数据的容量之大是其他方式很难或者基本上无法进行的。”[8]教育数据挖掘从各种支持学习或者教育的信息系统中提取出有用的信息,这些数据并不是来源少数学生或者某一个教育系统,而是包括所有参与的学生、管理数据、人口统计数据(例如,性别、年龄、年级)、学生的情感(例如,动机、情绪)等等。因此,在教育大数据的背景下,我们分析更多的数据,有时候甚至可以处理某个特别现象的所有数据传统的教育数据挖掘。

2.教育数据挖掘溯源

教育数据挖掘是伴随着数据挖掘和教育系统的发展而逐渐形成的研究领域。在传统教育系统的数据挖掘应用中,尤其是网络课程,著名的是学习内容管理系统和应用智能网络教育系统。每一个系统都会有各自的数据源和知识发现的对象。在处理每一种可利用的数据过程中,通常会应用统计、可视化、聚类、分类、离群点检测等数据挖掘的技术,大量技术的成功应用使教育数据挖掘逐渐成为一门成熟的学科领域。在过去的十年间,教育系统中最重要的创新点在于新技术的引进。

教育数据挖掘是在多种数据挖掘和分析技术的基础上发展而来的新兴应用。教育数据挖掘是一个交叉学科领域,包括信息检索、推荐系统,可视化数据分析,领域驱动数据挖掘、社交网络分析(SNA)、教育心理学,认知心理学,心理测量学等学科知识。其中主要包括教育学、统计学和计算机科学,这三个领域的相互作用同样也形成了其他子领域与教育数据相关的计算机教育。数据挖掘、及其学习和学习分析。

3.教育数据挖掘相关概念的界定

(1)教育数据挖掘与学习分析

教育数据挖掘就是将数据挖掘应用到教育领域,通过跨学科领域的研究更好地了解学生学习和教育的结果,从而对教育现象做出科学的解释。从溯源教育数据挖掘可以看出,虽然教育数据挖掘涉及到多种不同领域的技术,但是目前与之相近的在教育领域中的技术主要有学习分析。所有之前提到的学科领域,与教育数据挖掘关系最紧密的是学习分析,也叫做学术分析。[9]学习分析主要用于数据驱动的决策制定和社会/教育相关的学习分析。然而,尽管教育数据挖掘在数据上是一个新的框架,发现新的算法或者模型,学习分析用于结构系统的预测模型。事实上,学习分析定义为测量、收集、分析和包括学习者在内的学习背景的报告,为了理解和优化学习和所发生的环境。尽管学习分析和教育数据挖掘在很多性质上具有相同的目标和兴趣,关键的不同主要从两方面进行辨析[8]:

·重要性:学习分析在数据和结果描述上更加重要;然而,教育数据挖掘则是描述和比较数据挖掘技术运用上更加重要。

·发现的类型:在学习分析中,利用人类的判断是关键;自动发现用于完成这项目的工具。在教育数据挖掘过程中,自动发现是关键;利用人类的判断是用于完成这项目标的工具。

(2)教育数据挖掘与E-Learning数据挖掘

教育数据挖掘的应用环境分为传统教育环境和计算机教育系统。其中传统的教育系统包括演讲、课堂讨论、小组练习、个人作业等传统形式。而基于计算机教育系统的教育数据挖掘则成为E-Learning数据挖掘。ELearning数据挖掘指的是一个将各种E-Learning软件系统(主要是网络教学平台)的原始数据转换为有用信息的过程,这些有用信息可为教师、学生、家长、教育研究人员、教育管理人员以及E-Learning软件系统开发人员所利用,以实现对学生及其所接受教育的更好理解,并可据此采用更有针对性的管理和教学优化措施。广义讲,E-Learning理解为通过因特网进行学习与教学的活动。[10]因此,E-Learning数据挖掘是教育数据挖掘的一个方面。

三、教育数据挖掘成为教育大数据背景下的新动力

教育数据挖掘通过发展、研究和应用计算机的方法来识别教育规律,对教育数据进行大规模收集。近年来,教育数据挖掘在分析发生在教育环境中的特定数据,解决教育问题方面发挥着越来越重要的作用。

1.教育数据挖掘研究日趋成熟

教育数据挖掘正在处于飞速发展阶段。80%以上的教育数据挖掘文献都是在2000年之后发表。教育数据挖掘已经拥有成熟的研讨会 (Workshop of Educational Data Mining)、国际教育数据挖掘年会(the annual International Conference on Educational Data Mining)、期刊(the Journal of Educational Data Mining)和研究手册(the Handbook of Educational Data Mining)。

最早的一篇教育数据挖掘综述是Romero&Ventura《教育数据挖掘:1995年至2005年的调查》[11],也是目前为止引用最多的文献。该综述首先详细说明了教育数据挖掘和知识发现之间的关系和区别,并且提到了教育数据挖掘应用在传统的教育系统,网络课程,学习内容管理系统和智能教育系统中的案例。作者只是介绍了数据挖掘技术在教育领域的初步运用,并且大部分是在介绍数据挖掘的技术和方法,例如统计和可视化,聚类,分类和离群点检测;关联规则和挖掘模式,以及文本挖掘等,而教育数据挖掘现阶段的应用远远不止这些。Baker和Yacef《教育数据挖掘的现状:综述和未来展望(2009)》[12]从理论上对比了早期和现阶段教育数据挖掘工作,分析教育数据挖掘的发展趋势。关于教育数据挖掘方法分类上,学界大部分是根据Baker的观点分为预测、聚类、关系挖掘等,作者认为应该在此增加人工判断和模型发现,因为模型发现越来越学界的欢迎,并且该方法对学生学习产生了更好的效果。

虽然这两项综述的主题为“教育数据挖掘”,但是从内容来看,大部分已有研究的挖掘对象是E-Learning系统产生的数据,对于传统课堂的数据挖掘占少数。

表1 教育数据挖掘相关的刊物

现阶段只有两本关于EDM书已经出版。第一本是《E-Learning的数据挖掘》[13],有17章,主要内容是在网络环境下的教育数据挖掘。第二本是《教育数据挖掘手册》,有36章,面向不同的教育环境(educational settings)类型。[14]

表2 教育数据挖掘文献引用次数最多的十篇论文

最后提到了最近日益增长的对于教育数据挖掘的兴趣。图2表明引用EDM是增长很快的,在一个免费的数据库网络中,例如Google Scholar和基于描述的工具例如 SciVerse Scopus,当搜索“教育数据挖掘”(Education Data Mining)时候,从2004年到2011年的数据变化。如图所示,两个数据都是成指数增长的,表明对这个话题的兴趣越来越高了,最近两年的SciVerse Scopus引用数据都是高于Google Scholar的。

图1 SciVerse Scopus和Google Scholar中“教育数据挖掘(EDM)”相关文献数量对比

图2 教育数据挖掘和学习分析在中国知网数据库文献数量

但是目前,国内学术界对于教育数据挖掘的研究并不多,使用“教育数据挖掘”作为关键词在中国知网上进行检索,仅得到文献6篇,分别来自中国学术期刊网络出版总库(5篇)和会议(1篇)。按照与教育数据挖掘相近的关键词“学习分析”来看国内教育数据挖掘的研究趋势。可以看出,教育数据挖掘和学习分析的研究比较少,但是2013年开始就逐渐增多。总体来看,我国学术界对于教育数据挖掘的研究还处于起步阶段,相关研究有待进一步开展和深入。

对国内外教育数据挖掘的文献主题可以看出,目前国际上教育数据挖掘的研究方向主要集中于学生模型的构建(学生行为模型、学生表现模型)方面;而国内的研究还处于初级阶段。教育数据挖掘的研究可能聚焦在如下几个领域:①教育数据挖掘的功能,主要针对于教育数据挖掘的目的和应用目标,因此其工作重要主要是研究、开发和应用某一方面类似的、合作性质的工作方式;②学生模型分析,主要面向小组活动、学术成就分析、资源的利用率、学生成功因子分析、专注度、学生思维情况、领域知识等方面;③评估分析,将向应用测试、自我评估、动力提升和合作评价等方面发展;④学生支持和反馈,更多的研究将会关注学生的情绪反馈,竞争性刺激、决策支持、文本挖掘、网络挖掘和社会网络交互影响等方面。

2.教育数据挖掘的利益相关者

(1)教育数据挖掘利用相关者组谱

利益相关者(stakeholder)是一个实体(人、组织等),与教育数据挖掘存在着一定的利益关系。利益相关者可以认为是教育数据挖掘过程中的受益者,也可以认为是教育数据挖掘的实施主体、面向用户等。

Romero和Ventura认为,教育数据挖掘包括不同类型的用户或者参与者。不同的团体从不同的角度看到教育信息。根据他们的任务、视角和使用数据挖掘的目的不同。例如,通过教育数据挖掘算法而发现的知识不仅能够帮助教师管理班级,理解学生学习的过程,反应他们的教学方法是否正确,也能够根据学生对于环境做出反应和反馈。[15]尽管从内部使用者来看包括教师和学习者这两个群体,但是,实际上也包括很多的对象。①学习者;②教师;③网络课程研发人员;④教育机构(大学、培训公司);⑤行政人员(学校区域行政人员、网络管理人员、系统管理人员)。他们使用数据挖掘的目的如表3所示。

表3 教育数据挖掘的利益相关者

3.教育数据挖掘的技术策略

(1)教育数据挖掘技术手段

教育数据挖掘的方法有很多,其中很多方法在数据挖掘领域已经有很成熟的应用。例如,预测、聚类、离群点检测、关系挖掘,过程挖掘,文本挖掘等。另外一方面就是专门针对教育数据挖掘而采用的技术手段,例如提炼人类判断的数据,模型发现,知识跟踪、非负矩阵分解等。

A.预测。预测的目的就是为了推断出目标属性获知数据的一个方面(预测变量)或者从数据的其他几个方面的结合(预测性的变量)。预测方法的类型主要是分类(被预测变量是分类变量),回归(当被预测变量是持续性变量)或者密度估计 (当被预测变量是概率密度函数)。在教育数据挖掘中,预测编写已经成为预测学生表现[16]和监测学生的行为[17]。

B.聚类。聚类就为了将某些方面具有相似性的小组聚集为一类。通常,这种例子测量方法就是为了觉得这些实例的相似度。一旦决定了簇,新的例子将会被分为最相似的簇。在教育数据挖掘中,聚类通常用于将相似的课程材料进行分组或者基于他们的学习和交流模式来分组。[18]

C.离群点检测。离群点检测的目的是发现数据显著不同于其他的数据。一个离群点就是不同的观察(或者测量),数据通常和其他的点很不同或者很小。在教育数据挖掘中,离群点通常会用于检测学习困难的学生,学习者或者教育行为,表现的偏差,检测不规则的学习过程。[19]

D.关系挖掘。关系挖掘就是坚定变量和常量之间的关系并且用新的规则去在编码以便以后能够继续使用。挖掘的技术不同类型的关系,例如association rule mining(在变量之间)、关联挖掘、序列框架挖掘(变量之间的暂时结合)、偶然数据的挖掘(变量之间的偶然关系)。教育数据挖掘中,关系挖掘已经被用在学习行为框架之间关系的鉴定和学生学习困难的对话或者错误的发生频率。[20]

E.社交网络分析。社交网络是理解和测量准入网络信息之间的关系。SNA基于网络理论的社交关系来构成节点(代表网络之间的个体因素)和联系或者链接(代表个体的关系,例如友情,亲缘关系,组织地位,性别关系等等)。在教育数据挖掘中,SNA主要用于挖掘解释和分析结构和合作任务之间的关系,相互交流的工具。[21]

F.过程挖掘。过程挖掘就是通过信息系统从过去的日志中提取出与过程相关的知识来对于整个过程有一个可视化的代表的信息。包括三个子领域:一致性检测,模型发现和模型扩建。在教育数据挖掘过程中,过程挖掘用于从学生的考试跟踪中发现学生的行为,或者从一系列课程,年级或者每一个同学。[22]

G.文本挖掘。文本挖掘也叫做文本数据挖掘或者文本分析,从文本中取得高质量的信息。检点的文本挖掘任务包括文本分类,文本聚类,概念提取,粒度分类,情绪分析,文件总结和实体关系模型。在教育数据挖掘工作中,文本挖掘主要用于讨论委员会,论坛,聊天,网页,文件诸如此类的内容分析。[23]

H.提炼人类判断的数据。主要使用总结,可视化,人机交互界面等智能方法强调有用信息和决策支持。一方面,从获得教育数据描述性停机到获得全球数据的特征和总结,和学习者的报告等方式变得更加容易,另外一方面,信息的可视化和图表技术的应用对探索和理解大量的教育数据一目了然。在教育数据挖掘工程中,同样也是以人工判断提炼著名就是已经用用帮助教师来对学生的课程表现和使用信息的情况进行可视化表现和分析。[24]

I.模型发现。模型发现的目的是使用某一现象(例如,使用预测,聚类,手工知识工程)的有效模型作为另外一种分析,例如预测或者关系挖掘的组成部分。[25]这个在教育数据挖掘上是一个很突出的办法,也能够支持学生行为和学生特征或者上下文变量之间的关系鉴定,着用广泛内容的研究问题分析,已经心理测量模型架构的一体化已经应用于学习模型。[26]

J.知识跟踪。知识跟踪(KT)是一种有效评估学生掌握认知导学系统的技巧。[27]主要应用于认知模型,将问题解决的项目用需要的技巧,学生正确或者不正确答案的日志来回到某一技巧所需要的知识。知识跟踪学生知识和通过四个变量来设置参数。这个作为贝叶斯网络的一种迭代公式。

K.非负矩阵分析。非负矩阵分解NMF是一种新矩阵分解算法,自《Nature》1999年刊登了两位科学家D.D. Lee和H.S.Seung有关非负矩阵研究的成果后,此分解算法逐渐被人们接受并应用到各种领域。NMF的基本思想可以简单描述为:对于任意给定的一个非负矩阵M,NMF算法能够寻找到一个非负矩阵Q和一个非负矩阵S,使得满足M=QS,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。NMF分解算法相较于传统的一些算法而言,具有实现上的简便性、分解形式和分解结果上的可解释性,以及占用存储空间少等诸多优点。通过矩阵分解,一方面将描述问题的矩阵的维数进行削减,另一方面也可以对大量的数据进行压缩和概括。有很多NMF算法和不同的解决办法。NMF构成了正数,同时也是两个较小矩阵的结果。

M = S t u d e n t1 S t u d e n t2 … … S t u d e n tjI t e m 1 M11 M12 …I t e m 2 M21 ……………I t e m i … MijQ * S S k i l l1 … S k i l lkI t e m1 Q11 Q 1 2 …I t e m2 Q21 …… … …I t e mi … Q i k S t u d e n t1S t u d e n t2 … …S k i l l1 S11 S12 …… S21 …S k i l lk … …

(2)教育数据挖掘的应用环境

教育数据挖掘的应用环境日趋复杂,主要分为传统教育环境和计算机网络环境。每一个环境都提供了不同形式的数据资源,根据可利用数据的属性和具体的问题,需要采取不同的方式进行处理。

A.传统教育。传统教育主要是教师与学生之间通过面对面的交流,例如演讲、课堂讨论、小组练习、个人作业等形式。这些环境下手机学生出勤率、分数、课程目标和个人计划等数据信息。同时传统的教育机构也会存储着形式多样的资料[28]:传统数据库(学生信息、教师信息、班级和课堂安排信息)、在线网络信息等。在传统课堂上一般会通过试卷或者观察来监控学生的学习过程,分析他们的学习。[29]

B.计算机教育系统。计算机系统在商业领域已经有了成熟的应用。但是在教育系统中的应用还是处于成长期。计算机教育系统根据用户的研究领域不同,而将不同的风格加以融合。该系统根据确立的目标(例如,教材、学习、问题解决、管理课件等),应用学习理论(客观论、认知理论和社会学理论)来设置相应的功能(例如,个性化,智能化等),并且运用技术平台来进行教学实践活动,其中智能导学系统(ITS)完成问题引入、操作和实验室仪器的管理等任务。[30]而智能化教育系统(AIWBES)就是将智能应用到课程、内容、排序、评估和学习等方面,以满足不同的教育目标。而其他的计算机教育系统将重点放在用户体验方面,例如学生模型、评估和教师支持等。

我们认为,教育数据挖掘系统主要有以下几种技术特征:

功能模块化。单一的教育数据挖掘工具已经无法满足“智慧教育”学习环境建构中对于教育数据挖掘的多样化要求。教育数据挖掘的计算机应用系统要满足利益相关者的各种需求,就需要强调对多种工具、技术的模块化聚合。不同功能和特征的模块集成为一个教育数据挖掘应用系统,模块内高内聚,不同模块间低耦合,针对不同的数据源采用统一的模块进行处理和分析。系统内的模块可以有工具集、插件等多种形式。

分析结果的可视化。教育数据挖掘的结果是面向不同的学习者和教学者,已经研究者。这就强调教育数据挖掘的结果报告一定要满足不同人群的需要和理解能力。因此,可视化呈现时教育数据挖掘结果需求所在。

数据多源化。教育数据挖掘的应用系统已经不再局限于各类数据化学习环境,如Sakai,Moodle等,而是超越LMS尝试对多源的教育数据进行处理。这些数据来源可以正式学习环境下的LMS数据、机构管理系统数据(学生档案、学生基本信息等)、也可以是非正式学习环境下的各种学习行为痕迹采集。Ryan S.J.d.Baker在2013年教育数据挖掘研究进展大会(孟菲斯)提出教育数据挖掘的工作正处于一个复杂而又不断变化的世界中。[31]

(3)教育数据挖掘的关键性应用

教育数据的研究者不仅针对教育软件,计算机支持合作学习,计算机应用测试等个人学习的分析,同时也对学生失败或者课程的因素分析。

教育数据挖掘应用在学生模型的提高。学生模型表示学生特征或者状态的信息,例如学生当前的知识,动机,外在识别和态度。不同的学生个体建模需要软件来对于个体的差异进行区别和反应,这样才能够显著提高学生学习。教育数据挖掘的方法能让研究者对于重要的相关的学生在真正时间范围内进行研究,例如高水平的构建而不是之前的可能性。例如,最近几年,研究者用教育数据挖掘的方法来鉴定学生是否在教育系统中作弊或者很差的自我效益。未完成任务,或者甚至一个学生觉得无聊或者失望。研究者也能够延伸学生模型甚至超过教育软件,目的是计算出预测学生失败]或者为保留大学课程的因素。

发现或者提供领域知识结构的模型 从机器学习文件中将心理学模型与空间搜索算法结合,仍然有很多的研究者开发自动获取准确领域结构的模型,直接从数据着手。例如,Barnes已经开发了一种能够自动发现Q矩阵的算法来分析数据[32],Desmarai已经开发了一个算法来发现部分顺序知识结构(POKS)模型,解释领域知识的相互关系。[33]

第三个关键应用是研究教育支持 (在学习软件,其他领域中,例如合作学习行为),面向发现什么类型的教育支持最有效。不同分组的学生或者不同情况下的学生。学习教育学支持最受欢迎的一个方法就是学习分解适合支持。

第四个关键的应用就是教育数据挖掘能够去定义或者扩展教育的理论,对于影响学习的关键性因素就能够获得更为深入的理解,经常是用于设计一个更好的学习系统。例如,Gong,Rai和Heffernan(2009)调查了自我理论在学习上的影响,研究发现与学习相关的知识输入越多,那么就会在学习中更少犯错误,而关于学习本身的影响力也是有限的。[34]Perera使用五大合作理论作为驱动理论来对于学生小组成功交流的框架。[35]Madhyastha和Tanimoto评估了一致性和学生表现之间的关系,用这个目的去指导支架式教学,基于他们的工作对于学生行为的一致性影响的超前理论。[36]

四、教育数据挖掘在大数据背景下面临的挑战和愿景

国际著名学术期刊《自然》和《科学》分别于2008年和2011年推出大数据专栏,在教育领域,哈佛大学、斯坦福大学、耶鲁大学等世界知名大学也启动了教育大数据研究项目。可见,大数据时代已经到来,这并将改变教育的传统形式,在未来具有广阔的应用前景,然而,由于种种限制,部分大数据相关应用还处于探索研究阶段,笔者认为,大数据时代背景下教育数据挖掘的全面应用主要面临两方面的挑战:

(1)技术层面的挑战。大数据的应用基础是对海量数据的存储,因而数据处理和分析技术必须跟上信息技术发展的步伐,这就包括计算机的数据处理能力、大型超级计算机算法技术开发等。其次,教育数据挖掘的核心环节是数据采集和问题分析,应用开发这需要面对的就是采集数据技术和学习分析技术的挑战。最后,不得不提的是数据存储系统的兼容性问题。目前,还没有制定教育数据的标准形式,没有统一的数据平台,这就对我们计算机兼容性提出了严峻的挑战。

(2)组织管理的挑战。众所周知,大数据的最大特点在于其“混杂性”,这种“混杂性”不仅表现在不同国家、地区和学校之间数据背景的差别,也表现在不同教师和研究人员对数据的期望也千差万别。因此,提升数据使用者的综合素质是我们开展数据挖掘工作的关键。

我们已经进入了一个“数据驱动学校,分析变革教育”的大数据时代,大数据必将改变传统教育的形式,“数据驱动决策”已经成为教育发展的潮流趋势。发达国家已经意识到大数据背景下教育的机遇与挑战,将大数据提升到国家战略地位,虽然我国教育数据挖掘工作还处于起步阶段,但是我们相信,只要我们整合现有资源,恰当运用数据挖掘技术优化教育规划和管理、提高教育教学质量,这不仅是必要的,也是一定能够做到的。

[1]Mayer-Schönberger V,Cukier K.Big data:A revolution that will transform how we live,work,and think[M].Houghton Mifflin Harcourt,2013.

[2]页川.大数据时代背景下挖掘教育数据的价值——教育部科学技术研究重点项目成果《教育数据挖掘:方法与应用》出版[J].中国远程教育,2013(4):94.

[3]Bala M,Ojha D B.Study of applications of data mining techniques in education[J].International J Res Sci Technol,2012,1:1-10.

[4]中华人民共和国教育部.教育信息化十年发展规划 (2011-2020年)[EB/OL].[2012-03-13].http://www. edu.cn/zong_he_870/20120330/t20120330_760603.shtml.

[5]Han J W,Micheline K.数据挖掘概念与技术[M].范明,孟晓峰译.北京:机械工业出版社,2001.

[6]Luan,Jing."Data mining and its applications in higher education."New directions for institutional research 2002.113(2002):17-36.

[7][25]Baker RSJd,Yacef K.The state of educational data mining in 2009:a review and future visions.J Edu Data Min 2009,3–17.CAS

[8][14]Romero,C.,Ventura,S.,Pechenizkiy,M.,& Baker,R.S.(Eds.).(2011).Handbook of educational data mining.CRC Press.

[9]Siemens,George,and Ryan SJ d Baker."Learning analytics and educational data mining:towards communication and collaboration."Proceedings of the 2nd international conference on learning analytics and knowledge. ACM,2012.

[10]Romero,Cristóbal,Sebastián Ventura,and Enrique García."Data mining in course management systems: Moodle case study and tutorial."Computers&Education 51.1(2008):368-384.

[11]Romero,Cristóbal,and Sebastian Ventura."Educational data mining:A survey from 1995 to 2005."Expert systems with applications 33.1(2007):135-146.

[12]Baker,Ryan SJD,and Kalina Yacef."The state of educational data mining in 2009:A review and future visions."JEDM-Journal of Educational Data Mining 1.1 (2009):3-17.

[13]Romero,C.,and S.Ventura."Data Mining in E-learning(Advances in Management Information)."(2006).

[15]Romero C,Ventura S.Educational data mining:a review of the state of the art[J].Systems,Man,and Cybernetics,Part C:Applications and Reviews,IEEE Transactions on,2010,40(6):601-618.

[16]Romero C,Espejo P,Zafra A,Romero J,Ventura S.Web usage mining for predicting marks of students that use Moodle courses.Comput Appl Eng Edu J.In Press.

[17]BakerRSJd,GowdaSM,CorbettAT.Automatically detecting a student’s preparation for future learning:help useiskey.In:FourthInternationalConferenceonEducational Data Mining.Eindhoven,The Netherlands;2011,179-188.

[18]Vellido A,Castro F,Nebot A.Clustering Educational Data.Handbook of Educational Data Mining.Boca Raton,FL:Chapman and Hall/CRC Press;2011,75-92.

[19]Ueno M.Online outlier detection system for learning time data in e-learning and its evaluation.In:InternationalConferenceon Computersand Advanced Technology in Education.Beijiing,China;2004,248-253.

[20]Merceron A,Yacef K.Measuring correlation of strong symmetric association rules in educational data.In Romero C,Ventura S,Pechenizkiy M,Baker RSJd,eds. Handbook of Educational Data Mining.Boca Raton,FL: CRC Press;2010,245-256.

[21]Rabbany R,Takaffoli M,Za¨?ane O.Analyzing participation of students in online courses using social network analysis techniques.In:International Conference on Educational Data Mining.Eindhoven,The Netherlands; 2011,21-30.

[22]Trˇcka N,Pechenizkiy M,van der Aalst W.Process mining from educational data.Handbook of Educational Data Mining.Boca Raton,FL:CRC Press;2011, 123-142.

[23]Tane J,Schmitz C,Stumme G.Semantic resource management for the web:an e-learning application.In:International Conference of the WWW.New York;2004, 1-10.

[24]Mazza R,Milani C.GISMO:a graphical interactive student monitoring tool for course management systems.In:International Conference on Technology Enhanced Learning.Milan,Italy;2004,1-8.

[26]Bienkowski M,Feng M,Means B.Enhancing teaching and learning through educational data mining and learning analytics:an issue brief.Washington,D.C.:Office of Educational Technology,U.S.Department of Education;2012,1-57.

[27]Corbett A,Anderson J.Knowledge tracing:modeling the acquisition of procedural knowledge.User Model User-Adapted Interact 1995,4:253-278.

Corbett A,Anderson J.Knowledge tracing:modeling the acquisition of procedural knowledge.User Model User-Adapted Interact 1995,4:253-278.

[28]Ma Y,Liu B,Wong C,Yu P,Lee S.Targeting the right students using data mining.In:KDD ‘00:Proceedings Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2000,457-464.

[29]student failure at school using genetic programming and different data mining approaches with high dimensional and imbalanced data.Appl Intell.In Press.

[30]Mostow J,Beck J.Some useful tactics to modify, map and mine data from intelligent tutors.J Nat Lang Eng 2006,12:195-208.

[31]San Pedro,Maria Ofelia Z.,et al."Predicting college enrollment from student interaction with an intelligent tutoring system in middle school."Proceedings.

[32]the 6th international conference on educational data mining.2013.Johnson M,Barnes T.EDM visualization tool:watching students learn.In:Third International.

[33]Conference on Educational Data Mining.Pittsburgh,PA;2010,297-298.Desmarais MC.Mapping question items to skills with non-negative matrix factorization. ACM SIGKDD Explor 2011,13:30–36.

[34]Gong,Yue,et al."Does Self-Discipline Impact Students'Knowledge and Learning?."International Working Group on Educational Data Mining(2009).

[35]PERERA,D.,KAY,J.,KOPRINSKA,I.,YACEF, K.and ZAIANE,O.2009.Clustering and sequential pattern mining to support team learning.IEEE Transactions on Knowledge and Data Engineering 21,759-772

[36]MADHYASTHA,T.and TANIMOTO,S.2009. Student Consistency and Implications for Feedback in Online Assessment Systems.In Proceedings of the 2nd International Conference on Educational Data Mining,81-90.

(编辑:王晓明)

TP393

:A

:1673-8454(2017)07-0037-08

2015年度华南理工大学高等教育研究基金项目“基于教育质量指数的学科发展质量监测评估研究”(gj2015005);华南理工大学发展战略与学科建设研究课题“学位点合格评估与动态调整机制研究”。

猜你喜欢
数据挖掘分析教育
国外教育奇趣
改进支持向量机在特征数据挖掘中的智能应用
题解教育『三问』
探讨人工智能与数据挖掘发展趋势
隐蔽失效适航要求符合性验证分析
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
教育有道——关于闽派教育的一点思考
电力系统不平衡分析
办好人民满意的首都教育
软件工程领域中的异常数据挖掘算法