肖巍 倪传斌 李锐
【摘 要】
数据挖掘,又称“数据库中的知识发现”,可通过一定的算法从大量数据中发现隐藏的模式与知识。在大数据时代,数据挖掘技术为学习预警研究提供了新的视角与方法。结合文献计量法和内容分析法,从相关文献的年度分布、学科分布、数据挖掘技术使用分布、研究热点等方面对国外基于数据挖掘的学习预警研究进行了系统性梳理,得出如下发现:研究数量持续上升;研究话题得到来自不同学科学者的广泛关注;挖掘技术以使用基本技术为主;研究热点集中在预警指标甄选、预警起始时间探测和预警模型效果评估三个方面。今后,研究者需要重视学习预警认知基础和运作机制的探讨,关注学习过程动态指标,形成学科特异的研究范式,并进一步推广、发挥学习预警研究的应用价值。通过回顾与展望,以期进一步推动国内学习预警研究走向纵深,并促进数据挖掘技术在教育技术领域的发展。
【关键词】 数据挖掘;学习分析;学习预警;预测;分类;文献计量;回顾;教育技术
【中图分类号】 G420 【文献标识码】 A 【文章编号】 1009-458x(2018)2-0070-9
一、选题缘起
学习预警(early-warning for learning)指按照一定的标准综合评估学生的背景信息、学习行为、考试成绩等因素,按照评估结果向学生、教师等发出提示信号,并及时提供有效且针对性强的干预建议(Macfadyen & Dawson, 2010)。构建学习预警机制,既可为教学管理提供决策参考,又可为学生提供帮助和指导;既是教学实践的实际需求,又是教学研究中的一大热点(Beck & Davison, 2001)。早期的学习预警研究大多基于思辨或依据期末成绩等指标进行,存在指标主观单一、时间滞后等不足。近年来兴起的数据挖掘技术则为学习预警研究提供了方法上新的切入点,有力地推动了学习预警研究的进展。
数据挖掘,又称“数据库中的知识发现”,可通过一定的算法从大量数据中发现隐藏的模式与知识(Baker & Yacef, 2009)。数据挖掘的核心工作是建立模型。建立模型的常用方法有預测、聚类、关联分析、时间序列分析等。相比描述统计、推断统计等传统的统计分析方法,数据挖掘在从大量的复杂数据中发现新模式与新知识时更有优势。
从20世纪80年代起,数据挖掘技术开始应用到教育教学领域,但相关成果不多。直到进入21世纪,在教育信息化的推动下,数据挖掘技术才开始在教育教学领域大量推广(Romero & Ventura, 2007; Pena-Ayala, 2014)。2012年美国教育部发布蓝皮书《通过教育数据挖掘和学习分析促进教与学》,2015年我国国务院发布的《促进大数据发展行动纲要》明确提出要建设教育文化大数据,成立了“教育大数据应用技术国家工程实验室”,标志着教育数据挖掘在中美两个大国都提高到了国家层面教育教学与人才培养的战略高度。
在“大数据时代”和“国家大数据”战略背景下,亟待运用数据挖掘技术丰富教育教学的研究手段并解决其中的实际问题。随着数据挖掘技术在教育教学领域的推广,该技术也开始应用到学习预警研究当中,并取得了大量成绩。然而,在国内,学习预警研究尚处于起步阶段,对学习预警研究的引介较多,实证研究较少。这些有限的实证研究大多在近几年才出现,研究主题也欠丰富(陈益均, 等, 2013; 孙力, 等, 2015, 2016; 施佺, 等, 2016; 贺超凯, 等, 2016; 尤佳鑫, 等, 2016; 胡祖辉, 等, 2017)。相比国外研究,国内研究无论在广度上还是深度上都需要加强。因此,本文通过对国外学习预警数据挖掘研究进行回顾与展望,进一步推动国内的学习预警研究走向纵深,并促进数据挖掘技术在教育技术领域的发展。
二、数据来源与方法
选取Web of Science索引库为文献来源,以“educational data mining”“learning analytics”“early warning”“academic performance prediction”“student retention”等为关键检索词,对过去十年(2007年-2017年3月)的相关文献进行检索。由于会议论文(conference paper)一般篇幅较短,本研究不予考虑,只将期刊论文纳入分析。剔除无关文献,并从有效文献的参考文献中继续查找,最终得到有效文献32篇。从数量看,学习预警数据挖掘研究尚未形成规模效应,其价值有待进一步挖掘;从文献质量看,这些研究总体上较为严谨,整体质量较高,能够反映学习预警数据挖掘研究的开展情况。
对于这些文献,拟采用“先总后分”的方式进行论述。具体地,首先采用文献计量的方式对文献的年度分布、学科分布、数据挖掘技术使用分布等方面的整体特点进行梳理,然后采用内容分析的方式对文献的具体内容进行分析,归纳出研究热点。
三、结果分析与回顾
(一)文献分布特点
1. 年度分布
文献的年度分布表明了研究的走势。由图1可见,基于数据挖掘的学习预警研究在第一个五年(2007-2011年)成果较少,偶有研究发表。但是在第二个五年(2012-2016年),相关研究的数量总体呈增长趋势,在2015年和2016年两年达到峰值,分别有8篇和7篇论文(由于2017年还未结束,这一年的3篇文献未予显示)。不难看出,论文数量的持续增长,表明数据挖掘技术在学习预警乃至教育领域不断受到关注和重视。随着大数据时代和“互联网+”的到来,数据挖掘对于广大学者已经不再是个陌生的名词,而是不断渗透到各个交叉学科领域。由于数据挖掘技术善于从大量的复杂数据中发现新模式与新知识,故而特别适合研究复杂的教育教学现象。构建学习预警机制正是数据挖掘技术在教育领域的具体应用之一。今后,随着数据挖掘技术的不断普及,基于数据挖掘的学习预警研究有望持续走向纵深。
2. 学科分布
文献发表期刊的学科分布表明了不同学科对学习预警这一研究问题的关注情况。对文献所发表的期刊进行归纳整理发现(见图2):32篇论文发表在19种期刊,其中教育技术类8种,计算机类8种,教育类3种。这三类期刊分别发表了19篇、10篇和3篇论文。这表明,作为一个交叉研究领域,基于数据挖掘的学习预警研究受到了教育学、教育技术学、计算机科学等不同学科的广泛关注。文献作者的学科背景也能反映出学界对学习预警的关注情况。通过整理归纳通讯作者/第一作者所在的院系发现(见图3):38%的作者为教育学背景,22%的作者为计算机背景,来自这两个学科的作者占了一半以上。其余作者则来自管理学、经济学、信息科学、数学、心理学和工业工程等相近学科。这进一步表明基于数据挖掘的学习预警研究受到了学界的广泛关注。
不同学科背景的学者在哪些期刊上发表研究则能反映不同学科之间的跨界与融合情况。期刊学科分布和作者学科分布的交叉列联表(见表1)显示:教育学和计算机背景的学者主要在教育技术类期刊发表论文,其他学科背景的学者在教育技术类期刊和计算机类期刊发表论文数量较为平均。由于教育数据挖掘是一个交叉领域,所以教育技术类期刊天然地成为相关研究发表的学术阵地。然而,应当看到,教育学背景的学者很少在计算机类期刊发文,计算机背景的学者也没有在纯教育类期刊发文。虽然学科之间的界限逐渐模糊,但距离深度的学科跨界与融合还有很长的路要走。
3. 数据挖掘技术使用分布
数据挖掘的常用方法有预测/分类、聚类、关联分析、时间序列分析等。预测/分类是根据输入数据进行学习训练建立模型,并对新数据进行映射,预测它的取值(对于连续变量而言)或者所属类别(对于离散变量而言)。聚类是通过捕获数据的自然结构将数据划分成有意义或有用的群组或类别。关联分析是通过频繁项集的形式发现大型数据集中隐藏的有意义联系。时间序列分析是对一系列时间点上的采样数据进行分析以发现其长期趋势和周期性变化特征。不同方法有各自不同的特点和使用范围,需要根据具体研究加以采用。我们对文献中使用到的数据挖掘方法进行了统计。根据研究需要,很多研究者会采用不止一种方法,因此统计出的方法数量会超出文献的数量。统计结果如图4所示。可以看到,预测/分类是学习预警数据挖掘研究中最常见的方法。这是学习预警研究的特点所决定的,因为学习预警的主要工作是预测某一课程最终的分数,或者根据某一课程是否能及格对学生进行分类。此外,也有研究结合聚类、关联分析、时间序列等多种方法解决学习预警问题。例如,先根据某些特征对学生进行聚类,再对不同类别的学生能否及格进行分类。
由于预测/分类方法最为常见,使用最多,我们对文献中使用的预测/分类技术进行了统计(见图5)。结果发现:线性回归和逻辑回归的使用频率最高,神经网络、决策树和支持向量机的使用频率次之,此外还有少量其他技术偶见使用。线性回归和逻辑回归是较为经典和成熟的数据挖掘技术,前者用于连续变量的预测,后者用于离散变量的分类。神经网络是一种类似于大脑神经突触连接结构的数学模型,具有并行分布式信息處理的能力,一般能达到较好的预测效果,具有较强的容错能力,但属于内部机制不透明的黑盒模型,其解释性较弱。决策树属于白盒模型,通过从自变量中寻找最佳分割变量和最佳分割点将数据划分为两组,针对分组后的数据不断重复上述步骤,直到满足停止条件,并将探测过程以树形结构的形式呈现出来,其结果易于理解和解释,但对缺失数据敏感。支持向量机以统计学中的VC维理论和结构风险最小原理为基础,在模型的复杂性和学习能力之间寻求最佳折中,其结构简单,技术性能好,但同样对缺失数据敏感。由于不同的技术有着各自的优缺点,研究者会根据研究需要选择最为合适的技术,通过多种技术构建多个模型进行评估,从中选出最优模型。
结合图4和图5可以发现,尽管数据挖掘技术的使用分布较为广泛,但所用的技术多为数据挖掘领域最基本的技术。对于目前数据挖掘领域的前沿技术,如深度学习(deep learning)等,在学习预警领域尚未见应用。此外,现在使用的技术也并非用于学习预警的专用技术,不利于学习预警研究的深入和学科特异研究范式的构建。今后,研究者应当尝试使用新的前沿技术,并开发适合学习预警的专用技术。
(二)文献研究热点
我们对文献关键词进行了统计。由于有的关键词意思相近,只是表述有细微差异,我们将这些相近的关键词视作同一词(如blended course和blended learning,data mining和data-mining)进行合并整理,并制作出词云图(见图6)。前十大关键词分别为数据挖掘、预测、学习分析、在线学习、学业成就、学习管理系统、分类、留级、混合课堂和高等教育(见表2)。这十大关键词从研究视角、研究内容、研究方法、数据来源、教学环境等不同方面勾勒出学习预警数据挖掘研究的全貌。研究视角方面,现有研究持有教育数据挖掘和学习分析两种视角。这两种视角互为补充,前者偏重数据驱动,后者强调学习预警的现实解释力度。研究内容方面,现有研究多关注学习成绩和学生留级,前者是通过对具体成绩的预测实现预警,后者是通过对学生分类对划入留级一类的学生进行预警。研究方法方面,为了预测学习成绩和成功划分出留级的学生,现有研究多使用预测和分类两种方法,前者适用于连续变量(如预测学习成绩),后者适用于离散变量(如及格/不及格、留级/不留级)。数据来源方面,现有研究多从学习管理系统(Learning Management System, LMS)获取学生数据(如性别、专业、课程成绩、绩点等),表明现有的教育大数据得到了一定程度的挖掘,但更多数据来源(如学生社交平台数据、学生上网数据)并没有进入研究者的视野或得到充分利用。教学环境方面,多关注高等教育、在线学习和混合课堂,说明对信息化程度较高的大学教育以及获取数据较为便利的网络教学环境关注较多,而对中小学教育和传统教学环境的关注可能不够。
结合文献内容进行深度分析发现:国际上基于数据挖掘的学习预警研究热点可以归结到横截面、纵贯面和技术层面三个方面。这三个方面的研究呈递进关系,前者是后者的基础,后者是前者的深入。下面详细讨论。
1. 横截面:有效预警指标的甄选
在不考虑时间因素的横截面(cross-sectional)上,研究热点为有效预警指标的甄选。由于学习预警的基本方法是通过一系列指标对学生成绩或学生是否及格/留级进行预测,因此,选择有效的预警指标是学习预警研究最为核心、最为基础的研究问题之一。目前,研究者运用决策树、神经网络、逻辑回归等预测和分类技术对采集到的数据进行挖掘,业已探明一系列有效预警指标。这些指标可归纳为三类:第一类为人口统计学信息,如性别、专业、家庭经济状况、父母文化程度、兄弟姐妹数量等;第二类为过去的学习成绩,如入学成绩、绩点等;第三类为当前课程的学习过程,如教材学习情况、练习完成情况、网络课堂登录次数、发帖数、回帖数等。其中,人口统计学和过往学习成绩两类指标为静态指标,并非对学习过程的直接测量,只能通过一系列中介变量间接预测成绩;学习过程为动态指标,通过评估学习过程中的实时动态数据对学习结果进行预警,可构建“过程→结果”的因果链,具有较强的可解释性。
在实际研究当中,研究者往往结合多类指标共同预警,以达到比单一指标更好的预警效果。这一点是由学习预警的理论基础和方法基础共同决定的。理论上,无论是学习者的背景信息、过去的学习成绩,还是当前课程的学习过程,都会对学生最终的学习结果产生影响。只有从多个维度入手确定需要测量的指标,才能更加有效地预警。方法上,数据挖掘是一种数据驱动的研究方法,要求尽可能利用现有数据,挖掘出其中蕴含的模式,而不一定局限于特定类别的数据。例如,Sen、Ucar和Delen(2012)对土耳其 5,000名中学生的人口统计学信息和过去的学习成绩等数据进行了挖掘,发现过去的考试经验、是否获得奖学金、兄弟姐妹数量和上一年的平均绩点分等指标可以共同预警。Hachey、Wladis和Conway(2014)对某社区大学962名参加了在线课程学习的学生数据进行挖掘,发现先前在线学习经验比平均绩点分的预测效果更好。
同时,应该看到数据挖掘研究的特点是利用现有数据,而不是根据一定的研究假设去专门采集数据。因此,如果现有数据有限,研究者通常只对该数据进行挖掘。例如,Macfadyen和Dawson(2010)对学生在线行为数据进行了挖掘,发现讨论信息发布数量、邮件发送数量和完成的测验数量等指标能有效预测期末成绩。Romero、Lopez、Luna和Ventura(2013)研究了114名计算机专业的大一学生在线论坛的学习行为,发现发送消息的数量、单词数、学生活跃中心度等指标可以有效预测学生期末成绩。这两例研究都是从Moodle等在线学习平台抓取学生的在线学习行为记录,没有专门采集学生的人口统计学信息等数据,故只利用了学习过程数据进行挖掘。
2. 纵贯面:有效预警起始时间的探测
在考虑时间因素的纵贯面(longitudinal)上,研究热点为有效预警时间的探测。既然是预警,就需要及时发出预警信号,在保证预警效果的前提下預警时间越早越好。在人口统计学信息、过去的学习成绩、学习过程三类预警指标中,学习过程数据具有动态特性,若能跟踪记录学习过程数据,就可以在学习过程中尽早预警。
学者运用纵贯研究设计和时间序列分析等技术发现,在开课一段时间后即可进行预警并干预,无须等到结课后再补救。但是,对于最早从何时起可以获得准确有效的预警效果,学界的研究并不一致,从学期初到期中不等。例如,Lee、Sbeglia、Ha、Finch和Nehm(2015)跟踪采集了287名美国大学本科生的课程形成性评估数据,发现前两周的课堂测验成绩与期末成绩相关性不高,但第三周的相关系数陡增,达到0.53,此后一直趋于稳定。Marquez-Vera 等(2016)调查了419名墨西哥高一学生在一学期各个阶段的数据,发现在第二和第三阶段(学期第4-6周)便已达到较好的预测效果。Huang 和Fang(2013)调查了323名本科生的绩点、微积分、大学物理、动力学期中考试成绩等数据,用以预测他们的工程动力学课程成绩。结果发现,将期中考试成绩加入预测模型可以达到更好的预测效果。由于该研究的学习过程数据仅有期中考试成绩一项,无法进一步探究准确的预警起始时间,但至少说明前半学期的表现可以有效预测期末成绩。
探测有效预警的起始时间对于教学有着重要的现实意义。比如,教学管理部门可以依据预警起始时间对选课系统进行改进,为确定补退选截止日期提供更加科学合理的依据。选课系统可以根据学生形成性评估的表现,提供即时排名,由学生决定是否继续学习该课程。学生也可以通过预警系统提供的数据知晓自己在期末可能取得什么样的成绩,从而采取相应干预措施,如通知家长、成立教师支持团队、提供个性化解决方案和学业警告等。
3. 技术层面:预警模型效果评估
若在技术层面对预警模型进行对比和改进,就涉及到了模型效果评估的问题。模型对比,即结合多种技术进行模型训练、测试与评估,综合考虑准确率(accuracy)、召回率(recall)、精度(precision)等多个评估指标,以及效率(efficiency)、可解释性(interpretability)、可行性(deployability)等实际使用时需考虑的因素,对多个模型进行对比,从中选出最优模型(Romero, et al., 2013)。例如,Huang 等(2013)使用多元线性回归、多层传感网络、径向基函数网络和支持向量机四种数学模型进行期末成绩预测,发现四种模型的效果差异不大。Kotsiantis(2012)利用M5树模型、M5规则树模型、神经网络、线性回归、局部加权线性回归和支持向量机六种技术进行预测,发现M5规则树模型准确率最高,且可理解性最好。Sen 等(2012)对比了神经网络、支持向量机、决策树和逻辑回归以及四种预测/分类模型,发现决策树模型的敏感度最高。总体上,相比单一模型,模型对比可以发现潜在的更好的模型,获得更好的预警效果。
获得更好效果的方法除了模型对比,还有模型改进,即通过算法优化或利用现有模型组建新模型。Romero 等(2013)分别使用多种分类、聚类和关联规则算法进行挖掘,发现聚类与关联规则相结合的算法比传统的分类算法更具解释力。Marbouti、Diefes-Dux和Madhavan(2016)调查了120名美国本科生的学习过程数据,包括课堂测验、小组活动、家庭作业、项目设计、书面考试等,使用逻辑回归、人工神经网络、支持向量机、k邻近、决策树和朴素贝叶斯六种模型进行预测,并结合两种假负例最少(朴素贝叶斯、支持向量机)和假正例最少(k邻近)的模型构建了一个组合模型,从而得到了最优预测效果。Tsai、Tsai、Hung和Hwang(2011)使用三种聚类分析(k-均值聚类、自组织映射、二阶聚类)根据性别、出生地、院系等数据对学生进行聚类,再通过决策树提取出有用的规则,对学生在一项计算机考试中不及格的概率进行预测,达到了较好的预警效果。Taylan和Karagozoglu(2009)利用模糊规则、神经网络、遗传算法等技术构建了一个预测学生学业表现的自适应模糊神经网络模型,发现该模型的穩健性和传统统计模型相比无显著差异,但对学业表现提供了一种更加自然的解释途径。总体上,相比模型对比,模型改进的预警效果往往更好,但其技术门槛往往也更高。
相比指标甄选和起始时间预测,模型效果评估是学习预警研究中更加深入的问题。如果说预警指标甄选和起始时间探测是学习预警的初步探索,那么模型效果评估就是在对这些初步探索进行梳理和取舍的高级决策。如果可行,一项学习预警研究应当完整地包括这三个方面。例如:Hu、Lo和Shih(2014)首先通过数据预处理得到13个预警指标,包括4个时间相关指标和9个时间无关指标。然后,分别基于前4周、前8周和前13周的数据生成三个数据集,并分别使用C4.5、CART和逻辑回归三种技术对这三个数据集进行建模,得到9个模型。对这9个模型进行基于I、II类错误和准确率的评估,淘汰逻辑回归模型,保留C4.5和CART建立的6个模型。之后,对这6个模型分别用全部数据和不含时间相关指标的数据进行预测,发现加入时间相关指标的模型效果更好。最后,通过模型改进,发现集成了自适应增强技术(AdaBoost)的CART模型效果最好。这一研究当属学习预警研究的典范。然而,现阶段要求所有研究都如此完备不太现实。一方面,起始时间的预测往往需要纵贯设计和时间序列采样,对研究投入要求较高,有的研究者可能难以承受;另一方面,模型评估的技术门槛较高,需要一定的数学和计算机基础,成为有些研究者的技术瓶颈。将来,随着学习预警研究走向纵深,研究投入越来越大,跨学科人才和跨学科合作不断增多,完备的学习预警研究必将不断出现。
四、研究不足与未来展望
将新兴的数据挖掘技术引入学习预警研究,使得学习预警这一古老的话题焕发出新的生命力,有望成为一个理论基础宽厚、研究内容丰富、方法体系多样、应用前景广阔的前沿交叉领域。然而,从现有文献来看,学习预警研究在理论、内容、方法和应用方面均存在一些问题和不足。对这些问题和不足进行分析和梳理,有利于更加精准地把握该领域的研究现状和展望其未来研究动向,更加科学地利用数据挖掘技术进行学习预警研究。
(一)理论上,学习预警的认知基础和运作机制尚待厘清
理论研究是一个领域的基石,对该领域的研究发展有着引领作用。当前,学习预警理论研究中亟待突破的一个关键点是厘清学习预警的认知基础和运作机制:在内部,从生理、心理、社会文化层面精准把握学生的认知活动;在外部,将认知活动放到学习预警的大环境中进行讨论,对学习预警的各个环节和组块进行构建和优化。将认知视角与社会视角相结合,无疑会为学习预警研究奠定坚实的理论基础。然而,目前尚未见到学习预警的理论研究文献。诚然,部分学者在实证研究中进行了理论探讨,如Agudo-Peregrina等(2014)为了研究虚拟现实环境和在线学习环境下交互性(interaction)的预警效果,对交互性的定义和内涵进行了系统梳理和深入探讨。但总体而言,学习预警理论研究并未取得实质性突破。
理论研究薄弱还与实证和方法上的欠缺有关。实证方面,虽然现有研究数量持续上升,但绝对数量仍然不多,未能对各种课堂环境和学科开展具化研究,无法给学习预警理论构建提供坚实的实证基础。方法方面,现有研究多侧重于纯数据驱动,脱离教学环境和理论阐释,在研究框架构拟、数据采集和数据解释等方面缺乏理论支撑。有的研究建立内部不透明的黑盒模型,只能给出最终运行结果,无法观察内部运行过程。有的研究虽然采用内部透明的白盒模型,但并未在教学理论的指导下系统地采集数据,只是利用现有的零散数据进行挖掘分析,导致对预警结果的阐释牵强。缺乏理论指导的实证研究容易陷入“各自为战”的局面,难以提供汇流式的证据支撑。
厘清学习预警的认知基础和运作机制,需从以下三个方面着手:理论方面,学习预警研究者应当积极借鉴教育心理学、社会心理学、学习科学等不同学科的理论和模型(如活动理论、交互理论、形成性评估理论等),夯实学习预警研究的理论基础;实证方面,重视预警机制的教学环境差异,对不同课堂环境(网络课堂、传统课堂、混合课堂)和学科(生物、数学、计算机等)开展更加微观、具化的研究,尤其要关注数据采集不便的主流教学环境——传统课堂,以及技术手段偏弱的传统文科课堂,在大量实证研究的基础上进行理论构建;方法方面,选取内部透明的白盒模型,结合具体理论或模型进行挖掘,对挖掘结果进行基于理论的阐释,以增强结果的可解释性。
(二)实证上,学习预警指标的甄选对动态数据关注不够
现有研究对人口统计学信息和过去学习成绩等静态指标关注较多,而对学习过程动态指标关注不够。诚然,静态数据便于采集,也有一定的预测效力,但具有一定局限性。首先,静态指标已无法通过教学活动和学生主观努力加以改变。若过分依赖静态指标,容易导致学生认为自己的学习结果早已被这些无法改变的因素所决定,从而丧失学习积极性。例如,Hendel(2007)发现本科生的高中学校排名和学生所在族裔能显著影响学生大一结束时的退学率。此类发现虽然具有统计学意义,却难以对学习预警提供具有教学指导意义的反馈,因为学生无法通过改变自身高中学校或者族裔来降低退学的可能性。为了通过学习预警充分激发和调动学生的学习积极性,在甄选指标时应当更加关注学生在学习过程中可以通过自身努力加以改变的动态指标。其次,关注动态指标与学习的特点和评估机制相契合。从学习的特点看,学习不是简单的输入-输出线性过程,而是充满倒退、停滞甚至跳跃式前进的动态系统行为(Larsen-Freeman, 1997)。因此,单纯依靠静态指标无法监测学习的动态发展过程。从学习的评估机制看,对学习的评估必须通过观察学生的学习行为表现来诊断其学习状况,得出评估结果并加以解释和使用,从而激发和调动学生的学习意识和学习积极性(Lynch, 2016)。评估的目的不仅仅是为了测量,而是为了以评促学(Rea-Dickins, 2001)。因此,单纯的静态指标无法满足形成性评估的需求。综上所述,只有对学习过程进行动态监测与评估,才能更好地进行学习预警。
(三)方法上,学习预警尚未形成学科特异的数据挖掘研究范式
学习预警研究领域的数据具有如下特点:一是来源广泛,可能来自网络学习平台、教学管理系统、调查问卷、课堂测验等线上线下多种渠道;二是结构各异,有结构化数据(如问卷中的李克特量表),也有半结构化(如问卷中的主观性问题)甚至非结构化的数据(如网络学习平台中的图片、视频信息);三是缺失程度不同,有的数据可能较为完整(如教学管理系统中的学生个人信息),有的可能存在缺失(如测验中的空白题);四是样本量可能相对较小,不能简单照搬金融、管理等领域基于大样本的技术;五是正、负例失衡且正例过少(一般情况下,能够通过课程考试、无须预警的学生居多,而考试不及格、需要预警的学生占少数),容易导致模型拟合不足,加大了对需要预警的学生的识别难度。这些特点对数据挖掘技术提出了新的要求。进行学习预警数据挖掘时,既要遵循数据挖掘的一般工作流程和研究范式,又要結合学习预警的特点进行改进,充分利用和整合各种渠道的数据开发专用数据挖掘技术,逐渐形成学习预警乃至教育技术领域学科特异的数据挖掘研究范式。
(四)应用上,学习预警系统有待进一步推广,为学生精准预警提供个性化服务
基于学习预警研究成果,可以开发学习预警系统,为教育政策制定、教学资源规划和教学方法实施提供决策支撑,并为学生发现学习困难、改善学习状态、提升学习效果提供帮助和指导。目前,国外已开发了一些学习预警系统,如美国普渡大学的课程信号系统、亚利桑那州立大学的电子顾问、可汗学院的学习仪表盘等(王林丽, 等, 2016)。这些系统在教学实践中的应用又可以回馈、促进学习预警研究的发展(Krume, et al., 2014)。然而,现有的学习预警系统在技术和应用层面均存在不足。在技术层面,现有学习预警系统虽然较为丰富,但其底层技术并非学习预警专用技术,仍以数据挖掘领域最基本的技术为主。在应用层面,现有系统多为宏观的通用平台,尚未做到针对每一门具体课程进行专门预警。诚然,为避免重复建设,最理想的状态是设计一套通用的预警模型和方法(Kotsiantis, 2012; 刘三女牙, 等, 2016)。然而,在现阶段,学界对不同学科、不同课堂的微观研究还未深入。只有当特异化的微观研究已经很充分之后,才可能在此基础上构建一个统一的宏观平台。因此,在相当长的时期内还应以特异化的微观研究为主,未来应当针对不同课堂和学科的特点开发个性化的学习预警系统,为学生精准预警提供个性化服务,进一步应用学习预警研究的成果。
五、结语
本文通过对国外基于数据挖掘的学习预警研究文献进行了系统性梳理发现:研究数量持续上升;研究话题得到来自不同学科学者的广泛关注;挖掘技术以使用基本技术为主,尚未开发用于学习预警的专用技术;研究热点集中在预警指标甄选、预警起始时间探测和预警模型效果评估三个方面。今后,研究者需要重视学习预警认知基础和运作机制的探讨,关注学习过程动态指标,形成学科特异的研究范式,并进一步推广、发挥学习预警研究的应用价值。
我国是一个教育大国。在大数据时代,如何利用教育大数据改进我们的教育教学?基于数据挖掘的学习预警研究无疑是一个值得关注的话题。国内的学习预警研究近年来虽然有所发展,但总体上起步较晚,研究数量不多;研究主题欠丰富,主要集中在预警指标甄选,对于预警起始时间探测和模型效果评估尚未涉及。相比国外研究,国内研究无论在研究广度还是深度上都需要极大加强。本文通过对国外基于数据挖掘的学习预警研究进行回顾与展望,希冀进一步推动国内的学习预警研究走向纵深,并促进数据挖掘技术在教育技术领域的发展。
[参考文献]
陈益均,殷莉. 2013. 基于数据挖掘的学生成绩影响模型的研究[J]. 现代教育技术,23(1):94-96.
贺超凯,吴蒙. 2016. edX平台教育大数据的学习行为分析与预测[J]. 中国远程教育(6):54-59.
胡祖辉,施佺. 2017. 高校学生上网行为分析与数据挖掘研究[J]. 中国远程教育(2):26-32.
刘三女牙,彭晛,刘智,等. 2016. 基于文本挖掘的学习分析应用研究[J]. 电化教育研究(2):23-30.
施佺,钱源,孙玲. 2016. 基于教育数据挖掘的网络学习过程监管研究[J]. 现代教育技术,26(6):87-93.
孙力,程玉霞. 2015. 大数据时代网络教育学习成绩预测的研究与实现[J]. 开放教育研究,21(3):74-80.
孙力,张凯,丁波. 2016. 基于数据挖掘的网络教育学习成绩细分预测的研究与实现[J]. 中国远程教育(12):22-29.
王林丽,叶洋,杨现民. 2016. 基于大数据的在线学习预警模型设计——“教育大数据研究与实践专栏”之学习预警篇[J]. 现代教育技术,26(7):5-11.
尤佳鑫,孙众. 2016. 云学习平台大学生学业成绩预测与干预研究[J]. 中国远程教育(9):14-20.
Agudo-Peregrina, A. F., Iglesias-Pradas, S., Conde-Gonzalez, M. A. & Hernandez-Garcia, A. (2014). Can we predict success from log data in VLEs? Classification of interactions for learning analytics and their relation with performance in VLE-supported F2F and online learning. Computers in Human Behavior, 31, 542-550.
Baker, R. S. & Yacef, K. (2009). The state of educational data mining in 2009: A review and future visions. Journal of Educational Data Mining,1(1), 3-17.
Beck, H. P. & Davidson, W. D. (2001). Establishing an early warning system: Predicting low grades In college students from survey of academic orientations scores. Research in Higher Education, 42(6), 709-723.
Hachey, A. C., Wladis, C. W. & Conway, K. M. (2014). Do prior online course outcomes provide more information than G.P.A. alone in predicting subsequent online course grades and retention? An observational study at an urban community college. Computers & Education 72, 59-67.
Hendel, D. D. (2007). Efficacy of Participating in a First-Year Seminar on Student Satisfaction and Retention. Journal of College Student Retention, 8(4), 413 - 423.
Hu, Y.-H., Lo, C.-L. & Shih, S.-P. (2014). Developing early warning systems to predict students online learning performance. Computers in Human Behavior 36, 469-478.
Huang, S. & Fang, N. (2013). Predicting student academic performance in an engineering dynamics course: A comparison of four types of predictive mathematical models. Computers & Education, 61, 133-145.
Kotsiantis, S. B. (2012). Use of machine learning techniques for educational proposes: a decision support system for forecasting students grades. Artificial Intelligence Review, 37(4), 331-344.
Krumm, A. E., Waddington, R. J., Teasley, S. D. & Lonn, S. (2014). A learning management system-based early warning system for academic advising in undergraduate engineering. In J. A. Larusson & B. White (Eds.), Learning analytics: From theory to practice (pp. 103-119). New York: Springer.
Larsen-Freeman, D. (1997). Chaos/complexity science and second language acquisition. Applied Linguistics, 18, 141-165.
Lee, U. J., Sbeglia, G. C., Ha, M., Finch, S. J. & Nehm, R. H. (2015). Clicker score trajectories and concept inventory scores as predictors for early warning systems for large STEM classes. Journal of Science Education and Technology, 24(6), 848-860.
Lynch, B. K. (2016). Language assessment and programme evaluation. Shanghai: Shanghai Foreign Language Education Press.
Macfadyen, L. P. & Dawson, S. (2010). Mining LMS data to develop an “early warning system” for educators: A proof of concept. Computers & Education, 54(2), 588-599.
Marbouti, F., Diefes-Dux, H. A. & Madhavan, K. (2016). Models for early prediction of at-risk students in a course using standards-based grading. Computers & Education, 103, 1-15.
Marquez-Vera, C., Cano, A., Romero, C., Noaman, A. Y. M., Fardoun, H. M. & Ventura, S. (2016). Early dropout prediction using data mining: a case study with high school students. Expert Systems, 33(1), 107-124.
Pena-Ayala, A. (2014). Educational data mining: A survey and a data mining-based analysis of recent works. Expert Systems with Applications, 41(4), 1432-1462.
Rea-Dickins, P. (2001). Mirror, mirror on the wall: identifying processes of classroom assessment. Language testing, 18(4), 429-462.
Romero, C. & Ventura, S. (2007). Educational data mining: A survey from 1995 to 2005. Expert Systems with Applications, 33(1), 135-146.
Romero, C. & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 3(1), 12-27.
Romero, C., Lopez, M. I., Luna, J. M. & Ventura, S. (2013). Predicting students' final performance from participation in on-line discussion forums. Computers & Education, 68, 458-472.
Sen, B., Ucar, E. & Delen, D. (2012). Predicting and analyzing secondary education placement-test scores: A data mining approach. Expert Systems with Applications, 39(10), 9468-9476.
Tsai, C.-F., Tsai, C.-T., Hung, C.-S. & Hwang, P.-S. (2011). Data mining techniques for identifying students at risk of filing a computer proficiency test required for graduation. Australasian Journal of Educational Technology, 27(3), 481-498.
收稿日期:2017-06-24
定稿日期:2017-09-19
作者簡介:肖巍,博士,副教授,硕士生导师,重庆大学外国语学院(401331)
倪传斌,博士,教授,博士生导师,副院长,南京师范大学外国语学院(210097)。
李锐,博士后,华中科技大学外国语学院(430074)。
责任编辑 韩世梅