施 佺 钱 源 孙 玲
基于教育数据挖掘的网络学习过程监管研究*
施 佺1钱 源1孙 玲2
(1.南通大学教育科学学院,江苏南通226019;2.南通大学电子信息学院,江苏南通 226019)
近年来,随着教育信息化进程的不断推进,教务管理、学生信息系统及各种网络教学平台等已被广泛应用于教学实践中。网络教学的开展为学生自主学习提供了平台,但却缺乏对学习过程的监督和管理。文章在分析教育数据挖掘技术及其应用的基础上,建立网络学习过程监管的教育数据挖掘模型,并以本校外研社大学英语教学管理平台为例,借助教育数据挖掘技术中的统计分析与可视化、关联规则算法和聚类算法,分析了网络学习过程中产生的大量学习数据,并根据分析结果给出了网络学习过程监督与管理的思考和建议,以期为教师评判学生网络学习效果、了解学生网络学习状况、改进网络学习过程提供有益的参考。
教育数据挖掘;网络学习;监管;优化
随着信息化进程在教育领域的推进,教育信息化已经在促进教育公平、实现教育资源共享、推动教育理念变革、培养创新性人才等方面发挥了重要作用;特别是网络学习的出现,在很大程度上改变了传统教学方式,提升了教学效率,为教育的公平化和教育资源的普及化提供了实现途径。但网络学习在推广使用的过程中,也存在网络学习过程难以监管、网络学习效果难以评价等问题。网络学习系统会依据学习者的学习踪迹、互动过程等行为存储大量的数据,这些数据中隐藏着学习者的网络学习行为等信息,教育者若能挖掘、分析这些数据,便有可能掌握学习者的网络学习状况,对学习者的网络学习过程进行监督和评价,并帮助学习者及时调整学习过程。但如何分析网络学习过程中产生的海量数据?庞大的数据量、复杂的数据分析方法等对大多数教育工作者而言,都是巨大的挑战。
数据挖掘技术在教育领域的应用,为网络学习数据分析提供了有力的技术支撑;“数据驱动学校,分析变革教育”的大数据时代已经来临,利用教育数据挖掘构建教育模型,探索教育变量之间的关系,为教育教学发展提供决策支持,已经成为信息化教育发展的必然趋势[1]。本研究在分析教育数据挖掘技术及应用现状的基础上,建立网络学习过程监管的教育数据挖掘模型,并以本校外研社大学英语教学管理平台为例,进行个案应用研究,验证了模型的可行性。
教育数据挖掘是数据挖掘技术在教育领域的具体应用。根据国际教育数据挖掘工作组网站的定义,教育数据挖掘是指运用不断发展的方法和技术,探索特定的教育环境中的数据类型,挖掘出有价值的信息,以帮助教师更好地理解学生,并改善他们所学习的环境,为教育者、学习者、管理者等教育工作者提供服务[2]。教育数据挖掘的主要目标包括:构建学习者模型,预测学习发展趋势;分析已有教学内容、教学模型,提出改进优化建议;针对各种教育软件系统,评估其有效性;构建教育领域模型,促进有效学习的产生[3]。
教育数据挖掘的数据来源可以来自于网络学习系统或者教育办公软件等,也可以来自于传统学习课堂或传统测试结果等。数据属性既可以是个人信息(人口学信息),也可以是学习过程信息。教育数据挖掘过程包括数据获取与预处理、数据分析和结果解释三个阶段[4]。教育数据挖掘的模型主要可分为描述性模型和预测性模型两类。——描述性模型用于模式的描述,为决策制定提供参考意见;而预测性模型主要用于基于数据的预测(如预测学生成绩或课程通过情况等)。目前而言,国外学者对教育数据挖掘在网络学习中的应用研究相对比较完善。例如,Divna等[5]采用聚类算法对Moodle平台中的学习数据进行分析,找出具有相似学习特征的学生,并根据分类结果判断学生是否取得进步,证明了数据挖掘技术在网络学习过程中的可行性;Huseyin等[6]采用决策树算法预测影响学生学业成功的影响因素,并采用多个模型视图构建一个完整的教育数据挖掘系统等。近年来,教育数据挖掘及其应用也成为国内学者研究的热点。如傅钢善教授等[7]以陕西师范大学“现代教育技术”网络课程为例,对网络学习者的行为特征进行分析,探讨其与学习效果的关系;武汉大学的吴青等[8]选择某远程教学平台的学习行为数据,采用关联规则算法挖掘学习风格、学习行为和学习成绩之间的内在规律,为教学决策和教学优化提供了帮助和建议。
虽然众多研究者使用教育数据挖掘在网络学习过程中进行了研究,并得出了有用的信息和结论,为网络教学改进提供了决策支持,但大部分研究侧重于关系研究,而相关网络学习过程监管及整体模型建构的研究较少。如何设计一个有效的网络学习过程监管模型,并根据教育数据挖掘结果为网络学习过程的监督和管理提供决策支持,仍然是值得深入研究的重要问题。
根据网络学习的特殊属性及教育数据挖掘流程,本研究构建了如图1所示的网络学习过程监管的教育数据挖掘模型。数据源主要来自网络学习平台数据库,以及教务管理平台数据库中的学生课程考试成绩、个人信息等数据。由于数据来源的多样化,因此在完成数据采集之后,必须对数据进行预处理,包括去除冗余数据、处理缺失数据、数值转换等。
图1 网络学习过程监管的教育数据挖掘模型
数据预处理完成后,进入教育数据挖掘的核心环节——选择挖掘方法分析数据并得出结果。针对网络学习平台的学习过程监管,使用统计分析与可视化方法了解学习者的网络学习时间分布、偏好页面等;使用关联规则了解学习者的网络学习属性与学业成绩之间的关联;使用聚类分析对学习者分类,教师可以依据分类结果对各类学生进行不同形式的监管,也可根据分类结果给予相应的网络学习效果评价。最后,将教育数据挖掘的结果应用到网络学习过程的监管中,学生进行新一轮的网络学习,产生新的网络学习数据,对产生的新数据继续进行分析。如此不断迭代,对网络学习过程进行调整和优化,使其朝着研究性学习和自主性学习的目标实现可持续发展。
1 研究对象
本研究以本校外研社大学英语教学管理平台为对象,选取5211名大一学生在2014~2015第二学期的网络学习数据共计50余万条,包括页面浏览信息、在线时长、在线测试等数据表,结合教务管理平台数据库中的学生信息表和成绩表进行教育数据挖掘,分析学生的网络学习状况,总结学生学习规律,为教师监管学生的网络学习过程、给予合理的网络学习效果评价提供途径。
2 统计分析与可视化
(1)周登录率统计分析
根据学生一学期16周的完整学习数据,计算学生每周登录网络学习平台的登录率。周登录率按照每周的登录学生数除以总人数得到,并按性别进行统计,如图2所示。网络学习过程中,学生的登录次数并不能正确反映学生活跃度,但登录人数却能较为真实地反映学生登录状况。
图2 周登录率图
图3 学院周登录率图
由图2可以看出:①开学第一周即有60%的学生登录平台,网络学习呈现出好的势头,此后总登录率一直维持在50%~60%左右,学期最后有所下降;②女生整体登录率高,且高于总登录率,而男生参与度远远低于女生,需要重点关注和监督;③男生登录率整体波动较大,说明男生的学习参与比较分散,持续性不强。
按学院统计周登录率,选择4个最具代表性的学院进行具体分析,如图3所示。其中,文学院为文科学院,女生较多,登录率走势与图2总登录率基本一致,但学期末下滑趋势明显;艺术学院登录率波动非常大,第5周~第11周连续7周时间没有学生登录;电气工程学院的登录率与总登录率几乎一致,且走势非常平缓,说明该学院学生的学习稳定性和持续性保持良好;而同是工科院系的计算机学院则波动明显。图3表明各学院间的登录率差异较大,英语任课教师应定期相互交流网络教学经验,共同提高网络教学效果。
(2)学生偏好页面统计分析
在英语网络学习平台中,学生主要学习的页面有4个:首页、读写页面、听说页面、在线测试。其中,首页为信息选择页面,没有实质性学习内容。根据每位学生在4个页面所花时间的多少,选择学生花费时间最多的页面为其偏好页面,统计每个页面的人数,得出:首页为20.36%,听说页面为11.88%,读写页面为33.62%,在线测试页面为34.14%。
20.36%的学生偏好页面为首页,说明学生在无实质学习内容的首页花费时间最多,可能存在“挂时间”的情况,需要引起教师的极大关注。偏好听说页面的学生仅有11.88%,可能是由于国内学生长时间处于应试教育中,英语学习大多为“哑巴式”学习,口语和听力普遍较差;网络学习平台可以为学生提供良好的口语和听力练习环境,教师应注重积极引导,使学生对口语和听力产生兴趣并加以训练,让英语真正成为学生的一门语言技能,而不只是为了应付考试。
3 关联规则挖掘
关联规则用于发现属性间的关联,通过挖掘频繁项集发现属性间的联系。关联算法主要包括两个步骤:第一步是计算密集型阶段,挖掘频繁项集;第二步是基于频繁项集生成关联规则,一般规则均描述为包含左项集(条件)和右项集(结论)的一对,并通过置信度和支持度衡量规则的重要性和可信度。本研究选用Microsoft关联规则,通过置信度、重要性判断规则的有用性和重要程度——置信度是关联规则的属性,决定了规则的可预测性;重要性也称为兴趣度分数或增益,用于度量项集和规则,测试规则的有效性,重要性分数越高,规则的质量越好。
将关联规则运用到网络学习过程的监管中,可以发现网络学习属性与学业成绩之间的关联,帮助教师了解学生的网络学习状况,从而更好地监督学生学习,及时给予反馈,提高学习质量。关联规则要求数据属性为离散型数据,使用等频分箱法对相关数据进行离散化处理,得到如表1所示的各属性离散化编码表,其它用于关联规则的属性还包括学生偏好页面、性别。
表1 各属性离散化编码表
根据重要性分数高低,选择以下5条重要规则:
规则1:偏好页面=“在线测试”,学习页面时间=“X2”,期末英语成绩=“S3”,置信度为0.833,重要性为0.411。测试页面花费时间最多,学习页面时间处于中等水平,期末英语成绩好。
规则2:在线时间=“T1”,学习页面时间=“X1”,期末英语成绩=“S1”,置信度为0.547,重要性为0.385。在线时间少,学习页面花费时间少,期末英语成绩差。
规则3:偏好页面=“首页”,在线时间=“T1”,期末英语成绩=“S1”,置信度为0.667,重要性为0.305。首页花费时间最多,在线时间少,期末英语成绩差。
规则4:测试页面时间=“E1”,学习页面时间=“X1”,期末英语成绩=“S1”,置信度为0.526,重要性为0.267。测试页面花费时间少,学习页面花费时间少,期末英语成绩差。
规则5:学习页面时间=“X3”,测试页面时间=“E3”,期末英语成绩=“S3”,置信度为0.459,重要性为0.222。学习页面花费时间多,测试页面花费时间多,期末英语成绩好。
从以上5条规则可以看出,如果学生的网络学习习惯较好,即花费较多时间进行网络学习,且在学习模块花费时间较多,则期末英语能取得好成绩;而学生网络学习习惯较差,即花费少量时间进行网络学习,且在首页花费较多时间,则期末英语成绩往往较差。这表明学生良好的网络学习习惯与学业成绩有较大关联,因此教师可以及时监督提醒到网络学习习惯较差的学生。
4 聚类分析
聚类是对一组数据对象的集合进行分析,其划分原则是同一个簇中的对象之间具有较高的相似度,不同簇的对象之间差别较大。聚类算法有很多种,如EM聚类、K-means聚类等。其中,K-means聚类算法的特征是每个对象只能分配给一个聚类,聚类之间不相互连接,也不相互重叠。这里使用聚类分析对学习者进行分类,K-means算法更为合适。
聚类分析的目的是根据学生的学习行为特征对学生分类,方便教师有针对性地管理和评价学生,并能为学生提供及时反馈,使学生根据自己的所属分类调整学习计划,达到更好的学习效果。这里仍然对数据进行离散化处理(与表1的离散化原理类似),包含在线时间属性T、读写页面时间属性R、听说页面时间属性L和在线测试成绩属性E。其中,属性E按成绩从低到高离散化为E(E0、E1、E2、E3),E0表示未进行在线测试;其它三个时间属性均按照时间从少到多离散化为T(T1、T2、T3)、R(R1、R2、R3)、L(L0、L1、L2、L3),L0表示未进行听说页面学习。根据这四个属性进行聚类分析,将聚类数设为3,最终得到如表2所示的聚类结果。
表2 聚类分组表
根据表2,分类1的学生学习情况处于中等水平,各属性值基本都处于中间段,将此类学生定义为适中型;分类2的学生学习情况比较理想,登录时间和听说页面学习时间较长,并在读写页面花费大量时间学习,最终的测试成绩也比较理想,将这类学生定义为自觉型;分类3的学生学习情况较差,这类学生整体在线时间少,几乎每个页面都处在时间较少的值域,测试成绩也大多不理想,定义为待调整型,教师应对这类学生给予关注和提醒。该聚类结果还可为教师提供一定的学习效果评判参考,依据聚类结果为学生提供网络学习过程性评分。
为方便对加载过程中裂缝及应变等数据的采集,本文未对梁底进行砂浆防护等后期处理。在实际桥梁加固中,为加强锚固效果和确保钢丝绳在工作环境下的耐久性,须对端部及底部浇注砂浆进行保护。端部砂浆采用强度高、硬化快的环氧树脂砂浆;底部防护砂浆采用聚合物砂浆,具有较好的延性,不易出现横向裂缝。在砂浆完成以后,涂刷与梁体颜色协调的防水涂料,以达到耐久性要求和美观效果。
5 结果分析和应用
教育数据挖掘的主要内容和目的是对教育数据进行挖掘分析,它的升华则是根据分析结果提出决策支持意见,从而提高教学过程和教学效果。根据分析结果,得出以下结论及建议:
(1)网络学习在线时间的多少不能成为判断学生网络学习效果的绝对因素。网络学习的评价和监管是一项难度较高的工作,很多教师主要依据学生的网络学习时长来评价和考量网络学习效果,这种评价方式不太全面。研究发现,部分学生的网络在线时间较长,但却存在“挂时间”的现象。因此,应加强对网络学习内容的监管。
(2)网络学习习惯与学业成绩关联较大。关联规则结果显示,学生网络学习习惯良好,考试成绩往往比较优秀。因此,培养学生良好的网络学习习惯至关重要。教师监督学生网络学习时,若发现学生网络学习习惯不佳,应给予及时提醒,督促学生及时调整。
(3)根据网络学习行为特征对学生聚类,可以为教师提供重要的参考依据。教师可以为不同分类的学生安排不同的学习任务,并重点关注表现较差的学生分类;还可以根据聚类结果,给予不同分类的学生不同的学习效果评价。
(4)充分发挥教师在网络学习中的作用。网络学习不是学生孤独地学习,网络学习过程中教师的监督、教师与学生的交流非常重要,交流充分得当能促进学生的学习兴趣和学习动机。教师要扮演好引导者和监督者的角色,增强监督以及与学生的交流,给予及时反馈与引导。
如何有效监督网络学习过程、正确评价网络学习效果、优化网络学习结构、实现研究性学习和自主性学习的目的,是教育工作者需要不断研究的问题。本研究设计了网络学习过程监管的教育数据挖掘模型,并应用于实践,使用多种挖掘方法对学生网络学习过程进行挖掘分析,以期为网络学习的过程监管和评价提供有益的参考,并为挖掘教育数据在网络学习中的应用提供方法和依据。本研究仍需继续深入,有待生成一套及时分析的软件系统,为教师和学生提供实时分析和反馈,促进网络学习的发展。
[1]徐鹏,王以宁,刘艳华等.大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013,(6):11-17.
[2]International Educational Data Mining Society.Educational data mining[OL].
[3]U.S. Department of Education.Enhancing teaching and learning through educational data mining and learning analytics[OL].
[4]Romero C, Ventura S. Educational data mining: A survey from 1995 to 2005[J]. Expert Systems with Applications, 2007,(1):135-146.
[5]Krpan D, Stankov S. Educational data mining for grouping students in E-learning system[C]. Proceedings of the ITI 2012 34th Int. Conf. on Information Technology Interfaces, 2012:207-212.
[6]Guruler H, Istanbullu A. Modeling student performance in higher education using data mining[J]. Educational Data Mining, 2014,(1):105-124.
[7]傅钢善,王改花.基于数据挖掘的网络学习行为与学习效果研究[J].电化教育研究,2014,(9):53-57.
[8]吴青,罗儒国,王权于.基于关联规则的网络学习行为实证研究[J].现代教育技术,2015,(7):88-94.
编辑:小西
Research on the Supervision of Online Learning Process based on Educational Data Mining
SHI Quan1QIAN Yuan1Sun Ling2
With the continuous development of educational informationization, educational management, student information system and various online teaching platforms have been widely used in teaching practice in recent years. Online teaching provided a platform for students’ autonomic study, but lacked the supervision and management of learning process. This paper firstly analyzed the technology of educational data mining and its application, then constructed a model for supervision of online learning process based on educational data mining, finally took the colledge English teaching management platform of foreign language teaching and research as an example. Trough statistical analysis and visualization, association rule and clustering algorithm of educational data mining technology, the large amount of data generated during the online learning process was analyzed, some conclusions and suggestions for the supervision of online learning process were proposed. According to the result, some
for judging the learning effect, understanding the learning situation, and improving the process of online learning.
educational data mining; online learning; supervision; optimization
G40-057
A
1009—8097(2016)06—0087—07
10.3969/j.issn.1009-8097.2016.06.013
本文为江苏省普通高校研究生科研创新计划项目“E-Learning环境下学生网络学习行为的数据挖掘与分析”(项目编号:YKC14023)、全国教育信息技术研究“十二五”规划立项重点课题“基于数字化校园的学生上网行为数据挖掘技术研究”(项目编号:136221504)、江苏省现代教育技术研究2014年度重点课题“基于E-Learning的高校教育大数据挖掘分析与研究”(课题编号:2014-R-30418)、江苏省研究生教育教改课题(JGLX15_102)的阶段性研究成果。
施佺,教授,博士,研究方向为数据挖掘、智能信息处理,邮箱为sq@ntu.edu.cn。
2015年12月20日