吴伟旺
摘要:隨着互联网不断地发展,越来越多的人选择通过MOOC平台学习知识。但是,在网络上,老师很难知道学习者的学习情况,不利于对教学资源配置和指导教学过程进行调整。本研究提出建立学生学习动态模型,对学生学习情况进行分析并及时反馈学习结果。本研究先利用最近邻算法中的IBK算法,对学生行为数据的异常数据进行排除,运用等频装箱法将学生的学习成绩和学习行为数据进行处理。利用GBDT模型、SVM模型建立学生学习成绩预测模型;最后利用随机森林模型对数据进行训练,建立学生学习成绩影响因素模型,并对模型进行分析。通过学生学习成绩影响因素模型的分析,找出影响学生学习成绩的主要几点因素。通过学生学习成绩预测模型,及时对学生学习情况进行分析。实验结果表明,本实验的学生学习动态模型能较为准确地对学生成绩进行预测,并能够及时得出影响学生学习的主要几点因素。有利于老师及时了解学生情况并及时对教学配置和教学指导进行调整,提高学生的学习效率。
关键词:MOOC平台;最邻近算法;IBK算法;等频装箱法;GBDT模型;SVM模型;随机森林模型
中图分类号: G434 文献标识码:A 文章编号:1009-3044(2018)10-0149-04
Learning Effect Prediction Based on Online Learning Behavior
WU Wei-wang
(Tianjin University Of Finance & Economics Polytechnic College, Tianjin 300222, China)
Abstract: With the continuous development of the Internet, more and more people choose to learn knowledge through the MOOC platform. However, on the Internet, it is difficult for teachers to know the learning situation of the learners, which is not conducive to the adjustment of the allocation of teaching resources and the teaching process. This study proposes to establish a dynamic model of students' learning, to analyze the students' learning situation and to feed back the results in time. In this study, we first use the IBK algorithm in the nearest neighbor algorithm. The abnormal data of students' behavior data are excluded, and the students' learning performance and learning behavior data are processed by the equal frequency packing method. The GBDT model and SVM model are used to establish the students' learning performance prediction model. At last, the random forest model is used to train the data, and the influence factors model of students' learning achievement is set up, and the model is analyzed. Through the analysis of the influence factor model of students' learning achievement, we find out the main factors that affect the students' academic achievement. The students' learning performance is analyzed in time by the model of students' learning achievement prediction. The experimental results show that the student learning dynamic model in this experiment can accurately predict student achievement, and timely draw the main factors that affect student learning. It is helpful for teachers to understand the students' situation in a timely manner and adjust the teaching arrangement and instruction in time to improve the students' learning efficiency.
Key words: MOOC platform, Nearest neighbor algorithm, IBK algorithm, Equal frequency packing method, GBDT model , SVM model, Logistic regression, Random Forest
1 引言
随着互联网不断地发展,网络教育平台上的课程资源越来越丰富,在线学习已经成为MOOC时代教学过程的重要组成部分。课程是远程课程的载体[1],承载着远程教学的内容与过程。与传统的教学方法相比,网络学习平台会及时跟踪学生的学习行为,记录学生的学习状态,自动采集学生大量的学习行为数据和阶段性评价数据,这些数据能够反映学生的学习状态和学习效果。我们通过挖掘这些数据中隐藏的规律并对其加以分析,不仅能够及时了解学生的学习状态和学习效果,还可以有效支撑教师的教学方法和教学内容调整,实现个性化的学习指导。
基于教育数据挖掘的学生学习路径和行为分析,以及学习效果评价是进行自适应教学和学习的基础,能否将其合理运用于工作学习中,直接关系到高等教育教学质量的提高与否。 随着在线学习的不断发展,课程建设和课程实施过程不断融合[2]。如今时代发展迅速,怎样应对当今教育环境的变化是我们应该解决的问题。而本文正是基于这一问题提供了一种新的思路:使用新的方法和技术跟踪学生的学习行为和过程,及时对学生的效果和质量进行评价,并根据评价结果及时调整教学资源配置和指导教学过程是我们在新时期面临和需要解决的问题。在广泛收集教学和学生学习过程数据的技术上,综合运用机器学习和数据挖掘的技术和方法,对学生学习过程数据进行处理和分析,建立学习行为模型和学习效果动态评价模型,可以有效地发现学习内容、学习资源、教学行为和学生学习效果之间的相关关系,预测学习者未来的学习趋势,从而指导教师的教学行为和教学资源分配,这对促进大数据时代的教育教学改革,提高教育教学质量具有重要的现实意义和研究价值。
目前,很多的研究和高校教师根据自己的教学实践和研究,提出了一些行之有效的学习行为分析方法。针对edX提供的2012年到2013年两年的开放数据,分析了课程参与者类型以及影响MOOC成绩的因素[3];基于清华大学“学堂在线”电路分析课程的数据进行,使用logit和tobit模型,分析了课程参与度与完成度之间的关系[4]。由此可见,学生学习效果分析[5]是很多学者正在研究的问题。本文将根据学生的行为信息对学生的学习成绩进行预测以及对学生成绩的影响因素[6]分析进行分析。
2 研究设计
本文的工作流程分为三个阶段:数据采集、学习成绩预测模型的建立和学习成绩影响因素分析以及分析结果可视化。主要技术路线如图1所示:
图1 主要技术路线
2.1数据采集
对于绝大部分的项目而言,基础数据的收集[7]都是极为重要的一部分,关系到之后的步骤能否成功。学习分析需要收集大量反映学生学习行为和学习效果的行为数据,这些数据反映了学生在某一个时期内学习行为和目标变化上的共同特征。数据采集是数据挖掘的基础工作,也是比较重要的因素,好的数据可以增加模型的准确率。
2.2数据预处理
数据预处理是数据挖掘的重要一环[8],尤其是对于学生学习行为的数据,量大而且复杂,噪声干扰极大,需要进行许多预处理操作才能使得以后的工作更简单[9]。要想对数据挖掘出丰富的知识,就必须为它提供干净、准确、简洁的数据。然而实际应用系统中收集到的原始数据是“脏”的,不完全的、冗余的和模糊的,很少能直接满足数据挖掘算法的要求。在海量的实际数据中无意义的成分也很多,严重影响了数据挖掘算法的执行效率,其中的噪声干扰还会造成无效的归纳。预处理已经成为数据挖掘系统实现过程中的关键问题。预处理的质量直接影响学习分析结果的质量。
2.3学习分析模型
本文建立学习分析模型主要包括两个方面:学生学习效果分析模型和学生成绩影响因素分析模型。对学生的学习行为数据、阶段性测试成绩以及学习环境等属性进行分析,建立学生学习效果分析模型和学生成绩影響因素分析模型,在用测试集进行测试,并根据测试结果进行修正和调整。
2.4学习指导决策规划设计
通过对建立学生学习成绩预测模型和学生成绩影响因素模型分析,及时对学生的学习效果和质量进行评价,并根据评价结果及时调整教学资源配置和指导教学过程,有利于提高学生的学习效率。并且将成绩分析结果反馈给学生,实时监控学生学习动态,督促和指导学生学习。
3 数据准备
3.1数据收集
本文以UCI提供的EPM(Educational Process Mining,EPM)数据集对学生阶段性学习效果进行分析。该数据集对应的课程“电路原理实验”,包含了学习行为数据、阶段性测试成绩以及学习环境的属性。本文以该数据集为研究对象,通过对学生学习行为数据进行分析,建立学习成绩预测模型和评价,对学生的学习效果进行评价。该课程开展网上在线学习,并完成线上实验和练习。学生的行为数据被记录在平台中课程结束后会对学生进行期末成绩测试,每个学生拥有一张试卷,分为六个大题,每道大题对应一个阶段。共六个阶段。本文对这六个阶段的成绩进行分析和预测。UCI提供的EPM(Educational Process Mining,EPM)数据集,具有官方性和严谨性。例如,学生的学习行为数据精确到了毫秒。本文应用的数据具体包括的属性为:student_ID(学生id)、exercise(练习)、activity(所处活动)、start_time(开始时间)、end_time(结束时间)、idle_time(中间休息时间间隔)、mouse_click_left(鼠标左键点击次数)、mouse_click_right(鼠标右键点击次数)、mouse_movement(鼠标移动面积)、keystroke(键盘击键次数)。因为线上课程并不像实体课那样,老师不可以控制学生的行为和上课时间。必然学生的学习过程和时间比较分散。
3.2数据预处理
平台收集的数据,数据庞大,种类繁杂,为了方便构建模型。必须要对数据进行整理和清洗[10]。
本文运用基于最近邻算法中的IBK算法,计算学生间向量空间距离的大小,间向量比较小的有78名学生,间向量比较大的有10名学生,我们将这10名学生设为异常点实例。通过二次人工筛选,最终确定其中8名学员的年龄、学位、学习过程和学习成绩严重不符,有可能不是自己完成的最终测试,所以作为异常点排除,最终得到有效学生70名。
其次,将数据离散化。本文对学生测试成绩分为4个区间,对每个阶段分别处理,设每个阶段的总成绩为S,将学生的成绩分为4个阶段,(0~25%S]、(25%S~50%S]、(50%S~75%S]、(75%S~S],分别代表成绩的差、中、良和优四个等级。以这四个等级作为目标变量。对于其他属性的处理,本文采用了等频装箱法,分别分成少、中、多三个层次。之后构建学生成绩预测模型。
4 模型构建
4.1模型介绍
学生成绩预测是一个分类问题[10],本文根据处理的数据进行模型建立,构建学习效果模型。
本文选用GBDT算法和SVM算法构建模型。GBDT算法是对异常值的处理,GBDT能够使用一些健壮的损失函数,比如HUBER损失函数和QUANTILE损失函数,对异常值的处理还是完美的。
SVM算法运算速度比较快。SVM算法中引入了核函数,所以对于高维的样本,SVM能轻松应对。
对于学生成绩影响因素分析,通过观察发现,处理完的数据维度比较高,不好做特征处理,并且为了增加效率,我们选用了随机森林算法。
随机森林由多个决策树构成。决策树中的每一个节点都是关于某个特征的条件,为的是将数据集按照不同的响应变量一分为二。利用不纯度可以确定节点(最优条件),对于分类问题,通常采用基尼不纯度或者信息增益[11]。
4.2模型构建
4.2.1学生成绩预测模型
学习成绩的预测其实是一个分类的过程。模型的构建阶段是核心部分,所以也是最重要的部分。根据数据的结构特征,选取合适的模型。并且因为此数据学员较少,为了提高准确率,本实验使用了10折交叉验证法。即将学生大概分成十组,每一份轮流作为测试集,其他数据作为测试集进行成绩预测,并将实验结果进行平均处理,通过GBDT模型和SVM模型的预测,各个学期学生成绩预测准确率如表1:
4.2.2学生成绩影响因素分析
对于学生在每个活动花费精力的多少,通过时间进行衡量,学生在一个活动花费时间越多,说明他在这个活动花费的精力越大。
通过随机森林的算法进行分析,随机森林模型可根据两种不同的标准计算各个自变量对因变量的影响程度并输出其重要性得分。第一种度量方式为精度平均减少值,第二种为节点不纯度平均减少值,本文应用第一种度量方式的得分对各个因素的重要性进行测度。
以SESSION6为例,对学生的学习行为进行分析,各个因素的重要性得分表(表2)。
从表中可以看出,Diagram、Study_Materials、Deed_Es这几种活动得分比较高,而Deed_es_#_#、Study_es_#_#、TextEditor_es_#_#这几个活动的得分比较低。
5 模型分析
对于学生成绩预测模型,在每个SESSION中,課程的不同,学生学习行为数据在每个阶段的结构存在不同,所以每个阶段模型的准确率不同。通过应用最近邻算法中的IBK算法,能够看出学生与学生之间存在差异,个别学生差异明显,对于这样异常的行为数据,应进行排除处理。通过学生的行为数据,能够比较准确地对学生的成绩进行预测。
对于学生的成绩影响因素模型,从实验结果可以看出,在SESSION6中,Diagram、Study_Materials、Deed_Es这几个活动比较重要,花费较长时间在这几个活动上面有利于学生更容易的取得好成绩。并且在SESSION1~SESSION6中重要的活动是不一样的,所以在学生学习不同知识时,学习平台或者老师可以对学生的学习方法进行提示。
6 总结
本研究采集在线课程学生的学习行为信息和学生考试成绩,采用GBDT模型、SVM模型这两种常见的数据模型方法,构造学生成绩预测模型。通过学生的行为数据,能够比较准确地对学生的成绩进行预测。
采用随机森林数据挖掘模型,构造学生成绩影响因素模型。通过对每种活动的评分进行比较,能够筛选出在学习过程中,比较重要的几点活动。学生在学习过程中,老师有必要提醒学生对重要的活动进行重视[12],学生也有必要对重要活动进行重视,这样可以增加学习效率。
参考文献:
[1] 魏志慧,陈丽,希建华。网络课程教学交互质量评价指标体系研究[J].开放教育研究,2004(6):34-39.
[2] 特里·安德森,王志军.希望/冒险:大规模开放网络课程(MOOCs)与开放远程教育[J].中国电化教育,2014(1):46-51.
[3] Bres low L,Pritchard DE,DeBoer J .Studying Learning in the Worldwide Classroom Research into edXs First MOOC 2012[J].RESEACH & PRACTICE IN ASSESSMENT,2013,8:13-25.
[4] 李曼丽,许舜平,孙梦.MOOC学习者课程学习行为分析——以电路原理课程为例[J]. 开放教育研究,2015,21(2):63-69.
[5] 洪家荣,李星原.Neocognitron学习算法分析[J].软件学报,1994(4):35-39.
[6] 赵明.在线学习与课堂学习的分析比较[J].科技视界,2015(28):214+242.
[7] 陈永府,杨小献,黄正东.基于规则的数据收集研究[J].计算机工程与设计,2007(1):164-167.
[8] 杨阳,刘峰,张天戈.分类器的数据预处理[J].计算机工程,1998(4):33-34+42.
[9] 刘庆波,李华彪,洪家荣.示例学习的数据预处理[J].微电子学与计算机,1993(9):34-37.
[10] 赵博,徐卫亚,赵亚琼.数据预处理模型及其应用[J].水电能源科学,2012(5):86-88.
[11] 王健,郝银华,卢吉龙.教学视频呈现方式对自主学习效果的实验研究[J].电化教育研究,2014(3):95-101+107.
[12] 智若.学习与年龄[J].成人教育,1982(2):23.