张鸰
摘要:随着信息化教学手段的普及,高等院校越来越重视网络教学平台的建设,在智慧校园的建设中都加大了线上教学的投入力度。但随着也带来了以往在线下教学过程中没有遇到的一些问题,比如教学管理实施等,其中最突出的问题就是如何来进行网络教学评价。与传统的线下授课不同,网络教学无法实现如组织集中听课等课堂评课等常规的评价方式,教学行为发生的对象变成了屏幕鼠标键盘,而不再直接展现给教学评价人员,因此评价手段也必须由信息化的方式来进行分析。本文利用数据挖掘技术对线上教学方式的隐含影响因素做深层的分析,探索教育各关键要素之间的关联,初步构建出实现网络教学评价的相关流程,从而为教育教学管理和决策提供有效支持。
关键词: 数据挖掘;分类回归树算法;线上教学;教学评价
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)29-0006-03
1 数据挖掘技术简析
数据挖掘(Data Mining)一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,通常会利用计算机技术、机器学习、统计学技术、情报分析和模式识别等技术来实现。[1]。数据挖掘实现过程主要有三步:数据准备、数据挖掘、结果的解和评估。简单来说数据挖掘技术是指从大量纷繁错杂的信息中获取有效的数据,帮助使用者制定决策的一种技术手段。数据挖掘接触多样化的数据结构和类型,因此对接了包括:普通的事务数据、关系数据库数据、数据仓库数据,以及现在流行的流媒体数据、超文本数据、时空及序列数据、网格数据等等。数据挖掘技术发展到现在,在很多的专业学科领域都得到了应用,并随之催生出了很多新的数据挖掘技术。当下在教育教学方面数据挖掘技术也广泛的深入,常见的有:被用于对线上学习效果与学习行为关联性进行分析的关联和相关性挖掘算法;通过对采集信息进行分析聚类出具有特定相似性的群体的聚类分析算法;可以实现对线上教学留言板、论坛、聊天室的评论的交流数据进行分析的文本挖掘技术;通过对采集到的学生基本信息既可以实现对学生成绩进行预测的决策树算法;常被用于进行线上教育教学研究的统计分析挖掘算法等。可以根据不同的应用场合和项目,选择适合特定任务的数据挖掘技术。本文根据需求采用了决策树算法中的分类和回归树算法。
2 分类回归树算法
在数据挖掘中,决策树通过对不同属性节点的划分,把一个新的样本经过层层判断划分到不同的类别当中。决策树算法根据选择划分节点的不同方式主要分为ID3、C4.5、CART三种算法。ID3是决策树算法中很常用的一种方法,其主要思想是通过信息增益来进行决策树的划分属性选择,而C4.5算法可以看成是对ID3算法的一个改进。ID3、C4.5算法主要用于分类问题,它们均是基于信息熵来进行划分节点选取的。
分类回归树算法(CART,Classification And Regression Tree)是一种决策树分类方法,它采用一种二分递归分割的技术,从名称可知它包括了分类树和回归树两种决策树。CART和前面两种算法的差异主要是在每一次节点做判断时,只考虑二分类的情况,即使征能够取到多个值(比如属性颜色有红、黄、蓝三种取值,ID3和C4.5直接就划分为红、黄、蓝三个子类,而CART只能在一次划分时划分为是不是红(黄、蓝)然后再进行判断。)
2.1 CART分类过程
2. 3 CART剪枝
为什么要对决策树进行剪枝?这样做的原因是为了避免出现过拟合的情况。观察通过前面的算法生成的决策树,会发现这个决策树是非常详细,分支量大,分支层数多,对每个属性进行详细的分析。利用这种决策树实施的训练样本的分类,可以达到非常低的错误率,可以对原训练样本集进行正确的样品分类。
剪枝的方法包括两种:预先剪枝(Pre-Pruning)和生成后剪枝(Post-Pruning):Pre-Prune是指在决策树子节点的产生阶段,利用剪枝算法去判别是否需要产生该子节点。而Post Prune就是指利用剪枝算法对于已生成过拟合的原始决策树实施分析和处理,将冗余和偏离较大的子节点去掉的方式。
3 数据分析流程
前面完成了数据挖掘技术的选型,下面结合线上教学环节对数据分析流程简单梳理。对于线上教学的考核评估第一个要素就是要明确所分析的对象。本文拟从线上课程的各个教学模块、任课教师和该课程学生的测试成绩等三方面内容展开分析,利用数据挖掘技术来评估线上教学的效果。
使用者的学习过程存储在线上平台的学习行为数据库内,同时线上系统的日志管理机制又准确记录了学习者在各个线上学习模块的学习行为。另一方面,通过数据接口对接能够得到教学管理系统的成绩数据。然后将采集到的数据按照数据处理的相关流程确定主外键、关联度、位置,最终形成学习者的学习行为统计报表。例如教师T开设了线上课程K,学生S 在课程的线上学习时长為30个小时,在线答疑模块访问9次、完成线下作业5次等等。
完成了数据的采集以后,接下来就是利用数据挖掘算法进行分析。可以对整个数据分析流程总结如下图1:
其中:施教者对所开发各教学模块使用过程中的定性对比结果构成分类树;学习者对各学习模块访问数量具体对比形成回归树。通过对学生学习行为和教师开发教学模块之间的因果分析判断,结合算法原理以及实现过程形成了CART算法的基本模型。
4 分类回归树算法应用
关键因素分析:
① 教学管理人员:制定线上平台教学考核标准,提供接口实现数据挖掘系统与教务系统之间的对接;
② 后台技术人员:针对特定线上课程,分析其中的学生行为和考试成绩关系,判断其对网上教学课程的教学效果评估是否达到有效地实现。
前导要素:技术人员按时更新学生行为数据库,教学管理人员提供考试成绩,技术人员按时通过CART算法建立分类回归树进行分析,结果提交给教学管理人员。后继要素:随着线上教学平台数据量的积累量,系统将进入良性发展,利用CART算法构建的模型也会越来越准确,更加能够真实地反映出线上教学平台的教学效果。具体流程如图2所示。
5 结束语
通过以决策树算法对学生的在平台的行为和考试成绩进行分析,就可以得出了比较直观和具有说服力的规则分析,找出了在网络教学平台中相对有效的教学方式,以及在特定教学方式中实现了优秀教学效果的任课教师,达成了对网络教学的教学效果进行评估参考的效果。
参考文献:
[1] 李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003.
[2] 许海洋,汪国安,王万森.模糊聚类分析在数据挖掘中的应用研究[J]. 计算机工程与应用,2005(17).
[3] 田欣.决策树算法的研究综述[J]. 现代营销,2015(5).
[4] 高海燕.数据挖掘技术及应用浅析[J]. 中国科技博览,2012(6).
【通联编辑:唐一东】