张鸰 陈燕飞
摘要:当前流行的在线学习方式面临最大的问题是无法面对面交流及时获得教学反馈,但是利用现代技术,我们可以通过大数据的方式记录学生的学习行为,然后利用数据挖掘技术对获得的行为数据进行分析,并得到相关的教学反馈,这就是所谓的教育数据挖掘(EDM)。例如可以对访问者基本信息、交互日志、活动行为等一系列过程性数据进行技术挖掘,得出了页面访问率、访问者的来源构成等结论,从而以此为参考对访问的学生提供各种教学建议:如各种学习资源、定制个性化的教学指导、推荐有效的学习方法,并且为教学实施者提供学生的各种学习信息,从而实现教学决策。
关键词: 教育数据挖掘;网络教学;数据挖掘算法;决策树ID3算法
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)28-0021-02
1 引言
教育数据挖掘技术在线上教学过程中的应用涉及很多方面,例如:针对学生基本信息的统计、不同类别生源在线学习行为的分析、教学行为评价反馈、成绩分析、教师业务能力分析、在线学习平台环境分析等。通常情况下,基于在线教学环境的学习行为数据挖掘基本涵盖两个方面的内容,第一个方面:通过对登录次数、浏览页面内容类型、学习时长、讨论参与度、点播内容相关度等方面进行分析,评估学生在线学习行为的需求,进行合理的辅导;同时结合在线问答、单元及综合测试、各种训练测试等环节,评估教学实施与学习绩效, 分析之间的影响因素,提供较为准确的学习规划。第二方面:通过教育数据挖掘技术,根据不同学生群体的个性化差异,精准识别学员特征,根据他们不同的学习需求、兴趣爱好、在线学习行为进行精细划分,针对不同的关键特征开展个性化教学,从而增强学员个性认知。
2 教育数据挖掘相关理论和技术
教育数据挖掘(EDM,Educational Data Mining)是指数据挖掘技术在教育教学领的应用,通过对整个教育教学过程中产生的离散数据进行技术分析,为教学的多方面主体(教师、学生、教学管理人员、系统开发维护人员、行业企业)提供必要信息支持的过程。根据数据挖掘应用领域的不同,根据不同的应用场合可以将其划分为在教学、科研、管理等方面的应用等。
2.1 数据挖掘过程
整个数据挖掘过程包含数据的准备、挖掘、结果评估三个主要部分。具体的数据挖掘流程如图1所示。
(1)在数据准备阶段主要有四个步骤,如图2所示。在这个环节中,数据按照规则被转换成为统一格式,生成的数据简洁、可靠、准确,为进一步的数据挖掘工作奠定了基础。
(2)数据挖掘
作为整个过程的核心内容,基于挖掘的任务目标,利用选定的数据挖掘算法,将在数据准备阶段已经预处理完成的数据进行计算,提炼出用户关心的内容,并将其通过某种形式展示出来。
(3)挖掘结果评估
对上一环节挖掘的结果进行合理的分析评估,去除其中冗余、无效的数据,将有效可靠的数据进行判定,如果挖掘结果无用,进行回退操作,另外选取数据挖掘算法和新数据重新操作,通过若干次迭代,最终可以筛选达到目标要求的信息,根据需求采用不同的展示方式,帮助用户理解,并进一步指导决策。
2.2 常用的数据挖掘技術
因为数据类型和结构形式多样,如关系数据库数据、数据仓库数据、空间数据、时间数据、流媒体数据、图和网格数据、超文本数据等等。因此,衍生出来的数据挖掘方式也门类众多。目前针对网络教学数据分析这种特殊形式主要有以下几种方式:统计分析方式,可以对教学环境中的热门数据进行统计并做到自动推送;关联规则挖掘,比如对在线学习过程产生的过程性学习形式数据进行分析,比对学习效果产生结论性指导;聚类分析,是一种动态分类的方法,通过对数据集进行分类,并保证同类数据的相似和各个类之间的明显差异性;分类和回归,该算法甚至可以通过学员的基本信息对未来课程的成绩进行预测;文本挖掘,对网络教学平台中的超文本数据,如教学互动、在线评论、留言等数据进行分析等。通过不同的应用场合,实际选取合适的挖掘技术。
3 决策树分析算法
3.1 决策树基本算法
决策树是一种常用并且很重要的数据挖掘方法,该算法的实现是采用自顶向下的贪婪算法,对给定的数据样本进行归纳,从无序的数据元组中提取分类规则,从最高层的根节点开始递归的产生一个树形结构,该树形结构的每个分支节点代表一个测试或选择结果,通过对每个选择结果的合理归类,持续这一过程,直到遍历所有属性最终生成决策树。决策树算法主要包括两个过程:构造树和对决策树进行剪枝。前者是指将输入训练数据作为既定算法的函数值,将输出的不同属性值生成各个分支,并且各个分支继续向下级进行递归操作,最终形成决策树;对于刚刚建立的决策树,其相当多的分支节点都是因为输入的训练样本数据包含有异常内容构成产生的,这也就是必须要对决策树进行剪枝的原因。整个决策树流程如图3所示。目前比较典型的决策树算法有CART、ID3、CHAID等等。
3.2 ID3算法
在众多决策树算法中,ID3是较早形成的一个基本算法,它是一种贪心算法,利用了自上而下的递归分类构造的方式来生成决策树。该算法的模型产生方式较为简单、较好的健壮性、分类精度较高,对于网络学习过程中非增量的数据样本集具有较好的分类统计能力,比较适合应用在教育数据挖掘的领域。下面对ID3算法展开简单的讨论。
ID3在进行分支节点属性选择时,采用信息增益作为度量单位。假设[ni]是数据样本集S中属于类别[yi]的样本数量,S中总的样本数为count个,则各类别的先验概率为[Pyi= nicount,i=1,2,…,m]。对于数据集S,样本期望信息为
4 结束语
网络教学要求教师能够从大量冗余繁杂的教学过程数据中,提炼出可靠有用的学习反馈信息,并以此为基础及时更新和调整教学策略、方法、内容,解决网络教学无法进行现场互动的问题,实现对教学个体进行个性化的引导,真正做到因材施教,提升在线学习效果。因此教育数据挖掘技术在线上学习环境中有着举足轻重的作用。在众多数据挖掘技术中,因为ID3决策树算法有较强的学习能力,并且比较容易实现,所以特别适用于处理大规模在线学习问题。另外,生成的决策树可以具体形象地表达出不同分支所对应的分类规则,算法易读易用,特别适合作为教育数据挖掘(EDM)的技术工具。
参考文献:
[1] 黄文秀.数据挖掘技术及应用研究[J].网络安全技术与应用,2018(7).
[2] 孙健,赵鹏,雷鸣.数据挖掘技术在高校教学评价中的应用研究[J].科技资讯,2014(17).
[3] 杨艳霞.基于数据挖掘技术的个性化网络教学平台应用研究[J].科技创业月刊,2013(2).
[4] 朱伟忠 .数据挖掘决策树分类技术及应用的研究[D].华南理工大学,2004.
[5] 谢淑敏. 基于大数据的高职学生学习行为及效果分析[J].电脑与电信,2018(9).
【通联编辑:梁书】