网络教学平台辅助下的课程成绩预测研究

2018-09-10 09:40白杨
现代盐化工 2018年2期
关键词:决策树

白杨

摘要:课程成绩预测研究对大学生的学习指导及课程评价体系的构建具有指导意义。为了监测学习过程和预测学习效果,以泛雅网络教学平台为辅助环境,文章采用决策树方法对学生的课程学习过程进行分析,获得课程成绩的主要影响因素和分类规则。该方法能为学生提供课程学习指导,为制定课程的考核及评价方式提供思路。

关键词:课程成绩预测;决策树;信息增益;泛雅网络教学平台

随着教育信息化、全球化的迅猛發展,慕课、可汗学院等网络教学平台应运而生,并由此产生了海量的学习活动和教学管理数据,如何有效地利用这些数据提升学生的学习效率,已经成为在线教育面临的挑战之一。分类挖掘是数据挖掘研究领域中的一个重要分支,目前,在商业、电信、生物等研究和应用领域取得了令人瞩目的成绩,不少学者也开始尝试将分类挖掘应用到教育信息化领域,为教学改革与管理提供了科学依据。课程成绩是衡量学生的学习效果和教师教学质量的重要依据之一,是教师和学生关注的重点,但是,成绩的评定通常是在课程期末考试之后才能确定,只能让师生了解一个学习的结果。实际上,学生对课程掌握程度在平时的教学过程中有所体现,如果能让学生随时了解自己的课程学习情况以及教师实时监测学生的学习状况,无疑能为课程学习提供有益的指导。本文以信息管理专业的“运筹学”课程为例,通过泛雅网络平台,对学生课程学习过程的考核数据与期末成绩之间的关系类别进行分析,得到结构统一的数据及泛化的属性,并构建课程成绩的决策树,获得分类规则和分析结果。

1 数据采集和预处理

泛雅网络教学平台覆盖了课程建设、课程学习、学习社区、学习分析和课程管理的整个教学过程。对于学习效果评测,平台提供了对学生的学习活动记录和统计的功能。统计指标主要包括学生学习课程视频的完成指标,以课程视频进度与任务点完成百分比呈现,另外还包括作业得分、考试得分、访问数得分,均按照设定的比例给出分数。这些指标记录了学生课程学习过程中参与话题讨论、学习活动、完成作业及参加测试的情况。

首先,对学习“运筹学”课程的70位学生的学习统计数据进行采集,将其分为成两个部分:60条数据作为训练集,10条数据作为测试集。然后,采用数据预处理技术来提升数据的质量,具体分为3个步骤:(l)属性的删除,将冗余数据、与挖掘过程不相关数据,从数据表里去除掉;(2)属性的泛化,将属性值做泛化处理,化简分类过程,结果如表1所示;(3)数据清理,对提取的数据集进行检查,把所有数据规范化,删除汇总表里不标准的数据集。

与“运筹学”关联最大的先导课是“统计学”,在表1中,“先导课”属性依据“统计学”的期末成绩,将原始数据的百分制泛化为优(≥90分),良(≥60分且<89分),差(<60分)3个级别。“出勤”属性依据学生的课堂出勤情况,属性值为合格、不合格(缺勤3次以上)。“视频学习”属性为任务点完成情况,级别为高(≥0%)、中(≥40%且<70%)、低(<40%)。“访问数”属性依据网站访问数得分,级别为高(≥8分)、中(≥4分且<8分)、低(<4分)。“测验”属性依据平时的考试得分,级别为优(≥10分),良(≥5分且<10分),差(<5分)。“作业”属性依据作业得分,级别为好(>10分),一般《10分)。“期末成绩”为分类属性,是“运筹学”这门课程的期末成绩,级别划分与“先导课”属性相同。

2 决策树构造

采用经典的决策树C4.5算法进行分析,该算法采用基于信息增益率选择测试属性。决策树模型创建过程分为以下几个步骤。

(1)计算分类属性的信息量。对随机选定的60位学生的训练数据进行分析,“期末成绩”考试成绩属性分类优、良、差对应的子集元组数分别为si=9,s2=43,S3=8。根据分类期望值公式,可得到I(s1,s2,s3)=I(9,43,8)=1.142 7。

(2)计算每个测试属性的信息量。以“视频学习”属性为例,“视频学习”分成高、中、低3个分支,相应的元组个数分别是18,35以及7。首先对“视频学习”为高的分支,统计“期末成绩”为优、良、差依次对应的子集元组数si=10,s2=5,s3=3。则信息量为/(s1,s2,S3)=I(10,5,3)=1.415 3。继续计算“实践能力”为中的分支的信息量为:I(5,21,9)=0.986 1,“视频学习”为低的分支的信息量为I(0,2,5)=0.863 0。

(3)计算每个测试属性的信息熵。如:

E(视频学习)=1/60I(10,5,3)+35 /(5, 21,9)+7/60 I(0,2,5)=1.114 9

(4)计算每个测试属性的信息增益量。如:

Gain(视频学习)=I(9,43,8)-E(视频学习)=0.027 8

(5)计算每个测试属性的信息增益率。如:

GainRatio(视频学习,=Gain(视频学习/E(视频学习)=0.024 9

(6)根据上面(1)~(5)步骤,分别得到各属性的信息增益率:先导课=0.017 8、出勤=0.030 3、访问数=0.021 1、测验=0.051 6、作业=0.013 4。由结果可知,信息增益率数值最大的属性是“测验”,故“测验”是决策树的根结点,并根据它的3个属性值,对样本继续划分,并重复(1)~(5),分别计算除了“测验”外的各个属性的信息增益率,通过寻找最大值,得到“测验”为优的分支节点为“先导课”属性,“测验”为良的分支节点为“访问数”属性、差的分支节点为“出勤”属性。重复(1)~(6)步骤,确定其他的分节支点,得到如图1所示的学生成绩分析决策树。

根据图1构建的决策树,可以得出多条分类规则,如“测试=优∧先导课=优”或者“测试=良∧访问数=高”,期末成绩为优;“测试=差∧出勤=一般”或者“测试=良∧访问数=低”,期末成绩为差。总结这些分类规则可以得出如下结论。平时测验成绩较高和经常通过教学平台学习课程的学生,期末成绩比较容易取得高分;而平时测验成绩较低且上课出勤率较低的学生,期末成绩往往也较差;而那些在平时测验、网站访问量、视频学习完成率和先导课的掌握程度都一般的学生,则期末成绩平平。

3 结语

根据泛雅网络教学平台的辅助功能,采用C4.5方法构造了课程成绩测评的决策树模型,获得了影响成绩的主要因素和分类规则。该模型的基本功能是可以结合学生在平台上学习的记录数据,预测出学生的期末成绩,并且能解释成绩不良的原因。另外,该模型还为课程体系的重构及课程教学方法的改革提供参考,对教师和学生具有监督和强化作用,根据反馈信息学生可以修订学习计划,教师可以调整教学行为。除此之外,还可以将该模型与泛雅平台提供的督学功能相结合,设置出督导对象并确定督学的条件(属性),这将丰富泛雅平台的使用功能,使其成为一个更科学、更有效的教学平台。

猜你喜欢
决策树
简述一种基于C4.5的随机决策树集成分类算法设计
一种改进的MEP决策树剪枝算法
决策树学习的剪枝方法
改进的ID3算法在个人贷款信用风险评估中的应用
ID3分类及其剪枝算法研究
不同年龄段关于养老问题认知的差异
森林资源动态监测系统与ENVI决策树分类技术的应用
基于遥感技术的植被信息提取方法研究
决策树在成绩分析中的应用
决策树在成绩分析中的应用