基于ID3算法的在线教学学习效果预测模型研究

2021-06-08 08:40于淑云
关键词:决策树学习效果节点

于淑云

(福建船政交通职业学院 信息与智慧交通学院,福建 福州 350007)

随着线上教学平台应用的日益普及,网络教学资源平台上的课程资源越来越丰富.线上教学已经成为传统教学不可或缺的组成部分[1].用户在使用教学资源平台的过程中,沉淀了大量的历史数据和记录信息,记录了学生的学习状态、学习行为和阶段性评价数据等信息.通过对这些数据隐藏的规律进行分析和挖掘,不仅能让教师及时了解学生的学习状态和学习效果,还能为教师调整教学方法和教学内容提供有效的支撑和参照.

目前数据挖掘技术在商业、金融业、市场营销等领域已经得到了广泛的应用,但在信息教育领域的应用还相对较少[2].高校对学生信息、成绩等数据的处理还停留在简单的数据备份、统计和查询阶段,大量的信息还没有被挖掘和利用起来.本文基于优慕课教学资源平台,通过对平台保存的历史记录和教师授课记录等信息进行整理和挖掘,分析提取学生在线学习的行为数据,使用决策树构建教学效果预测模型,为教学提供成绩预警分析,让教师在网络教学过程中了解学生的学习情况,及时干预,从而改善网络教学效果.

1 ID3算法

分类是数据挖掘的重要方法,常见的分类模型有逻辑回归、K近邻模型、决策树模型、朴素贝叶斯和支持向量机模型等,不同分类模型的区别在于对输入输出映射关系的形式有不同假设[3].在数据科学领域,决策树原理简单,易于理解,具有较高的精确度和良好的数据处理能力,是数据科学领域最为经典的模型之一,它可以建立有价值的分类规则,帮助决策者做出正确的预测.基于不同的节点分裂评价标准、能够处理的特征类型和目标特征类型,研究者提出了不同的决策树算法,常见的有ID3、C4.5、CART3种经典决策树.根据本文待分析的教学数据特点,选择ID3算法.ID3算法无法处理连续型特征,偏向于取值较多的特征,这正好符合优慕课教学平台用户数据的特征[4].

ID3算法使用信息熵作为节点不纯度的度量,使用信息增益作为节点分裂评价标准,数据集中有C类,节点t中第c类样本的相对频率为p(c|t),节点t的信息熵为:

(1)

若节点t0包含n个数据,经过分裂生成k个子节点,信息增益定义为:

(2)

在实际应用过程中,为了避免过度拟合问题,通常使用信息增益率代替信息增益作为评价分裂好坏的标准:

(3)

2 ID3决策树应用于学生学习效果分析

本文研究的是以ID3算法为基础分析预测在线学习效果的一种方法.实验流程包含了数据处理、特征选择、模型建立、模型评价4个步骤,具体过程如图1所示.

图1 决策树处理过程

在构建决策树模型的样本集合时,特征越多,模型训练耗时就越长,随着特征数量的增加,构建的模型就会更加复杂,其泛化能力就会下降.因此,属性特征的选择直接影响建模的性能和分类的准确性.从优慕课平台获取的数据虽然规整、标准,但是含有各种繁杂冗余的属性信息,需要将这些数据进行删除、选择和连接运算,从而获得有效数据特征[5].不同的属性特征对分类有不同的敏感程度,在具体实验中,应根据实验需求选取数据特征.优慕课平台获取的数据中,包含了大量的考试成绩、作业成绩、小测评分等数据信息,为了便于构建分类模型,应将这些成绩数据全部转为等级制数据.

该实验的目的是经过数据分析,及时发现网络教学过程中学生的学习状态,便于教师及时调整教学方法或个性化辅导,因此,在处理数据时,应将课程的章节知识点结构并入样本数据集中,使教师在发现学生的学习状态出现异常时,能够了解是在知识结构的哪个节点出现问题.

数据处理完成后,可以进行分类器训练.将处理好的数据集随机抽取60%作为训练集,随机抽取剩下数据的20%作为测试集.决策树的生成从根节点开始,选择对应特征;然后选择该节点特征的分裂点,根据分裂点完成节点分裂.

最后,为了提高模型的准确率,用十折交叉验证的方法对建立好的模型进行测试.将数据集随机分成10份,轮流将其中的9份作为训练数据,另1份作为校验数据进行实验,每次实验获得一个正确率,对10次实验结果取平均值,作为决策树算法模型的精度值.

3 学习效果实例分析

3.1 特征选择

本文研究的主要目的是预测某一阶段网络教学中学生的学习效果,因此在平台导出的数据集中选择学习效果相关的属性特征,主要包括进入课程次数、上交作业次数和每次作业成绩、讨论区发言次数、发言获赞得分、在线时长、阅读在线资源数量、学习笔记数量、参加网课时长、阶段小测成绩和选修课程等,并对一些属性特征做了归纳处理.如平台导出的原始数据中包含课程讨论区发表话题次数、回文次数、被回文次数,在建立模型时,将这3个属性归并为课程讨论参与度.

3.2 数据处理

数据采集是数据分析和挖掘的前提和基础.进行数据挖掘需要丰富的规整、标准数据,优慕课教学资源平台本身就为用户提供了大量规整的用户统计数据,给数据分析挖掘工作带来了极大的便利.这些数据包括学生在线学习行为数据[6],如学生进入课程次数、向老师提问次数、在线时间长、进入播客个数、课程讨论区发表话题次数、阅读课程通知次数、参与问卷调查次数等;阶段性测评数据,如作业成绩、阶段性小测成绩、提交作业数量、参与测试次数等;学生课程数据,如课程名称、课程编号、主讲教师等.将这些数据从系统中导出,得到数据分析的原始数据集.

本实验采用优慕课平台19级智能交通运用技术(1)(2)班120名同学《C语言程序设计》课程的系统记录为原始数据.去除休学、退学等学生记录,去除专业、院系、年级等冗余字段,经过对数据的预处理,得到部分数据如表1所列,第1次测验成绩如表2所列.

表1 《C语言程序设计》课程部分学生学习统计表

表2 《C语言程序设计》课程部分学生第一次测验成绩表

由于平台上不同批次的作业、测验、课堂回答问题打分等属性所使用的评定方式不统一,不利于后续的分类操作,这里将所有成绩按照表3划分的等级替换.

表3 成绩等级标准

另外,有些获得的原始数据不能直接使用,需要对数据进行选择、连接运算后使用,经过交叉运算后得到表4.

表4 19级智能交通运用技术(1)(2)班部分学生所修课程表

按照模型选取的数据集要求,用于构建决策树模型的数据集如表5所列.

表5 决策树模型数据集部分数据

3.3 建立模型

决策树建立模型的过程实际上是一个分类的过程.决策树算法就是根据数据集中的特征通过不断分裂的方式来划分数据集的过程.非叶节点是向下分裂的分支,叶节点是要划分的类[7].训练集中的每个样本除了包含处理好的有效数据特征之外,还有一个标注好的类别标签.分类器训练完成后,对没有标签的测试集样本进行预测,使测试集中的样本得到合适的标签.

Weka是一个大众化的数据挖掘工作平台.该平台集成了大量的数据挖掘机器学习算法,包括数据的预处理、分类、回归、聚类、关联分析等.将处理好的19级智能交通运用技术(1)(2)班同学的数据集转成相应的csv文件,导入Weka平台,从平台中选取决策树算法,即可对数据实现快速决策树分类.

在建立决策树模型的过程中可以生成分类规则,提取影响分类的主要因素特征[8],在生成学生学习效果的模型构建过程中,预测学生学习效果的规则概括如下5点.

规则1:if 作业成绩全部中或好 and 讨论区参与度全部中或好 and 在线资源阅读数量中或好,then阶段测验成绩中或好;

规则2:if 作业成绩全部中或好 and 讨论区参与度全部中或好 and 在线资源阅读数量差,then阶段测验成绩中或好;

规则3:if 作业成绩全部中或好 and 讨论区参与度差 and 在线资源阅读数量中或好,then阶段测验成绩中或好;

规则4:if 作业成绩全部中或好 and 讨论区参与度差 and 在线资源阅读数量差,then阶段测验成绩差;

规则5:if 作业成绩差 and 讨论区参与度差 and 在线资源阅读数量差,then阶段测验成绩差.

3.4 模型分析

从以上分类规则中可以看出,决定学生网课学习效果的诸多因素中,作业成绩、讨论区发言参与度和在线资源阅读数量对学习的影响较大.其中,课后作业质量的影响最大,说明课后作业在某种程度上反映了学生网课的学习质量.如果作业做的好,课堂讨论参与度差,线上资源阅读量少,阶段测验成绩差,可能是非智力的因素;如果作业成绩不好,课堂参与度好,线上资源阅读量大,阶段测验成绩差,可能该学生确实努力学习,但在学习上确实遇到困难了,老师应及时根据具体情况做个别化指导[9].

该实验中,最终获得测试集数据预测准确率为79%.在用十折交叉验证法验证的过程中,各轮测验所得到的阶段性小测成绩准确率如表6所列.

由表6可以看出,十折交叉验证法所得到的正确率均值为80%,和使用测试集得到的正确率相差不大.

表6 十折交叉验证法验证正确率

4 结语

在网络教学中,教师很难把握学生的学习状态,往往在学期结束后,考试成绩出来,才发现教学效果.本文采用决策树分类中较经典的ID3算法为主要研究方法,以优慕课教学平台19级智能交通运用技术(1)(2)班同学《C语言程序设计》这门课的数据为训练样本,构建了学生线上教学效果成绩预测模型[10].经过测试,该模型根据学生所提交的作业、线上课程讨论参与度、在线时长等属性特征能够较为准确地预测学生某个阶段线上学习效果,从而使得教师在网络教学过程中及时发现学生学习状态的异常,并进行个性化辅导,提高学生成绩.

由于该模型在训练过程中使用的样本数量较少,所得到的模型正确率不是很高,因此,在后续工作中,还需要获取更多的样本和类型更丰富的样本数据对模型进行训练,从而提高模型的正确率,达到更好的预测效果.

猜你喜欢
决策树学习效果节点
疫情期间线上学习效果评价分析
“百词斩”对于大学英语四级词汇学习效果的实证研究
基于学习性评价原则提高研究性学习效果的研究
概念格的一种并行构造算法
结合概率路由的机会网络自私节点检测算法
采用贪婪启发式的异构WSNs 部分覆盖算法*
莲心宝宝有话说
Crosstalk between gut microbiota and antidiabetic drug action
决策树和随机森林方法在管理决策中的应用
决策树学习的剪枝方法