陈潇潇
摘要:学校每学期都要积累大量的教学评价信息,但对教学评价数据的处理主要停留在数值计算,没有深入挖掘数据背后的逻辑关系。该文使用数据挖掘算法——ID3决策树算法,分析高职教学评价与教师年龄、职称、学位的关联,挖掘出有价值的信息,为教学管理部门提供决策支持,更好地提升教学质量。
关键词:教学评价;数据挖掘;决策树;决策支持;教学质量
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)28-0199-02
开放科学(资源服务)标识码(OSID):
教学评价是指在一定教育价值观的指导下,依据确立的教学目标,使用一定的技术和方法,对所实施的各种教学活动、教学过程和教学结果进行科学判定的过程。教学评价一般包括教学过程中教师、学生、教学内容、教学方法手段、教学环境、教学管理等因素的评价。参考高职的课程类别,可将教学评价分为:理论教学评价、实践教学评价、理实一体化教学评价。理论教学评价项目[1]包括:讲课水平、教学态度、外语及新技术渗透、学生到课率、听课检查结果、学生评教结果、课堂互动、期末成绩等。实践教学评价项目[1]包括:方案及准备、操作及说明、总结及报告、考核及鉴定等。“理实一体化”课程的特点为:在人才培养中注重理论教学与实践教学的深度融合,通过理论与实践的相互促进提高学生的专业综合能力和实践能力,现已成为当前应用型高校人才培养的一个发展趋向[2-4]。根据其特点,理实一体化教学评价项目[1]包括:教学设计、教学准备、讲课水平、教学态度、外语、新技术渗透、学生到课率、课堂互动、教学任务完成情况、考核等。
传统的处理教學评价数据的方法多采取数值计算。包括“点估计法”“等差增值法”“算术平均值法”“加权平均值法”[5]。为了让不同学科评价具有可比性,霍本瑶等[6]提出了模糊综合评价法。但随着教学评价数据的日益增多,教学评价数据已逐渐呈现出大数据3V[7]的现象。不管是过程数据还是结果数据都已达到了一定的容量,院校虽有处理数据,但缺乏动态地整合和梳理过程。因此,蕴含在数据中的规律无法发挥潜在的价值,而数据挖掘技术的出现解决了这一难题。
数据挖掘(Data Mining),是一门在大数据背景下应运而生的学科。数据挖掘是基于数据库技术、可视化技术、人工智能技术、可视化技术等演变而来,通过对大量的、多维度的数据进行计算,从而揭示数据间潜在的关联关系,为决策者提供决策支持。数据挖掘技术,包括关联规则挖掘、K-Means聚类分析、贝叶斯分类分析、人工神经网络分析、决策树分类分析等。近年来,这些数据挖掘技术,在教学评价上的研究也日益广泛。研究通常是在深入研究数据挖掘理论和教学评价体系建构的基础上,设计挖掘算法模型的框架,针对运用教学评价过程中积累的大量评教数据进行数据挖掘。
李桥[8]等使用关联规则Apriori算法,对编号、年龄、性别、职称、学历和评定分数六项输入样本进行规则挖掘,最后得出年龄在36~49岁,职称为副教授,具有研究生学历的教师教学效果好。董萍[9]使用K-Means算法,对教学评价结果进行聚类分析,并将聚类结果分为四类:优、良、中、差,反映出了不同资质的老师在教学质量上的差距。赵万芹[10]等使用BP神经网络对教学质量进行了分析,文章中提到的训练输入数据由“主观评价体系”“教学评价体系”组成,预期输出数据由线性加权法求得,实际输出数据由BP神经网络模型得出,实际输出与预期输出的误差率较小,证实了使用BP神经网络进行教学评价的可行性。
本文通过使用ID3决策树算法,发现影响教师教学的因素,为教师提高教学水平和教学质量提供决策依据,为高职学校教学管理提供趋势性、可操作性、有价值的建议和措施,推动高职教育内涵式发展。
1 ID3决策树算法思想
在构建决策树前,首先介绍两个重要的术语:熵和信息增益。熵是对随机变量不确定性的一种度量。如果变量的不确定性越高,则熵值越高;如果变量越稳定,则熵值越低。在决策树分类任务中,通常希望分类后变量的熵值较低,即分类效果纯度较高。信息增益则是衡量熵值下降的程度。例如,原始熵值为20,做完一个决策之后,熵值变为8,则信息增益就是20减8等于12。通常情况下,信息增益越大,熵的减小量越大,决策树的节点就趋向于更纯。在建立决策树的时候,会选择这两个特征进行遍历,通过计算熵值,选取使得信息增益值最大的特征,这个特征将优先作为决策树的节点,依次类推,最终将形成决策树。
设[S]是训练样本集,它包括[n]个类别的样本,这些类别分别用[C1]、[C2][…][Cn]表示,那么[S]的熵或者期望信息为:
[entropy(S)=-i=0npilog2pi] (1)
其中,[pi]表示类[Ci]的概率。
设属性[A]将[S]划分成[m]份,根据[A]划分的子集的熵或期望信息由下式给出:
[entropy(S,A)=i=0mSiSentropy(Si)] (2)
其中,[Si]表示根据属性[A]划分的[S]的第[i]个子集;[S]和[Si]分别表示[S]和[Si]中的样本书数目。信息增益用来衡量熵的期望减少值,因此,使用属性[A]对[S]进行划分获得的信息增益为:
[gain(S,A)=entropy(S)-entropy(S,A)] (3)
[gain(S,A)]是指因为知道属性[A]的值后导致的熵的期望壓缩。
2 实验过程与结果分析
实验流程参照一般的数据挖掘过程:数据采集、数据预处理、规律寻找、规律展示四个步骤。如图1所示,为本实验的流程。
2.1 数据采集与预处理
数据采集是根据任务目的,选取数据集。通过前期调研,收集到了某校100位老师的教学评价信息。信息包括4个维度:教师年龄、教师职称、教师学历、教学评价分数。前三个维值度作为输入特征数据,最后一个维度的值作为输出标签数据。
数据预处理包括数据清洗、数据规约、数据变换、数据集成。获取存有教师年龄、职称、学历、学评教分数的Excel表data1。为方便后续过程的处理,将教师年龄在35岁及以下的设置为“青年教师”,特征值标记为“young”,其余情况标记为“old”。针对学评教分数85分以下的情况,将标签值为“low”,85分及以上标签值为“high”。表1展示了处理后的部分教师评价信息。
2.2 寻找规律
寻找规律。寻找规律的目的是采用某种方法把数据集里面的规律找出来,实验使用Python编程语言实现ID3决策树算法。
步骤一:导数据。使用pandas库中“read_excel”函数将data1数据导入程序中。
步骤二:数据转换。先将年龄、职称、学历特征下的数据转换为字典类型,然后使用DictVectorizer函数对数据进行特征抽取和向量化,使得特征值最终变为“0”或“1”。代码如下所示。
x=x.to_dict(orient="records") (代码1)
transfer=DictVectorizer() (代码2)
x=transfer.fit_transform(x) (代码3)
步骤三:设计决策树。决策树使用的策略是“熵”,层数为3层。代码如下所示。
estimator=DecisionTreeClassifier(criterion='entropy',max_depth=3) (代码4)
步骤四:实现模型训练。调用fit函数,将输入特征向量与输出标签作为它的参数。最终得到estimator决策树模型。代码如下所示。
estimator.fit(x,y) (代码5)
2.3 规律展示
规律展示是尽可能采用用户可理解的方式将数据规律展示出来,例如图形图表方式。实验中,使用export_graphviz函数将决策树模型以dot形式输出,并在cmd客户端将dot文件转换为png文件,从而以可视化的方式展示规律。代码如下,最终得到的决策树模型如图2所示。
dot -Tpng C:\Users\Desktop\allElectronicsData.dot -o example.png (代码6)
由决策树的根节点可以得出:value值左侧数据代表得分为high的样本数量,右侧数据代表得分为low的样本数量。在决策树的第二层,有熵值为0的叶子节点。此叶子节点反映的信息为:年轻的,学位不是博士学位的老师,学评教分数较低。这是因为,年轻的教师刚接触工作岗位,不管在教学方法还是科研领域,都缺乏一定的经验。学校教务管理部门、人力资源部门,可以为每位青年教师配备一名导师进行教学指导,并定期开展青年教师说课大赛,举办教学、科研讲座,组织青年教师参与培训,提升青年教师在教学、科研方面的业务能力。
随着人工智能与大数据技术的发展,大学教学内容的科学性逐步加强,跨学科内容增多,尤其对于一些新兴前沿的知识,更需要扎实的学术背景。拥有高学历的教师,具有较高的科研水平,在运用合理的教学方法的同时,可以带领学生进行知识的钻研,指导学生进行科学探究,提升了课堂学习的积极性。这也是高学历教师教学评价分数较高的原因。
3 结语
本文详细介绍了用ID3决策树算法分析教学评价的过程。同时对挖掘过程进行了分析,找出影响教学评价的因素,真正实现了“以评促学、以评促教”,教学相长,提高教学质量的目的,为教学改革提供了重要的参考价值。数据挖掘算法是一个很有前景的领域,未来势必在教育管理方面发挥出更深远的影响。
参考文献:
[1] 贾文雅.数据挖掘在高职教学质量评价体系构建中的研究与应用[M].长春:吉林科学技术出版社, 2019:209-211.
[2] 施晓秋,徐赢颖.工程教育认证与产教融合共同驱动的人才培养体系建设[J].高等工程教育研究,2019(2):33-56.
[3] 邹心遥.创新能力导向的高职理实一体化实训室建设[J].实验室研究与探索,2017,36(4):225-228.
[4] 王昌辉.高职院校理实一体化教育及其课程教学质量评价体系研究[J].教育理论与实践,2015,35(33):28-30.
[5] 李荣英. 高职高专教学评价数据处理方法探讨[J]. 教育与职业, 2006(30):178-180.
[6] 霍本瑶, 郝艳莉.高职教师课堂教学质量评价的现状及对策[J]. 职教论坛, 2009(14):56-57.
[7] 中央政府门户网站.国务院关于印发促进大数据发展行动纲要的通知[EB/OL].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm,2015-09-05.
[8] 李桥, 阳春华. 关联规则Apriori算法在教学评价中的应用[J]. 计算机与数字工程, 2010(6):49-51.
[9] 董萍. 聚类分析在教学评价中的应用[J]. 湖南工程学院学报(自然科学版), 2010(1):74-77.
[10] 赵万芹, 孔令超. 基于BP神经网络的教学质量评价的探讨[J]. 化工高等教育, 2011(1):101-105.
【通联编辑:李雅琪】