杨灵芝,刘海明,孙亚非
(沧州职业技术学院,河北 沧州 061001)
基于Weka的数据挖掘技术在学生测评中的应用
杨灵芝,刘海明,孙亚非
(沧州职业技术学院,河北 沧州 061001)
随着教师信息智能化管理的逐步落实,高职院校积累了海量的评价数据信息。文章分析了Weka软件工具、数据挖掘过程以及针对学生测评教师数据进行具体挖掘的全过程,最终为教育管理者和教师提供了良好的指导措施。
Weka;关联规则;学生测评
Weka是新西兰怀卡托大学开发的开源数据挖掘平台,集合了当今数据挖掘常用典型算法,提供了预处理功能,方便用户进行数据筛选。Weka的优点在于采用Java语言编写,具有灵活方便,可移植性强的特点。
由于数据种类的多样化,不是所有的数据挖掘问题都能被解决,使用Weka可以完整体验数据挖掘全过程,从数据准备及预处理,挖掘方法选择,到数据分析结果的呈现及评估,再到不同方案的比较,直到最终得出解决方案。
所谓数据挖掘,是从数据的海洋中发现并找出有使用价值的知识。借助灵活的挖掘工具,依据成熟的发掘模式,采用数据挖掘相关规则,参照挖掘流程,最终发现一些有意义的规律,了解各种数据之间的联系或模式[1]。一般来说,数据挖掘工作主要分为数据准备,数据抽取,数据预处理,数据挖掘,模式评价5个步骤。
(1)在数据准备中,由于数据挖掘面对各行各业,导致数据的存储类型多种多样,因此在挖掘前必须对挖掘领域有足够的了解,对于行业知识背景、行业需求以及业务流程等了如指掌,通过业务需求明确挖掘的目标。
(2)在数据抽取中,挖掘人员需要剔除那些对于创建模型毫无用处的数据,将准备环节集成好的数据进行再次搜索,保证数据范围的准确和数据意义的正确。
(3)在数据预处理中,对准备抽取后的数据再次加工,验证数据的完整性和一致性。对于那些来自于各个不同应用系统的原数据,其数据结构各异,还有一些由于人为原因丢失或重复的数据,只有经过再清洗,才能得到不再空缺、不再歧义的统一合法的数据,从而保证数据的高质量提取。
(4)在数据挖掘中,结合行业数据特点及实际系统运行要求,选择恰当的挖掘工具及算法,从预处理的数据中抽取有意义的知识。
(5)在模式评价中,专家对挖掘结果进行评估,若一些模式不符合任务需求,需要返回到前4个环节中去反复操作,直到得出有效准确的知识。
在高职院校教学评价中,学生对教师的评价占有重要地位。结合学院的最新评价机制,学生对于教师的评价主要从10个方面衡量:(1)热爱学生,为人师表;注重学生职业能力的培养,提高学生综合素质。(2)授课内容能够紧密结合工作实际,实用性强,学生喜欢。(3)授课思路清晰,讲解、示范熟练,教学目的明确。(4)教学方法灵活,能启发学生积极思考,师生互动性强。(5)积极采用现代化教学手段,板书工整,普通话好,能够有效组织教学。(6)认真答疑,悉心指导,及时批改作业及实验报告。(7)教书育人,治学严谨,既热爱学生又严格要求。(8)重点突出,难点分散,学生易于接受,使学生职业能力有显著提高。(9)遵守教学纪律,无迟到早退现象。(10)能积极主动和学生沟通、交流,学生爱戴。这10项学评指标求和后再平均得到的就是学生对于某门课程任课教师的最后评价结果。本文从评价数据库中导出学生对教师的测评结果,查找对于挖掘有价值的属性信息。导出的学生测评信息如表1所示,从中选取学生测评结果为优良中的3种情况的数据,着重分析学生评价指标中深受学生信任的指标。
通过分析发现每项测评指标和总成绩等属性都是连续的数值,结合关联算法要求,需要将上表信息离散化,同时转化为Weka能够识别的字段名称[2]。
表1 学生评价挖掘信息 (单位:分)
具体过程如下:(1)10项测评指标分别用indexone,indextwo,indexthree,indexfour,indexfive,indexsix,indexseven,indexeight,indexnine,indexten 10项来表示,测评成绩分为优、良、中、及格、不及格5个等级,其中9—10分为优,8—9分为良,7—8分为中,6—7分为及格,6分以下为不及格,分别用A,B,C,D,E来表示。
(2)总成绩用score来表示,同样也分为优、良、中、及格、不及格5个等级,90分以上为优,80—90分为良,70—80分为中,60—70分为及格,60分以下为不及格,分别用A,B,C,D,E来表示。将上述信息表进行预处理,转换得到表2。
表2 离散化后学生评价挖掘信息
经过数据预处理过程后,进行学生评价信息的数据挖掘实验。启动Weka软件,进入Explorer界面,选择preprocess选项卡,打开离散化后的数据表格,其中表格格式要求是.csv或者.arff格式,观察数据表中数据情况,包含11个属性1 260条数据信息。
选择Associate选项卡中的Apriori算法,设定最小支持度阈值0.1,最小置信度阈值0.9,在挖掘结果界面中看到生成3个频繁项集,30条规则。改变Apriori算法的最小支持度、最小置信度和生成规则条数3个参数,继续进行挖掘实验,通过多次修改参数设置从多次挖掘结果中选出几条有价值的规则进行分析,针对这些规则进一步提出整改措施,辅助教师更好地投入到教学工作。挖掘结果分析如下。
(1)indextwo=A indexfour=A 714 ==〉 score=A 672〈conf:(0.94)〉 lift:(1.57)lev:(0.19)[243]conv:(6.64)这条规则说明在评价优秀的教师中,指标2和指标4的评价为优秀的占有绝大部分。这说明该两项指标使学生的信服程度较高。
(2)indexone=A score=A 714==〉indexeight=A 630〈conf:(0.88)〉lift:(1.47)lev:(0.16)[201]conv:(3.36)这条规则说明获得优秀评价的教师中,对于指标1评价较高的学生同时对于指标8评价也很高。这说明学生注重指标1和指标8中的共同点,也就是专业方向的引导。
通过对挖掘结果的分析和说明,总结出以下几点结论。
(1)学生对于所学知识内容的实用性有着较高的要求,希望教师所教就是工作所用,因此教师应该及时更新授课的内容,加强学生的动手实操能力的锻炼,同时还要充分与工作实际相结合,尽量为学生创设或模拟实际工作环境。
(2)师生互动环节是影响教学质量的重要因素,教师需要采用多种方法和手段增强与学生的互动效果,充分调动学生的学习积极性,比如使用促动技术,将知识放入小游戏中,激发学生的学习兴趣,比如提问、讨论、对分、小组竞赛等都是帮助教师和学生的不错选择。教师还需要和学生多沟通,了解学生在学习中碰到的困难,尽量帮学生去解决。
(3)学生认为优秀的教师应该具备本专业的前沿知识,因此也就需要教师积极参加企业培训,将培训所学的专业前沿知识带进课堂,从学生入学开始就注重逐步引导学生的专业感知,慢慢提升学生的专业素养。
文章使用Weka中Apriori算法对于教师的学生测评指标进行挖掘分析,从学生测评角度找出深受学生好评的几点规则,包含授课内容的实用性,师生互动情况以及专业方向的引导等。这些挖掘结果为教育管理者和教师提供了良好的指导措施,对学生的培养和教师素质的提升给出了明确的建议。
[1]高云辉.数据挖掘技术在高校教学评价中的应用研究[J].吉林省教育学院学报,2013(1):36-37.
[2]倪娜.关联规则挖掘算法在学生素质测评系统中的应用研究[D].天津:河北工业大学,2015.
Application of data mining technology based on Weka in student evaluation
Yang Lingzhi, Liu Haiming, Sun Yafei
(Cangzhou Technical College, Cangzhou 061001, China)
With the gradual implementation of the intelligent management of teacher information, higher vocational colleges have accumulated vast amounts of evaluation data information. This thesis analyzes Weka, the process of data mining and the whole data mining process for students to evaluate teachers. Finally, it provides good guidance for educational administrators and teachers.
Weka; association rules; student assessment
杨灵芝(1982— ),女,河北沧州人,讲师,学士;研究方向:数据挖掘。