王莺
摘 要 本文主要探讨了把数据挖掘技术引用到学生综合素质测评工作中,对学生相关数据进行分析,从中挖掘有用知识,为学校管理及辅导员工作决策提供有利帮助,进一步提高学生管理工作的实效性和针对性。
关键词 辅导员 数据挖掘 C4.5算法
中图分类号:G712 文献标识码:A DOI:10.16400/j.cnki.kjdkz.2016.03.006
Application of Data Mining Technology in Students'
Comprehensive Quality Assessment
WANG Ying
(Taizhou Vocational and Technical College, Taizhou, Zhejiang 318000)
Abstract This paper discusses the data mining technology to students' comprehensive quality evaluation reference work, the students analyze the relevant data, to dig a useful knowledge to help school management to provide favorable and counselors decision to further improve the effectiveness of student management and targeted.
Key words counselor; data mining; C4.5 algorithm
0 引言
推优入党、各类评奖评优是高校辅导员工作的一个重要方面,各种荣誉名单的确定都是基于学生综合素质评价为基础展开的。但现大多数高校中辅导员人数缺口较大,致使其事务性工作过多,临时性和琐碎性工作占用了辅导员大量的时间与精力,辅导员无法做到对每个学生情况的全面真实了解,无法准确地了解学生的综合素质水平。
伴随着信息技术的广泛应用,各高校都积累了大量的学生信息,如学生奖惩信息、学籍信息等。运用传统的数据分析方法对高校学生管理问题进行研究,不能有效提取出数据中潜在的价值信息和规则,无法为学生管理工作提供决策依据。数据挖掘(Data Mining):就是从数据中“淘金”,从大量数据中获取那些未知的、隐含的、有潜在价值的信息的过程。将数据挖掘决策树分类方法应用于学生综合素质评价中,能够较为全面、公平、客观地分析和掌握一个学生的发展状况,能较为动态地了解学生的综合素质水平,可帮助辅导员在奖学金名额分配、各类评奖评优、推优入党、就业推荐等学生工作中更好地做决策,还可以研究学校应该培养哪些能力提高学生综合素质,为辅导员学生教育工作指明方向。
1 数据挖掘技术在学生综合素质评价中的应用
1.1 研究对象及挖掘目标
台职院奖学金评定每学年一次,考虑学生信息完整性,研究对象定为大二、大三年级学生,研究的是大二、大三学生在上学年(即大一、大二)的数据。笔者服务于台职院电信学院,故把2014/2015学年电信学院现大二、大三年级学生的相关数据作为重要处理对象,共计1251人。挖掘的目标是根据这1251位学生的综合信息,以学生综合素质的高低进行分类,获取综合素质高的学生的特点属性,对这些特点属性进行分析,进而针对性地对学生进行培养,使学生综合能力得到提高,更适应社会发展需求。
1.2 数据采集
根据挖掘目标,需获得以下信息:学生日常表现(通过学生系统日常登记记录获得)、学生奖惩信息(通过学生系统日常登记记录获得)、学生基本数据信息(通过学校教务管理系统获得)、成绩信息(通过学校教务管理系统获得)、学生综合评价(根据学生综合素质评价标准计算得出,根据台职院《学生手册》规定,得分在80分以上的学生综合素质认定为高,得分为60~79的学生综合素质认定为中,60分以下的认定为低)。
学生综合信息采集:学号、姓名、班级名称、学生日常表现、学生综合素质评价、学生奖惩评价。
学生基本数据信息采集:学号、姓名、班级名称、专业、系别、性别、民族、籍贯、家庭地址、身份证号、学生干部等。
学生成绩信息采集:学号、姓名、班级名称、理论课平均成绩、实践课平均成绩、课程总成绩等。
1.3 数据预处理
(1)数据集成。我校学生在校期间使用同一学号,通过学号属性,把信息合并成为一个学生综合信息汇总表,字段:学号、姓名、班级名称、专业、系别、性别、民族、籍贯、家庭地址、身份证号、联系电话、是否学生干部、理论课平均成绩、实践课平均成绩、课程总成绩、学生日常表现评价、学生奖惩评价、学生综合素质评价等。
(2)相关性分析。集成后的数据集包含多个属性,其中一些属性与挖掘任务无关,我们加以删除,留下课程总成绩、学生日常表现评价、学生奖惩评价、是否学生干部、学生综合素质评价等5个属性。
(3)数据转换。对剩余5个属性进行数据建模。将课程总成绩的取值离散化为四个值:优(>=170)、良(140~169)、中(120~139),因学校规定参与各类奖学金评定、推荐入党的学生必须为品学兼优学生,故不及格的数据、有处分记录的数据会被删除。
(4)数据清洗。数据清洗,主要是将数据库中重复的记录行删除。将退休学的学生信息删除,对空缺值进行手工填补,因数据基本来自教务系统,且都是在校学生的重要数据,工作量不大。
经以上步骤,数据库中可作為数据挖掘样本的完整记录共计有1251条,选择48条记录作为测试集,剩余1203条纪录作为训练样本集。生成学生综合素质评价总表如表1。
表1 学生综合素质评价总表(训练样本集)
1.4 用C4.5算法创建决策树
本文选择学生日常表现评价、是否学生干部、学生奖惩评价、课程总成绩四个属性作为建立学生综合素质评价分类决策树模型的依据,利用C4.5算法,构造出决策树模型如图1所示:
图1 学生综合素质决策树
1.5 分类规则生成
根据图1,提取决策树规则,用 IF-THEN 形式表示如下:
(1)IF(课程总成绩=优) AND (是否学生干部=是) THEN 学生综合素质=高。
(2) IF(课程总成绩=良) AND (是否学生干部=是) AND (学生日常表现评价=优) THEN学生综合素质=高。
(3)IF(课程总成绩=良) AND (是否学生干部=是) AND (学生日常表现评价=差) THEN学生综合素质=低。
(4)IF(课程总成绩=良) AND (是否学生干部=否) AND (学生奖惩评价=中) THEN学生综合素质=低。
(5)IF(课程总成绩=中) AND (学生日常表现评价=优) THEN学生综合素质=高。
(6)IF(课程总成绩=中) AND (学生日常表现评价=中) AND (学生奖惩评价=良) THEN 学生综合素质=低。
(7)IF(课程总成绩=中) AND (学生日常表现评价=中) AND (学生奖惩评价=中) THEN 学生综合素质=低。
(8)IF(课程总成绩=中) AND (学生日常表现评价=差) THEN 学生综合素质=低。
1.6 结果分析
评价学生综合素质高的一条重要标准是学生课程总成绩。如果课程总成绩高(表示学科知识掌握好)且是学生干部,综合素质高。如果课程总成绩良好,是学生干部且在校日常表现优秀,学生综合素质高。如果课程总成绩中等而在校日常表现优秀,学生综合素质高。
对结果分析,给予学生培养工作以下指导意见:学生应以学业为主,着重知识的积累,注重实践育人。其次,学生是否为学生干部也较重要,代表学生在校期间有无担任社会工作,学生沟通、交际等能力在校是否得到锻炼,作为輔导员,更应注重学生社会实践能力的锻炼,多组织一些技能比赛、辩论赛、社团活动等。还有一个可评价学生综合素质的因素是学生在校日常表现情况,学生在校日常表现优秀,代表他在学习态度、服务意识、公寓表现等方面表现较为突出,这种勤恳、踏实的作风是目前企业单位所要求的,所以应给予肯定。
2 结束语
研究表明将数据挖掘技术应用于学生数据的分析,并将这些分析结果协助学生管理工作决策是可行的,通过对大量的学生学籍信息、成绩信息、学生奖惩信息等个人信息数据的分析和理解,建立数据仓库,并结合数据挖掘算法,挖掘出影响学生综合素质的关键因素及规则,实现了为学生管理工作者在对学生各类评奖评优、学生入党考察及毕业推荐等工作决策中提供科学依据的目标,最大化地做到“以学生为本”。
参考文献
[1] 熊平.数据挖掘算法与Clementine实践[M].北京:清华大学出版社,2011.
[2] 薛恩军.决策树技术在学生成绩分析中的应用[D].硕士学位论文,内蒙古大学,2008.
[3] 俞磊.基于数据挖掘的闽江学院学生管理系统设计与实现[D].硕士学位论文,电子科技大学,2013.
[4] Quinlan J R.Induction of Decision Tree[J].Machine Learning,1986.1(1):81-106.