李晓俊
(太原旅游职业学院信息系,太原030006)
学生综合测评成绩是大学生奖学金、三好生评比和毕业生就业的重要依据和参照,与每一个大学生都密切相关。现行大学生综合测评体系中还存在一些弊端,德育标准大多停留在口号上,大概念清楚,具体标准模糊,因而造成了在这一项的评分上人人都得满分的结果,变相减弱了德育在综合测评中的地位;奖罚分混乱,从而引发许多关系分、人情分,而这项是直接加分,在综合测评成绩中占了很重要的地位;不重视学生的实践能力的考核等等。建立一套更为合理的、操作性强的综合素质测评办法,既能科学地反映出每个学生的发展,又能为学生树立起一个导向性目标,从而引导学生全面提高自身素质。测评系统还可以把近年来新兴的数据挖掘技术应用到系统中,从而提高学生管理的水平和效率。
数据挖掘(data mining)是一个从已知数据集合中发现各种模型、概要和导出值的过程[1-2]。数据挖掘的基本过程包括数据准备、数据挖掘、结果的解释和评估三个阶段[3-4]。
数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型和描述型。预测型模式是可以根据数据项的值精确确定某种结果的模式。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组[3]。在实际应用中,往往根据模式的实际作用将其细分为以下七种。
分类:分类是指把每个事例分成多个类别的行为。每个事例包含一组属性,其中有一个属性是类别(class)属性。分类任务要求找到一个模型,该模型将类别属性定义为输入属性的函数。分类模型将使用事例的其他属性(输入属性)来确定类别的模式(输出属性)[5]。
聚类:聚类是把一组对象按照相似性归成若干类别,它的目的是使属于同一类别的对象之间的“距离”尽可能的小,而属于不同类别的对象之间的“距离”尽可能的大,它反映的是同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。通过聚类,对象可被划分为一系列有意义的子集[6]。
关联:关联分析的目的就是挖掘隐藏在数据间的满足一定条件的关联关系。关联规则的形式为:X⇒Y[support=s,confidence=c],这里X称为规则的条件,Y称为规则的结果。规则X⇒Y的support(支持度)s是含有X和Y的记录在全体记录中所占的比率,confidence(置信度)c是同时含有X和Y的记录数与含有X的记录数的比率[6]。
回归:回归任务类似于分类任务,但它不是查找描述类的模式,它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子,其结果是一个函数,可以根据输入的值来确定输出。更高级的回归形式支持分类输入以及数值输入。回归使用的最流行的技术是线性回归和逻辑回归。
预测:预测也是一种重要的数据挖掘任务。预测技术采用数列作为输入,表示一系列时间值,然后运用各种能处理数据周期性分析、趋势分析和噪声分析的计算机学习和统计技术来估算这些序列未来的值。
序列分析:序列分析是用来发现一系列事件中的模式,这一系列事件称为序列。例如,某客户首先买了一台电脑,然后买了一个扬声器,最后买了一个网络摄像头。
偏差分析:偏差分析是为了找出一些特殊的事例,这些事例的行为与其他事例有明显的不同。偏差分析的应用范围很广,最常见的应用是信用卡欺诈行为检测[5]。
SQL-Server 2008提炼了上述的各种复杂知识,加工好友好的视窗工具,嵌入到分析服务中。SQLServer 2008提供了7种不同的算法,其中大多数算法能完成几种不同的任务。我们没有必要了解每个算法内部的工作原理,更重要的是明白每种算法能完成的任务。决策树算法主要用于分类、回归、关联;贝叶斯算法主要用于分类;聚类算法主要用于回归、分类;关联算法主要用于关联;序列算法主要用于序列分析、回归、分类;时序算法主要用于回归;神经网络主要用于分类、回归[7]。
测评系统要能实现按学号、学期、学年、综合四方面的查询。测评系统分为独立的三个方面:德育素质、学识素质、实践能力。其中德育素质主要考核学生在纪律、卫生、劳动等方面的素质,根据学生处每学期给出的学生德育量化考核成绩输入。德育考核依据“学院德育量化考核办法”执行,每天都要做,每天都要有学生在纪律、卫生、劳动等方面的考核记录,每月一小结,每学期再根据每月的情况,给出学期德育成绩,上报学生处。学习成绩按教务处每学期期末考核给出的学习成绩输入,学识素质根据本学期所开课程的平均分得出;实践能力主要考核学生在职业技能等方面的素质,鼓励学生积极进行广泛的职业技能训练、积极参加各项活动,其中分为几个单项(例如集体活动、职业资格证书、职业技能比赛,社会实践、社团活动,运动会破院记录,学生干部等),并由各系每学期末考核给出“合格”或“不合格”等级。该系统不仅能对输入的德育、学习、实践数据自动进行排序工作,而且能根据要求进行优良中差的等级划分,并且能针对学生个人提出合理化建议:例,“你遵守校规,学习优秀,希提高实践能力”、“你德育成绩较低,如不改正,将影响对你的实习推荐”、“你没有就业资格证,可能会影响到你毕业证的领取”等等。最重要的是对学生的评价不以学习成绩进行单一评价,而是以德育、学习、实践三方面系统自动给出一个综合评价。
测评系统功能模块结构如图1所示,通过这个系统,老师可以更全面地了解学生,学生也可以从另一个角度了解自己。
图1 学生综合测评系统结构模块图Fig.1 The structure module graph of graduate student synthetical evaluation system
该系统的主要功能有数据输入、数据修改、数据处理、数据查询和用户管理五部分组成,为教师、学生、用人单位较全面地了解学生的在校情况提供方便,为决策者提供指导。
决策树是最受欢迎的数据挖掘技术,因为这种算法有很快的训练性能、较高的准确性和易于理解的模式。它首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策树对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
利用决策树分类理论构建学生综合测评决策树(如图2所示),进行综合素质分类。
图2 分类决策树Fig.2 Classification decision tree
综合素质按优秀、良好、一般、较差分为1,2,3,4级;
德育素质按优秀、良好、一般分为1,2,3级;优秀 =(85,100);良好 =(65,85);一般 =(0,65);
学业素质按优秀、良好、中等、合格、不合格分为1,2,3,4,5 级;优秀 =(90,100);良好 =(80,90);中等 =(70,80);合格 =(60,70);不合格 =(0,60);
实践能力按合格、不合格分为1,2级。
决策树应用于数据挖掘分成两个阶段,一是模型训练阶段,通过对训练集训练获得树的模式,其二是使用模型阶段,实际上就是用获取的模型对未知的数据进行分析[8]。具体流程如下:
(1)模型训练阶段
模型训练阶段得到的分类模型,不仅要很好地描述或拟合训练样本,还要正确地预测或分类新样本,因此,需要评估分类模型的准确率,只有分类模型的准确率满足要求,才能利用该分类模型分类新样本。所以,我没有选用现实的学生数据作为训练样本,而是按照前面构建的学生综合测评决策树,建立数据训练集,从而获得很好的结果。图3展示的是部分数据。
根据已建立的数据训练集数据,在SQL Server 2008的数据挖掘向导中选择决策树算法,经过处理后,形成基于训练集训练出来的决策树分类模型(如图4所示)。
决策树中每个节点都根据输入属性来标记,每一条从根节点到叶结点的路径就是目标变量的一条规则,从决策树中可以提取出更为形象的 IFTHEN分类规则,IF-THEN分类规则易于理解,特别是当决策树比较庞大时。
(2)使用模型阶段
使用模型阶段,就是利用决策树所形成的分类模型对新样本进行分类或预测[10]。本文使用前面所建立的分类模型对信息系2009级学生数据进行了综合素质的分类。
然后我们还进一步做了一些数据挖掘工作,分别从学识素质角度、实践能力和德育素质角度、综合素质角度来分析2009级学生情况。
通过挖掘我们发现,学识素质优秀的学生中有64.06%的学生综合素质为优、32.59%的学生综合素质为良,合计96.65%;学识素质良好的学生中有47.75%的学生综合素质为优、35.61%的学生综合素质为良,合计83.36%。所以我们可以预测出:学识素质高的学生综合素质也应该较好。
图4 决策树分类模型Fig.4 Classification model of decision tree
如果不考虑学习成绩,只考虑德育素质与实践能力去选择学生,又如何呢?我们把预测变量设为“综合”,把输入变量设为“德育”和“实践”,从图中可以看出,综合为优秀者,主要集中在德育优秀且实践合格的学生上,再选择德育优秀且实践合格,从图例中我们可以看到73.72%的学生综合素质是优秀。所以我们可以预测出:德育优秀且实践能力强的学生综合素质也应该较好(如图5所示)。
如果直接考查综合素质,又当如何?在综合素质优秀的学生中学识素质为优秀的占50.90%,良好的占45.91%,共占96.81%.所以我们可以预测出:学生综合素质好的学生,学识素质也应该较好。
数据挖掘技术在学生综合测评系统中的应用,实现了一种更为科学的与时代相适应的学生综合测评体系;对学生管理者推荐毕业生、对用人单位选择人才,有一定的帮助;对领导考核班级、班主任引导学生也有一定的帮助。
图5 德育和实践、综合决策树Fig.5 Moral education and practical,comprehensive decision tree
数据挖掘技术是当前信息处理领域先进技术之一,它的应用大大加强了决策分析的功能和灵活性,是一个很有前景的方向。把数据挖掘技术应用到教育管理领域里,将有效地推动教育管理的进一步改革、完善和发展[11],数据挖掘技术在教育管理领域的应用也将越来越广泛和深入。
[1]王艳春.基于数据挖掘算法的教学评测系统研究[J].长春理工大学学报,2006,29(4):73-76.
[2](美)康塔尼克.数据挖掘[M].闪四清,译.北京:清华大学出版社,2004.
[3]张云涛.数据挖掘原理与应用[M].北京:电子工业出版社,2004.
[4]周云峰.数据挖掘理论在高校教学评估中的应用[D].江西:南昌大学计算机技术系,2009.
[5](美)Jamie MacLennan.数据挖掘原理与应用[M].董艳,译.北京:清华大学出版社,2010.
[6]王丽珍.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2009.
[7](美)Brian Larson.SQL-Server 2005商业智能实现[M].赵志恒,译.北京:清华大学出版社,2008.
[8]朱德利.SQL-Server 2005数据挖掘与商业智能完全解决方案[M].北京:电子工业出版社,2007.
[9]朱锡亮.数据挖掘在高校固定资产管理中的应用研究[D].江苏:扬州大学计算机技术系,2010.
[10]李云.数据挖掘技术在中学教务管理系统中的应用研究[D].贵州:贵州大学计算机应用技术系,2008.
[11]邱文教,潘晓卉.数据挖掘技术在教务管理中的应用[J].安徽工业大学学报,2005,22(3):133-134.