孙斌
摘 要 随着数字化校园建设步伐的加快,各大高校都有了比较完善的校园网系统。与此同时,高校在日常教学管理过程中积累了大量的数据,这些数据都是宝贵的信息资源。但是目前,这些数据主要的用途只是提供简单的查询和报表统计,对这些数据所隐藏的深层次的信息没有充分地利用。如何更好地利用这些数据,为高校学生管理部门提供重要决策依据,从而进一步提高高校学生管理水平和效率,成为一个新的研究课题。
关键词 学生综合测评 决策支持 数据挖掘 决策树
中图分类号:G647 文献标识码:A
Application of Data Mining in Students' Appraised Management
SUN Bin
(School of Economics and Management, Inner Mongolia University
of Science &Technology, Baotou, Inner Mongolia 014010)
Abstract With digital speed up the pace of campus construction, major colleges and universities have a fairly complete campus network system. At the same time, the university has accumulated a large amount of data in daily teaching and management process, these data are a valuable information resource. But for now, the main purpose of these data only provide a simple query and reporting statistics, these data are hidden depth information is not fully utilized. How to make better use of these data provide an important basis for decision making for the college student management departments, so as to further improve the management level and efficiency of university students has become a new research topic.
Key words students' comprehensive evaluation; decision support; data mining; decision tree
1 数据挖掘技术
1.1 数据挖掘概述
数据挖掘(Data Ming)是建立在数据库与人工智能技术上的一种新技术。目前,一个普遍的对数据挖掘的定义是:数据挖掘是一个基于某种目的,从数据集合中提取出彼此之间有着特殊关系的信息处理过程。数据挖掘可以说一个决策支持过程,涉及到的技术有:模式识别、统计学、数据库、数据仓库、人工智能、可视化技术等,数据挖掘可以帮助用户自动分析数据,并进行归纳性推理,发现潜在模式,为决策者调整策略提供科学性指导,从而减少风险。
传统的数据分析方法,例如报表、查询、联机应用等手段,通常是带着明确目标,分析固定数据而追求预期结果。数据挖掘与这些方法有着本质不同,数据挖掘是在没有明确假设的条件下去发现信息、挖掘信息。主要任务是关联、聚类、分类、预测、分析偏差等等,常见的数据挖掘方法有决策树、遗传算法、贝叶斯网络等等。
1.2 数据挖掘的处理流程
下面介绍一下数据挖掘的一般处理流程,数据挖掘是个复杂的多阶段过程,一般分为如下几个阶段:
(1) 挖掘对象确定:这是数据挖掘的第一步,包括理解数据,提出问题,明确挖掘目标。
(2) 数据准备:数据准备是整个挖掘过程中所占比例最大的一个阶段,是保证挖掘成功的前提条件,主要目的就是选取合适数据,统一数据格式,建立数据仓库,数据准备阶段可以分为三个子过程:数据选取、数据预处理、数据转换。
(3) 数据挖掘:此阶段核心在于模式的发现,就是利用相关算法和挖掘工具对准备的数据进行分析,产生预期结果。
(4) 对结果分析、评价:就是将数据挖掘的结果分析验证,得到有价值的信息,比如挖掘出的规则、模式等等,决定了挖掘的有效性,以一种直观、容易理解的形式呈现给客户,通常会用到可视化技术,计算机图形学等等。
2 数据挖掘中的决策树技术
在分类预测技术中,最常用的就是决策树算法。决策树的具有结构简单,效率高,适用于大规模、非数值型数据处理,分类精度高等优点。决策树是基于贪心算法,通过自然而下递归的方法构造,由分枝与节点组成,节点则又分为根节点、内部节点、叶子节点,分类对象的属性由根节点与内部节点对应,叶子节点则代表一种可能的分类结果,在内部节点进行属性比较然后判断向下的分支。依此递归,就形成了一条从根节点到叶节点的比较路径,从而形成一套完成取向表达。本文研究采用的是ID3算法:
算法流程简述如下:
(1) 相关数据的计算:假设是个对象的数据集,数据集的类别属性数为,即(=1,2,3...),计算对象分类所需的期望信息,如下公式得出: = (,,…,) = (),其中是样本属于的概率估计。
然后设属性由个不同值,用{,,…,}集合表示,然后将数据集划分为{,,…}的子集,其中包含的样本,此样本在上有相同的值,即为。如果被选定为测试属性,那么{,,…}就是从节点扩展的新节点。那么从划分出的数据子集的信息熵由公式得出:
= (,,…)
其中, (,,…) = (), = 最后即可得出信息增益值:= (,,…)
(2) 构建决策树:根据上述步骤计算的值进行决策树构建。首先,用最大信息增益值的属性变量作为决策树的根节点,对属性的值创建分支,并且划分样本。然后再递归形成决策树。如果分组下的数据有相同的目标变量值,则决策树就到达了叶结点,否则在分组内再次确立分支准则,继续递归构建树的下一层分枝。决策树停止构建的条件为:属性划分完毕,结点数据集为空集,给定节点的样本为同一类样本。
3 决策树技术在学生综合测评管理工作中的应用
在学生综合测评管理工作中,可以通过决策树进行分类规划。首先是建立决策树的根节点,利用表征数据的关键属性段建立,从而确定数据训练集,然后输入已有数据,建立可以预测学生信息的决策树,便于学生的评优与定位。
一般学校的学生评优工作是围绕综合测评进行,而综合测评涉及到很多方面,政治觉悟修养、学业成绩、实践动手能力、身体素质等等,这些数据很多都不能量化,因此学校对这些数据采取层次分析或者模糊分析等人工测评方法,人工评测的准确性与公平性得不到保证。利用决策树可以很方便解决这个问题。首先将几方面的素质分成等级,比如政治觉悟修养,按照“优、良、中、差”四个等级表征,以学生的学号作为索引关键字,对数据分类来表征不同的数据对象,建立“政治修养”决策树;至于分析成绩工作方面,可以列出若干因素,然后构建决策树,比较影响因子大小,从而得出结论。而且还可以对得到的决策树再次分类预测,包括:预测离散值,构建模型对现有数据分类,提出学生评优管理中无用数据等;将原本数据分为具有一定特征的数据分类,便于管理者直接定位所需数据。
4 应用举例
决策树在学生成绩分析管理工作中用途十分广泛,下面结合一个具体实例来介绍常见的数据处理、数据挖掘的过程,并且根据决策树分析影响学生成绩的因素。
4.1 数据预处理
表1是某职业学院2011级财务信息学生的成绩与基本状况表。
表1
首先对以上数据进行离散化处理,得到的结果如表2:
表2
其中,学生是按照学号顺序排列,共51名学生,性别只有男女两种,下面对其他几个选项说明:
(1)出勤情况中,0表示经常不出勤,0.5表示全勤,1表示偶尔不出勤;(2)政治面貌中,0表示群众,0.2表示团员,0.4表示党员;(3)生源地中,0表示城市,0.2表示农村。
4.2 构建模型
此例研究的是观察学生的综合评价与哪些因素有关,希望发现学生评价与学生性别、出勤、政治面貌、生源地等因素的关系,以确定很多问题,例如党员是否可以严格要求自身学习,城市生源学生的成绩是否优于农村生源学生等等。首先根据决策树算法构建模型,先进行对数据的处理,然后应用算法建立决策树,并根据决策树分析上述问题。流程简介如下:(1)对数据表中的几个属性进行信息熵的计算,计算过程是根据上节提供的公式;(2)将得到的信息增益最大的属性当做决策树的根节点,然后进行数据子集划分;(3)重复1、2步骤,对每个数据子集划分,知道所有样本是同一类或者属性划分完毕为止。如图1所示:
图1
4.3 具体计算过程,以性别属性为例
(1)计算分类属性信息量。在数据表中,有51个样本,其中优秀为10个,良好为10个,一般有17个,较差有14个,下面计算每个信息的信息熵:
由公式,计算得到:(,,,)= (11,10,16,15)= 1.9732。
(2)计算每个属性的信息量。对于性别属性,该属性只有“男”、“女”两种,其中对于男性,簇结论为优秀、良好、一般,较差的样本数分别为4、4、13、11个;对于女性,簇结论为优秀、良好、一般、较差的样本个数分别为7、6、4、2个。
对于男性的评价表信息量的计算:(4,4,13,11)=1.708;
对于女性的评价信息表的计算:(7,6,4,2)=1.877。
对于性别属性的信息熵的计算则是:
(性别) = (4,4,13,11) + (7,6,4,2)=1.7709。
同理,计算得到:(出勤) = 1.3923;(政治面貌) = 1.7965;(生源地) = 1.8232.
(1) 信息增量的计算
Gain(性别)=1.9732-1.7709=0.2023
Gain(出勤)=1.9732-1.3923=0.5809
Gain(政治面貌)=1.9732-1.7965=0.1767
Gain(生源地)=1.9732-1.8232=0.15
4.4 构造决策树
有上述计算结果知,出勤信息增益最大,因此作为根节点,然后再计算剩下三个属性字段,得到的结果是剩下三个字段,政治面貌的信息增益大于其余两个,因此作为剩下两个属性的根节点,然后依次类推,形成的决策树如下所示:
图2
4.5 决策树分析
通过上面决策树分析,我们可以得出如下结论:(1)最学生成绩影响最大的因素是出勤率,出勤率不高的学生成绩不好;(2)性别、生源地对学生成绩没有太大影响,还没有政治面貌的影响大。因此,学生如果想提高学习成绩,应该做到不缺课、不旷课,教师在教学过程中,对待男女生、城市乡村学生一视同仁。
通过这个例子,我们剔除了数据集合中无关的属性,还将对学生成绩影响因素按照影响大小进行了排序,从而找出真正影响学生成绩的原因,得到有助于教学决策改进的重要信息。
5 总结与展望
由本文的研究可以看出,数据挖掘技术在学生成绩管理分析工作中的作用还是比较明显的,特别是决策树的应用,对综合评价学生素质有着巨大的启示与现实意义。在今后的工作中还有如下几个方面需要进行思考、改进:(1)在对挖掘结果的分析研究中,生成的分类规则与实际情况存在一定的误差,有些研究数据存在一定的片面性,还应该采取一定改进手段,优化挖掘效率。(2)本文的研究方法主要采用的是决策树手段,对其他的数据挖掘方式还有待进一步研究,以期采取多种挖掘方式改进对学生的成绩管理工作。
参考文献
[1] 范明,孟小峰等译.数掘挖掘概念与技术[M].北京:机械工业出版社,2000.
[2] Han Jiawei、Kamber Micheline.数掘挖掘:概念与技术(影印版)[M].北京:高等教育出版社,2000.
[3] 董彩云等.数掘挖掘及其在高校教学系统中的应用[J].济南大学学报(自然科学版),2004.18(1):65-68.
[4] 倪现君.基于数据挖掘分类技术的高校教学方法研究[J].科学技术与工程,2006.6(4):390-392.
[5] Minos Garofalakis、Dongjoon Hyun,Bui iding Decision Trees with Constraints,Data Mining and Knowledge Discovery,2003.2:187-214.
[6] J.Han,J.pei and Y.Yin.Mining Frequent patterns without candidate enerateion In proc,2000 ACM—SIGMOD Int Conf Management of Data[C].2000.5:I-I.