徐成香
[摘要]随着学生信息数据的急剧膨胀,为了更好的进行学生信息管理,提出基于数据挖掘技术的学生信息系统的开发,并举例说明如何利用数据挖掘技术和数据库技术建立学生信息管理系统,为相关专业人员提供参考。
[关键词]数据挖掘关联规则模型
中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0820057-01
目前我国很多学校均建立了学生信息系统,随着时间的推移学生信息系统中相关的信息数据也急剧膨胀。如何运用科学的技术和手段从海量数据中发现有用的信息并充分利用,发现各个学生的特点,了解学生的学习规律,更好地管理学生信息,这是学校管理者企盼解决的深层问题。因此采用数据挖掘技术对学生数据进行再次开发已成为新的趋势。
一、数据挖掘的概念[1]
数据挖掘(DataMining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘是现代科学技术相互渗透与融合的产物,融合了数理统计、人工智能、可视化技术、数据库技术和计算机技术等领域的理论技术。
二、学生信息数据仓库的设计与建设
数据挖掘是建立在数据仓库基础之上的。数据仓库概念是W.H.Inmon
在《建立数据仓库》一书中提出的,数据仓库就是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程[2]。数据准备的好坏将影响到数据挖掘的效率和准确度以及最终模型的有效性,数据准备工作包括数据的选择(选择相关和合适的数据)、探索(尽可能了解数据,如分布情况和异常数据等)、修正(包括缺失数据的插值等)、变换(离散值数据与连续值数据之间的相互转换,数据的分组分类,数据项之间的计算组合等)。
学生信息数据库中的数据表主要有:学生学籍信息表,主要字段有学生学号(ID)、姓名(name)、性别(sex)、出生日期(age)、家庭住
址(address)等;学生班级信息表,主要字段有学号(ID)、班级(clas
S)、职务(duty)等;学生成绩表,主要字段有学号(ID)、课程号(cI
D)、成绩(result)等;学生选课表,主要字段有学号(ID)、选修课程号(xID)、任课教师(teacher)、成绩(result)等;各学期成绩汇总表,主要字段有学号(ID)、课程1成绩(result1)、课程2成绩(result
2)、课程3成绩(result3)、总成绩(results)、名次(rank)等。
三、数据挖掘在学生信息管理系统开发中的应用
(一)建立挖掘数据模型及数据预处理。数据预处理是对数据源进行加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行平滑,对丢失的数据进行填补,消除“脏”数据,消除重复记录等,使之符合数据挖掘的要求。它的主要工作有检查拼写错误、去掉重复的记录、补上不完全的记录、推导计算缺失数据、完成数据类型转换。数据变换的主要目的是精减数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。
(二)数据挖掘的算法[3]。由于学生信息系统有多个不同的应用目标,以查询不同的结果。因此要有与其相对应的挖掘任务和定制数据库,针对这些数据库有很多的数据挖掘算法。而每个算法都会提出一些诸如置信度、感兴趣度、新颖度等统计属性作为对产生模式的评估标准,从而进一步决定对模式的取舍,提高找出有兴趣模式的效率。这里用最佳的数据挖掘方法进行计算,这些算法包括:人工神经网络、决策树、遗传算法、邻近算法等。
(三)数据挖掘结果与分析。根据数据方面处理结果,设最小支持度为0.2,最小置信度设为0.4,利用关联规则数据挖掘Apriori算法处理数据并得出关联规则。
是否为班干部+学习成绩,进行挖掘,挖掘结果如下:
[是否为班干部=“是”=>学习成绩=“优”] 0.588
[是否为班干部=“是”=>学习成绩=“一般”] 0.450
[是否为班干部=“否”=>学习成绩=“优”] 0.500
[是否为班干部=“否”=>学习成绩=“一般”] 0.655
结果表明:在班级担任一定职务的学生并没有因为学生工作耽误学习,相反,班干部的学习成绩要比普通同学的学习成绩好。班干部经常和老师联系,在老师身上学到很多知识,并且任职班干部要给普通学生作表率。因此,班主任及任课教师要重视班干部,但不能忽视普通学生,要经常找普通学生谈心,以提高他们的学习成绩。
实践经历+学习成绩,进行挖掘,挖掘结果如下:
[实践经历=“多”=>学习成绩=“优”] 0.670
[实践经历=“中”=>学习成绩=“良”] 0.498
[实践经历=“少”=>学习成绩=“中”] 0.680
结果表明:社会实践及参加活动多的学生的学习成绩要好,而社会实践及参加活动少的学生的学习成绩一般。作为学校的管理者,应该多举行有意义的活动,丰富学生的学校生活,提高他们的社会实践能力,为以后步入社会奠定良好的基础。
四、数据挖掘技术应用过程中要注意的问题
尽管数据挖掘有如此多的优点,但数据挖掘也面临着许多的问题,随着这些问题的解决,也为数据挖掘的未来的发展提供了更大的空间。
1.数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显得非常复杂。海量的数据一方面提供了挖掘的基础和前提,但同时维数的增加也会给数据挖掘的实现带来难度。如何进行探索,选择元数据,选择分析变量,也就成为首要解决的问题。
2.面对如此大的数据,数据中隐含一定的变化趋势,对数据进行抽样,怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是决定挖掘效果好坏的关键。
3.数据挖掘的结果是不确定的。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,要和专业知识相结合才能对其做出判断,这就涉及到可靠性的问题。需要建立有效的评估体系来评价。
五、结束语
学校作为科学技术的传播地,学生的管理和建设对学校的可持续发展具有深远的影响。数据挖掘技术是一个研究活跃的领域,利用数据挖掘技术对学生信息积累的大量数据进行挖掘,挖掘出具有管理和决策的信息,使学校切实做到“以学生为本”,管理进一步走向规范化、科学化、现代化。
参考文献:
[1]范明、孟小峰,数据挖掘概念与技术[M].北京:机械工业出版社,2007.
[2]耿晓中、张冬梅,数据挖掘综述[J].长春师范学院学报(自然科学版),2006.6,Vol.25,No.3,24~27.
[3]李国杰,数据挖掘综述[J].广东轻工职业技术学院学报,2006.3,Vol.5,No.1,19~21.
[4]夏瑞丽,浅谈数据挖掘[J].科技创新导报,2008(24).