摘要:学校里每年都存放着大量的学生信息,这些信息的大部分是用于今后查对,如果这些成千上万的信息只用于核对和备案,可以说这是一种信息浪费。为了充分利用这些信息资源,该文使用数据挖掘技术,对历年存储下来的大量学生成绩的相关数据进行挖掘,挖掘出一些现实中感兴趣的、有用的知识,通过这些知识,学校可以对教学内容进行调整和教学方法进行改进以适应学生的学习和教学质量的提高。
关键词:数据挖掘;关联规则;FP-增长;支持度;置信度
中图分类号:TP274文献标识码:A 文章编号:1009-3044(2011)07-1689-02
随着社会对保存数据的重视,自动数据收集工具和成熟的数据库技术使得大量数据被收集于数据库、数据仓库或特殊的存储介质中以备以后查询。因此对于我们来说,我们手上拥有大量的数据,但却未被充分利用,为了解决这一难题,在丰富的数据中发掘感兴趣的知识(规则,规律,模式,约束),我们可以充分利用数据挖掘技术。该文在SQL SERVER 2005中,对以加工好了的学生成绩数据进行分析,利用关联规则算法模型,根据学生的成绩与学生的性别、年龄以及其他特点来发掘感兴趣的、有用的、隐含的模式或知识。
1 基于数据挖掘的学生成绩分析的基本步骤
许多人看来数据挖掘就是数据中的知识发现或KDD的同义词,但是在产业界、媒体界与数据库研究界,人们通常把数据挖掘视为知识发现过程的一个基本步骤,本文也以此作为研究的基础,其中知识发现过程如图1所示。
1.1 数据清理与集成
作为数据挖掘的第一步的一个流行趋势就是将手中的信息进行预处理操作后存放在数据仓库中。数据预处理包括数据清理与数据集成,数据清理的内容有消除噪声和不一致数据,对于本文研究的学生成绩数据库,因为在学生成绩输入过程中可能出现输入失误