数据仓库在学生成绩分析中的应用研究

2017-04-20 02:05贾延斌
陕西青年职业学院学报 2017年1期
关键词:数据仓库数据源数据库

贾延斌 杨 光

(空军工程大学 陕西 西安 710051;陕西青年职业学院 陕西 西安 710068)

【高职教育教学】

数据仓库在学生成绩分析中的应用研究

贾延斌 杨 光

(空军工程大学 陕西 西安 710051;陕西青年职业学院 陕西 西安 710068)

随着信息化的飞速发展,高校都在加快数字化校园建设步伐,不同部门都在日益完善各自的管理信息系统,这样,大量数据日积月累起来形成了宝贵的信息资源。但目前这些数据主要的用途仍是提供简单的查询和统计报表,对这些数据所隐藏的深层次的信息没有充分地利用。本文对学生成绩数据仓库的体系结构、模型和数据获取阶段进行了设计,以期得出相关趋势,为高校教学管理和学生管理工作提供相应的决策依据。

数据仓库;学生成绩;分析

随着我国高等教育的迅猛发展,学校的在校生人数快速增加,这给高校的教学和管理都带来了一些新的问题和困难,如何提高教学与管理的质量、水平和效率是摆在每个教育工作者面前的新问题。目前,学生成绩数据库虽然庞大,但也仅作为事务管理和信息检索,仅此而已,不仅无法发现数据中存在的关系和规则,更无法根据现有的数据预测未来的发展趋势。本文将通过对学生成绩数据库中的大量数据进行抽取、转换、分析和其他模型化处理,来发现数据中存在的潜在关系和规则、预测分析学生成绩发展趋势,对教师的教学环节提出有针对性的建议和意见,从而帮助学校决策或调整策略。

一、高校学生成绩管理工作现状

学生成绩管理工作是高校教学管理的一个重要而不可缺少的环节,但在长期的使用过程中,学生成绩系统存在诸多问题。

1.学生成绩保存在不同的存储介质上(文本数据、Microsoft Excel数据、Access数据库数据等等);这就要求使用人员掌握所有数据库的操作技能和专业知识,才能使用这些数据库中的数据。这加重了使用人员的负担,不利于管理人员使用。

2.在长期的积累过程中在各种存储了大量的学生成绩数据,且这些数据零散地,杂乱地存储在各系统中的;如果管理人员想从系统中调用某班的某门课的教师、教师学历学历等信息,因为它们保存在不同的数据表中,不利于管理人员方便、迅速地找出它们之间的联系,并对全体数据进行整体的分析利用。

3.使用人员只是简单的对数据进行求平均值、最大值、最小值、计数,或者进行一些排序、筛选、单一字段的分类汇总等。没有对海量数据背后有用信息进行挖掘分析,对学生成绩系统的使用只限于表面,没有深层次地、多角度地挖掘其中有价值的信息。

在上述情况下,本文以学生成绩为基础,以数据仓库和数据挖掘技术为指导方法,对学生成绩进行设计分析及应用。从大量的数据中发现背后隐含的、不易被察觉的、现实存在的有用信息,为目前教务管理的完善提供一些有益的参考,为教学管理人员提供决策支持,从而总体上提高学生的课程成绩,更好地促进教学工作,提高教学质量。

二、学生成绩数据仓库的设计

(一)学生成绩数据仓库的体系结构

数据仓库管理的数据量常以GB、TB计,把海量信息从数据中提取出来,加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。整个数据仓库系统是一个包含四个层次的体系结构:由数据源、数据的存储与管理、OLAP服务器、前端工具组成。具体体系结构如图1.1所示。

图1.1 学生成绩数据仓库的体系结构

1.数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括内部信息和外部信息。内部信息包括各种业务处理数据和各类文档数据。外部信息包括与学生成绩相关的各种信息等,可以是传统数据库,也可以是文件、HTML文件、知识库等。

2.数据的存储与管理:数据的存储和管理是数据仓库的真正关键,是整个数据仓库系统的核心。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析,针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为大学级数据仓库、学院级数据仓库(通常称为数据集市)和个人级数据仓库。

3.OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析并发现趋势。其具体实现可以分为:ROLAP,MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

4.前端工具:主要包括最终用户查询工具、标准客户机/服务器工具、DSS/EIS工具。

(二) 学生成绩数据仓库的模型设计

1. 概念模型设计

系统的概念模型设计是在主题数据的关系模型基础上进行的,它的形成主要是通过ER模型设计的,这里主题数据关系模型的构成就不再赘述。系统的概念模型的设计主要就是完成两项工作:确定系统边界、确定主要的主题域及其内容。

按照学生成绩分析数据仓库的特点界定边界,教务管理层需要分析的主题主要包括学生主题、学生成绩分析主题、教师主题、课程主题、教材主题等。学生主题主要包括学生的固有信息、可变信息、考试成绩、所修课程等等。学生成绩分析主题主要是学生的固有信息、成绩信息、课程信息、教师信息等等。教师主题就是教师的固有信息、教学信息、所教授的学生的考试成绩等等。课程主题主要包括学生选修的课程和必修的课程、课程分类的信息以及课程安排信息和课程的成绩等等。教材主题主要包括教材的名称、编号、出版日期、出版社及教材的结构。

在确定了教务管理层需要分析的主题的边界后,要确定一个主要的主题域,并对其内容进行分析。在本系统中选择学生成绩分析主题作为该系统的分析主题。我们将这个主题边界的划分应用到原有的关系模型上形成概念模型,由于在本系统中只研究数据仓库系统的学生成绩分析主题,故在概念模型中只显示了学生成绩分析主题的概念模型。基于学生成绩分的概念模型如下图2.1所示。

图2.1 学生成绩分析数据仓库的概念模型

2.逻辑模型设计

在本系统中对学生成绩分析主题进行分析。它的逻辑模型设计主要进行粒度的选择、数据表的合理划分、关系模式定义、提炼表中数据。

(1)粒度的选择:可以采用单一的粒度设计。

(2)数据表的合理划分:由于主题中各个关系表内数据量不是很大,因此不用进行表的数据分割。

(3)关系模式的定义:基于关系表的存储方式有三种模型,即星型模型、雪花模型和事实星座。在此我们采用的是星型模型,因为这种模型相对于雪花模型节点而言,交叉点少,查询速度更快。如图2.2所示

图2.2 学生成绩分析数据仓库逻辑模型

3.物理模型设计

数据仓库的物理模型设计是为逻辑模型设计的数据模型确定一个最适合应用要求的物理结构(包括存储结构和存取方法)。物理模型的设计所做的工作是估计存储容量,确定数据的存储结构,确定索引,确定数据存放位置,确定存储分配。针对学生成绩分析主题建立了完整的星型模型后,要再重点考虑该星型图的物理结构。因此,可初步确定:(1)每个数据库表的数据量;(2)行数的初始估计;(3)行的平均长度;(4)表的初始大小及它们的增长数。关于每个维度表和事实表的详细设计如下表示。

图2.3 教材信息表维

图2.4 教师信息表维

图2.5 课程信息表维

图2.6 学生信息表维

图2.7 学生成绩信息表维

(三)数据的获取

1.数据的抽取、转换、装载

数据仓库的数据获取需要经过抽取(extraction)、转换(transform)和装载(load)3个过程,即ETL过程,是构建数据仓库的重要环节。经过ETL过程,将源系统中的数据改造成有用的信息,存储到数据仓库中。学生成绩数据仓库的数据源主要是关于学生成绩的文本数据,Microsoft Excel数据和Access数据库数据。同时,ETL过程将统一各源系统中数据的变量名称,转换和集成所有学生成绩的情况数据,装载到数据仓库的学生成绩事实表和相关维表中。

学生成绩数据的抽取工作包括以下点:

(1)确认数据源:对数据源的确认不仅是对数据源的简单确认。

(2)检查和确定数据源是否可以提供学生成绩数据仓库需要的数据。

在建立数据仓库时,从某一特定时间开始的最初数据必须迁移到数据仓库中,以使数据仓库开始运转,这是初始装载。在初始装载之后,数据仓库必须更新,使变化的历史和状态可以在数据仓库中反映出来。

2.数据预处理

数据抽取过程中得到的数据是没有经过加工的数据,不能直接应用于数据仓库,必须经过多种处理,将抽取的数据转换成可以存储在数据仓库中的数据。针对这些数据做的预处理主要包括:数据清洗(data Cleaning)、数据集成(data integration)、数据转换(data transformation)和数据消减(data reduction)。

(1) 数据清洗(data cleaning) 处理例程通常包括:填补遗漏的数据值、平滑有噪声数据、识别或除去异常值,以及解决不一致问题。学生成绩数据和相关的基本信息数据是一般由各部门的管理人员或部分学生录入各个数据库系统中的,存在着不同的问题。对于数据遗漏数据处理是忽略该条记录,手工填补遗漏值,利用缺省值填补遗漏值,利用均值填补遗漏值。噪声数据处理方法是聚类方法和人机结合检查方法。通过聚类分析可帮助发现异常数据,就是将相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象就被认为是异常数据。人机结合检查就是通过人与计算机检查相结合方法可以帮助发现异常数据。对于不一致数据的处理方法是利用它们与外部的关联手工加以解决。知识工程工具也可以帮助发现违反数据约束条件的情况。

(2)数据集成(data integration) 就是将来自多个数据源(如数据库、文件等)数据合并到一起。由于描述同一个概念的属性在不同数据库取不同的名字,在进行数据集成时就常常会引起数据的不一致或冗余。在数据集成过程中,需要考虑解决以下问题:

1模式集成问题:即如何使来自多个数据源的现实世界的实体相互匹配;2冗余问题:这是数据集成中经常发生的另一个问题,若一个属性可以从其它属性中推演出来,那这个属性就是冗余属性;3数据值冲突检测与消除。

(3)数据转换(data transformation) 主要是对数据进行规格化操作。

(4)数据消减(data reduction) 的目的就是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。现有的数据消减包括:数据聚合、消减维数、数据压缩、数据块消减。

数据预处理是数据挖掘过程中一个重要步骤。通过预处理的数据可以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。

3.数据的导入

在学生成绩数据仓库物理建模完成之后创建数据仓库数据库,需要创建事实表和维度表,并在所有表中的主要字段上建立索引。使用SQL Server 2005关系数据库管理系统作为数据仓库的物理存储,依据数据仓库物理建模,利用关系数据库来构建数据仓库。由于平时学生考试成绩大部分是用电子表格(excel)处理和存储,一部分是单机数据库的pdf格式,还有一些是文本格式。这些都需要通过SQL Server 2005的DTS工具先转换成SQL数据表的形式,以构成关系数据库系统,然后利用SQL Server 2005的商业智能平台,根据分析主题以星形模型构建数据仓库,把关系数据库中的数据加载起来,以构成OLAP立方体。

近几年,数据仓库的研究有了很大的进展,教育信息化也快速发展,诸多系统积累了大量的数据。基于以上条件,本文尝试利用数据仓库去发现学生成绩、影响因素和高校教学之间的难为人知的关系,希望从中获取对教学有指导价值的信息。在现实系统设计中不可避免的还将会使用数据挖掘和决策树等技术对学生成绩数据库中的大量数据进行抽取、转换、分析和其他模型化处理,还必将有新的探索。

[1] 彭统乾著.教学管理决策支持系统中数据仓库的设计与实现[D].西安,西安电子科技大学.2011.

[2] 张德新.基于数据仓库和数据挖掘的教育决策支持系统[J].武汉大学学报(工版).2003.

[3] 孙水华,赵钊林,刘建华.数据仓库与数据挖掘技术[M].清华大学出版社,2012.

[4] 曹玫.从报表到0LAP[J].软件世界,2005.

[5] 李祥杰.基于数据仓库的学生管理决策支持系统设计与实现[D].黑龙江大学.2010.

[6] 孟跃红,黄智.数据仓库技术在高校教育管理中的应用[J].徐州师范大学报(自然科学版),2003.

[7] 赵字海,李秋菊.关系数据库中OLAP系统的分析与设计.鞍山师范学院学报,2005.

[8] 朱丹.基于数据仓库的学生成绩和教学质量的分析与应用[D].西安,西安电子科技大学.2011.

[9] 赵字海,李秋菊.关系数据库中OLAP系统的分析与设计[J].鞍山师范学院学报,2005.

A Study on Databank’s Application in Students’Score Analysis

JIAYan-binYANGGuang

(Air Force Engineering University,710051,Xi’an,Shaanxi,China)

With the rapid development of information technology,colleges and universities constantly speed up the pace of constructing digital campus,different departments are increasingly perfecting management information system.Hence,large amount of data accumulated becoming valuable information resources.But currently,the main purpose is to provide simple data inquiry and statistic formula,deep information hidden in these data had not been fully utilized.In this paper,the author designed systematic structure of student achievement data warehouse,model and the data acquisition phase so as to acquire relevant trends to provide decision-making basis for college teaching management and student management working.

DW(Data Warehouse);Student Achievements;Analysis

2016-10-12

贾延斌,(1986-),辽宁丹东人,空军工程大学教师,主要从事空军工程大学空管领航学院政治工作办公室工作。

G715

A

1674-2885(2017)01-38-05

猜你喜欢
数据仓库数据源数据库
基于数据仓库的住房城乡建设信息系统整合研究
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
数据库
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
数据库
数据库
数据库
基于数据仓库的数据分析探索与实践