高校一卡通消费数据OLAP多维分析系统的研究*

2017-02-11 02:12王小岩
山西青年 2017年4期
关键词:数据仓库一卡通维度

周 野 王小岩

吉林建筑大学电气与计算机学院,吉林 长春 130118

高校一卡通消费数据OLAP多维分析系统的研究*

周 野 王小岩

吉林建筑大学电气与计算机学院,吉林 长春 130118

为了更好的多角度的分析和查询高校在校学生的消费状况及特点,以高校一卡通系统中所产生的大量消费数据为基础,此案有MDX(多维表达式)语言的OLAP多维数据分析系统,从而建构分析数据库,来分析高校学生的消费事实表和维表的结构,构建多维数据模型,从而实现从多种角度对结果进行数据分析的目的,为高校开展学生工作提供数据支持。

一卡通;数据仓库;OLAP

到目前为止我国大部分高校都在校园内部实行了一卡通系统,尤其是学校的食堂和其他的消费场所的结算都可以使用一卡通进行结算,而且已经使用了很多年,在学生消费方面积累了大量的一手真实数据。因此本文以某校为例,通过对这一学校的相关数据进行分析来获得一手资料,所选学校学生规模有1.6万人,属于建筑类高校,该校的一年刷卡消费记录几乎有2000万条以上,这些海量的数据为本次研究提供了很好的数据支持。不过这些数据系统一般只能进行查询服务,如学生的消费明细、刷卡明细、部门结算数据报表及相关的日报、月报、年报等。从目前来说高校也需要有关的数据来了解学生的资金状况,以做好学生管理工作。如对于学生的奖学金的发放、助学贷款的审批、贫困学生补助的发放、校内食堂建设规划等这些都需要一个科学而严谨的数据来进行支持,因此高校学生的校园一卡通为这一数据提供了很好的数据支持。当然还需要看到校园一卡通只是学生在校内相关部门的消费数据,尤其是校内的相关经营部门的消费数据,缺乏一定的消费特点,是基于传统的关系型数据库,不能够从多角度进行海量数据分析,具有一定的局限性。而如果引入数据仓库和联机分析处理就可以从多个角度、粒度和维度来分进行微观或宏观方面的数据分析,从而获得更好的数据支持,为高层管理开展决策提供必要支持。

一、数据仓库与联机分析处理(OLAP)

数据仓库是一种带有主题性、集成性、时变性、数据相对安全的数据集合系统,用来为经营管理者进行决策提供数据支持服务。一般来说传统意义上的数据库是以应用为目的的,主要针对数据进行相应的数据增加、删除、更改、查询等操作,但是数据仓库则是有着一定的主题性,把来自不同信息系统的数据进行分析、综合、集合和利用。数据仓库的数据一般都来自操作型的数据库或其他类型的数据源,如相关的文档、Web信息或其他的多媒体数据等,而且还需要进行一系列的处理,其主要目的是为了给高层进行相关的决策提供数据支持服务,是数据库技术的进一步发展的成果。

OLAP(online analysis processing)联机分析处理的意思,是集多种多维数组数据考察于一身的技术,主要从多个维度、粒度对相关的信息进行分类、集合,并对其进行多角度的分析。而传统的联机事务处理(OLTP)关系数据库管理系统(RDBMS)却缺乏大量数据查询的功能,也不能进行必要的分析,因为系统需要建立在大量数据基础上,OLAP则以多维数据集的形式组织数据,组成数据立方体(Cube)。

二、数据仓库构建

通过数据仓库来对大量数据实施有效分析,首先需要确保数据仓库中的数据需要是准确、一致、完整和可靠的,也就是首先要确保数据有着较高的质量,这样才能真正使得OLAP系统的分析或挖掘能够产生较高的精确性和可信度。ETL,也就是抽取Extraction,转换Transformation,加载Load,这些是数据仓库在创设中不可缺少的必要步骤,是把来自不同数据源的数据进行加载的过程。对于本文所研究的校园一卡通,有着较为复杂的数据库,数据类型多种多样,以所参照的高校为例,其校园一卡通的数据库的数据表就有1千多个,各种数据表有着不同的结构,大部分表有数十个字段,因此对于做数据预处理不是太容易。因此本文只选中了消费流水表、消费类别表、商户表、终端表等进行研究,将其他的数据内容删除。因为本文主要是研究学生相关的消费内容,因此将流水记录中其他的用户删除,如教职工和临时用户的记录。数据分析主要围绕学生的日常餐饮和校内的超市消费状况进行分析,对于医疗消费及上机消费等也进行了预先清理。从多种数据库表字段中选取所需的部分,如消费流水表等。而清洗则是指对数据表中存在的空缺、错误进行“脏数据”处理。当然在校园一卡通系统中,任何用户的信息、终端信息、消费信息等都是在系统控制下进行的,需要进行认证、校验才能操作成功,因此可以说基本数据都是完整的、正确的,不需要进行数据清洗。

三、OLAP模型建立

OLAP系统根据数据存储方式主要分为2类:ROLAP,MOLAP。ROLAP将多维数据存储在关系数据库中,支持SQL语句的查询;MOLAP则是存储为多维数组的形式,形成“立方体”的结构,支持多维查询语言(MDX)。在生成多维数据集前,在关系数据库中要定义两种表:一是事实表,主要包括各种度量值,就是我们感兴趣的汇总和明细数据,还包括各个维表的主键值;另一种就是维表,每个维度都至少有一个表用来保存该维的信息,如果维度是分层次的,还要包括维的层次信息。事实表通过外键与各维表联系在一起构成了不同类型的多维数据模式,主要包括星型模式、雪花模式和事实星座模式。系统的OLAP模型结构如图1所示。

图1 OLAP模型结构

总而言之,OLAP技术是一种针对大数据并进行多维分析的新型技术,本文以高校一卡通系统为数据来源,进行消费数据仓库的构建,采用OLAP技术,进行数据分析,为高校决策提供数据支持,从多个维度建立了OLAP模型。并且对MDX语言与SOL语言开展查询效率对比测试,为高校开展学生工作提供必要的数据支持,促进高校信息化建设的发展。

[1]彭成,佟秋利.高校财务多维查询分析系统[J].计算机工程与设计,2012(05).

[2]赵博,叶晓俊.OLAP性能测试方法研究与实现[J].计算机研究与发展,2011(10).

*吉林建筑大学大学生创新创业训练计划项目资助(201610191040)。

TP

A

猜你喜欢
数据仓库一卡通维度
理解“第三次理论飞跃”的三个维度
基于数据仓库的数据倾斜解决方案研究
认识党性的五个重要维度
浅论诗中“史”识的四个维度
基于数据仓库的住房城乡建设信息系统整合研究
探析电力系统调度中数据仓库技术的应用
基于“一卡通”开发的员工信息识别系统
公共交通一卡通TSM平台研究
向心加速度学习一卡通
一卡通为新农合基金加密