上海财经大学:绘制高校“数据集市”图谱

2015-07-04 10:33孙其伟高亮陈云
中国教育网络 2015年8期
关键词:数据服务数据仓库数据处理

文 /孙其伟 高亮 陈云

系统越多,数据越多,数据服务需克服一系列的技术难关,在数据仓库,数据集市中,建立起业务关联图谱,以期为高校的各类决策提供参考。

我国高校信息化经过十多年的发展,信息系统建设已经成熟,在日常业务运作中起到了关键支撑作用。然而,由于各高校信息化建设和应用水平、领导层对信息技术的理解和认识等方面存在差异,基于数据仓库的高校数据服务应用尚处于探索和起步阶段。目前,高校数据服务应用存在的主要问题有以下几方面:

一是对高校数据服务及其应用的认识和定位存在局限性。校务决策支持是高校信息化进展到较高阶段的必然需求。高校数据服务的对象应是面向包括校领导、院系所部领导、教师、学生,甚至包括学生家长和社会公众;数据服务的内容涉及教学、人事、科研、财务、设备、招生、就业等各类信息;数据服务形式包括仪表盘、数据查询、数据订购、数据可视化分析等。

二是实施基于数据仓库的高校数据服务,需要克服一系列的技术困难。经过几年的持续建设,高校各类管理信息系统相继投入使用,但存在各业务系统数据分散存储、数据类型不同、数据定义不一致、数据缺失等情况,导致在进行数据集成和构建数据仓库时技术难度较大。

三是基于数据服务的应用需求不够明确,成熟的应用比较少。目前高校信息化建设的重点还是建设支持日常事务的管理信息系统,对数据服务应用没有足够的重视程度,开展基于数据服务的应用较少,没有充分利用多年积累的历史数据,发掘其中潜在的价值。

方法与内容

数据服务系统的建设内容包括系统架构设计、数据仓库主题划分、源数据分析、数据建模、数据ETL、决策支持应用等几方面,建设过程如图1所示。

图1 高校数据服务系统建设过程

系统架构设计

高校数据服务系统架构主要包括:数据源层、操作数据层、数据处理层、基础数据层、数据集市层、数据服务层和业务用户层。通过数据处理层将源数据抽取、清洗、转换并加载到数据存储层,然后开发基于数据的多种分析服务。

1.数据源层

数据源层是数据服务系统的数据来源,类型可以是传统的关系型数据库也可以是半结构和非结构文件。高校数据服务系统涉及的数据源比较广泛,还有来自于校外的一些外部数据源。

2.操作数据层

操作数据层是数据源层的简单映射,作为基础数据层采集数据的源头,减少数据处理层采集数据时对业务系统的影响。

3.数据处理层

由于源系统业务职能和具体需求不同,在实现时会选用不同的数据库,数据结构也可能存在较大差异,从而导致数据间有较大的异构性和不一致性,所以在数据进入数据仓库前要对源数据进行预处理。通过数据处理层实现对原始数据抽取、清洗、转换、加载,消除数据间的不一致和冗余,按数据仓库模型结构重新组织数据并加载到数据仓库,形成能够对决策提供支持的多重粒度级的数据仓库标准化数据。

数据处理层采用统一的ETL调度平台,实现ETL全过程自动化调度管理,控制数据抽取、转换、加载程序及其执行顺序、相互依赖关系、群组关系、执行状况及通知。数据处理层可以通过ETL并行处理架构优化数据处理能力,随着ETL任务的增加扩展数据处理层。数据处理层通过统一的ETL监控平台对整个数据处理过程进行全面监控,包括ETL任务运行的时间、状态以及发生错误时的错误信息等。

4.基础数据层

基础数据层是数据仓库的核心部分,主要功能是完成数据集成、合理存储数据、实现数据的标准化。基础数据层一般采用三范式方式建立的关系型数据模型,通过主题来存储和管理各类业务数据,并且保留历史。

5.数据集市层

基础数据层以原子粒度来存储数据,数据集市层根据具体应用需求对基础数据层中的数据进行适当提炼、汇总和重新组织,形成面向部门级的业务和特定主题的汇总数据,实现了访问方式的多样化和信息存取的透明化。数据集市层的数据来自基础数据层,可以确保其数据质量和数据的一致性。

6.数据服务层

数据服务层构成高校数据服务应用的门户和分析平台。借助于数据仓库提供的即时查询、预定义报表、多维分析和数据挖掘等功能,数据服务层实现了面向领导的决策支持服务、面向管理人员的数据查询服务、面向大众的数据公开服务以及面向数据应用系统的接口输出服务。

7.业务用户层

业务用户层是数据服务与用户之间的接口,该层提供用户对数据仓库数据的浏览、请求、存取等服务,同时还包括对用户访问的认证、控制、权限管理。

主题规划

数据仓库主题规划的本质是对数据仓库涉及的所有业务数据进行抽象并合理分类,它是数据仓库概念模型设计阶段的主要产物,每个主题都对应一个宏观分析领域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。通过分析高校业务状况,结合数据特点将高校数据仓库内容规划为公共、机构、当事人、教学、科研、资产、财务、事件八大主题,主题间的关系,如图2所示。

图2 高校数据仓库主题

当事人主题主要指各类人员数据,人事系统的各类教职员工、教学系统的各类学生都属于当事人主题。当事人主题是数据仓库中最基础、最核心的内容,所有的业务活动都是围绕各类人员展开,与其他主题产生紧密联系。机构主题指学校的各类组织架构,如校区、部门、研究机构、党团组织等。公共主题存放各业务活动中的字典代码,国标、校标、行标及业务字典表都属于该主题。科研主题存放科研业务活动相关实体,包括科研项目、科研成果和科研考核等内容。教学主题存放教学活动相关实体,包括培养计划、班级信息、课程、教学活动、排课、选课、排考、考试成绩、学生毕业论文、评教、学位毕业审核等相关内容。财务主题主要包括学校各类经费预算、收入、支出数据。资产主题存放学校各类资产数据,包括楼宇、房间、家具、设备、实验仪器等各类学校资产。

事件主题主要指各业务活动的流水表,如人事系统薪资发放记录、绩效考核活动、专业技术职务聘任活动、奖学金申报活动、科研项目申报活动等。

数据模型设计

基础数据层和数据集市层面向的用户范围和解决的问题类型决定了需要采取不同的建模方式。基础数据层的主要任务是集成不同业务系统的数据,保证数据的准确性及存储的合理性。因此,基础层的数据结构按照范式模型构建,通过对业务的梳理重新组织源数据,使业务数据存储结构更加合理化。

数据集市主要面向部门级业务,并且面向某个特定主题,为特定用户预先计算好统计指标,从而满足用户对查询性能的需求。数据集市层建模没有严格的约束,以解决实际需求为目的。一般采用维度建模方法,设计过程中综合考虑空间和时间因素,满足性能需要和访问效率。在设计上,主要采用宽表设计方式,把一个主题尽可能多的维度和指标合并在一起,满足多种不同应用需求。存储形式可以采用物理表、物化视图和视图,视图可以灵活地调整和修改业务逻辑,对于性能开销小的应用尽可能采用视图方式,可以及时响应需求变更。而对于性能开销较大的应用,尽可能采用物理表或物化视图提高数据访问效率。

应用与成效

学校数据服务系统围绕人才培养、科学研究、师生服务和内部管理开展数据分析应用,有效地支撑了业务规则的合理设定和管理创新。高校数据服务内容如图3所示。

图3 高校数据服务内容

人才培养质量分析

人才培养方面,主要对招生、教学质量和就业进行了分析。 在招生分析中,将考生所在高校、考生成绩排名等纳入生源质量指标,重点关注生源质量的变化趋势,比对不同学科间生源质量的差异,为自主招生、大口径招生、研究生培养机制改革等管理措施的创新提供了支持;在教学质量分析中,对学生状况、教学条件、专业状况、课程教材、教学管理等相关的指标进行了分析,为优化制定拔尖、卓越和精英培养方案,调整专业结构,不断提升教学质量提供了数据支持;在就业分析中,对学生就业率的同比环比趋势、就业行业特征、地域分布、成绩等进行了深入挖掘(见表1),为拓宽就业渠道,加强就业指导提供了依据。

表1 毕业生签约数据挖掘

科学研究水平分析

对科研的分析主要从科研项目、论文著作、获奖相关属性,结合人员、学科、经费使用等方面进行分析,重点关注科研成果在学科间的分布、在不同类型科研人员间的分布、以及科研成果的获得趋势,为学校建立全面的科研评价体系,提高人才引进与科研产出比例,不断提升科学水平提供了决策支持。

服务师生水平分析

服务师生方面,选取了与师生关系最为密切的健康指标和一卡通消费指标进行分析。在健康分析中,对教职工“三高”与年龄、性别、岗位、职称等做了关联分析,并将健康状况与教学、科研工作量的关系进行了深度挖掘,为定制个性化体检套餐,提升师生健康提供了有效支撑。在一卡通分析中,从性别、学生类别、籍贯等多角度分析学生消费特点,从终端设备使用情况分析圈存设备配备合理性等,为学校加强商户管理、提供更好的服务方便学生提供了数据支撑。

内部管理绩效分析

内部管理方面,分别从师资、财务、资产等方面进行了分析。在师资分析中,从教师的职称、学历、年龄、聘用方式、学科角度结合科研、教学等相关指标进行分析,为学校加强高端人才引进,完善人事考核与晋升制度,实现双轨制人事管理,提高学校师资队伍整体水平提供了有力依据。在财务分析中,重点关注经费预算、收入和支出等统计信息,对学校提升预算管理,合理配置资金使用起到了良好的促进作用。在资产分析中,对资产在不同部门的分布、资产类型以及随时间的变化趋势、用电趋势等进行了分析,辅助学校提升资源利用率,促进节能减排措施的执行。

高校数据服务系统在上海财经大学已取得较好应用,通过数据分析和挖掘,发现潜在的、深层次的、有价值的信息和问题,为管理规则的设定提供了数据支撑,推动学校各项事业的发展。下一步信息办将结合大数据技术的应用,扩大数据采集范围,通过对教师和学生行为的分析,为资源的合理配置和科学决策提供更全面的支撑。

猜你喜欢
数据服务数据仓库数据处理
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于数据中台的数据服务建设规范研究
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
数据服务依赖图模型及自动组合方法研究
探析电力系统调度中数据仓库技术的应用