甘琤 李虎 李霞 马照瑞
摘 要:学校的发展,离不开对校情的充分把握。而校情统计分析平台,正越来越多地在决策支持、教学质量监督、业务支撑等方面发挥着重要的作用。本文以郑州轻工业学院校情统计分析平台为例,给出了校情统计分析平台的建设思路、技术可行性、设计与实现方法。最后总结,此平台运行一段时间后,在助力学校发展方面取得的成果,并进行了展望。
关键词:数字校园;智慧校园;校情;统计分析;BIEE;ROLAP
中图分类号:TP315 文献标志码:A 文章编号:1673-8454(2016)03-0079-04
一、前言
随着高校数字化校园建设的广泛推广,学校各类信息系统都积累了一定规模的业务数据,涉及教学、科研、管理、后勤等各个方面。在系统集成技术、数据挖掘技术、大数据处理技术日趋成熟的背景下,建设数据仓库系统,对高校各类业务数据进行统计分析挖掘,有助于提高教学质量、提升管理水平、促进管理决策科学化。在《大数据视角下高校综合信息分析平台的构建》[1]一文中作者提出了基于大数据环境高校综合信息分析平台建设的框架,但并未对所提框架的结构和功能进行详细论述。在《大数据时代的高校信息化框架》[2]一文中,作者较为详细地描述了大数据时代高校信息化建设框架,但并未提出可行的实施方案。本文以智慧校园建设为出发点,利用数据挖掘、大数据处理等技术,对学校的教学、管理、科研、后勤等信息系统进行整合,不仅提出校情统计分析平台的框架及建设思路,并给出了模型设计和实施方案。平台于2013年开始调研,2014年8月开始建设,截至目前已完成第一期建设。
二、校情平台建设思路
智慧校园以数字校园为基础,追求资源与应用的高度整合,强调为用户提供个性化的服务,更多地体现服务的智能化和人性化。[3]校情平台正好符合了智慧校园的理念。它可以利用充分融合好的数据进行统计分析,为教职工和学生提供个性化统计报表,为教学提供动态的质量监督信息,为管理和决策提供支撑。
1.校情平台的功能
根据统计学的信息、咨询、监督三种社会功能,可以制定 “信息综合查询”、“数据咨询”、“业务监督”三种职能作为校情平台的建设目标。而根据学校实际应用水平,可以分阶段实现以上目标。
图 1是根据总体发展要求设想的校情平台系统原型。功能方面以教务、科研、学工、财务、人事、设备、后勤等业务归口部门的年度报告和日常统计工作需求为基础,向用户提供在线报表、在线查询统计两种方式的功能。用户角色考虑三个层次,分别是学校层面、院系层面和师生个人层面。
2.校情平台规模控制与技术标准
由于在数字校园建设过程中,已经将各种管理系统数据存储于各自的业务数据库中,仅需考虑结构化数据对象,因此普通企业级关系型数据库或集群即可满足一期工程的存储和检索需求。但是,各种管理系统源自于不同的厂商,不同系统中数据差异较大,需在统一的数据标准基础上开展集成。同时,考虑到校情平台服务于不同管理阶层和管理目标,数据统计分析需求具有不确定性的因素。
因此,在数据抽取、清洗工具上需要考虑可灵活部署、数据格式兼容性强、数据转换能力强大的企业级工具;在联机分析方面,需要以OLAP技术为主,向用户提供所见即所得的在线工具,并对Excel、SPSS、SAS、STAT、R等统计分析软件提供数据接口服务。
根据学校应用系统建设标准,整个方案还需兼容JSR168标准[4]和Open SSO单点身份认证标准[5],使用户可通过学校门户系统访问到所需的查询、统计功能。
三、基于OLAP数据服务的二次开发
校情平台中所选用的BIEE系统是整个数据服务的核心提供者,也是二次开发的重点内容。
如图2所示,BIEE系统是一个典型的三层架构,包括由各种外部数据源组成的Sources层、存储OLAP逻辑信息的资料库层(Repository,可通过OBI Admin工具访问)、以及数据发布服务层(Presentation Services)。其中资料库层和数据发布服务层均包含在BIEE系统内。
1.BIEE环境下ROLAP的实现
数据库联机事务OLTP(Online Transaction Process)是在数据库环境下处理应用业务事务(Transaction)所执行的一系列数据库操作。OLAP(Online Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。OLAP与OLTP的主要差别见表1。
OLAP分为MOLAP、ROLAP、HOLAP等类型,其中ROLAP是一种将OLAP操作转换为数据库关系模型操作的OLAP实现技术,具有成本较低、性能较好的优点,因此选用BIEE-ROLAP方案。
OLAP操作包括钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot),建立在多维模型的理论基础上。
关系模型操作包括数据创建(Create)、获取(Retrieve)、更新(Update)、删除(Deletion),建立在关系理论的基础上。OLAP操作均是读取操作,被映射到关系模型获取操作的集合、投影、选择、聚合等操作上。
两个领域操作原语的转义由BIEE完成。Oracle BIEE将转义信息存储在Repository中,分别包括数据资源的物理结构(Physical)、面向多维分析的数据立方体信息以及面向业务的发布信息。
物理层(Physical Layer)包括待分析数据的数据库位置、访问方式、各数据库中表结构及其关联关系,使BIEE能够根据需要正确执行相关关系操作。
在业务逻辑层(Business Layer)中,记录了面向多维分析的数据立方体信息,包含多维模型的事实(Facts)、维度(Dimensions)信息与物理层各种数据表之间的映射关系。这些信息使BIEE能够将OLAP操作正确地映射为关系操作。
在表现层(Presentation)中,存储了开发人员在表现层建立的视图模型(View Model)。按业务和用户角色划分数据立方体的访问范围,视图模型是访问者访问数据立方体的“窗口”,通过视图模型所访问到的是一个受限数据立方体的子集范围,也称为“主题”。
在BIEE环境下OLAP查询结果以图、表和叙事板的形式给出,并可组织成丰富的图文展现形式。开发人员可将OLAP查询操作以Answers的形式保存在服务端,并提供更为通俗易懂的名称,如“教职工职称系列分布”,最终用户只需直接访问这些Answers就可得到相应的结果。
BIEE还提供和数据仪表盘(Dashboard)功能,访问者可在一个WEB页面中得到多个Answers的数据,获得更多的信息量。但因Dashboard组织在BIEE自有门户系统中,无法直接集成到学校数字化校园门户系统,因此不能使用BIEE的Dashboard功能。
2.校情平台与学校门户系统的集成
金致公司提供BIEE Answers的JSR168封装插件,利用该插件以http代理的方式将Answers封装成一个Portlet。通过该插件,可在学校门户中实现校情门户站点,在该站点中,将各种预先制作好的Answers以Portlet的形式集成在站点页面中,形成图形化的菜单,具有更好的访问效果。图3是门户系统的集成效果。
四、校情平台的设计与实现
1.方案设计
基于上述建设思路,校情平台架构采用分层架构进行设计,共分为四层,分别是数据层、集成层、模型层、应用层,如图4所示。
数据层由各种管理信息系统的数据库或结构化数据文件构成。
集成层以数据抽取清洗工具为主,按照我国现行的行业标准,对不同业务系统中的公共信息进行统一编码、转义,统一存储在标准数据库中,并在元数据库中提供标准数据的数据结构说明。[6]集成后的数据按ROLAP模型组织成事实、维度、指标存储在关系数据库中。同时,校情平台对数据抽取集成的过程都进行了监控和日记记录,以备数据审计的需要。
在模型层,考虑到联机分析引擎和报表引擎均需要提供相应的模型数据才能正确运行,因此关于主题数据库中的雪花模型和关系模型都详实、规范地录入到引擎中了。在Oracle BIEE中这些信息登记在Physical Model、Business Model和View Model中;在SAP BO中,这些信息登记在Universe。这些数据虽然来源于业务系统中的事务数据,但组织形式和使用目的已经发生了变化,因此统一归纳在模型层之中。
应用层构建在模型层之上,主要是根据用户的需要,通过各种工具软件进行统计分析,并以图表的方式呈现给用户。分为三类情况:一是向用户提供报表功能,满足非IT人员直接获取报表和分析结果的需求。二是通过在线OLAP系统,向业务专家提供查询结果、交叉表和图形等形式的自定义分析功能。三是专业数据分析人员可以通过Excel、SPSS等工具直接通过ODBC、JDBC接口访问主题数据库中的各类数据,进行更深层次的数据挖掘和分析工作。
2.软硬件架构实现
校情平台软件方面:①选用甲骨文公司所提供的解决方案构造整个服务平台,采用Oracle作为数据库引擎,采用BIEE作为OLAP引擎,采用ODI负责数据转换和清洗。②选用金智公司针对BIEE开发的JSR168插件,实现统一身份认证、单点登录和门户集成。
通过金智公司的插件可将BIEE中的Answers 封装成学校门户中的Portlet,再利用门户的站点(Site)、门户(Portal)、页面(Page)和Portlet配置功能,可建立不同功能的数据服务站点,如图5所示。
校情平台硬件方面:使用三台物理服务器组成ORACLE RAC集群,形成高可用高性能的中心数据库。从学校现有的FC SAN存储中心划分6T存储空间,向中心数据库提供2x8Gbps数据带宽。使用四个虚拟服务器作为应用服务器,其中两台运行ODI,一台运行BIEE,另外一台作为开发工作站,如图6所示。
3.系统的扩展
考虑未来的发展需求,在校情平台设计之初,已经考虑到了未来在存储、查询和计算性能方面的扩展途径。
(1)存储和查询性能的扩展
校情平台的中心库作为所有分析数据的存储和SQL查询提供者,存在潜在的容量和性能瓶颈。当容量不能满足需要时,可在存储系统中划分新的存储空间,并以表空间的方式提供给数据库。当性能不能满足需要时,可增加RAC节点数量,从而得到更大的处理性能和吞吐率。
(2)计算性能的扩展
由于校情平台采用ROLAP方案,导致BIEE应用服务器在运行时会在内存中进行交叉、汇总计算。因此,在应用服务器端有潜在的性能瓶颈。前期应用规模不大时,瓶颈问题不明显,使用一台虚拟服务器运行BIEE服务即可;应用增长到一定范围时,只需增加服务器节点,即可解决瓶颈问题。这是由于JSR168封装插件可令服务器间的访问差异性被屏蔽,使整个系统仍然表现为一个整体。
五、建设成果与展望
学校于2014年8月开始建设校情平台,到目前为止的建设成果为:按照方案设计完成了软硬件系统的部署,并完成了数据集成、系统进程工作;完成了科研、教务、学生、设备、宿舍、一卡通、研究生等主要业务系统的数据集成,向学校各级管理层提供了10个方面的98个查询服务。
校情平台建设成果已经初步显现。通过学生招生、培养、就业数据的联合分析,学校进行了2015年招生计划调整,将原有报考率高、就业形势明显更好的四个专业调整为一本专业招生,对不好的一些专业进行了缩减、停招等调整;通过学生宿舍分配情况的统计分析,向学校提供下一学年各校区、宿舍区的新生容纳能力,为学校招生安排、后勤保障提供支撑;学校在校情平台的数据统计基础上开展学科点建设管理,对各学科的学科点建设情况进行动态跟踪,对各种指标进行横向对比、团队内对比,全面监督各学科点建设任务推进情况。类似的工作还应用在就业工作领域,通过就业数据的实时分析,全面对比学校各专业的就业工作进展,促进各二级院系扎扎实实推进毕业生就业工作。通过一期校情平台的建设,学校各级管理部门已经初步感受到了,在充分数据共享环境下,信息化对管理、决策带来的强力支撑。目前学校正在开展全员工作量考核管理系统建设,其中工作量核算、分析、调整等功能将在校情分析平台上实现。
如何能够有效地关联相关数据,找出数据之间内在的联系和知识是进一步发挥数据价值的主要途径。随着校情平台的数据量增长,可以进一步利用数据挖掘技术对该平台的结果进行关联分析、序列模式分析、分类分析和聚类分析,将隐藏在教育数据集之中的知识,通过数据挖掘技术榨取出。[7]这样就不仅仅能够提供各项统计数据,还能把影响数据指标的隐含因素挖掘出来,供决策者参考。
师生用户始终是校园信息化服务的核心,围绕“人”来建立数据收集和应用机制,不仅能抓住重点有的放矢,又能简单易行清晰完善。在下一步工作计划中,我们将以师生为中心,进一步丰富主题模型,适应更多的查询统计需求;还将结合学校管理需求和统计事件,开发更多的查询服务,开展挖掘分析工作。更重要的是通过这些服务工作让职能部门感受到信息化所带来的好处,促进各职能部门自觉、自主地开展信息化应用,使信息化在高校发展、人才培养上起到更大的促进作用。
参考文献:
[1]管廷昭,夏艳东.大数据视角下高校综合信息分析平台的构建[J].数字技术与应用, 2014(8).
[2]罗军锋,徐菲.大数据时代的高校信息化框架[J].中国教育信息化(高教职教),2014(3).
[3]宓詠,赵泽宇.大数据创新智慧校园服务[J].中国教育信息化(基础教育),2013(24).
[4]JCP.JSR-000168 portlet specification 1.0[EB/OL]. https://www.jcp.org/en/jsr/detail?id=168,2003.
[5]The Open Group.Scope of the Single Sign-On Standard[EB/OL]. http://www.opengroup.org/security/sso/.
[6]教育部关于发布《教育管理信息教育管理基础代码》等七个教育信息化行业标准的通知[EB/OL].http://www.moe.edu.cn/publicfiles/business/htmlfiles/moe/s5972/201203/133140.html.
[7]Shyamala K, Rajagopalan S P.Data Mining Model for a Better Higher Educational System[J].Information Technology Journal,2006,5(3).
(编辑:王天鹏)