构建基于大数据的智能高校信息化管理服务系统

2013-03-22 03:53来天平王春霞
中国科技资源导刊 2013年6期
关键词:数据仓库智能信息化

来天平王春霞

(1.北京大学计算中心,北京 100871;2.北京万方数据股份有限公司,北京 100038)

构建基于大数据的智能高校信息化管理服务系统

来天平1王春霞2

(1.北京大学计算中心,北京 100871;2.北京万方数据股份有限公司,北京 100038)

在大数据的背景下,结合对高校信息化中服务发展的需求,提出建立智能高校信息化管理服务系统的思路。依据大数据的基本思想,首先提出高校大数据的概念并分析其基本特征。对智能高校信息化服务具体体现方式进行研究,详细阐述建设智能高校信息化管理服务系统的原则和构架设计的逻辑框架,进一步探讨在实践中ETL、数据仓库建模等关键技术,以实例说明智能信息化管理中的数据应用服务和决策支持,为全面建立智能化的高校信息化管理服务系统提供探索和实践基础。

大数据;智能服务;高校信息化;数据挖掘;决策支持

1 引 言

“大数据”作为一个较新的概念,还没有特别明确的定义。比较通用的表述是指所涉及的资料量规模巨大到无法通过目前主流软件工具在合理时间内撷取、管理、处理并整理成有助于实现企业经营决策更积极目的的资讯[1]。

英国维克多·迈尔-舍恩伯格所著《大数据时代》[2]中的描述则更为实用。书中对大数据的总体情况进行了详细描述,很难用几句话高度概括。总结大数据的几个鲜明特征如下。

第一,它不是随机样本而是全体数据。这是与样本调查模式的数据分析的显著区别。随机样本是希望通过尽可能少的样本获得尽可能多的信息。但其受限于样本选择的算法,往往会有遗漏。大数据不是样本,而是全部数据。

第二,全数据模式。在这一点中强调大数据的大不是指绝对数值上的大,而是所有数据(如果高校学生招生20年,那么拥有20年学生数据的所有就可以称之为大数据)。

第三,强调了不是因果关系而是相关关系,这种关系导致大数据的最终关键点是“预测”。

大数据的发展对高校信息化产生了巨大影响。北京大学自20世纪90年代开始进行高校信息化系统建设,覆盖学生、人事、资产等多方面业务。随着社交网络在生活学习中的渗入,学生、老师、中高层管理者对于信息化系统服务的需求不再局限于填报信息、统计数据等基本功能,对于直接面对消费者的服务产生了更高的期望——智能化的高校信息化管理服务系统。一方面,高校具备了大量的历史数据;另一方面,基于大数据的数据分析使得智能服务的实现成为可能。这种大数据不妨称之为“高校大数据”。构建基于大数据的智能高校信息化系统是大数据在高校信息化中的进一步发展,必将对涉及决策支持、智能自助、个性化服务、预警服务及预测等领域的业务产生巨大的推动作用。

2 高校大数据与智能服务

虽然高校数据量绝对值并不大,但同样是大数据。这里以北京大学为例,该校从20世纪90年代开始高校信息化建设,经过了萌芽期、基础建设期和成熟期三大阶段,将业务全局规划为学生、人事、财务、办公、科研等主线[3]。表1是摘录学生主要相关的数据统计(仅结构化数据)。

(1)高校信息化的时间跨度大约有20年,每个学校每年招生数量比较固定,所以对于某一个高校而言,其数据量是比较有限的。但从大数据含义出发,如果这些数据对于此高校而言就是全部的数据了,那么这些数据即使数据量不大,也可以称为大数据,其特点是:时间跨度不一。由于信息系统建设周期不同,像北京大学这样的高校,其有效的数据库存储数据时间从最初的1991年到2010年都存在样本分布。

(2)数据项目噪点多。分析研究生成绩数据,不同时期,同一个字段所代表的含义并不一致。虽然有统一的代码标准,但标准(比如专业)也在周期性变更。这种情况的存在给数据的梳理带来了极大的困难。

(3)待结构化的数据多。一方面,类似就业数据,业务部门其实拥有多年的就业信息,但都没有数据化。对于数据分析而言,需要将纸质文档统一规划整理为结构化的数据库数据。另一方面,非结构化的数据文件、影音、日志等信息对于数据预测同样具有重要的作用。

(4)数据分散,信息关联性弱。信息化建设初期并没有考虑到统一的数据分析,其目标主要是为业务服务,每个业务系统相对比较独立,没有形成按照某种线索形成的数据集。即使建立了部分的主题数据库,但其目的大多局限于数据共享,与大数据的可分析性差距比较大。

总之,高校的大数据固有的一些特点为大数据分析带来了巨大的挑战。

高校信息化开始建设时期主要是满足业务单位管理需要,后逐渐发展演变为学生、教师的科研、学习服务。信息化系统建立从根本上没有脱离实际管理业务本身,结果是围绕管理业务实现了数字化的教学管理。直接面对信息化系统消费者(学生、教师、管理者)的主动服务少之又少。

智能服务[4]是指能够自动辨识用户的显性和隐性需求,并且主动、高效、安全、绿色地满足其需求的服务。智能服务是信息化后一个主流的发展方向。高校智能服务主要体现在以下几个方面。

(1)智能化自助应答。学生如果要办理“学籍异动”,可以在学校网站中查询“学籍异动”,可以看到有关学籍异动办理的流程说明、办理注意事项、办理的具体地点等信息。同时,根据不同的办理流程,可以逐步细化办理操作。

(2)个性化服务推荐。对于学生、教师、科研工作者等不同类别的用户,在校内信息门户提供服务推荐。不再是拘泥于菜单的机械摆放,而是有针对性地提供服务推荐。比如,在选课期间,选课是推荐服务;在出成绩时,成绩查询作为推荐服务。

表1 北京大学学生数据统计

(3)个性化学习指导。新生刚入校时候,对于选什么样的课程是比较迷茫的。通过智能服务,系统可以自动判断学生是新生,在学生进行选课操作时,依据大数据的预测结果,自动为学生推荐其专业可以修订的课程信息、教师信息及成绩分布等。

(4)预测式服务。教师开课往往对于拟定的选课学生数量没有准确估计而不得不在后期调整教室。系统在教师申请教室时可以提供预测数量,尽可能避免类似情况发生。

(5)预警服务。通过学生的消费记录、上课记录、成绩数据、上网记录等信息,查询或者定位到在心理方面存在问题的学生,及时进行心理辅导,防止事态进一步恶性发展。

(6)决策支持。为学校领导提供决策所需的动态多维数据、信息和背景资料,除了满足日常简单的查询、统计和维护、全局统筹规划管理外,为高校决策者提供有关教育形势的瞬时变化、发展趋势,提取隐含在其中的事先未知的、潜在的、深层次的、有价值的信息。例如科研成果及论文统计分析、招生情况综合分析比较、教学科研专项经费计划及完成情况、教师构成及年度分析比较等。

大数据分析为高校智能服务提供了技术基础。智能服务中的主动服务、预测式服务等都需要历史数据或者综合全数据分析,尤其是决策支持,可以说,如果没有大数据支持就无法实现真正的智能高校服务。

3 大数据智能服务系统构建

3.1 建设原则

构建基于大数据的智能高校信息化管理服务系统,不是要推翻现有的系统建设模式,而是将大数据思想融入到建设的方方面面。

(1)基于原有的总体规划建立智能信息化管理服务系统子规划。依据大数据的背景和已建成信息化系统,充分了解目前学生、教师、业务单位的需求,结合目前IT发展的状况,充分考虑大数据挖掘的需求,有针对性地建立关于智能信息化管理服务系统的子规划。规划要管理人员与技术人员共同参与。一方面大数据的挖掘与IT技术结合非常紧密,另一方面,数据挖掘的最终目标“预测”需求需要管理人员提出。这样保障了规划和IT技术发展的统一。

(2)分步骤、分层次实施项目。智能信息化系统依靠的IT技术对于硬件环境(网络和服务器)要求较高,充分考虑人力与财力,有步骤地实施短期目标和长期目标。

(3)数据条件成熟的先进行实施。学生是高校的主体,其信息一般比较全面,作为大数据挖掘的条件比较成熟,可以先进行实施。

(4)建设示范工程。基于大数据的智能信息化系统作为新生事物,必定要经过一定的摸索阶段,为避免走弯路,可以先拟定几个典型应用的试范工程。从实践中掌握建设的思路和方法,总结经验。

(5)处理数据为基础。高校数据具有数据噪点多、存在非结构化数据、数据结构不一致与来源分散等特性,要实现科学的信息挖掘与分析,必须先对数据进行处理。

3.2 平台逻辑框架

以学生信息举例,图1为智能系统的数据逻辑框架。

(1)原系统信息。原系统信息指信息的最初来源。学生信息的原系统包括招生、学籍、教学、培养、成绩、就业等资源。北京大学从2007年开始,统一规划建立“学生综合信息管理系统”,依据学生从入校到离校的全流程,梳理老系统业务,建立全信息管理系统。系统目前还在建设中。新老系统的并存导致资源存在建设周期不同,数据库、数据结构可能存在较大的差异,数据异构性和不一致性比较严重等问题。

(2)数据抽取(ETL)。ETL负责将分散、异构数据库中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或者数据集市。ETL是实施数据仓库的核心和灵魂。其工作占数据仓库工作量的60%~80%[5]。

(3)数据仓库。根据业务需求,将学生总体数据划分为4部分。①学生信息库:主要是学生的基本信息,如学号、姓名、院系、专业等。②教学资源库:主要是课程信息,如课程名、课程任课教师、学生选课、学生培养方案、个人培养计划、教室资源等。③学习成果库:主要包括学生成绩、发表文章、科研成果等信息。④学习经历库:主要包括学生的异动、社团资源、社会活动、学习经历、工作经历等信息。

图1 智能系统学生业务逻辑框架

3.3 ETL

北京大学学生库建设中,ETL主要包括数据的初始化和数据刷洗。

数据的初始化关注建立维表与事实表,并且存储相应的数据。在数据仓库建模小节中将详细介绍。

数据刷新关注当源数据发生变化后,如何在数据仓库中建立某种机制保持数据的一致性。在数据源的前端建立SSA层(复制层)[5]:在源数据基上插入时间戳,形成具有历史信息的实时数据。在SSA层上的表中建立insert、delete、update触发器。每当源数据发生变化时,SSA的数据进行相应的变化。变化数据写入临时表。同时在数据库层面定义作业和存储过程,规定每种数据的刷新频率和变化情况,按照时间顺序产生任务调度,调用相应的存储过程完成数据的变更和抽取。存储过程中可以定义较复杂的业务逻辑和数据规范。如果存储过程无法满足实际业务需求,可以在业务层定义WebService,利用业务逻辑实现更为复杂的业务数据变更。

触发器模式对于高校的大数据抽取具有性能高、规则简单、实现方便等特点。随着数据仓库的复杂程度升级和数据量的海量化,可以采用DataX[6]技术。DataX是在异构的数据库/文件系统之间高速交换数据的工具,实现在任意的数据处理系统(RDBMS/Hdfs/Local f le system)之间交换数据。

3.4 数据仓库建模

经过多年实践,高校中采用Kimball[7]提倡的维度建模法。通过对各个维度大量的预处理,极大提高数据仓库的处理能力。对于另外一种范式建模法而言,维度建模更加贴近实际业务模型,直观地反映业务数据。

(1)确定业务主题。结合学生的信息,将学生信息划分为一个维度主题和4个业务主题:学生基本信息、教学资源、学习成果、学习经历。维度主题包括时间、地理、校标、教标等。学生基本信息关注个人属性信息,如学号、姓名、院系、专业等;教学资源是课程、执行计划、选课、培养计划等;学习成果关注成绩、论文、科研、实践等;学习经历包括社团活动、组织关系、学习经历、工作经历。

(2)确定分析粒度。记录每个学生的明细情况。在大数据时代背景下,详细的明细记录对于将来的分析具有很强的参考依据。比如选课信息,不仅记录了每次选课的明细,对于选课的IP地址,选课退课记录等信息都涵盖在内。

(3)设计维度。统计和分析数据的角度,与统计分析的参数对应。特别对于特别属性,要独立提出作为一个维度。

(4)建立事实表。为了跟踪具有生命周期的活动数据的变化过程以保留历史信息,设计事实表时使用缓慢变化维的方法以捕获变化数据[8]。

4 智能服务案例

4.1 数据应用与服务

(1)学业预警

学业预警,是指通过对学生在校期间的学习生活数据进行分析,提前发现学生潜在的学业问题,告之本人和相关的管理人员,帮助学生顺利完成学业。例如个人培养计划预警。个人培养计划是学生根据学校制定的学科培养方案在每学期拟定的学习计划。个人培养计划包括课程学习计划和学位论文计划,是导师指导研究生学习、开展研究工作的依据,也是研究生院对研究生进行毕业资格审核及授予学位的依据。预警系统的主要功能是核查个人培养计划是否满足相应培养方案的要求,对于不合格的个人培养计划适时给予提醒。

学科培养方案要求见表2。

研究生个人培养计划学分汇总(表3)。

预警根据业务部门进行规定可以包括多个级别。比如一级预警定义为:新生在第一学期、第二学期选课之后(选课期间可制订或修改个人培养计划),个人培养计划不符合相应培养方案的要求。

(2)个性化服务推荐

个性化服务推荐,是将个人数据整理分析,预测式、主动性地向用户提供服务推荐。

在选课系统中,为新生选课进行课程推荐。新生入学后,一般对将要上什么课程比较迷茫。对近10年选课数据,根据同一院系、同一专业、成绩合格率等维度进行分析整理,列出课程选课人数、成绩状况等信息,排序(例如前10名)后,推荐新生选课。

4.2 决策支持

以公派出国业务举例。通过院系开设的全英文课程的学生统计,可以发现公派出国的学生占全部选课学生的比例情况。实际上,数据表明,全英文课程的开设,使学生在校内即可了解到学术领域的最新国际前沿动态,开拓了学生的国际视野,使得学生有可能与国际同行进行交流和学习,有力地促进了学生的学术研究水平的提高和国际竞争力的提升,可以为学校管理层在课程建设方面提供决策依据。

5 结语

目前,参与高校智能服务的大数据在绝对数量值和计算量都不是很高,为了应对将来可能产生的海量数据和高负荷计算,需要部署实施MapReduce[9]和Hadoop[10]。

MapReduce将传统的查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点。本质上,MapReduce是一套软件框架,包括Map(映射)和Reduce(化简),对海量数据进行分割、任务分解与结果汇总后完成海量数据的并行处理。

Hadoop是由Apache基金会开发的一个分布式系统基础架构,利用集群的高速运算和存储。Hadoop实现了分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS具有高容错性的特点,特别适合部署在低廉的硬件上,比较适合高校中轻量级的高速运算。

建立基于大数据的智能高校信息化管理服务系统对于高校信息化建设是一个机遇也是一种挑战。文中提出的建设思路方法与设计还不成熟,实践案例覆盖范围较小,需要在实践中检验和完善,特别对于高运算量下如何利用mapreduce和hadoop工具还在探索之中。改变信息化建设模式,高度重视基础数据的收集与整理,为大数据分析奠定基础,是建设智能化高校系统的基础工作。

[1] 张意轩,于洋.大数据时代的大媒体[N].人民日报, 2013-01-17(14).

[2] 维克多,迈尔-舍恩伯格,肯尼思,等.大数据时代[M].杭州:浙江人民出版社,2012.

[3] 来天平,种连荣,王倩宜,等.高校信息化横向建设模式的探索与实践[J].武汉大学学报:理学版,2012(Z1): 136-139.

[4] 智能服务服务中国[EB/OL].[2013-09-11].http://www. ccw research.com.cn/white_book_detail.htm?id=16.

[5] 王亦然.数据仓库技术基于业务报表数据的应用研究[D].北京:中国地质大学(北京),2010.

[6] Bazhen Datax[EB/OL]. [2013-09-11]. http://code.taobao.org/p/datax/w iki.

[7] Kimball R, Ross M. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling[M]. New York: John Wiley and Sons, 2002.

[8] 高亮.高校数据仓库建设研究[J].武汉大学学报:理学版,2012,58(Z1):179-184.

[9] Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simpleied Data Processing on Large Clusters[J]. Communications of the Acm, 2008,51(1):107-111.

[10] Scobinz. Hadoop[EB/OL]. [2013-09-11]. http://baike. baidu.com/view/908354.htm.

Building Intelligence University Information M anagement Service System Based on Big Data

Lai Tianping1, Wang Chunxia2
(1. Computer Center, Peking University, Beijing 100871; 2. Wanfang Data CO., LTD., Beijing 100038)

In large data background and the demand of information of colleges and universities, this paper proposed the establishment of university information management system of intelligent service idea. Based on the basic idea of big data, put forward the concept of the big data in university and analyze their basic features. After Studying the intelligence services of the college information specif c implementations, Elaborate building it’s system architecture design principles and the logical framework; Explore ETL, data warehouse modeling and other key technologies. W ith examples, how to build intelligent information management and decision support data application services. For the full establishment of the University of intelligent inform ation management service system provides exploration and practical basis.

big data, intelligence service, university informatization, data m ining, decision support

表2 培养方案要求

表3 个人培养计划拟定情况

TP393

:ADOI:10.3772/j.issn.1674-1544.2013.06.017

来天平(1977- ),男,北京大学计算中心工程师,主要研究方向:高校信息化、计算机应用技术。

2013年11月14日。

猜你喜欢
数据仓库智能信息化
月“睹”教育信息化
月“睹”教育信息化
基于数据仓库的数据倾斜解决方案研究
幼儿教育信息化策略初探
基于数据仓库的住房城乡建设信息系统整合研究
智能前沿
智能前沿
智能前沿
智能前沿
探析电力系统调度中数据仓库技术的应用