魏祥丽
(北华航天工业学院图书馆,廊坊 065000)
国家标准化管理委员会2018年6月7日发布的国家标准《智慧校园总体框架》(GB/T 36342-2018)指出,智慧校园是数字校园的进一步发展和提升,实现校园物理空间和信息空间的有机衔接,保证校园范围内的所有人随时随地都能方便快捷地获取资源和服务。这就需要校园数据开放共享。智慧校园总体框架分为基础设施层、支撑平台层、应用平台层、应用终端和信息安全体系等,其中容纳数据交换、数据处理、数据服务和统一接口等功能的支撑平台层,是智慧校园大数据计算及服务的核心层,保障智慧校园的各类应用正常持续运行。数据中台可以从数据层面打破“烟囱式”的系统建设,规范数据的存储、转换、分析和应用,最大化数据的价值,实现数据的业务化。因此,数据中台在智慧校园总体架构中能够起到支撑作用。
校园在信息化发展的过程中建设了多个信息系统,比如统一校园门户、教务系统、人事系统、学工系统等,这些系统独立运行,造成了以下问题:①校园内各项垂直业务各自为营,各类应用系统烟囱式建立,缺少互联互通接口;②各系统的底层存储介质没有统一的数据标准,缺乏数据共享接口,导致数据孤岛现象;③存在数据不全、冗余、错误等数据质量问题。以上问题导致各应用之间数据共享程度低、数据获取难、数据不好用,严重制约了智慧校园的建设。
因此,为了解决上述问题,亟需依托大数据技术构建校园数据中台,实现从数据接入到数据服务的全生命周期数据处理方法,为智慧校园建设提供数据和服务支撑。数据中台在智慧校园的建设中有以下几点意义:①数据中台的核心是让数据用起来,盘活校园全域数据,实现数据统一采集、集中管理、整合分析,实现数据共享,做到数据处处可见、人人可用;②数据中台将稳定、通用的业务能力下沉到中台层,简化前台以提升前台的响应能力,能够为领导决策、部门赋能和师生个人业务提供快速准确的数据服务;③实现服务的可重用性,通用性强的基础服务通过抽取和封装直接供外部调用,可以大大降低开发成本。
数据中台将全校数据进行资产化管理,具备数据采集汇聚、数据开发分析、数据服务可视化、数据赋能应用四大核心能力,以数据驱动校园管理决策,促进校园从功能提供向数据服务转变,提升校园智慧化服务水平。
数据中台让数据充分发挥其隐藏的价值,实现业务数据化、数据资产化、资产平台化、平台服务化,当需要构建新的业务应用时,通过提供的服务接口迅速实现业务,即服务业务化,形成数据与业务的闭环,如图1所示。
图1 数据与业务闭环
本文在立足智慧校园的建设目标之上,结合其他领域比较成熟的数据中台技术路径,给出了智慧校园数据中台架构,如图2所示。
图2 智慧校园数据中台架构
数据中台将多源异构数据进行采集、清洗、存储、分析,形成一个可靠的、稳定的大数据资产层,并以接口和组件的形式与各业务单元共享,从而打通前台需求和后台资源,在满足数据分析需求的同时,为业务创新提供依据。
数据源指的是校园全域数据,根据校园数据的来源分为内部数据和外部数据,根据数据的存储形式分为结构化数据、半结构化数据和非结构化数据。
数据采集是数据中台接入数据的入口,数据采集的主要工作是实现数据同步,将来自异构数据源、异构网络的校园原始数据,通过标准手段统一采集、汇集形成校园“数据湖”,为数据中台的后续工作做准备。
校园数据经过数据采集层存储到各种介质中,数据流进入数据开发层,首先进行数据仓库的建设,然后利用大数据处理技术对数据进行挖掘、分析,生成数据资产,为用户提供前端可视化页面查看、使用数据。其中,数据仓库有两种,分别是离线数仓和实时数仓,两者的主要区别在于时效性、存储介质和处理组件。实时数仓时效性要求高,一般为分钟级别甚至秒级别,而离线数仓对时效性要求一般为T+1天。对于存储介质,实时数据采集之后一般存储到Clickhouse、ES等中,离线数据可以存储在Hive、HDFS 等中。对于处理组件,借助目前主流的引擎spark、Flink 等实现实时开发平台,实时数据要求强大的计算能力实时处理采集来的数据,针对离线数据,基于离线数仓建模理论、结合业务场景,抽取出一个离线开发平台。实时开发平台和离线开发平台可以为智能运维赋能。
数据服务层对外提供数据服务,实现数据中台的核心能力——数据转化为服务。数据服务层依据中台的方法论OneData、OneService,提供统一的服务接口用来被调用,为数据应用层赋能。
数据中台的数据流向从数据源到数据采集至存储介质,然后进行数据开发实现数据资产化,再通过数据服务暴露给各种业务应用赋能,在整个过程中有两个重要的平台,一个是运维管理,一个是数据治理平台。
数据治理平台包括元数据管理、数据质量管理、数据血缘管理、数据标准管理等,其中数据血缘管理用来帮助追踪问题数据,当数据分析出现问题时追溯问题数据从哪来,一步步追溯问题环节。数据标准管理为校园数据提供一套统一的数据标准,保障智慧校园数据中台数据的规范性和有效性。数据治理得好,才能提高数据质量,让数据更好地为业务应用赋能。
运维管理平台是数据中台持续运营的重要保障,主要包括监控告警、部署管理、故障诊断、任务调度、日志审计等,对异常情况进行及时处理,确保数据的准确性、完整性。
综上,运维管理和数据治理这两个平台能够保证数据中台正常持续运转。
智慧校园应用层通过调用数据中台服务层API接口实现校园智慧服务。包括教务科研应用(如科研管理、教学资源、在线学习等)、学生服务(如招生管理、就业服务等)、后勤服务(公寓管理、安保管理、车辆调度等)、管理决策(领导决策、个人画像、专业评估等)等。数据中台能够为校园业务应用提供多方位的分析机制,为智慧校园的运行提供高效支撑。
数据中台的核心是让数据产生价值,为了实现这一目标,需要三个关键步骤:①尽可能地收集数据;②更好地整理数据;③挖掘数据潜藏的价值。
为了尽可能全面地获取校园数据,需要利用多种手段将校园全域数据采集到数据中台的大数据平台中。数据采集主要包括结构化数据采集和非结构化数据采集,对于结构化业务系统数据,通过sqoop 脚本进行采集,写入到大数据平台的Hive 中。对于非结构化数据,比如业务系统产生的日志数据,则利用Kafka 进行采集,形成一个个消息,再通过Spark Streaming对产生的消息进行批量采集。
数据采集之后进入数据仓库的建设,根据数据仓库的建设思路,原始数据采集过来之后经过ETL 过程进行清洗、转换、集成,形成ODS,然后对数据进行轻度综合形成数据仓库。数据仓库的建设底层采用大数据技术Spark、Hive、SparkSQL来操作整个处理过程。
ETL 的关键操作是T(数据转换),数据转换包括表粒度数据同步、多表同步、数据库整库同步。单表来说,直接把数据原封不动搬过去,但是对于异构数据源,不同数据库字段表达方式可能不一样,数据无法在数据中台中流通。为了打通数据,解决数据孤岛的问题,需要制定统一的数据标准,把不同数据库的字段映射成统一的表达形式。教育部2021 年3 月26 日发布《高等学校数字校园建设规范(试行)》,指出高校数据标准建设应符合GB/T 29808的要求。本文结合教育部要求制定校园数据标准,完成异构数据源之间字段、数据类型等的映射,实现数据统一管理、统一定义。
数据采集、整理之后形成数据仓库,通过大数据手段挖掘数据价值。利用数据挖掘算法发现数据的底层规律,通过机器学习建立数据模型,进而去开展人工智能。
数据的挖掘分析方式有三种,分别是在线分析、近线分析和离线分析。在线分析将业务数据实时写入关系型数据库中,通过前端可视化页面,利用SQL 语句进行查询、分析展现数据,这种方式对数据的分析时效性高,数据有变化,能立即反映在前端。但是随着数据量的增长,关系型数据库的压力增大,造成系统性能降低,因此出现了近线分析。相较于在线分析,这种方式的分析结果有一定的延时,几分钟或几小时,但是能提高系统性能,实现时效换性能。这两种方式适合简单业务,对于复杂的、实时性要求不高的业务数据分析,采用离线分析方式,通常延时一天,每天晚上对当天的数据进行采集分析处理,第二天展示分析结果。
根据分析的业务,抽取数据仓库中的一部分数据建立数据集市(DM),在DM 基础上进行数据标签建设。利用Kylin 对数据进行多维分析,利用SparkML 进行数据挖掘,利用Elastic-Search 建立数据索引,实现对海量数据的秒级查询。最后利用eCharts、VUE 等可视化工具将数据分析结果以前端应用的形式展示给用户。
有了以上基础,就可以进行各种各样的智慧校园应用,比如教学科研、学生服务、决策支持、师生画像等各种智能应用。
数据中台的应用领域越来越广泛,其主要原因是数据中台的核心是让数据用起来,实现数据资产可视化,使得数据看得见、可以用、容易用。数据资源是智慧校园的“软财富”,通过构建数据中台可以盘活校园全量数据,通过可视化界面,校园内人员可以随时随地查看权限范围内的数据,方便快捷使用数据服务,提高校园决策、精细化管理水平,打造健康、持续运行的智慧校园。