蒋安波,罗金光,张福生
(常熟理工学院 江苏 常熟 215500)
在十四五规划提出“以数字化改革为牵引,全力提升高等教育核心竞争力、综合实力和影响力”[1]的背景下,以教育大数据为载体,驱动智慧校园建设成为高校信息化发展的必然趋势,而构建高校综合信息的共享服务平台正是智慧校园建设的深化。“完善业务系统、优化工作流程、集中改进教学、消除信息孤岛、管理、决策等方面的数据共享问题”[2]是信息共享服务平台的建设宗旨,也是信息化大数据服务高校综合实力提升所必须要解决的痛点问题。
随着高校信息化、智慧化校园的发展建设,多渠道的数据来源、数据的海量增长、信息孤岛下的数据冗余都向传统的信息服务平台提出了新的技术要求,具体体现在以下几个方面:
数据管理权限混乱是传统高校信息化管理工作中长期存在的问题,由于信息化建设初期高校缺乏总体的统一规范设计和部署,相关的数据管理体系也不完善,导致数据管理权限分散在多个部门之间,部门权属、职责和工作流程的不同又进一步加剧了这种管理混乱的现象,导致数据从获取源头开始就缺乏统一的规范和标准,这不仅大大增加了数据采集的重复工作量,也难以保障数据的质量[3]。
高校信息化建设和发展历经了数十年,围绕学校的人、物、事积累了大量的数据资源,这些数据资源如果能够进行有效的汇聚,建立科学的关联关系,将有助于数据的充分利用和共享,并为高校管理工作的数据分析和发展决策提供可靠的数据依据。
在信息化建设初期,受限于计算机软、硬件技术的发展,很多业务系统开发都不具有开放式的共享理念和规范的框架设计,且主要是依据业务部门的实际需求,需要什么做什么,部门与部门之间的业务系统各自独立,缺乏统一的数据交换接口和标准的数据交换格式,形成了很多信息孤岛[4]。如需打通这些业务系统,还需付出高昂的系统改造费用和数据对接费用,这都大大增加了在原有业务系统上实现数据共享的代价成本。
随着数据的海量增长,随之而来的还有数据的隐私和安全问题。在数据的有效生命周期中,建立完善的数据加密、脱敏、验证、审计、日志跟踪等安全机制是十分必要的[5],也是保障数据可靠性和有效性的必要手段。
针对上述四个方面的数据需求分析可知,传统的信息服务平台已经很难满足高校信息化数据管理的需求,构建以大数据为载体的新型信息共享服务平台才是未来高校信息化、智慧化校园建设的必然发展趋势。
信息共享服务平台主要采用了三层式的架构设计,自底向上主要包括基础层、核心层和服务层[6],如图1所示。
基础层是信息共享服务平台的最底层,是信息共享平台的构建基础,由硬件设施和软件服务系统共同构成。其中硬件设施是指用于构建共享网络平台的交换设备,以及数据采集所需的终端设备;软件服务系统则由ioas(基础服务设施,Infrastructure-as-a-service)、PaaS(平台即服务服务,Platform-as-a-service)、SaaS(软件即服务,Software-as-a-service)三种服务模式整合而成[7]。其中IaaS提供的是一种按照数据访问量或空间占用量计费的服务模式,主要面向一些普通用户,以租用的方式向用户提供平台数据共享服务,用户无须自己进行的基础设施的投入和搭建,该种模式大大降低了普通用户实现数据共享所投入的成本,并具有很好的服务灵活性与弹性,但服务权限是受限的,对于定制化服务需求的满足程度是有限的。PaaS主要面向企业级用户提供一种基于网络共享平台的开发环境服务,PaaS将平台本身作为服务有偿提供给用户,用户可以基于平台自行进行软件环境的开发和部署,该模式提供有预置的开发框架,开发人员可以基于框架通过内置组件进行应用程序的二次开发,并依据资源的使用量或空间占用量进行计费。SaaS是将部署在服务器端的应用程序提供给用户服务,并以软件服务的订购量或服务时长为标准进行计费,该模式将软件服务划分为免费、付费、增值三个级别,以满足用户的不同需求,用户无需对服务环境进行任何设置和管理,直接通过终端浏览器即可使用服务。以上三种服务模式都是基于云平台实现的,所涉及的大数据核心技术主要有网络虚拟化技术与云计算技术。
核心层位于信息共享平台技术框架的中间层,用于实现数据资源的采集、存储、挖掘分析和共享[8],是平台核心功能的实现层。高校信息共享服务平台所涉及的数据资源分为三类:基础数据资源、教育数据资源和业务数据资源,其中基础数据资源是指高校管理所需的所有基础数据,例如学生基本信息、教师基本信息、行政人员基本信息、开设系部和专业基本信息、高校资产信息、行政管理信息等等。教育数据资源是指与高校教育相关的、具有较强学术性和专业性的数据资源,可以分为一般性的教育资源与科研级的教育资源,一般性教育资源主要指的是教师的教学资源、课程资源等,科研级教育资源指的是实验数据、科研论文、科研项目报告等数据,这类数据资源大都涉及知识产权的归属问题,需要依据数据的涉密程度进行分级别的权限管理。业务数据资源是指高校日常管理过程中所产生的行为有关的数据资源,以及系统日常维护所产生的动态数据,例如学生考勤信息、教师评教数据、行政部门工作评价数据、系统日志、文件备份等。核心层可以看作是信息共享平台的集中资源池,所涉及的大数据关键技术都是以数据处理为核心的,主要包括:数据采集挖掘技术、数据预处理技术、数据标准化技术,以及数据的存储技术等。
服务层位于信息共享平台技术框架的顶层,是面向用户实现服务的前端交互层,用于接收和响应用户的数据服务请求,并按照用户要求的形式提供最终的数据处理结果。服务层面向的用户群可以是用户单位(高校)本身、与用户单位相关的其他科研院所、与用户单位同属一个管理体系的上下级关联单位、向社会提供教育服务的用户群体等,依据用户群的属性和需求不同,平台还需建立完善、严谨的数据安全管理机制和共享机制,以实现数据资源的按需共享。该层所涉及的大数据关键技术主要有数据可视化技术、数据分析技术和数据的安全验证技术。
基于信息共享服务平台体系架构下的大数据关键业务和构成如图2所示。该高校信息共享综合平台是建立于统一政策法规与信息标准体系、信息安全与运行维护体系为前提的顶层设计系统,其由IT基础设施层、应用支撑平台、业务应用和综合服务展现四层结构构成。
基础层主要负责实现信息共享服务平台的底层构架,包括硬件部署和网络软件服务等部分,在此基础上构建信息整合和应用整合平台以构成应用支撑平台,涉及数据共享规则、统一身份认证、应用集成框架、企业服务总线等核心模块,所采用的关键技术主要是基于网络虚拟化技术和云计算技术。
网络虚拟化技术是基于物理网络虚拟出多个逻辑网络,通过逻辑网络提高网络资源的利用率,以及网络安全性和可靠性。网络虚拟化面向的是网络设备底层,具体的技术实现包括局域网的虚拟化、专用网络的虚拟化和网络设备的虚拟化。网络虚拟化技术突破了物理网络的空间限制,从逻辑上基于组织单位、部门、应用等因素将一定范围的用户构建在同一个网络当中,用户对网络资源的调度和使用通过虚拟映射对应到物理网络,逻辑网络的资源调度和功能扩展不会受到物理网络的限制,只需更新相应的映射关系即可,极大地提高了网络的可拓展性和应用灵活性,降低了网络搭建的硬件成本投入,为云平台和云计算服务的实现奠定了硬件基础。
云计算是基于分布式计算机集群技术发展起来的一门新兴技术,即将分布在不同物理位置的服务器构建为集群,每一个服务器可以看作是一个网格元素,用于承担一个完整任务下的部分数值运算,通过所有的网格共同协作高效地完成一个复杂任务的数据运算。早期的云计算技术重点是实现任务的网格分解和结果合并[9],随着应用场景和应用需求的不断更新扩展,云计算已经成为涵盖分布式计算、虚拟化网络、网络负载均衡、网络存储和并行计算等计算机技术的一门综合技术。云计算技术使得网络硬件与软件资源的全面共享成为可能,特别是大数据环境下,网络需要具有极高的数据处理能力才能承载海量的数据,云计算技术极大地提升了网络数据的运算和存储能力,通过云计算技术所构建的网络资源池可以面向所有的互联网用户提供服务,而这种服务是集合了网络中所有优质资源、安全且高效的共享服务。
该层是信息共享服务平台业务应用的实现层,主要为完成学生、科研、教师、财务、资产和服务等功能提供后台的基础数据、教育数据、业务数据等三类数据资源的采集和处理。所涉及的关键技术主要包括:数据挖掘技术、数据预处理技术、数据标准化和数据存储技术等。
数据挖掘是基于一定算法挖掘出海量数据中的数据关联关系和数据的潜在价值的数据处理过程。数据挖掘的实现过程由三个阶段构成:数据准备、数据规律分析、数据规律表述[10]。数据准备阶段是从数据源中筛选出相关联的数据,并依据用户需求不同整合相应的数据集合;数据规律分析阶段是通过算法设计查找到数据集中的数据规律;数据规律表述阶段是基于数据集中的数据规律构建关联模型,为数据处理结果的最终呈现提供通用的数据模型。
数据预处理技术是数据处理中的前导环节,主要是实现对数据的规范化处理,未经处理的原始数据往往会存在以下问题:
1)数据冗余问题,指数据内容或属性的重复;
2)数据不一致问题,数据来源不一致导致的数据格式、属性的标准差异;
3)数据不完整问题,指数据内容或属性的部分遗漏;
4)数据噪声问题,指数据中存在的异常情况。
通过数据预处理技术可以对原始数据进行必要的清洗、去重、分类、排序、筛选等处理,这也是实现数据挖掘的前提条件。
数据标准化技术主要是实现数据分析中的数据物理属性或数据量级的标准化处理,随着数据规模的急剧扩张,数据分析的视角、维度、参考指标也越来越复杂和多元化,所涉及的原始数据在物理属性、量级等方面往往存在很大的差异,导致数据分析结果不够准确和客观,因此需要通过一定技术手段先对数据进行标准化处理,再实现综合的数据分析。数据标准化处理主要解决数据性质的不同和数据量级的不可比问题,数据性质的不同主要指的是物理属性不同,通常采用修改逆指标性质的方式,使得所有指标数值的作用力趋于同质化,再进行加总处理;数据量级的不可比是指量级过大的指标数值往往会削弱量级过小的指标数值的权重,从而影响数据分析的准确性,解决方法是采用去量级标准化,使得所有指标数值都处于同一数量级标准,再进行分析比较。
数据存储技术也称为数据持久化技术,大数据背景下数据存储具有高实时性、非结构化、体量庞大等特征,这就要求数据存储系统具有非常高的处理性能、吞吐量、存储容量和较好的数据兼容性与稳定性。数据存储技术基于云计算平台重新定义了数据存储的文件架构和存储方式,采用HDFS分布式文件存储架构,以数据块为最小存储单位,分布存储在服务器集群之上,再通过节点服务器进行存储文件的备份和管理,具有海量的数据存储空间,以及高效的数据读写等技术优势。
综合服务层展现主要通过短信、WEB、手机客户端和邮件等功能为系统使用者提供管理决策、自主学习、交流和业务处理等功能,用于实现数据处理的结果呈现,所涉及的大数据关键技术主要有:数据可视化技术、数据分析技术。其中数据可视化是借助二维表格、图形图像等方式对大数据集合的分析结果进行表达和显示的过程,这当中涉及了数据空间、数据开发、数据分析等大数据的相关概念。其中数据空间指的是由n维属性和m个元素构成的多维数据集合;数据开发指的是对数据进行计算、推演的算法设计和模型搭建的实现过程;数据分析是指针对多维数据集合进行的数据切片、块拆分、维度切换等数据剖析的实现过程。
随着大数据时代的来临,传统的高校信息服务平台已经很难满足海量数据的规范化管理、数据隐含价值的有效发掘、数据的全面共享和数据安全等方面的信息需求,因此基于大数据技术实现高校信息共享服务平台的构建是高校信息化建设的必然趋势。在此前提下,本研究实现了信息共享服务平台的四层构建框架和统一的运维及标准体系,并针对信息共享服务平台框架所采用的大数据关键技术进行了深入研究,为高校信息共享服务平台的后续功能优化和迭代进化奠定研究基础。