基于多源异构数据源的高校决策支持服务平台研究

2020-04-07 17:40钱源施佺
中国教育信息化·高教职教 2020年3期
关键词:数据融合决策支持系统可视化

钱源 施佺

摘   要:文章以高校多源异构数据源为基础、需求概要分析为驱动、数据集成和可视化技术为支撑,分析了当前高校业务系统数据融合存在的困难及解决策略,设计了高校决策支持服务平台体系架构,并实现了部分业务系统的数据集成和可视化展示。实践证明,数据已经成为当今时代非常重要的财富,数据中的潜在信息将成为管理决策者制定决策、预测趋势的有力支撑。

关键词:多源异构数据;数据融合;决策支持系统;可视化

中图分类号:G647 文献标志码:A 文章编号:1673-8454(2020)05-0050-04

自上世纪90年代以来,我国教育信息化飞速发展,取得了令人瞩目的成绩,为教育现代化奠定了良好的基础。特别是对高等院校而言,教育信息化的发展对校务工作的开展、创新人才的培养、教育理念的变革等,都产生了独特的重要作用。随着高校信息化建设由最初的规模式扩张,如校园网的建设与发展,高校教务、科研、财务、后勤等业务管理信息系统的开发与使用,校园一卡通业务的普及与扩展等,到如今追求内涵式发展,即如何合理配置资源、实现教育资源的共享,最大限度发挥大量高校信息数据的作用等,人们日益认识到高校信息化建设中进一步提升管理与服务能力的重要性。《教育信息化十年发展规划(2011-2020年)》[1]提出,要进一步整合信息资源,规范数据采集与管理流程,优化教育管理与服务流程,支撑教育管理改革与创新,提高教育管理效率;要加快学校管理信息化进程,提高管理效率与决策水平,利用信息化手段提升学校服务师生的能力和水平。因此,针对高校信息化建设中日益累积的庞大数据,如何合理整合并利用这些数据,实现数据的共享互通,提高数据利用率,使简单的数据呈现转化为潜在的知识服务,为业务部门和决策者提供合理的决策支持,逐渐成为高等院校信息化建设的新课题和新重点。

一、多源数据融合的范围和目标

随着高校信息化建设的不断发展,高校信息管理系统的建设日趋成熟,对于管理的要求也不断提升。随着移动技术、物联网技术、云技术等高新技术在高校的应用,相关数据成倍增长,高校亦跟随时代潮流进入大数据时代。[2]大数据时代下高校信息化建设应更加适应综合化、数字化、个性化的发展趋势,“以数据为核心、以数据驱动革新”的发展模式,为用户提供精准分析并满足其个性化需求。[3]

高校信息化建设的现阶段,各类信息管理系统中汇聚着大量数据,按用户角色分类,可分为学生数据和教师数据,学生数据包括个人基本信息、一卡通消费数据、图书馆借阅数据、课程成绩数据、评教数据、网络学习数据等,教师数据包括职称数据、教学任务数据、上下班打卡数据、校园卡消费数据、论文项目等科研数据、资产数据等。按数据来源分类,主要有四类:[4]①管理类数据,如教务管理系统中的学生基本信息及成绩数据、校园一卡通系统中的上网数据及消费数据等,这些数据多以结构化的形式存储在关系型数据库中;②行为类数据,包括教学过程中教师和学生产生的各类数据,如网络学习过程中,教师发布学习任务,进行在线指导、评价与激励,学生网络学习时间、在线学习任务完成度、信息交流互动等行为数据;③科研类数据,这类数据主要来源于教师自主填报,或外部数据库获取;④资源类数据,包括课件、案例、试卷、媒体素材等,这类数据多以文本、音视频等非结构化的形式进行存储。

上述数据,数据量庞大、数据结构复杂、产生频率快,且大多来源于不同的信息管理系统,看似零散、无关联,但是在大数据时代,如果能整合好这些多源异构数据,就能为高校在教学、招生、科研、就业等方面提供很大的决策支持:[5]①从数据自身角度而言,多源数据融合能够在不影响信息管理系统独立运行的情况下,实现系统间数据的共享互通,满足部门间的数据交叉查询,提高报表的运行速度和访问效率;多源数据融合形成的数据池,有助于对高校大数据进行统一规划和管理,实现多维度的数据交叉分析和数据挖掘分析。②从决策支持服务的角度而言,基于多源数据融合的数据分析服务,能够为学校领导提供全局性的数据统计分析和决策支持,为高校的教师管理、学生管理、教学管理、人事管理、科研管理等提供有价值的参考信息,有更多的依据来进行各项决策计划的制订和管理。

二、多源数据融合存在的问题和解决策略

信息化建设为高校的管理与服务提供了诸多便利,但因此而产生的大量数据也给高校带来了新的难题,高校数据服务存在的问题主要体现在以下几个方面:

1.规划部署未统一

高校体系复杂,部门众多,信息化建设初期,很少有高校一开始就有系统且系统完善的部署规划,因此导致了各部门之间的信息管理系统相对独立,信息化程度和水平参差不齐。[6]一所高校内部的不同部门,有些信息管理系统由内部员工自行开发,有些则由外部购入,技术框架、数据库结构、安全接口等不尽相同。因此在高校计划集成信息管理系统,或对高校大数据进行统一管理使用的时候,就面临了很大的难题。

2.技術应用困难多

信息管理系统所采用的开发环境、技术架构不同,数据库结构不统一,造成了信息管理系统集成性差、系统间的数据难以互通共享的问题。从安全性的角度出发,如果部门间的数据交换,或全局性的数据分析,需要多次导出各部门的数据库数据,势必造成数据库的负担,对于数据存储和数据安全造成一定的威胁。如何整合不同系统的数据,形成统一的模式方便数据处理,并且不对各系统的后台数据库造成负担和威胁,是必须解决的技术问题。

3.服务需求不明确

近年来各高校已逐步开展各类教育大数据分析服务,但往往由于需求分析不充分、全局性规划不完善、技术方法不到位,使数据分析服务难以满足用户需求,且难以大规模实施应用。高校管理越来越精细化,个性化需求越来越强烈,[7]落实到实际应用时大多伴随着复杂化、多样化的特点,如何根据需求的变化,演化数据服务的实用性、丰富性,也是需要解决的重要问题之一。

多源数据融合是指将各种源数据库中的数据集成到一个统一的目标数据库,并把各种数据转换成面向主题的格式,能从异构的数据源中定期抽取、转换、集成所需要的数据,便于用户访问,并能够从多维度进行数据分析,从而根据分析结果提供决策支持服务。多源数据融合能够提升数据的准确性和有效性,大大提高数据质量和访问效率,并能够支撑多维分析,支持深度挖掘,进行可视化展示,从宏观角度反映学校的发展变化情况,推动发展革新。

ETL是多源数据融合的关键,本质是将获取到的多源异构数据,转换为目标系统所兼容的格式,并导入目标数据库。[8]由于高校信息管理系统环境复杂,数据關系错综杂乱,数据质量参差不齐,因此需要设计一个健壮的ETL系统。ETL主要包括抽取、转换和加载三个步骤,具体操作流程如图1所示。

ETL看似一个非常简单的概念,操作流程也并不复杂,但实现上却存在着大量不同的设计和技术方案。特别是对数据的概要分析,是整个项目实施的重要前提,概要分析包括对待抽取的实际数据进行分析和评估、了解数据的格式和内容。在实践中,概要分析通常可以识别出实际数据与期望之间的重要差别,发掘缺失文档或数据,及时调整项目需求,将目标数据中可能存在的潜在问题对项目的影响降到最低。

三、高校决策支持服务平台的设计与实现

所谓高校决策支持服务平台,是整合了高校业务系统数据库和前端数据应用功能,实现高校大数据一体化分析和展示的解决方案。其框架主要包括源数据库、数据融合、数据存储、数据应用、数据访问,如图2所示。

1.源数据库

高校业务范围广泛,各部门之间的业务管理系统相对独立,源数据库主要分布于教务、人事、科研、财务、教学、图书馆、校园卡、招生就业等核心业务系统。在选择源数据库之前,先对各业务系统进行需求概要分析,由于有些数据库包含敏感信息或隐私信息,在进行概要分析时需考虑后续访问和获取数据时的权限设置;确认源数据库的格式和内容是否符合预期需求,或源数据库数据是否完整,是至关重要的环节,这将涉及后续操作是否能获取到有效数据;此外,某些源数据库的数据可能存在数据混乱、需要清洗和更正的情况,此时需考虑是在源数据库中进行更正,还是将数据直接导入目标数据库后再更正。对源数据库进行需求概要分析,在项目早期是非常重要的一步,可以尽早发现数据中存在的潜在问题,对项目的顺利开展意义重大。

2.数据融合

数据融合采用统一的ETL调度平台,根据目标需求,从源数据库中选择目标数据,通过抽取、清洗、转换、标准化、加载等步骤,将数据最终加载到目标数据结构中,形成能够为决策支持服务的标准化数据。本研究所使用的数据主要为可以批量采集、处理的结构化数据,对需要实时采集的课堂教学互动数据暂不做考虑。

3.数据存储

数据仓库是历史的、集成的和一致的数据的储存库,用户可以通过使用数据仓库的各种工具提取可靠的信息,并将其用于支持决策过程。数据仓库的设计涉及从各业务系统提取数据、转换数据、集成数据、清除缺陷和不一致数据以及将数据存储到数据仓库的过程,并允许终端用户访问数据。本研究采用专门的数据集成工具以支持数据仓库的需求,使数据在数据仓库的不同层次(操作型应用层、数据仓库层、商务智能层)之间流动。

操作型应用层包含了来自不同数据源的数据,涉及各种操作型数据源的协调模式,这一层是组织的核心应用系统组合所在的层次。数据仓库层是包含各种类型数据说明的一个完整集合,数据源为协调数据库提供数据,而协调数据库为数据仓库提供数据,此时数据不再依赖源数据的结构,而是进行格式化处理以便与整个项目的数据格式保持一致。商务智能层专注于数据存储和数据访问,在数据存储方面,要适当考虑访问授权和访问追踪,以保证数据的安全性,数据访问方面,主要考虑高效性与准确性的问题。

4.数据应用

多源异构数据的融合,终极目标是利用大量可用的信息以提供决策支持。数据应用主要涉及以下两个方面:①多维分析。数据融合使高校业务管理系统不再孤岛式运作,对于学生数据的分析也不再局限于单一领域,可以真正实现对学生的综合评价。传统的大学生综合评价一般由成绩、在校表现(获奖情况)等构成,往往忽略了大学生的课外活动情况,大学是一个微型社会,光有卓越的成绩并不能完全证明是优秀的大学生。多维分析可以实现包括学生成绩、获奖情况、图书借阅情况、校园卡使用情况(上网行为、早餐时间、生活路径或轨迹等)等数据的分析和查询,更加全面地了解、评估大学生。②数据挖掘。基于高校大数据的数据挖掘可以对学生数据进行多角度的分析,如学生学习风格聚类、未来学习表现预测、上网数据监控预警等;对教师而言,教育数据的挖掘分析有利于教师调整教学计划和教学模式,根据学生分类真正实现因材施教,及时关注存在潜在问题的学生等;对于管理者而言,可以从宏观上把握高校整体情况,包括招生就业、科研、财务、人事等,都可以进行有效且及时的宏观把控,为高校决策提供强有力的数据支持。

5.用户访问

用户访问为用户提供对数据仓库的浏览、请求、存取等服务,本研究主要使用可视化软件为用户提供可视化展示。图3和图4分别是高校招生数据和科研数据的可视化展示,使用Tableau软件实现数据的可视化功能,该软件有一个巨大的优势,即可视化展现的同时,用户可以与数据进行互动,实现数据筛选、数据聚焦、数据详情展示等操作,并能够根据数据仓库中数据的更新变化实时更新可视化效果,保证数据展示的时效性和高效性。

四、总结与展望

大数据时代背景下,对高校数据的分析挖掘和使用已经非常普遍,但大部分研究主要集中于单一业务系统,如学生在线学习行为数据分析、学生成绩数据关联分析等。本研究以多源异构数据源为基础,使用数据集成方法将各业务系统的数据进行融合,为高校决策发展提供更为强有力的数据支撑。该服务平台并不是简单的数据堆积、数据呈现,而是以需求概要分析为驱动,根据各业务系统产生的实际数据进行有效的数据抽取和集成,在数据呈现方面根据实际业务需求,进行可视化展示的不断调整和更新。

目前,由于高校业务系统数据库的复杂性和多样性,以及部分业务数据的权限设置,尚不能实现所有数据的集成和展示。但随着技术的不断进步、需求的不断增加,该服务平台的数据范围和功能将不断完善和改进。

参考文献:

[1]教技[2012]5号.教育部关于印发《教育信息化十年发展规划(2011-2020年)》的通知[Z].

[2]陈云.高校数据仓库系统建设与应用[M].上海:上海科学技术出版社,2017:5-7.

[3]余鹏,李艳.大数据视域下高校数据治理方案研究[J].现代教育技术,2018(6):60-66.

[4]李振,周东岱,刘娜等.教育大数据的平台构建与关键实现技术[J].现代教育技术,2018(1):100-106.

[5]杜婧敏,方海光,李维杨等.教育大数据研究综述[J].中国教育信息化,2016(19):1-4.

[6]王晓明.高校信息化建设问题探讨[J].海峡科学,2017(2):68-70.

[7]胡敏强.适应性创新模式助力高校信息化建设[J].中国教育网络,2017(5):54-55.

[8](美)April Reeve著;余水清,潘黎萍译.大数据管理:数据集成的技术、方法与最佳实践[M].北京:机械工业出版社,2014.3:20-21.

(编辑:王天鹏)

猜你喜欢
数据融合决策支持系统可视化
护理临床决策支持系统的理论基础
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
临床决策支持系统应用于呼吸疾病的现状概述
电务维修决策支持系统研究
县级防汛辅助决策支持系统的设计与实现