房晓阳 肖长水
(苏州市职业大学信息中心,江苏苏州 215000)
随着疫情的不断发展,高职院校常态化和持久化的防控对相关信息化建设提出了更高的要求,如何采用科技手段进行低成本和无感知的防控是摆在教育信息化工作者面前的一道难题[1-4]。疫情期间的信息化建设基于以往的智慧校园建设内容,防疫应用并非是独立于智慧校园体系之外的,而是与前期的建设相辅相成、密不可分的[5-8]。以苏州市职业大学为例,前期已经积累完成了学工、人事、一卡通、宿舍、辅导员(请假、考勤和查寝)系统,对于人员信息的掌握已经能够达到常规的管理要求,不过,要能够对单一人员的精准信息管理还需要融合多个系统的业务功能,就之前来说,实现的难度和代价都是较高的。
因此,本文结合苏州市职业大学利用信息化手段辅助抗疫的例子,阐述了基于数据中台构建疫情防控应用体系的工作,同时也总结了其中的不足之处,试图深入挖掘数据中台在其中发挥的价值和作用,为今后高职院校相关的应用实践走向规范提供借鉴与参考。
信息中心作为统筹信息化建设的部门,在本次疫情防控中遇到的问题主要有:
疫情防控在高职院校内是一种综合性的应用,需要整合各个业务条线的数据,教师和学生基础信息、学生在校状态、学生请假、人员人脸照片、上网数据、各种刷卡、打卡记录。整合后的数据需要进行清洗和转化,具体来说,数据整合存在一定困难,体现在几个方面:
(1)不同系统存在架构不同,部署方式不同(本地、云端)、建设时期不同导致的文档资料完备程度不同、提供数据的方式不同等。
(2)疫情期间上线了大量软硬件项目,需要对这些软硬件系统产生的数据进行采集;同时,这些系统也提出了数据的需求,例如校门、宿舍的门禁需要获取高质量的学生、教师照片来进行人脸识别算法特征的获取。
(3)数据标准不同,数据的质量差,如今数据作为一种资产已经成为共识,但是要真正发挥数据价值,还需要提高数据的易用性,而易用性的基础就是数据的质量。
数据的使用困难主要是数据的共享方式、来源过多和数据质量导致的:
(1)中间库与ODI、定时任务。以往的系统与系统间的数据共享方式大多采用中间数据库的方式,利用定时任务、ODI等集成的产品,进行数据库到数据库的同步,这种机制技术细节都掌握在厂商手中,院校的数据主管部门很难对这些同步作业去进行监管,出现的问题如果没有及时处理导致数据的不准确问题积压,久而久之,使得数据变得不可信。
(2)同一个数据项,存在多个备份。由于数据的同步过程缺乏监管,导致了同一个数据项可能在多个系统中都存在备份,会形成以哪方的数据为准的新问题。此外,由于早期数据孤岛的存在,一些公共数据可能在很多系统中都存在备份,而这些备份可能是不完全相同的,这也会造成数据难以利用的问题。
(3)质量低下,错误多。以上两点都会导致数据质量低下,数据难以利用的问题,另外一种常见问题就是手工导入导出,由于人工操作不可避免的疏忽,也会增加数据出错的风险。
智慧校园建设以来,苏州市职业大学积累了海量信息数据,但现有数据相对分散、标准不完善、共享形式单一、质量较差、难以利用。为了提升数据共享和数据资产管理,我校于2019年启动了数据中台项目,将各个业务部门的数据进行汇聚,首先形成ODS(贴源层),经过一定的数据清洗、加工后,再按照主题进行归类,形成全校级的数据仓库,最后根据业务场景细分,建成数据门户。使用方在有数据需求的时候,可以浏览数据门户,提出申请或需求,通过中台提供的标准化的方式进行接入,方便获取数据。数据中台架构如图1 所示,包含以下几个功能模块:
图1 数据中台架构Fig.1 Data center architecture
(1)交换平台与数据湖:交换平台负责交换作业的编排、部署、调度监控、数据服务的定义、路由和监控等功能;数据湖包含了通过集成得到的结构化、文件数据、日志数据等全量数据。
(2)资产平台:资产平台是对采集到的数据进行数据资产编目的过程、主要体现在对于元数据的采集和管理,数据编目后关联到部门,形成数据资产。
(3)服务平台:服务平台主要是可以针对资产平台和交换平台形成数据接口服务,针对服务可以进行权限管理、版本管理、注册管理和认证管理等。
(4)数据门户:数据门户是面向一般用户可以开放的平台,可以让管理部门查看自己的数据资产,也可以将数据申请、数据需求的流程放置在此平台上,门户的设计隐藏了技术细节,使用更加能够让普通师生可以理解的设计方式。
(5)管理规范:数据中台能够发挥作用,最重要的是形成数据的管理规范,包含了数据标准、数据的质量规范、数据责任部门、共享规则,申请使用流程等内容。
人脸识别由于其无接触式的优势,在本次疫情期间被我校广泛应用在校门和宿舍的出入门禁闸机系统上,取代了传统的一卡通或人工验证方式。在及时构建人脸识别应用系统中,数据中台发挥了很大的作用,依赖于其赋能作用,将底层系统的基础数据快速的共享下发给应用建设的厂商,而人脸识别最为关键的人员照片问题,也通过数据中台的数据集成和数据处理得以实现。
以我校建设的防疫应用为例,整体架构如图2所示,可以分为三个层次,分别为采集层、中台层和应用层。
图2 防疫应用整体架构Fig.2 Main architecture of epidemic prevention application
采集层主要负责对异构的数据源进行采集,涉及到的信息主要是来源于一卡通、学工、人事和教务系统的人员基本信息,采集方式主要是定时任务读取数据库的方式;而照片数据主要来源于各个系统中的照片文件,但是这些照片往往质量不佳,无法达到人脸系统算法读取特征值的要求,因此在本次疫情期间,上线了照片采集器,可以让师生自主去拍照传入系统,而采集器的后台系统支持通过增量的API接口提供给数据中台照片的数据。
首先,中台层将获取到的数据进行数据清洗、数据集成和数据归约,通过定时任务和数据集成工具,综合几个系统提供的数据来源,采集到数据仓库中。
其次,中台层需要对数据仓库中数据进行转化,便于提供给应用层使用,照片数据可以转化为文件、base64和二进制等多分辨率的多种形式;人员数据和住宿数据只保留在籍学生和在职教职工的数据。
最后,通过中台层开放出去的数据接口,对于用户(应用厂商)来说是不需要知道数据来源的,用户只需要提出数据的需求即可,而中台也可以对数据接口的调用情况、吞吐流量情况进行管理和监控,对于出现问题的接口及时进行处理,从而保证业务的稳定。
应用层的应用可以通过主动方式从接口获取数据,也可以提供接口或者数据源被动接受数据。人脸识别应用推荐接入采集器采集到的照片数据,如果该人员未进行过照片采集,则自动降级为一卡通系统的照片,由于采用中台架构,因此后期如果数据源发生变化,都可以很方便的进行无感知的切换;由于疫情防控要求,本地公安局要求自动推送在籍学生的基本信息,通过数据中台已经归集到的数据,得以快速实现此需求。
另一方面,门禁系统既是数据的消费方,也是数据的生产方,其本身产生的刷卡数据也会被数据中台采集,而师生的进出数据可以用来作为判断其是否在校、是否在宿的重要数据来源,结合其他刷卡设备、安防摄像头识别,更是可以基于校园地理信息系统绘制出校内人员的行动轨迹图,为疫情防控提供重要信息化支持。
就本轮疫情以来的信息化实践来说,从内部和外部两个方面来分析不足:
就数据中台自身来说,首先,数据中台能够发挥多大作用,在于其汇聚的数据的数据编目有多大,更在于数据的质量的高低,也就是提供出来的数据是否是可用的,要保证这一点,需要有一个有效的数据管理规范和数据质量标准,而信息管理部门需要提升业务素质,毕竟数据离开了业务,也只是无源之水,无法发挥其价值;其次,作为上游应用所依赖的数据来源,数据中台平台自身的稳定新毋庸置疑是摆在首位的,平台自身的集成任务、交换任务包括所提供的数据接口都需要提升自我纠错能力,能够对发生的错误进行及时的反馈和预警,便于技术人员第一时间干预解决;最后,数据作为一种重要的资源,需要在使用过程中保障其安全性,防止数据泄露,所以数据接口需要有验证机制,防止非法的访问,同时在传输过程中,可以使用加签机制,防止数据的意外篡改,另外,在一些敏感的隐私数据的处理上,可以采取脱敏的处理方法,加强对特定数据的防护。
对人员数据信息的把控还不够全面和精细,目前校内的认证系统主要有三种:(1)一卡通;(2)上网认证;(3)通道闸机(校门、宿舍、图书馆等楼宇),对于教职工或持有一卡通的其他类别人员来说,可以有效通过上述几种认证方式关联到其真实的信息,而对于其他类别的临时人员,如快递人员、临时后勤物业人员,兼课与兼职人员,这些人员的管理主体在不同的业务条线上,缺乏统一的系统对其身份进行把控,这一点也凸显出以往智慧校园统一身份认证的一个盲点,也就是对于一些不需要或少量使用校内系统的人员,是没有统一身份认证账号的,他们的身份系统如果在将来能够有效进行信息化管理,则可以大大加强学校对于人员管理的颗粒度。
随着教育2.0行动的不断深化,智慧校园建设也面临着更精细化的需求,在这种背景之下,本次疫情如同一次测验,真正考验了高职院校的信息化建设水平。本文探讨了基于数据中台的疫情防控体系建设的必要性、具体实施和不足之处,从中可以看出,中台架构提供了一种技术上的解决方案,有助于降低管理成本,实现精准施策,因此,在未来的规划中,更应该侧重于运用数据中台的赋能作用,切实筑牢高职院校疫情防控铜墙铁壁,同时也可以提升人员管理水平。