阴成林
辽宁建筑职业学院,辽宁 辽阳 111000
数据中台是规范数据标准、提升数据质量、整合现有资源,以此达到系统间数据无缝对接的一整套综合管理平台[1]。主数据管理是从多个业务系统中收集和整理最核心、最权威的数据,再将这些数据分发到全校需要使用这些数据的部门和应用系统。
主数据中台能使系统数据集中化管理[2],在各个业务系统间保持数据的一致性,增强数据合规性并能够快速部署到新增的业务系统上去。从学校建设的角度来看,主数据管理使业务系统对接更加灵活方便,数据管理基础和相应规范全校统一以后,能更好地适应相关业务的变化。
随着高校信息化数十年的建设与发展,高校基本上形成了以“人、财、物”为服务对象的各种业务/应用管理系统,也因此积累了以“人、财、物”为核心的业务数据。但这些系统在建设时间、建设厂商,甚至开发技术都不同的情况下,凸显出了一些问题,如数据库不同、没有统一标准、数据冗余问题突出、数据孤岛分享难、没有高质量数据等,导致有些数据成为无用数据。也正是这些问题使得智慧校园建设在底层数据通道方面存在不少障碍。
但是现代高校教育行业的发展决定了对这一系列问题的突破需求,智慧校园建设需要对数据的交换共享[3],需要对校级代码标准使用的统一,需要高质量的数据沉淀,需要构建更便利的数据开放条件以解决数据获取困难的问题,更需要日益重视的数据安全,等等。这一切是高校在数据治理建设过程中充分闭环的数据生态。
目前多数学校智慧校园已经初步完成,校园网络[4]基础已经很完备,基本完成以“人、财、物”为管理核心的部分业务系统建设。并且已经成为学校软实力并在实际应用中经得到了很好的效果,为学校下一步信息化建设夯实了基础。根据学校的自身情况围绕业务系统进行了分析和整理,积累了大量相关数据。为了满足当今快节奏的校园信息化建设,满足各种数据统计、人物画像、业务流程、数据挖掘、教学办公应用建设等业务。数据的沉淀和共享起到了桥梁作用,也是整个数字化校园的闭环核心点,使得数据在校级生态圈中的价值越为突出。信息化建设在大量人力物力投入下,满足现有校务管理需要是第一步,所有业务系统的数据通过科学的分析与整理,对教学和管理中存在问题有了充分了解,从而提高了学校整体管理水平和教学质量[5],更好地掌握学校管理现状,增强学校竞争力。
随着信息化的不断发展,学校数据管理平台也日趋成熟,校内各业务系统间数据已经可以互相共享,完成基础对接,解决了由于业务系统分散而造成的数据孤岛、数据割裂等问题,为学校的信息化建设筑牢了基础。因为信息化建设时间比较紧,数据的质量和管理得不到很好的保障,引发了一系列问题,为学校后期信息化建设带来隐患,目前学校的“数据沉淀和数据共享服务”[6]还存在以下不足。
学校业务线繁多,数据分散存放在各个由不同厂商、不同时间、不同开发语言、不同数据库类型的系统中,没有一个统一的数据标准,数据在业务系统之间无法很好地完成交换共享,信息孤岛严重。同时,学校有了一套数据标准,但没有实际落地,数据缺乏整体规划,且学校内部缺少有效的管理工具和管理机制,造成各业务系统仍是按照自有标准进行业务建设和运行,没有一套完整的数据标准体系。随着职业教育越来越受到重视,学校规模和管理形式也在不断发生变化,基础数据没有得到及时更新,老旧冗余数据得不到及时清理,数据动态更新延迟。从而带来业务上的损失。例如:新生数据不能及时和学校各个部门统一共享,导致新生报到效率低下,增加学校在新生接待这方面的人力和财力的投入。对在校学生也有不同程度的影响,学籍变动、个人信息更新等等都存在一些潜在的危险。
学校内部,原则上每一项数据应该有一个明确的业务归属部门进行管理,如人事处产生职工数据,财务处产生财务数据等。但在实际管理场景中,常常出现“多头数据来源”的情况。以学生数据为例,系统中学生清单没有统一的权威数据,均由各系统单独生成和维护,当有数据更新的时候,其他系统并没有共享机制及时同步更新,经过一段时间运行,各个系统数据的差异就愈加明显,难以明确哪一份数据是完全正确和完整的,大部分学校都存在数据不准确、数据重复等问题。例如,学生处和教务处对同一名学生的信息不统一,各二级学院不知道以哪份数据为准,造成业务迟缓,降低了办事效率。人事、科研等部分业务系统都是根据自己的业务制定的机构代码,这样就导致部分老师不清楚自己归属那个部门,导致办事流程出现问题。
随着学校对教学和日常办公管理的认识,学校领导能够充分认识到数据的重要性,经常用数据来衡量学校里的一些问题并采取相应办法改善学校整体状况。由于业务系统需求不同,所以对数据的质量[7]要求也不尽相同,在填写基础数据时候也没有严格的标准体系,最后好多无用数据充斥在学校业务系统之间。这样的数据严重影响业务系统正常运行,占用数据内存。现在疫情当前,各个学校问题就比较突出,学校发出通知后学生回应不及时,有时候甚至接收不到信息,原因是学生电话号码发生变化,信息统计不到位而导致的。学生银行卡信息发生变化,二级院已经做出修改,可是数据没有及时和学生管理部分进行对接,导致学生奖学金、学费等收取不及时。所以我们收集完整数据不是最终目的,我们收集完整准确的数据才是我们最终的结果。
随着智慧校园和数字校园的建设,数据的重要性也日趋让人们所认识,但与此同时,数据安全问题却频繁暴露,如果不严格管控,可能造成师生隐私信息的泄露和学校内部数据的泄露,这样会给师生和学校的安全带来隐患。例如学生的身体和心理状况等信息,这都是属于学生的个人隐私,一旦泄露会给学生和家长造成很大的心理负担;教职工的电话号码等个人信息一旦泄露,被一些不法分子利用,有可能会在经济或精神上造成损失和影响,数据安全是数据平台的重中之重,容不得一点马虎。
高校各部门由于管理业务的需求,经常需要用到其他业务部门生成的数据。但一项管理工作往往要协调多个业务部门的多项数据,并耗费大量精力去整合去重、数据清洗。各个业务部门会被如此频繁而多变的需求弄得筋疲力尽;而且整个数据共享机制也不规范,往往需要数据使用方通过线下方式提供需要的数据字段,然后给到业务部门或者数据中心去封装接口[8],进行授权使用。这样的数据共享方式会导致数据使用不规范、线下处理步骤难监控、数据使用率低下、数据接口封装工作复杂、数据使用过程无法监控、人员发生变化时数据发生故障难以排查等问题。
学校在全面规划和发展信息化的过程中,因为时间或是资金等问题,一定会有某些业务管理功能缺失或业务系统还未建设。这部分数据可能业务量小,工作人员直接用Office办公软件直接处理。这部分数据如不能做好交换共享工作,将导致数据间歇性丢失,无法挖掘分析相关知识,数据质量混乱,长此以往最后数据很可能不能使用,成为废数据。
数据中台能够为智慧校园各个应用系统提供高质量的数据资源,也可以为新增的应用系统制定数据标准,对校内不同层次的数据进行整合和机构化管理,最终可帮助学校进行深层次数据挖掘。为学校进行统一的数据资源与交换应用服务的平台系统,还包括数据交换平台。其是实现智慧校园数据共享,提供深层次数据挖掘、数据分析的重要基础。
数据中台的建设是以《学校信息化数据标准》为基础,明确数据接口规范,建立统一数据标准,确定责任划分,建立行之有效的管理体制,保证数据的有效性和准确性,杜绝无用数据。让数据中台系统成为学校的第二档案室,随时可以为学校提供所需的基础数据,并且可以保障后续建立的应用系统,数据是迭代增加而不是重复增加,使数据始终保持一个有效整体,不是分散保存。
数据中台将任务进行分散计算,完成后将得到的结果进行核对汇总,把最为准确的数据进行存储,这种模式称为MPP建构。基于MPP架构的分布式数据库GreenPlum,支持结构化存储、非结构化存储能力、分布式存储、批计算功能。
数据仓库对整个数据中台来说是重中之重。这里采用分层设计,主要将数据分为四个层次,分别是贴源层、标准层、主题层和数据服务层,前三个层次属于数据仓库。
贴源层是三层数据仓库的第一层,这一层主要用来接收源数据,让数据有一个缓冲,使数据落地前后能尽可能基本保持一致(需要加两个字段:数据来源字段和数据抽取时间戳字段)。要避免对贴源层的数据做复杂的处理,以保证数据源数据的快速抽取而减少对业务系统的压力。同时后续对数据进行处理甚至是重复处理,这些处理完全可以独立于源业务系统,最大程度保障业务的正常运行。
标准层是三层数据仓库的第二层,这一层可以理解为数据基础模型层,主要是为了对外提供共享标准化的数据[9]。它的数据来源于对贴源层数据的标准化、清洗。该层模型是在高校数据标准制定过程中,以业务板块和业务过程为指导进行构建的数据模型体系。一般高校中的业务板块和业务过程主要包括教职工学生信息、教务教学管理信息、科研管理信息、后勤保障管理信息、固定资产管理信息、财务管理信息、OA办公信息、党政办管理信息等。
主题层是三层数据仓库的第三层,这一层主要面试数据主题分析,是对已经完成数据标准化和清洗的标准层数据进行指标萃取分析挖掘而成。一般而言,高校中的分析主题包括学生主题、职工主题、专业主题、学院主题、资产主题、科研主题、课程主题等。
数据服务层也称数据商店,可以接收上面三层数据仓库中发来的数据。数据使用者则可以通过数据商店像浏览商品一样根据自己的需求去申请、使用相关的数据。数据商店的使用保障了高校数据交换共享从线下搬到了线上,规范了数据使用流程,提高了数据使用效率,有利于数据价值的推广,解决了高校数据获取困难的问题。
如果没有一套完整的数据标准,学校信息化就成了无源之水,注定发展会受到制约。数据标准的建立会给校内应用系统制定完整的数据准则,包括理解和识别,在数据库设计时候提供设计依据,为业务系统间数据交换和共享打牢基础。信息标准确保数据在录入、分析和共享的过程中有统一、可靠分类和中文语义,能够使信息充分利用,增加信息的有效性,降低系统整合的成本,保障信息共享和各类分析的准确性。
数据同步工具是高校数据中心建设的先决条件,高效、稳定、灵活、简易的数据同步工具是数据集成的保障。锐捷主数据管理平台数据同步工具是锐捷专为高校数据集成场景而自主研发的一款数据同步工具,它采用星型数据链路架构,可平滑支持多种异构数据源的数据同步采集工作,其高拓展性灵活适应高校数据中心建设的长期规划。锐捷主数据管理平台的同步工具采用B/S架构的操作界面,用户可直接在平台内浏览器上进行零代码点选操作,降低了高校数据集成的难度,提高了高校数据集成的效率,降低了高校数据中心建设持续运维成本。
数据治理包括数据标准化工具和数据清洗工具,是高校数据治理的利器,它能够实现高校非标数据的标准化,统一高校数据的含义。只有高质量的数据才能保障在深挖和交换共享过程中具有可靠性,数据治理对数据来说非常重要,可以保障数据的准确性和完整性。
数据抽取、数据标准化、数据清洗都是通过一个个独立的任务实现高校数据的集成和治理,这样的方式有诸多缺点:效率低下、规范性差、协同困难、监控零散,最终导致整个数据治理事倍功半,甚至半途而废。为此,锐捷针对高校数据中心建设场景,自主研发了专为高校数据治理的工作流系统,工作流主要是B/S架构[10],客户只需要在界面上点选任务进行配置即可稳定运转;流程比较统一,客户无需培训即可理解使用方法,并且规范了工作流程的设置,减少了出错概率,保障了高校数据治理工作的高效稳定持续运行。这样不仅简单而且可以实现全面监控,提升执行力。管理人员随时可以查看数据治理进度,分析执行情况,掌握当前任务状态。
建立可视化监控中心,可以随时监控系统运转情况和数据抽取情况,数据质量和数据交换情况也能得到及时反馈,问题一目了然。主数据管理平台的可视化监控中心以动效流动的方式展示高校数据集成、标准化、清洗、入库、共享的全过程,使整个高校的数据脉络尽掌于客户心中。并且通过数据建模综合评估系统的健康指数,直观地展示系统的健康状态,让管理人员综合感知系统的运行状态,做到心中有数并合理利用系统资源。最终目的是为了提高整个高校的数据治理效率、挖掘数据价值、消除学校在综合治理和教学过程中一些突出问题。
建立资源目录,采用目录化的方式对高校数据资产进行全景式的管理。它以主题域的模式提供了多层次的目录展现,并且具备数据字段控制功能,满足校内应用系统使用、管理、交换、共享等多种应用场景。通过数据资产目录,客户可以整体把控高校数据的用途和走向。通过资源目录,可以轻松应对高校各个部门频繁而多变的业务需求,无需每次都漫天地寻找数据。总之,数据资源目录是高校的一种信息门户入口。
综上所述,在智慧校园建设初有成效的当下,建立职业院校主数据管理平台势在必行,我们通过平台的建立, 要让广大师生受益体会到智慧校园给他们带来的便利,我们要建立全校性标准的数据中心,实现全校信息标准统一,为所有部门提供高质量数据,完成任意业务系统之间的数据共享,随时为领导和有需要部门提供学校全面信息数据,为学校将来发展决策提供强有力的支撑。