张英伟,温守东,胡宇航,龚硕然
(河北旅游职业学院,河北 承德 067000)
随着信息技术的快速发展,高校信息化建设过程产生的数据量呈指数级增长,数据治理工作也随之进入大数据时代[1]。数据质量是高校数据治理的重中之重,只有高质量的数据,才能给学校的发展带来高效率和高价值[2]。数据治理是解决数据质量低、数据流混乱、共享度差、历史数据缺失等问题的必要措施,通过有效的数据治理能够在师生管理、教学、科研等方面更全面地服务于高校发展,使师生充分享受大数据带来的个性化数据服务[3]。数据治理为高校组织应对大数据挑战提供了理论工具和实践途径[4]。
自进入二十一世纪以来,西方发达国家十分重视高校的信息化建设,以美国为例,哈佛、斯坦福、伯克利等高校每年对学校信息化建设投入均不低于年度预算的8%,信息化人员队伍不低于全校师生总数3%,大多高校有着完善的信息化管理体系,建立首席信息官(CIO)制度,CIO职位由学校领导担任,积极推动和实施学校的信息化建设和治理工作。
总体来讲,美国高校信息化建设和数据治理的发展趋势主要体现在高校信息化系统由功能简单独立系统向多领域融合的巨型系统发展,数据治理日趋复杂并具有不确定性;高校信息化建设是一项重大的系统工程,政府及行业的前瞻性政策和战略研究对高校信息化发展尤为重要;高校的信息化建设涉及到学校管理架构的变革,渗透到高校发展的方方面面,教师、学生的诉求在信息化建设中得到充分体现。
与发达国家相比,我国高校信息化建设起步较晚,但经过近二十年的信息化建设,我国高校大多也完成了由网络校园向数字校园的转型,基本实现了数字教育资源的共享与利用,各高校在教学、科研、招生、就业和行政管理等方面也得以提升。近年来,随着新兴信息技术的崛起,已经完成数字校园建设的高校又逐步开展了以大数据、物联网、云计算为基础,以各种应用信息系统为载体的智慧校园建设,但由于各高校在由网络化向数字化转型过程中积累的海量数据未得到有效的处理,各高校的智慧校园建设水平参差不齐。
为提升高校信息化建设与应用水平,支撑教育高质量发展,教育部联合多部委于2021年制定了《高等学校数字校园建设规范(试行)》和《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》文件,对高校数字校园和智慧校园建设提出新的要求,以标准规范促进教育信息化支撑引领教育现代化发展,为各高校在信息网络、平台体系、数字资源、智慧校园、创新应用、可信安全等方面建设指明了方向。在国家和政府的大力支持下,高校管理决策层对学校信息化建设的重视程度越来越高,经费投入也逐年加大,截至2020年底,我国高校平均每年在学校信息化建设和数据治理方面投入近千万元。随着大数据、物联网、云计算技术在高校信息化建设中的应用,预计在“十四五”期间高校信息化投入可能迎来爆发期,信息化建设也将再度升级。
与本科高校相比,高职院校在信息化建设过程中存在着办学背景复杂、校园建设规模小、信息化技术落后、信息技术人员缺乏、技术管理不规范等问题。大多数高职院校在数字校园向智慧校园转型过程中存在着数据标准不统一、数据采集困难、数据ETL(抽取、清洗、转换、装载)过程不规范、数据共享难度大等数据治理问题,这些问题严重影响着高职院校的课堂教学、学生管理、教学诊改、质量评估、人事绩效考核、招生就业、校企合作等工作的有效开展。因此笔者认为,只有通过数据治理才能保证高职院校顺利完成数字校园向智慧校园的转型,保证高职院校的数据价值在规范性、准确性、一致性、高效性方面的实现,进而为师生提供更好的数据服务。
(1)组织领导。数据治理的本质是针对数据价值实现与数据风险管控的平衡而进行数据决策权和职责的分配,数据治理要持续推进必须要有坚实而完善的管理制度体系做支撑。学校要建立信息化建设委员会,CIO(首席信息官)由学校主管校长或书记担任,委员会成员要覆盖学校各系部、行政部门、业务部门领导,委员会可设立信息化领导小组和专家咨询小组,组成信息化建设和数据治理的领导、决策、监督和评估部门,保障学校数据治理工作顺利开展。
(2)部门合作。数据治理不是由学校电教中心或信息技术部门单方面完成的工作,学校各教学系部、行政部门、业务部门均需要跨部门合作,参与数据规划、数据标准等需求的制定,信息技术部门根据各部门制定好的需求,为数据治理实施工作提供技术支撑。
(3)队伍建设。学校数据治理工作想全速推进,必须要大力培养或引入专业技术人才,保证技术人员结构的稳定性,通过破格录用、待遇提升、职称优评等方式吸引并留住更多的技术人员参与到学校的信息化建设和数据治理工作中。
(4)校企联合。学校的信息化建设和数据治理工作不能闭门造车,只有积极的与高新技术企业共同合作、共同开发、共同成长,将新兴的大数据、云计算、物联网技术应用到智慧校园的建设中,才能做到合作共赢、与时俱进。
高职院校在由数字化建设过程积累最多、最有价值、最有待挖掘的是数据。从数据中发现有价值的信息,深入挖掘、综合利用、为学校师生提供高效的服务,才是学校数据治理真正价值的体现。从管理的角度来看,如何进行业务流程的梳理,提高数据质量,是学校数据治理最重要的工作之一,但由于数据标准不统一、数据不准确、数据缺失、数据不能共享等问题,导致数据统计困难和数据孤岛的产生。要解决以上问题,就要制定标准的数据治理流程(图1)。
图1 数据治理流程
(1)治理数据源
在数字校园建设过程中,数据分散在不同的部门和业务系统中,由于各系统软件设计不一致、操作流程不规范、数据标准缺失、管理流程混乱等问题严重影响数据的质量,只有建立数据标准,才能实现数据的有效整合和应用。
首先,要制定数据标准规范体系,主要包括数据标准执行规范、元数据管理规范、数据访问安全规范、数据集成与共享规范、数据质量保障规范、数据接口与调用规范、数据存档操作规范、数据开发设计规范、数据权限认定规范和软件操作流程规范等文件,只有建成数据标准规范体系才能为建立大数据池和一体化大数据平台提供基础支撑。
其次,要形成数据考核评价体系,主要涉及数据标准执行考核评价、数据质量考核评价、数据安全考核评价、数据管理与维护考核评价、数据交换与集成考核评价、数据存档考核评价等内容,考核评价体系的建立为数据源的有效治理提供有力的制度保障。
最后,要根据以上数据标准规范和考核评价体系,加强对学校各系部和业务部门的调研并确定数据源的范围,包括电子类数据(如各业务系统数据、网络设备数据、校内外网站数据、移动APP数据、校园监控数据等)和纸质数据(如校友信息、学校校史档案、纸质教案等)。确定数据源范围后,数据治理人员应对数据源进行鉴别,监测数据质量、收集各类数据源的元数据信息、梳理数据源的数据结构、确定各类数据源之间的数据流向,为建立校级大数据池打好基础。
(2)建立校级大数据池
通过对各类电子数据的采集、清洗、装载和对纸质数据的转换与整合形成标准的、规范的、全面的校级大数据池。大数据池内涵盖了学校的教学、财务、后勤、学管、科研、诊改、人事等标准化的基础数据。
建立大数据池的第一步是要进行数据采集,根据已制定的数据标准规范采集学校的教务系统、图书馆管理系统、招生就业系统、学生管理系统、人事管理系统、财务系统等业务系统后台数据库数据;通过网络爬虫、Flume等技术对校园论坛、校外招聘网站、网络课堂等日志数据进行爬取和采集;利用电子扫描、智能识别等技术将校友信息、学校校史档案、纸质教案等纸质数据进行电子转化;将网络设备数据、监控数据等通过Socket、ftp等技术进行采集。
第二步是进行数据的ETL(抽取、转换、装载)操作。首先要根据各业务系统、网站数据、纸质数据特点确定各类数据的抽取频率,对于实时性要求较高的系统数据可将抽取频率设置成为按毫秒、秒或分钟频率抽取;离线类数据,如学生信息、教工信息等可适当降低数据抽取频率,如设置成为按日、周、月或季度等频率抽取。数据清洗是通过删除错误数据、降低数据冗余度、提升数据结构一致性等操作来提升数据质量,例如在统计学生信息时学生的身份证号码信息可能出现位数错误,学生姓名可能出现空格等问题,这就需要通过位数限定、保留数字、转换字段、字符串替换、空值检查、缺失检查、值域检查、大小写转换、去空格、行列的拆分与去重等数据清洗算法保证同类异构数据的数据结构标准统一。数据转换是指对各业务系统数据库中的数据,纸质电子化数据进行转换,数据转换要提供数据格式修正、日期与时间转换、度量单位转换、字段解码、字段分离、同类异构数据合并、键值重构等操作,保证数据之间的快速流通。数据装载就是把已经通过采集、抽取、清洗、转换的数据加载到各类数据库中最终形成校级大数据池,数据装载的方式有批量式加载、单条数据加载和数据刷新等形式,加载过程一定要支持各业务系统的运行过程中实时装载。
(3)构建数据仓库与数据集市
经过ETL处理后的数据,根据数据类型和后期应用特点分类存储在Hadoop分布式系统集群的数据仓库中,为后期数据可视化中各类应用提供服务。其中结构化数据,如学生信息、教工信息、财务数据、图书馆管理数据主要存储在MySQL、Hive数据库中,半结构化数据和非结构化数据,如监控数据、教案文档、网站数据、日志数据、点击流数据等主要通过Hbase、MongoDB、Kafka等进行存储。数据仓库与各业务系统之间数据的数据流动主要是通过统一标准的API(应用程序接口),如ODBC/JDBC数据库接口、XML数据接口、Web Service进行数据同步处理。
数据仓库的建立解决了学校海量数据分布式存储问题,但数据治理的目的是改善学校师生的数据体验问题,实现“数据多跑路,师生少跑路”,因为师生的日常数据需求是不断变化的,学生和教职工因为角色不同对数据信息的需求也不相同,这就要求数据仓库中存储的数据具有充分的灵活性,能够适应学生和教职工的各类查询和分析。为了解决需求灵活性和问题,要在校级数据仓库中建立数据集市,数据集市可以理解为数据仓库的子集,与面向全校的海量数据存储的数据仓库不同的是,数据集市主要面向特定的部门或用户群体,如面向学校领导主要存储教学质量数据、学生招生就业数据、高水平学科建设信息、教工人员结构数据和学校舆情;面向学生主要存储各类课程信息、图书信息、就业信息、移动校园信息等数据;面向教师主要存储教学信息、课程建设信息、教务信息、科研信息;面向财务人员主要展示财务报表数据、学生收费数据、学校日常收支数据;面向后勤和保卫人员主要存储日常监控数据、疫情防控数据、楼宇教室数据。数据集市根据学校师生的大多需求预先设定好模型与算法,从而满足不同角色用户对的个性化数据需求,缓解数据仓库数据访问瓶颈问题,为师生快速获取校园信息提供便利条件。
(4)数据可视化服务
数据集市的创建为学校不同类型用户的个性化需求提供了数据存储与分析服务,但这些数据大多是以数值和文本的方式显示,不能直观、友好的向师生展示数据间的关系和规律,因此需要数据可视化技术对各类数据集市中的数据进行分析与展示,数据可视化过程如图2:
图2 数据可视化过程
数据可视化可以通过使用Echart、Matplotlib、VUE等工具对数据进行图表处理,通过NLTK、jieba等工具对文本数据处理。数据可视化工具的利用可以将学生画像信息、学校舆情、就业指导、科研与学科建设、慕课学习、校园数据安全、数据搜索、移动校园等信息通过网站、移动端APP等媒介直观个性化的展现给学校师生。
(1)学校对数据治理重视度不够。现阶段大多数高职院校都是校领导挂名,信息技术部门牵头推进数据治理工作,学校各系部、行政部门和业务部门对数据治理了解程度和支持力度不足。要实现数字校园向智慧校园的转型,学校决策层必须将数据治理作为学校信息化建设的“一把手”工作,只有建立符合国家和行业的统一数据治理标准体系和责权体系才能调动各部门的积极性,推进数据治理工作持续快速发展。
(2)信息化建设对学校重要事业支撑不足。高职院校的数据治理工作极大的提升了数据质量,但学校对数据挖掘和利用还不够深入和全面,特别是对涉及到学校的重要事业,如高水平专业建设、教学能力提升、教学质量评估、学生就业等工作的数据支撑力度明显不足。
(3)对数据安全和数据监控的管理能力有待加强。数据治理的目的是提升数据质量,为师生提供更好的数据服务。但部分高职院校因为信息技术人员过于依赖现有的系统环境、人员素质及管理机制缺失、数据安全保护意识不强等问题,使学校的数据安全难以得到保障。只有通过对用户权限控制、数据脱敏、用户身份认证等方面的管控,加强对数据采集、清洗、转换、整合、装载过程中的监管力度才能保证数据质量的提升,降低学校数据安全风险。
(1)数据获取与数据存储方式的变革。物联网技术的发展让高职院校数据的获取方式产生了巨大变化, RFID(射频识别技术)、二维码、传感器、监控摄像头等数据感知技术产生的数据让学校数据量呈爆发式增长,也为高校的数据存储能力额数据分析能力提出了极大挑战。云计算技术由于其具有高性能、高可用、动态分布式存储计算、成本低、安全性高、免维护等特点备受高校青睐,学校根据自身信息化建设特点,通过IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等形式进行校园的信息化建设和数据治理工作。
(2)数据服务能力提升。随着高职院校信息化建设水平的逐步提升,学校师生对数据服务的需求也会随之增加,这就要让更多部门直接参与数据流程再造和数据分析过程,充分发掘数据价值,通过更加广泛的数据采集和数据完善方法,不断的优化大数据分析算法和模型,丰富数据治理可视化方式,提供对移动端数据支持,不断完善移动端APP和网上服务大厅的应用,促进数据服务能力的高效提升。
(3)数据共享持续推进。高职院校要以数据治理为抓手,以全量数据交换为突破,从数据治理的薄弱环节(如资产、审计、综合办公等)入手,构建完善的大数据生态体系,推进全量大数据中心和一站式服务平台建设,实现数据全生命周期监控管理,稳步提升数据质量。同时要积极与高水平院校建设信息化发展联盟,加强数据共享,推进智慧校园水平的全面提升。