徐江 赵佳钐 李坤伦
摘要:高校业务系统复杂,数据交互频繁,因此统一的数据标准和数据规范是系统建设的基础。基于此,本文介绍高校数据治理的解决方案,通过数据采集、标准制定、数据共享、数据管理等模块实现高校数据的规范化管理,增强高校信息化建设能力。
关键词:数据治理;大数据技术;数据共享;数据标准
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2020)06-0000-00
0 引言
随着大数据技术的飞速发展,各行业都利用大数据分析取得了瞩目的成果,研究学者[1]们通过对大量交通场景数据分析,研发出能够自动识别路况的无人驾驶汽车;医学专家[2]通过对大量患者细胞分析,研究出能够准备识别癌变细胞的算法。而在高校中,大数据的作用体现在数据的集成、共享是否符合一定的规范,对校内数据的管理是否便捷,大多数高校仍然保持着传统的数据维护模式,需要数据时直接与负责单位沟通,编写的独立的odi实现数据交互,这不仅会导致数据质量不高,数据源单位模糊,更重要的是难以构建数据共享的规范,在后期运维中难度增加。因此基于大数据技术的高校治理是刻不容缓的。
1 数据治理体系结构
为解决高校传统的数据共享中存在的“数据质量差、数据流向混乱、数据源头模糊、数据冗余”等问题,我们对学校的数据中心重新建构,搭建数据治理平台,对校内的各业务系统数据进行梳理、采集、清洗、标准化规范存储和应用,实现学校数据资产的有效管理和数据的深度共享。以教学、管理、科研、人事和财务等核心业务为中心,深入分析各系统的运行情况,旨在实现各业务系统的高效配合,实现各类源数据从采集、清洗、存储、分析等过程的完整性,适应数据治理的需求。数据治理体系的结构如图1所示。
2 数据治理实现
高效数据治理类似于图书馆的建设过程,具有鲜明的阶段性,主要可以分为七个阶段:需求调研、软件部署、标准确认、集成及标准化、数据管理配置、试运行、项目验收。其中需求调研、标准确认和集成及标准化是最关键的环节。
2.1 需求调研
数据治理的目标就是更好的为各业务部门服务,而掌握用户的需求是治理工作的前提。我们线下走访了校内各单位,如人事处、科技处、教务处等,听取了各单位对于使用校内数据时存在的困难和需求,并根据各单位填写的数据需求表了解了各单位当前的数据使用情况。
2.2 标准确认
高校数据标准的制定初期,主要以教育部《高等学校管理信息标准》(CELTS-33)和本校历史遗存的数据标准作为参考,并通过实际分析建立最初的标准1.0版本。
在数据标准1.0版本基础上,通过一对一的方式反复与相关数据源单位沟通确认,根据各单位反馈的意见完善数据标准,至此能够将各单位产生的所有数据以及需求的数据囊括到标准中。同时为了增加标准的丰富性,结合学校实际业务情况,对学校以往工作中的通知公告、职称评审、年度考核和绩效考核等文件中的数据需求分析,对数据标准再次修订和完善。
在此基础上需要召开专家评审会,对数據标准进行评审论证,并针对专家提出的关键问题进行再次修订和完善,最终还需在校级会议上进行标准审议,得到最终的数据标准。高校数据标准大致包括“学生类数据”、“教学类数据”、“科研项目类数据”、“外事数据类”、“财务类数据”、“人事类数据”等数据子集,对校内各数据源单位的每项数据的标准格式和权威源做了明确定义,形成了涵盖学校教学、科研、管理、服务等核心业务的数据标准体系,为学校信息系统建设提供了统一规范,为数据共享应用奠定了良好基础。
2.3 集成及标准化
在前述中已经确认了各单位所维护的信息系统和离线存储数据,通过建立中间数据库ods、共享数据库udw实现各业务系统数据的采集、清洗和共享数据库建立。
3 数据治理成果
高校数据治理中实现了离线采集工具EXDATA、数据共享平台、数据治理工具等主要的三个工具。(1)数据治理工具为高校数据治理工作提供了可靠、便捷的工具支持。可以进行标准管理、数据管理、接口管理、数据质量分析等任务,全面管理数据情况。数据治理工具帮助高校梳理数据源头、理清数据流向、分析数据关系、管理数据模型、数据治理分析、展示数据资产、提供数据接口。以更加有效的方式发掘和利用高校大数据资产,实现数据分析各决策,推进校内数据的规范管理。(2)数据共享平台实现了对校内各业务系统数据的抽取、传输、整合,构建符合校内数据标准的数据平台,并通过发布api的方式向第三方开发者提供接口,方便不同用户对数据的管理和使用。同时此平台还具备对接日志数据及互联网数据的能力,通过API的方式对外提供数据发布,以便第三方开发者使用。此平台采用BS架构,软件服务器采用 Linux操作系统和 MySQL 数据库,支持window 和 Mac OS 下 IE, chrome, Safari 等主流浏览器操作,性能有良,可进行大批量数据交换。(3)Exdata数据填报工具针对业务部门离线存储的数据,实现线上录入采集到共享数据平台,保证数据平台完整性。
4 展望
高校数据治理是一场持久战,是一项长期工作,不仅需要信息管理人员对数据进行的采集、清洗、纠错以及按需共享,更需要各业务部门在数据供给时的共同协作,严格控制数据源的正确性。只有当数据源头保证数据准确,覆盖范围广,数据共享平台才能更加完善。在未来数据治理工作的持续进行中,希望各业务部门能够与学校信息中心共同协作,促进高校数据治理更加高效、便捷。
参考文献
[1] 张美芳,王羽,郑碧琪,等.人工智能在汽车自动驾驶中的应用[J].汽车工业研究,2019(3):2-7.
[2] 程年,俞晨,宁静艳.基于深度学习网络的乳腺癌图片分类研究[J].软件导刊,2019(8):26-28.
收稿日期:2020-05-15
作者简介:徐江(1993—),男,陕西咸阳人,硕士研究生,研究方向:交通信息工程及控制。