朱锦龙 望丽影
摘要:随着校园信息化建设的不断推进,高校业务管理系统、智能化应用系统、网络访问数据等沉淀了大量数据,由于各系统之间孤立运行,数据不共享,导致高校拥有大量数据资源,但不能在教学、科研、管理等方面发挥应有的价值.对高校大数据进行治理,以数据驱动管理革新、教学革新和学习革新势在必行.
关键词:高校;大数据;数据治理
中图分类号:TP391 文献标识码:A 文章编号:1673-260X(2019)05-0049-03
1 高校大数据治理概念体系
《Nature》杂志在2008年首次提出“大数据(Big Data)”概念[1],一般指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2].当前,高校信息化发展由以无线全面覆盖和丰富的业务应用系统为代表的数字化校园阶段,逐步迈入智慧校园阶段.业务应用系统数据、硬件设备数据、互联网数据、网页内容数据等大量积累在校园各应用平台,即高校教育大数据.各应用系统多独立运行,相互之间没有打通,导致数据标准不统一,数据的准确性和一致性不高,虽然蕴含着巨大价值,却不能有效发挥,因此,高校需要对教育大数据按照一定的标准体系进行治理.
IBM从20世纪90年代就开始对数据治理相关概念的研究与探索,国内目前尚处于起步阶段,由于研究的切入点和角度不同,学术界还没有形成统一、标准定义.其中较具代表性概念有以下两种,国际数据管理协会(The Data Management Associ-ation)认为数据治理是指对数据资产管理行使权力和控制的活动集合[3];国际数据治理研究所(The Data GovernanceInstitute)提出的定义,数据治理是指针对信息相关过程的决策权和职责体系,这些过程遵循“在什么时间和情况下、用什么方式、由谁、对哪些数据、采取哪些行动”的方法来执行[4].大数据环境下高校数据治理,就是以应用为导向,按照规范数据标准和方法,对来源不同渠道数据进行获取、整理、分析和计算,进而探索教学、科研、管理、服务过程中数据变量之间的关系,并进行大数据的教育应用,为高校教学、管理、服务提供可靠的决策支持,以驱动教学、管理、学习的变革与创新[5].
通过数据治理,对高校原有的平台数据进行全面治理,提高数据质量,在为学校的各项业务服务提供准确数据支持的同时为数据可视化分析及大数据分析打下基础.
通过数据治理可以提高信息标准的执行能力,提高共享数据的开放能力,提高数据质量的治理能力,提高历史数据的积累能力.
2 大数据治理体系构建
2.1 大数据治理管理平台总体架构
依托数据治理,构建一个符合教育行业标准特性的高校大数据治理管理平台,如图1,覆盖高校数据层面全生命周期的管理.从数据标准、代码标准,到元数据管理、主数据管理、数据备份管理[6],以及数据共享、交换,直至最终的数据质量保证等.大数据治理平台将治理后的标准数据发送给校园服务总线(ESB),方便上层提取及师生综合服务应用.同时,平台能提高信息标准执行能力,采用机器学习自动化工具和人工干预相结合方式,监控信息标准和代码标准执行情况,充分发挥标准作用,提升数据质量管理能力,保证数据价值的最大化,提升数据共享集成能力,实现数据的统一标准基础上相互调用和操作实时共享[7].
2.2 数据标准管理
数据标准管理包含代码标准、代码标准查询、代码使用范围检索、代码映射关系、代码使用情况检查等,帮助高校轻松实现对标准的制定(Draw)、理解(Understand)、应用(Use)、维护(Edit)、分享(Share)、集成(Integration)等功能,同时,监控数据标准的执行情况,逐步优化趋向统一[8].
数据标准管理主要为业务部门进行系统建设时提供数据标准规范指导,业务部门和技术部门之间依据数据标准和代码标准规范数据的定义和使用,避免数据反复转换,促进数据统一.以国家标准、教育部2012版教育信息化数据标准、行业标准和学校标准,构建高校信息化代码标准字典,例如2018年新进教师教工号编码“XB/JGH-20180 5001”,即2018年5月進校,序号为001教师.代码标准编制需遵循以下原则:①唯一性,在一个系统编码中,每个对象只有一个编码,每个编码只能代表一个对象;②稳定性,一旦编码,只要对象的基本属性不变,编码一般不变,保持其稳定性;③规范性,一套标准编码,它的编写格式、基本结构组成、顺序、类型应符合规范,且须统一;④可扩性,编码结构必须预留足够的发展空间,以满足同类对象不断增加的编码需求[9];⑤权威性,基础数据必须遵循谁生产谁负责,数据的生产单位是源数据的增减、变更及维护的权威部门,其他任何单位不得再自行编制;⑥一致性,在执行校内标准时,国家标准、部委行业标准中已有编码的,须与其保持一致.
2.3 数据治理集成管理
数据治理集成将来源于各个业务系统的不同类型的数据采集出来,通过数据治理平台,把按照数据标准治理后的数据存储到校级主数据仓库,形成校内规范的、唯一的、权威的数据资源.通过治理,打通了各业务系统孤立运行,实现业务系统之间数据交互共享,为上层数据分析和服务应用提供权威数据支撑.同时整个治理过程既实现了数据规范统一,又保留原业务系统数据库的完整性.
2.3.1 元数据管理
元数据管理主要包括代码标准管理和数据标准管理,并完成元数据的对象创建、添加、删除、修改、维护等;另外,把数据库的元数据对象与相应的数据库实体进行一致性比对,实现元数据的检测,通过检测逐项列出不一致的项目,并给出相应的处理建议.用户可根据处理建议通过系统自动处理或手工处理,同时避免直接处理或不当处理带来的麻烦,确保代码标准、数据标准与数据库一致.为方便后期跟踪查询,系统会标记已经处理问题.统一注册和规范管理各业务系统元数据资源,有利于数据管理员应用、查找元数据,进而实现校园大数据资产统一管理,增强对数据治理过程的控制力和应用水平.
2.3.2 主数据管理
针对每个主数据表,根据权限分为主数据管理和查询功能.同时,针对业务部门系统还未建立,但往往本地部分数据(例如EXCEL、DBF等)需要提前共享的情况,相关业务部门被主数据管理授权后,可以先行进行相关数据导入、导出、删除、修改、查询等完成数据建设,然后再通过主数据平台共享到其他应用系统.
2.3.3 数据备份管理
数据备份管理,通过构建主数据仓库来保留主数据的历史数据,能重现每天的数据情况,提供了从时间维度进行数据分析的途径.历史数据保留采用拉链表,历史拉链表的变更跟随生产数据变动而变动,这样,在节省存储空间的同时,又完整保留了历史数据的变更信息.主数据仓库结构与主数据保持基本一致,只需要在原有数据模式基础上增加记录起效日期(JLQX_RQ)、记录失效时间(JLSX_RQ)即可,如图2.例如插入所有数据,起效日期为当前日期,失效日期为9999-12-31,变更记录的修改,将失效日期修改为当前时间.
2.3.4 数据质量管理
数据质量管理,主要包括数据集成、数据实施、数据规范和源业务系统数据质量等问题的质量管理.为保证数据质量,通过数据检测工具,按照数据检测规则,对各系统集成的主数据进行事后检测,发现存在的问题,以便及时修正.数据检测规则主要包含以下几个方面:
(1)“空”检查规则:提供字段是否为“空”检查,会对元数据标记为不能为空的字段默认进行检查.
(2)代码检查规则:提供字段取值是否在代码标准表中检查,对源数据中有代码应用的字段默认进行检查.
(3)唯一性检查规则:提供字段的唯一性检查,例如,身份证号是唯一的,如有重復将是错误信息.
(4)文本检查规则:进行单个字段的文本取值是否与定义的文本的长度和格式相一致检查,或符合预定义的固定编码规则;文本长度包含单个长度、多个长度、文本组合等,文本格式包括:字母、小写字母、大写字母、字母数字、数字、汉字等;预定义的固定编码如邮编、电话区号、邮箱地址、URL地址等[10].规则管理主要实现增删改查的操作,根据实际需要可以自定义检测规则.
数据质量检测是核心的检测引擎,根据检测任务的配置,按照业务检测项,逐项检测主数据库中的数据,并记录检测结果,生成检测日志.数据检测流程如图3.
3 结语
高校信息化建设不是将原有的线下业务搬到线上,或者简单进行计算机化、网络化,而是借助信息化这种新型生产力,建设服务于教学、科研、管理等应用平台同时,尽可能地统一建设标准,梳理、优化业务流程;进行数据治理,实现系统间数据互通、共享,提高数据中心库的数据质量,为上层数据分析和综合服务提供可靠、权威的基础数据;进而实现从简单的“数据集成、业务集成、门户集成”向“服务集成”模式的转变.利用数据治理的成果,为师生和管理者提供有针对性的、高品质的服务项目与专题全景视图[11],提高高校管理效率和决策水平.
参考文献:
〔1〕Howe D,Costanzo M,et al. Big data:The future of biocuration[J].Nature,2008, 455(7209): 47-50.
〔2〕封博卿,李平,杨连报.基于时空大数据的高速铁路接触网鸟巢病害分析[J].中国铁路,2017(1):6-6.
〔3〕DAMA International.The DAMA Guide to the Data ManagementBody of Knowledge[M].1st ed.New York: Technics Publications, 2009: 37.
〔4〕Data Governance Institute.The DGI Data Governance Framework[R/OL].[2015-08-20].http: //www.datagovernance.com/the-dgi-framework/dgi-framework.pdf.
〔5〕李艳,吕鹏,李珑.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究[J].图书情报知识,2016(2):60-68.
〔6〕赵安新.高校数据融合路径及其治理框架的探讨[J].中国教育信息化,2016(23):75-77.
〔7〕蔡爱民,查良松.GIS数据共享机制研究[J].安徽师范大学学报:自然科学版,2005,28(2):226-229.
〔8〕张俊.新疆师范大学数字化校园研究与规划[D].吉林大学,2011.
〔9〕孙志明,李文钊,陈亮.军事装备信息编码标准化研究[J].中国科技信息,2009(10):135-136.
〔10〕应国良.商业智能技术在高校信息化管理中的应用[J].中国电化教育,2012(9):140-144.
〔11〕章浩,刘波,邹恒华等.高校数据治理的探索与实践[J].电子技术与软件工程,2017(21):181-183.