姚洪
(苏州科技大学 天平学院,江苏 苏州215009)
随着信息化的发展,教育信息化2.0 的提出,信息化越来越得到高校单位高层的重视,而数据作为最重要的数字资产,如何高效的管理和治理数据,是当下信息化发展的一个重要课题。随着华为数据中台概念的提出,高校单位开始意识数据的治理的重要性,数据即是资产,也是财富,对数据的存储和分析是是高效的利用数据的基础,高校的利用数据可以高效的实现事务的发展。
本文针对大数据在高校的应用,提出了一套基于数据中台的数据治理系统,利用数据中台实现业务数据的流转,数据流向的梳理,数据质量的清洗,数据提供的能力。结合用户的实现的业务需求,定制化符合用户要求的数据流,数据质量和数据能力与实际事务流程的实现点对点的融合,进而实现事务的线上办事等各种应用系统的建设。利用数据治理最大限度的挖掘数据的隐含价值,帮助用户通过数据梳理业务,更好科学进行发展。
数据治理类型可分为应对型治理和主动型治理。应对型数据治理指的是通过客户关系管理(CRM)等“前台”应用程序,以及企业资源规划(ERP)等“后台”应用程序授权主数据(比如客户、供应商、产品等)[4]。
数据治理可以更有效地将数据价值转化为实际业务价值。而当前数据的“井喷”状态仍在持续,机器学习、AI(人工智能)等一类对数据质量高依赖的技术也非常的火热,全球数字化转型浪潮也在有条不紊的全面推进中,壳及数据治理势在必行且在未来也将会持续在数字战略计划里占据核心地位[5]。而现有的基于数据治理相关理论基础可明确本文要设计和实现的数据治理系统的目标及预期效果。
数据中台是一个相对性概念,是对于数据后台和数据前台,将数据分为三层,数据后台是各分散业务数据,这些数据存储在各业务系统里,不具有数据提供能力和数据服务能力;而数据前台是提供给用户的已经治理的有效数据;数据中台是链接数据后台和数据前后,将无质量的后台数据汇集在一起,形成大数据,通过数据治理,梳理出有效的数据来。
数据中台是数据三层结构中的中间层,主要功能是负责据汇集,数据治理和数据能力三方面,为应用服务提供个性化数据服务能力。
图1 数据治理系统操作流程图
在大数据时代,本课题考虑采用最新的数据中台建设思想来解决数据中台建设过程中可能会出现的问题,实现智能数据的构建、管理和应用,为智慧应用的深度建设奠定基础。
基于数据中台的数据治理系统以全业务散分数据为基础,将数据进梳理,通过元数据对数据进颗粒度度量,用于进数据驱动。
数据治理系统可以分为以下几个模块:数据管理、数据质量管理、数据监测查询这个四部分,这四部分以元数据为驱动,以业务需求的动力,以数据能力为目的。
元数据管理实现数据源的梳理,数据引流,数据模型的建模,元数据属性模型的建模等。
主数据管理实现数据的分类,数据的编编辑等。
数据质量管理实现数据的规制管理,质量校验,数据的血缘关系的梳理及数据共享与交换等。
数据监控实现数据的异常行为分析,全文检索等。
图1 给出了数据治理系统的操作流程图,当用户新增数据治理操作时可按照该操作流程进行,其中数据治理信息管理部分负责数据治理操作的基本信息的管理。数据的管理与操作以及系统的操作等过程均会受到监测,以便及时发现并解决异常问题。
在创建数据表时数据库管理人员已给每个属性加以说明,但在数据分析阶段获取的结果可能与原先的说明不吻合,所以需要为每个应用在数据分析阶段的属性配置提供新的注释和说明,功能流程图如图2 所示。
图2 属性配置功能流程图
在属性配置环节仅是给每一属性添加了前端呈现的相关说明,但对varchar 类型属性来说,为方便存储并节省空间,所以会选择数值类型的数字进行存储,而数值型数据并不能用作直观的数据分析,所以利用编码设置功能来实现原先存储数值型数据的转换,功能流程图如图3 所示。
图3 编码设置功能流程图
系统获取数据源的相关元数据信息时会一次性完成信息的获取,但就用户而言,难以理解直接呈现的数据信息,因此需要在前端部分分为数据预览与单源元数据管理两部分。元数据可分为技术元数据、业务元数据与过程元数据三类,系统自动采集计算这三类数据后展示在Web 页面,如图4 所示。
图4 元数据信息页面呈现
本文针对大数据在高校的应用,提出了一套基于数据中台的数据治理系统,以全业务散分数据为基础,将数据进梳理,通过元数据对数据进颗粒度度量,用于进数据驱动,利用数据中台实现业务数据的流转,数据流向的梳理,数据质量的清洗,数据提供的能力。数据治理要贴合业务需求,才有意义,因此数据治理是一个定制化数据服务,抛开业务谈数据治理是没有意义,本文只是高校数据治理研究的冰山一角。