黄安 邓明体
作者简介:黄安,1984年生,广西南宁人,研究生,讲师,研究方向为计算机应用与软件开发;邓明体,1986年生,通讯作者,广西百色人,本科,高级工程师,研究方向为计算机应用与软件开发。
摘 要:当前,高职院校的信息管理数据日益增长。高职院校要充分利用信息管理数据,挖掘其潜在价值,可以从管理元数据入手,设计一个科学的数据治理模型,建设数据管理平台,以此促进高职院校的数字化转型发展。该研究以广西水利电力职业技术学院数据管理平台为实例,提出在区块链视角下的高职院校数据治理思路,阐述元数据管理、数据集成等治理工作的开展方法,认为高职院校可基于模块化思想建设数据管理平台,重点对元数据进行管理,开展数据管理可视化建设,形成适合高职院校的数据治理模式。
关键词:区块链;数据治理;数字校园建设;高职院校
中图分类号:G64 文献标识码:A 文章编号:0450-9889(2024)09-0079-05
近年来,高职院校对数据信息化的要求不断提高,高职院校各类信息平台优化升级迫在眉睫。构建高职院校数据治理平台成为满足学校各部门数据共享需求的现行主流解决方案。从智慧校园的角度来看,现阶段高职院校数据治理平台对数据的处理普遍存在隐私性难以保证、缺乏语义、比较零散、缺乏模型复用、体系不够完善等问题。因此,选择一种人机交互性更强的语义数据治理方式进行高职院校业务领域中知识共享的相关研究,对高职院校数据治理平台的建设及高职院校数字化转型的发展非常重要。本研究基于区块链[1]视角,结合当前主流数据治理框架构建高职院校数据治理模型,尝试利用区块链优势并结合Kettle[2]数据转换工具的长处,开发适合高职院校的数据治理平台,以期为高职院校数字化转型提供支持。
一、区块链和数据治理简述
(一)区块链
区块链相当于一个去中介化的数据库,它由一串数据块组成,采用分布式数据存储,是多种技术的创新应用模式。通俗地说,可以把区块链当成一种分布式“财务记账本”。这种“财务记账本”分布在多个网络节点中,具有防篡改的功能。
区块链颠覆了传统的信息系统建设模式。可将互联网比作一个可随时参加的多人交流会,当个人或多人发生了信息改变,他们会公布信息,交流会成员可以将信息记录在自己的加密小本子上,任何人均可查阅小本子但不能修改。而当大家需要选择正确信息时,可以查看所有人的小本子并选择多数人记录相同的信息。每个人的小本子就相当于区块,交流会就相当于用链条把这些小本子串联起来,由此形成了区块链。这是使用区块链技术解决方案的优势,利用区块链没有中心、没有隐藏、没有不信任等特点,实现没有丢失、没有操控的模式,从而给高职院校数字化转型提供全新的方案。
区块链包含了公有链、联盟链、私有链。公有链是由每一个参与其中的人自由组成,任何人都可以随时进入或者退出,没有任何限制,但进入或退出期间的信息会被参与的人所知道或记录。联盟链是由多个人或多个团体自行组建,参与的人或团体是事先指定或是后期经过审核才能进入,它有一定的准入机制,其信息的写入与读取权限由组建的人或团体决定。私有链相当于个人或某一单位利用区块链的技术存储信息,只有本人或本单位有写入信息的权限和决定信息是否对外公开的权限。
区块链具有以下特征:(1)没有中心[3]。区块链技术不依赖某一个人或某一方,它没有中心,也可以说每一个用户都是中心,因为其信息存在每一个用户的手中,没有所谓的信息集中的地方。(2)没有隐藏。依托区块链技术,每一个用户都可以查看、核对、记录公开的信息。(3)没有不信任。区块链技术为每一个用户都提供了一本相同的小本子,用户可以通过自己的本子或是其他大部分用户的本子查看或核对相关信息,无法欺骗,信任问题因此迎刃而解。(4)没有丢失。区块链技术解决了信息丢失问题,即便某用户暂时丢失信息,也可以通过其他用户找到。(5)没有操控。只要用户不能同时掌控记录信息的大部分的“人”,就不能修改网络上的数据。(6)可匿名性。单从技术上而言,各区块节点之间只是单纯的信息公开,身份可选择隐藏,区块链中的信息传递可以匿名进行。
(二)数据治理
数据治理(Data Governance)[4]指在管理数据资产过程中行使权力和管控,包括计划、监控和实施。高职院校需要依托数据进行决策。建立了正式数据治理规程的、有意向性地行使权力和管控的高职院校,能够从数据治理过程中获得更大的收益。在高职院校中,数据治理是指导所有其他数据管理领域的活动。
有效的数据治理有利于推进高职院校数字化建设,主要表现在四个方面:其一,数据质量提升,通过真实可信的数据提升业务能力;其二,元数据管理规范,建立业务术语表用于定义和定位组织中的数据,确保组织中数量繁多的元数据得到有效管理和应用;其三,提升项目开发效率,在系统生命周期中改进以解决高职院校数据管理问题,包括利用数据全周期治理来管理特定数据的技术债;其四,提高各类资产数据管理效率,包括云存储、外部数据采购、数据产品销售和外包数据运维。
数据治理不是一次性的行为,而是一个持续性的项目集。数据治理可以保证高职院校一直能够挖掘数据价值和降低数据风险。高职院校需要建立运转良好的运营框架,指定专门的部门承担数据治理的责任。此外,在数据治理程序中应该考虑到高职院校文化的独特性问题,以及数据管理在高职院校内面对的具体挑战和机遇。
二、高职院校数据治理的思路
目前,很多高职院校存在数据时效性偏低、师生参与数据治理意识不强、缺乏可执行的信息系统平台支持、数据安全措施不到位、数据治理标准不统一等问题。分析其原因,主要是部分高职院校在校园数字化建设中未做好整体规划,为了满足某个院系或者某个部门的业务需求,形成一个个单独的业务系统,各系统彼此无法实现数据共享,致使“数据孤岛”现象产生。高职院校应从顶层设计数据系统架构,统一数据标准,构建数据集合以汇集现有数据资源,增强师生主动参与学校数据治理的意识。本研究尝试通过高职院校数据治理,全面提升数据价值,重塑业务流程,以支撑高职院校数字化转型。在技术方面,利用BIM模型、云平台、物联网、移动终端、智能系统等抽取数据并进行处理;在方法方面,使用知识推理、流域仿真、业务协同、数据集成、物联感知等;在工具方面,使用数据平台、模型平台、知识平台、业务平台、服务平台等。最终形成高职院校数据治理的数字化转型框架,如图1所示。
图1 高职院校数据治理的数字化转型框架
通过阅读相关资料发现,目前的主流数据治理体系有IBM数据治理体系、DGI数据治理体系、DAMA数据治理体系等[5]。其中,在IBM数据治理体系下,数据是一种资源,更是组织发展时的核心资产,数据治理可以当成一种数据资产来看待。本研究的数据治理核心思想是以数据治理技术为抓手,反向监督、促进业务数据管理规范化,形成建设与管理的闭环反馈。在DAMA框架下进行进一步的研究,以解决高职院校数据系统架构不统一、数据标准不一致、数据资源缺乏、师生主动参与数据治理意识不强等问题为重点,设计元数据管理、数据集成、数据治理等模块,构成高职院校数据治理框架。由于数据具有专业性,各个部门和院系之间相互独立,针对此现象,系统设计实现了数据在各个职能部门之间的传递,形成了数据共享环路。高职院校数据共享体系如下页图2所示。
三、高职院校数据治理的方法
(一)管理元数据
元数据被定义为“描述数据的数据”,其表现形式在正常情况下是结构化的文字与数字,乃至于结构化图形的形式,其描述的数据是多源的。元数据不仅可以对信息对象本身进行描述,而且能够描述信息对象相关方面的信息,如操作人员、版本更新时间等。元数据对信息对象进行描述是一个步步深化的过程,在其最开始应用的时候,主要用于描述文献、图像、视频、音频等资源的属性信息及其结构信息。其规定元数据内具体内容的描述规范,例如描述元素的时候应采用固定标准与自定义描述要求等。本研究以系统域的思想组织元数据,建立系统域与数据库的关系,经历“注册数据源—采集元数据—抽取数据管理—构建系统域级关系”的过程,从而得到不同业务的数据。元数据管理过程如图3所示。
(二)数据集成
数字化转型在高职院校信息化建设过程中产生了大量的异构数据,如科研数据、学生“一卡通”数据等,从这些数据中提取价值是高职院校实现数字化转型的重要任务。如何从产生的异构数据中抽取有用的数据供大数据分析和应用,是高职院校当下面临的难题。为了提高数据质量,实现数据共享和交换,高职院校可利用数据集成消除数据的冗余和矛盾,使数据能够更好地支持高职院校的业务运作和决策分析。然而,传统的数据集成技术存在复杂度高、易错性高、性能偏低和不易扩展等问题。这些问题在实际应用中会影响数据集成的效率和稳定性。相对于传统的集成技术,Kettle能够更加高效地完成数据集成和转换任务。由于高职院校数据在质量、采集、应用、互通上都有别于其他数据,因此高职院校数据的集成过程与其他数据也有所不同。本研究设计了一个Kettle数据转换流程以适应高职院校数据的集成过程,解决了现有应用中存在的及时更新慢、集成效率低的问题,如下页图4所示。
四、高职院校数据治理的实践案例
采用上述高职院校数据治理思路与方法,我们在广西水利电力职业技术学院开展高职院校数据治理实践探索。截至2023年10月,广西水利电力职业技术学院数据管理平台共接入数据源12个,建设数据接口52个,数据接口共享调用超过23万次,数据下载超过1万次。数据管理平台较好地满足了广西水利电力职业技术学院对数据的需求,打通了监控、预警、教学资源等多个业务系统之间的数据壁垒,为其办事一体化提供了支持。
(一)数据管理平台建设
构建广西水利电力职业技术学院数据管理平台,其数据采用ETL进行数据集成,开展数据治理。该平台采用模块化思想建设,保证各模块能脱离其他模块单独运行。元数据管理以业务系统为主线,组织元数据目录,支持用户配置元数据抽取策略,定时抽取数据库元数据,抽取结果可与已发布的元数据版本比较,用户可以决定是否更新发布版本。在自动抽取数据库元数据的基础上,用户还可以根据实际数据情况自行编辑录入元数据之间的关系。该平台元数据管理界面如下页图5所示。
目前,该平台的开发还有待完善,未来的建设将从以下几个方面开展。第一,元数据在高职院校数据管理平台中的接口应用可以更加丰富。目前,其应用功能的实现是基于元数据的语义细粒度数据单元接口,暂且只能对基于业务写定的数据调用方案进行不复杂的语义查询,下一步可根据用户权限范围内的需求,为用户生成自定义的查询语句,以适应实际场景中的查询需求。第二,根据高职院校数据管理平台中不断更新的数据主体应用需求,完善数据管理平台元数据构建方案,使主体数据元数据更加符合需求。高校业务领域具有多变性,需要不定时地针对最新的方针政策更新数据融合模型及元数据标准。第三,在数据管理平台中运用元数据模型和相关技术,及时根据用户反馈进行优化,同时迁移到其他信息领域中使用。元数据规范和本体构建的可复用性为其他领域的应用提供了可实现的基础。在数据管理平台中对元数据进行本体知识抽取的语义化处理属于管理应用上的一种创新,充分利用元数据在提高数据融合时的数据资源管理能力,能降低用户在使用数据资源时的理解成本,可见,元数据在高职院校数据管理平台中的应用有广阔的前景。
(二)数据管理可视化建设
数据治理,除了建设数据管理平台以提供有效的、规范的数据给不同业务系统调用,可视化建设也必不可少。基于可视化技术的数据管理建设在高职院校数字化转型中具有重要意义。例如,通过三维建模技术、虚拟现实技术(VR)和可视化技术,可以更直观地呈现数据价值,提高数据的可理解性和可接受性,这能为高职院校领导制定决策提供参考。目前,广西水利电力职业技术学院数据管理平台采用可视化技术将大量的数据通过图表、图形等形式呈现出来,以便用户更好地理解和分析。在建设方案展示和演示中,可以利用数据可视化技术展示相关数据的变化趋势、关联关系等,帮助高职院校管理者更好地评估建设方案的可行性和效果。例如,通过动态的柱状图展示不同设计方案的成本、效益等指标,可以直观地比较其优势和劣势。广西水利电力职业技术学院数据管理平台的数据集成功能,就是一个很好的数据管理可视化建设的应用例子。数据集成为跨数据库的数据查询和加工提供数据融合功能,为单一数据库内的统计联合查询提供主题表创建功能,数据最终集成为多个常用的高职院校数据主题,供后续各业务系统进行主题分析。
综上所述,本研究提出利用区块链技术的特点,结合Kettle工具制作ETL程序将高职院校数据进行清洗并装载到数据治理平台,通过实时调度系统持续对数据进行更新,保证数据的可用性,最后通过业务可视化建设的方式为使用者提供可用的数据。所提出的数据分析、数据抽取、数据更新、元数据管理等集成流程,成功应用在广西水利电力职业技术学院数据治理平台项目中,使用结果显示,此数据治理流程可以解决高职院校的“数据孤岛”问题,打破了学校各部门之间的信息隔阂,提高了信息安全性,能充分挖掘数据的潜在价值,为高职院校数字化转型提供了有力支持。
参考文献
[1]杨艳.区块链技术在电子档案管理中的应用路径研究[J].兰台内外,2023(36):39-41.
[2]叶惠仙.基于Kettle构建互联互通标准数据库[J].网络安全技术与应用,2023(11):55-57.
[3]殷红梅.基于区块链的政务信息服务研究[J].电脑与电信,2022(9):39-43.
[4]吴卫明,陈艺纯.合规视角的银行业数据治理体系建设[J].金融科技时代,2022(9):43-49.
[5]孙学忠,胡伟.跨境贸易大数据平台数据治理及框架研究[J].中国口岸科学技术,2020(10):69-75.
注:本文系2023年广西高校中青年教师科研基础能力提升项目“教育数字化背景下,高校数据治理的探索与研究”(2023KY1231)、2024年广西高校中青年教师科研基础能力提升项目“基于Spring Boot框架水文远程测流平台”(2024KY1202)的研究成果。
(责编 雷 靖)