“双高”背景下高职院校数据治理面临的问题及建议

2023-03-31 21:37俞天均
中国管理信息化 2023年22期
关键词:数据治理双高高职

俞天均

[摘 要]近年来,高职院校教育信息化建设发展迅速,信息化建设和管理水平得到显著提升,虽然校园网的信息资源不断丰富,应用系统逐步完善,但数据治理相关问题日益突出。为了提升数据质量和数据价值,以及扩大数据的应用范围,文章提出高职院校有必要启动全面的数据治理工作,以满足快速增长的智慧服务对各类高质量数据的广泛需求。

[关键词]“双高”;高职;数据治理

doi:10.3969/j.issn.1673 - 0194.2023.22.073

[中图分类号]G717[文献标识码]A[文章编号]1673-0194(2023)22-0224-03

1     高职院校数据治理的背景

2020年2月,教育部印发《2020年教育信息化和网络安全工作要点》,重点提到了教育行业的数据管理问题。文件将“全面推进教育治理能力优化行动”列为重点工作内容,并且明确提出“推进政务信息系统整合共享……按照‘一数一源的原则,完成《教育管理信息化数据标准体系框架》等数据标准的制定和发布。建立教育部直属机关数据溯源图谱。推动教育数据的有序共享,扩大数据共享范围,提高数据共享效率,更好地支撑各地政务服务应用……”。

为贯彻落实《四川省职业教育改革实施方案》,根据四川省教育厅、四川省财政厅《关于实施四川省高水平高等职业学校和高水平专业群建设计划的意见》(川教〔2021〕24号)和《关于开展四川省高水平高等职业学校和高水平专业群建设计划项目申报的通知》(川教函〔2021〕86号)要求,四川省教育厅拟立项建设22所高水平高等职业学校(含8所“国家双高”建设学校)、50个高水平专业群和15所高水平高等职业培育学校。四川信息职业技术学院为C档高水平高职院校建设单位,物联网应用技术专业群和软件技术专业群为C档高水平建设专业群。学校“双高”建设方案项目九“升级智慧校园,打造高职院信息化标杆”中将“提升数据治理水平,实现智能化決策支持”列为重要基础建设内容。

四川信息职业技术学院目前由于技术限制和没有信息标准约束指导等问题,部门对数据的管理只实现了基本的数据交换,未从根本上解决数据标准、数据集成、数据质量、数据开放的问题,严重阻碍学校信息化建设向智慧校园发展的持续推进。

2     高职院校数据治理面临的问题

在新时代背景下,如何推动教育数据健康有序的发展,已经成为高校适应新时代教育发展的要求,也是高校在竞争日益激烈的环境中取得优势的关键[1]。近年来,高职院校信息化建设伴随学校的发展而发展,信息化设备、业务系统、信息资源等不断得到丰富和完善,信息化建设和管理水平也得到显著的提升。各层面对数据依赖和需求不断增加,且更加多样性和综合化。目前主要面临以下问题。

2.1   数据采集困难

高职院校现有数据集成工具功能不足。以四川信息职业技术学院所使用的Oracle数据集成器(Oracle Data Integrator,ODI)这一数据集成工具为例,该工具不但功能缺项,还原始、老旧、难用,是数据采集工作中的“鸡肋”,阻碍了数据高效和准确采集。

2.2   开放共享混乱

数据共享管理比较混乱,当教职工需要数据时,到处打电话问哪个部门有数据、谁在管理数据,再以不规范的流程获得数据。

2.3   数据时效性差

系统间数据同步机制原始。以四川信息职业技术学院为例,目前有部分系统(如网络教学系统)采取电子表格方式导入数据,这样手动导入数据,更新周期慢,影响业务正常开展。

2.4   可用数据少

数据重复、数据错误、数据缺值、数据失效、数据冲突等质量问题,导致数据无法共享,无法利用[2]。以四川信息职业技术学院为例,除部门信息、人员基本信息、岗位职务信息通过“智慧川信”数据库以视图的方式进行共享外,很多数据都没有被集中采集、管理和应用,这直接导致整个平台无有效数据可用,严重影响了相关工作。

总之,目前高职院校对数据治理的认识和管理还处于较低层次,对数据的利用也还处于初级阶段。

3     解决高职院校数据治理面临问题的建议

数据治理(Data Governance)是在数字技术与治理理论的交叉融合过程中衍生出来的,信息化时代数据成为社会发展的核心要素[3]。为了有效开展数据治理,首先需要建设数据治理平台,然后开展数据治理工作。通过数据治理平台的建设,从根本上解决信息标准、数据集成、数据质量、数据模型、数据开放共享和数据安全等问题。通过信息标准建设解决信息标准不统一、数据多源头等问题;通过数据集成建设解决基础数据不完整、数据孤岛等问题;通过数据质量管理建设提高数据的准确性和规范性;通过数据建模建设解决代码标准不统一、数据管理冗余重复等问题;数据开放共享建设解决数据开放、数据共享的问题;数据安全建设解决大数据中心运维监测与数据集成和开放安全性等相关问题。

3.1   制定信息标准,规范数据管理

信息标准作为数据治理的重要组成部分,对规范和指导、落实和推进数据治理具有重要作用[4]。数据标准管理用以规范数据资产的结构、格式、规范、准确性和一致性。结合高校的业务场景,将标准梳理为公共属性、代码集和编码规则3个部分。

(1)标准管理:支持标准的生成和维护,可以按照实际的业务需求,生成标准细则,可对标准进行增删改查导入导出的操作。支持标准版本生成及对标准版本之间的差异比对。通过标准的血缘查看各单位、业务系统、表、字段之间的关联和标准的变动带来的影响。

(2)标准检索:使用者通过输入关键字词的形式在数据标准中匹配关联出相应的标准细项,依据检索目的在结果中浏览标准明细,程序通过算法记忆搜索热词,降低检索操作的复杂程度。

(3)标准监测:通过程序识别平台中添加的业务系统的元数据信息,将业务系统中标准相关的信息同数据标准进行比对,通过可视化报告的形式提示给系统管理员,监测业务系统和标准之间的差异。

(4)标准评价:通过信息项的关联和标准监测,生成标准评价报告,直观地通过评分和报告的形式展示业务系统的现状和提升的方式,并对业务系统和标准吻合程度的变化趋势进行可视化呈现。

(5)标准引用:标准发布后,主版本的标准将推送至系统前台展示,展示的标准支持被业务部门通过接口调用的方式引用,引用后,可对引用标准的业务系统进行监测,观测其标准落地的情况。

3.2   集成数据资源,汇聚形成数据湖

鉴于高职院校教育数据的庞大性和异质性,数据的整合和分析是非常关键的一步。如何将不同的数据结构化并以计算机能够明白的方式进行编码是其中的核心[5]。以需求为驱动,以数据多样性的全域思想为指导,采集全业务、多终端、多形态的数据。鉴于数据的多样性,本文主要通过下面3种方式采集数据。

(1)抽取—转换—加载(Extract-Transform-Load,ETL)数据采集:ETL数据集成处理架构是从数据源抽取所需的数据,经过数据清洗,由数据湖将数据传送到数据仓库,完成数据仓库的构建。也可以根据上层的应用需求,随时从数据湖中抽取想要的原始数据进行建模分析。

(2)离线数据采集:具备线下数据维护和处理的能力,通过权限的控制,让非专业的用户可对规定范围内的数据完成上传、编辑、删除、查看等操作,可视化的操作界面和友好的文字提示极大降低了数据维护的成本。

(3)机器数据采集:依托于大数据的体系架构,具备Flume、二进制、简单网络管理协议(Simple Network Management Protocol,SNMP)、Sqoop采集的能力,可以全面监测数据采集趋势图,完整查看数据输出到HDFS路径监控。

3.3   设计数据模型,契合数据标准

通过构建统一的、符合标准的数据模型,解决线下管理数据模型分散、无可视化管控过程,数据模型和数据标准分离,无法有效落地等问题。

(1)模型设计:提供数据建模的能力,通过引用数据标准属性和代码对数据模型进行标准化设计,从根源上保证数据模型与数据标准的一致性,方便数据管理。

(2)模型管理:实现数据模型建设全过程的流程化和透明化,支持数据模型的版本管理,可对不同版本的模型进行比对,查看变更明细,辅助实施人员管理不同版本的模型,并可回溯到任意节点的模型设计状态,强化模型管控能力。

3.4   配置质量检测规则和任务,不断提升数据质量

数据质量是保证数据挖掘、分析和应用效果的基础。通过数据质量管理可以获得干净、清晰、完整的数据,进而反哺业务,发挥数据价值的作用,也是大数据建设的重要前提,系统从数据使用的角度监控数据资产的质量,并以可视化报告的形式反映质量问题,辅助高校持续不断提升数据质量。

(1)质量检测规则配置:通过可视化的界面对质量检测规则进行配置,包括但不限于对数据资产数据空置率、填充率、合规性、数据总量、用户量、数据重复率、数据验证、数据一致性、数据质量通用规则进行自定义配置。

(2)质量检测任务:灵活自由配置质量检测的任务,并基于一定的频率和周期执行。

(3)质量需求管理:收集和分类数据使用过程中产生的问题,为后续质量模块功能的开发和质量检测规则的制定提供重要依据。

(4)数据质量报告:基于数据质量检测规则和任务,可定期形成数据质量报告。提供丰富多样的图表展示和多维度的统计展示,使得枯燥的数据质量情况更加形象生动,帮助各部门(二级学院)对数据质量有统一的认识,也帮助数据管理者对数据资产质量情况有更为准确的了解,为提升数据资产的质量,寻找优化空间,为制订质量提升方案提供依据和指导。

3.5   构建数据开放体系,形成数据共享枢纽

数据目录是数据共享和实现数据前后台联通、业务与数据管理联动的载体。数据共享管理主要是实现对外的数据发布和共享。数据对外开放可以将数据中符合共享开放层级的信息作为数据商品,以合规安全的形式完成开放发布。数据共享是高校开展数据资产运营的前提条件。

(1)数据目录:以目录的形式,将数据按照业务属性或部门归属,划分到各个目录中,可以按照目录对数据进行统计、监测和溯源。目录分为主题目录和部门目录两部分,部门目录以部门为视角展示部门数据资产的情况,包括资产内容、资产质量等;主题目录可以将数据以不同主题注册为数据资产,提供用户申请和使用。

(2)数据清单:提供将数据发布为数据资产的能力,以应用程序接口(Application Program Interface,API)、ETL接口、数据库(Data Base,DB)直连、文本等格式发布数据,在数据发布时,可以控制数据的具体参数,并将数据注册到具体的目录中,提供用户使用。

(3)开放监测:产品支持通过接口调用频率的监控、调用次数的监控、调用地址黑白名单的控制、异常调用的监测、控制数据访问时间等手段,實现对数据调用的控制,保证数据的安全。

3.6   筑牢数据安全,助力数据治理可持续发展

数据安全管理是指通过管理和技术手段,通过对数据的安全定级、脱敏规则的设置及敏感数据操作日志的引用和监测,保证数据资产使用过程的安全。

(1)数据安全等级划分:按照数据安全相关法律政策的要求和高校实际的业务场景,通过评估数据安全风险、制定数据安全管理制度规范,对数据进行安全分级分类。根据不同安全等级,对数据定制不同的申请审批和使用策略,保证数据被合法合规、安全地采集、传输、存储和使用。

(2)数据脱敏:支持设置数据脱敏规则、脱敏算法,包括但不限于数据加密、数据替换、数据掩码、数据重排、数据偏移、数据阶段、数据组合等。平台支持多种可逆、不可逆数据脱敏算法,用户可以自行指定所需要数据进行脱敏处理。通过识别用户设置脱敏任务,辐射数据中台管理系统的相关模块,由系统自动完成数据流转过程中的脱敏操作。

(3)日志审计:审计数据安全,监测用户身份和行为,记录数据的操作日志,对异常行为进行监控。

4     结束语

在高职院校“双高”建设教育信息化道路上,随着“数据为王”时代的到来,数据治理工作是绕不开的“坎”,每个学校的基础、能力又不尽相同,要想跟上时代的发展步伐,只有在不断学习的基础上结合自身实际去研究和实践,才可能走出适合自己的数据治理道路,为学校的“双高”建设添砖加瓦。

主要参考文献

[1]董晓辉,马威.高校数据治理的价值与特征[J].网络安全与数据治理,2023(2):43-47.

[2]董晓辉,郑小斌,彭义平.高校教育大数据治理的框架设计与实施[J].中国电化教育,2019(8):63-71.

[3]代玉,王慧珍.高等教育领域数据治理的逻辑框架与实施路径[J].黑龙江高教研究,2021(10):41-45.

[4]刘金松.数据治理:高等教育治理工具转型研究[J].中国电化教育,2018(12):39-45.

[5]许晓东,王锦华,卞良,等.高等教育的数据治理研究[J].高等工程教育研究,2015(5):25-30.

猜你喜欢
数据治理双高高职
同频共振四链联动,彰显“双高”院校科研担当
我校2020年“双高计划”建设研究成果展
我校隆重召开“双高计划”建设启动大会
牵手教育: 中等职业学校“四元并举, 德技双高” 的校本实践
高职应用文写作教学改革与创新
基于本体的企业运营数据治理
云端数据治理初探
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理
高职人才培养模式创新探讨