万楚
(上海立信会计金融学院信息技术中心,上海 201620)
在教育领域,数据作为一种新型的生产要素和战略资源,其重要作用日益凸显。它不仅可以反映教育现状和趋势,还可以支持教育决策和创新,促进教育质量和效率的提升。高校作为数据密集型的组织,其数据庞杂多样,涉及教学、科研、管理、服务等方方面面,如何有效地管理和利用这些数据,是高校信息化建设和教育管理面临的重要课题。随着校园信息化建设愈加完善,数据治理也成了建设智慧校园阶段亟需解决的重要问题。
由于学校数据涉及全校师生和众多业务部门,需要依据数据的生命周期,统筹规划,分阶段实施。在数据治理实践中不能一味贪大求全,首先应该从核心系统、核心需求、核心数据入手,在汲取先进经验的基础上,分阶段地推进与完善[1]。
数据资产管理与服务平台是数据治理与应用的重要基础平台,本文依据数据的生命周期,对校园数据资产管理与服务平台进行统筹设计,以实现数据资源互联互通和数据价值最大化。
近些年,随着高校信息化进程的推进,高校对数据治理的认识得到了普遍提升,数据治理已经作为信息化建设的重点任务之一,被纳入学校发展规划。目前而言,高校数据治理存在的问题可以归纳为以下几方面。
1)数据安全问题
2020年6月,《中华人民共和国数据安全法》正式实施。教育数据多样庞杂,涉及教学、科研、行政管理方方面面,需要全面的数据安全保护。但是,由于高校数据来源复杂、数据存储方式多样、数据传输途径繁多等原因,导致高校数据的安全性难以得到保障。虽然建立了较为完善的数据安全管理机制,依然需要通过技术手段加强数据的保密、备份和恢复机制,确保高校数据安全可靠。
2)数据质量问题
教育数据质量问题也是一个需要重视的问题。由于数据涉及多个部门和领域,因此可能存在数据错误、数据重复、数据不一致、数据不完整、数据格式不匹配等问题。这些问题有可能严重影响高校决策和管理的准确性和有效性[2]。高校应该在建立完善的数据质量管理机制的基础上,加强数据采集、整合和清洗工作,提高数据质量和准确性。
3)数据共享问题
数据共享问题是当前亟需解决的问题之一。由于数据来源众多、管理部门繁杂,导致校内各部门之间数据共享不畅,也不利于实现跨校间的数据共享。高校应该建立完善的数据共享机制,加强内部部门之间和跨校间的数据共享,提高数据的利用效率和价值[3]。
4)数据分析问题
由于高校数据规模庞大,涉及多个领域和部门,因此需要进行全面的数据分析工作。但是,由于高校缺乏专业的数据分析人员和分析工具,导致高校数据分析工作难以进行。高校应该加强对专业人才的引进和培养,建立专业的数据分析团队和分析工具,提升高校数据分析能力。
总之,高校数据治理是一个系统性工程,在实践中需要不断地完善和优化。高校应该统筹规划,加强对数据安全、质量、共享和分析等方面的管理和控制,推动高校信息化建设向纵深发展。通过积极引进或自主开发适合自身需求的数据治理工具,如:数据共享平台、数据质量平台、数据安全平台等,实现数据治理的技术支撑,从而提高数据治理的效率和水平。利用数据治理成果支撑各项校园业务活动和决策,如评估教学质量、统计科研成果、优化资源配置、应对风险预警等,从而实现数据治理与业务融合、数据资源向价值转化,进而提升数据治理的应用价值和社会效益[4]。
数据生命周期是指数据从产生到最终消亡的整个过程。这个过程包括采集、存储、处理、分析和应用。在数据的生命周期中,我们需要关注数据的质量、安全和合规性。首先,数据的采集需要保证数据的准确性和完整性,避免数据的重复和错误。其次,数据的存储需要保证数据的安全性和可靠性,避免数据的泄漏和损坏。再次,数据的处理需要保证数据的一致性和可追溯性,避免数据的篡改和误用。最后,数据的分析和应用需要保证数据的合法性和合规性,遵守相关法律法规和行业标准。在数据生命周期管理中,我们需要遵循相关法律法规和道德规范,制定相应的策略和措施,建立完善的管理体系,加强对数据的监控和审计,来保证数据质量和安全,提高数据的价值和效益。
依据数据生命周期,通过使用数据管理工具、构建数据中心平台、搭建数据服务流程,以及建设配套的组织架构管理制度和相关规则等一系列数据治理手段,完成以下功能:
1)落实数据交换模块,完成数据采集、转换、清洗;
2)落实数据质量管理模块,管理并明确数据来源,完成数据质量问题纠正;
3)落实数据展示模块,完成可视化呈现数据质量及治理情况;
4)落实数据标准管理模块,统一代码标准、存储标准、治理标准、业务标准,消除二义性,统一全域数据资产,形成基础信息标准集;
5)落实安全和运维保障模块,采用权限管理、运行监控、HTTPS协议,与学校认证接口集成,日志记录访问行为等,实现身份鉴别、访问控制、行为审计等;
6)统一数据开发平台,构建出一个以数据为核心的大数据资产管理与服务平台,包含主数据交换平台、数据中心平台等,对数据安全分级,统一数据服务管道,提高数据服务质量[4],平台框架如图1所示。
该平台的框架主要由业务系统、数据源、数据治理、应用服务构成,按照数据生命周期,完成数据采集、数据集成与共享、数据应用。实现以用户为中心,以教工、教学、科研、资产、学生等业务数据为基础的数据质量管理、数据标准管理、元数据管理、数据权限管理、主数据管理、数据共享。对数据标准、数据生产、数据存储、数据加工与共享等过程进行统一管理和维护[5],具体包括以下三个方面:
①数据采集
依据基础信息标准集,通过图像识别、语音识别、自然语言处理等AI 技术自动化采集各种半结构化和非结构化数据,如文本、图像、音视频等,从各业务部门落实数据采集,将线上和线下数据源数据规范处理后统一汇聚到数据中心平台,形成原始数据层,原始数据层的数据结构、数据间的逻辑关系、组织方式上都与业务系统保持一致,如实反映了各个系统接口过来的数据以及主要数据的变化过程。
②数据集成与共享
数据仓库是校园数据存储中心,是为了学校业务管理决策提供数据支撑而构建的集成化数据环境,它不产生数据,也不消耗数据。在现有数据中心平台基础上,重新设计数据库实例,重构数据表,根据需要处理的数据层次,对数据精细化管理,将数据划分为全量数据层、主题数据层和应用数据层。
在全量数据层,主要对原始数据层数据轻度汇总,利用ETL等工具对数据抽取、清洗、转换、交换、标准化,通过数据建模,对数据进行多模型处理。落实学校基础数据库,用于实现数据共享、分析和挖掘等,基础数据库包含基础数据,而非所有数据;基础数据库同各业务系统之间通过中间库连接,而不直接交换数据。
在主题数据层,按照一定的业务逻辑对各类数据有序加工和高度聚合,梳理和挖掘学生、教师、课程、项目等数据对象的全部属性,设计对象数据宽表,增加宽表数据索引,完善宽表,以提高数据查询相应效率。一张宽表对应多张全量层数据表,通过数据集成、数据转换、数据交换等方式定时更新全量层数据到对象宽表。当全量层数据无法满足宽表属性要求时,及时通过数据填报平台采集和补录。主题层数据可以生成画像表和主题表。
在应用数据层,对治理后的数据进行信息封装、计算建模、隐私加密、授权管理等,再根据数据应用服务的需求,从宽表获取数据,建立符合应用需求的对应简表,通过API、DB等统一的标准开放接口,给申请数据的各数据应用服务。
通过数据标准中枢对各层数据校验其编码的合规性和安全性,输出校验预警状态和标记数据迭代版本。例如,在全量数据层校验教工号、学号、专业代码、课程代码等基础数据编码规则,编码是数据仓库数据关联的依据。在主题数据层校验数据合规性(如证件号异常、数据冲突等)。在应用数据层负责校验数据安全性(如权限控制、数据脱敏处理、数据开放申请等,提供数据开放申请流程,保证数据安全可控)。
同时,对数据进行冷热度、数据血缘和影响性分析。依据数据的使用频次和业务需求,对数据分层存储,下线长期闲置或无调度需求的数据,释放其存储空间。分析数据血缘和影响性,通过梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系,分析数据变化对其他业务和数据影响的程度和范围。可以用来定位复杂逻辑处理后的数据质量问题,评估数据价值和数据质量,进一步评估数据修改的必要性和可行性,便于制定应对措施。
③数据服务
基于关联数据、分析数据、展示数据的大数据治理的数据服务和应用系统具有原型搭建快、表单填写快、通知覆盖快、迭代优化快的特点。学校搭建了一系列方便师生教学与校园管理的创新应用与服务。
构建师生数据服务,从全域数据库调取师生基础信息,支持校内人员相关报表查询,教师可以查看人事、教学、科研、财务、办公、资产、消费等信息;学生可以查看课表、成绩、消费、实习、就业、奖助学金等信息;支持智能填报,便于在线申请修改与提交绩效,有效解决大量重复填报和不同应用系统之间数据不一致的问题;通过形成师生个人数字画像,记录其成长轨迹,为学生管理、教师培养提供多角度分析和经验指导。
构建管理数据服务,在数字校园里快速搭建临时人员管理等多个典型应用;支持学校管理人员查看各种业务相关办公数据,为管理者提供科学决策和精细管理服务,支持管理者办公服务、统计服务、决策服务、人财物管理等。如构建基于一卡通数据的疑似不在校学生模型,提供学生不在校预警;对学生学习情况分析,建立数据关联的模型和数据预警指标。对学生学业和心理状况预警,便于辅导员及管理人员及时管理、开展学生工作,进一步满足师生个性化需求。
本文仅仅介绍了数据治理的基础性工作,包括提升数据质量,管控数据资产,为校园信息化发展提供必要的数据基础。研究仍有许多不足之处,比如可以继续完善业务系统,丰富数据源头,除了从传统的教务、人事等系统采集结构化数据,还可充分利用系统日志数据、物联网生物识别等各种智能行为感知数据,甚至获取空间交互、定位等非结构化数据,打造多维数据生产中心,建设感知型智慧校园[6-7]。
随着科学技术的发展,未来可尝试融入云计算、大数据、人工智能等先进技术,进一步提高数据采集、分析和可视化能力,充分挖掘数据价值,释放数据潜能,实现智慧教学、科研、管理等服务。例如:利用区块链技术的去中心化、不可篡改、可追溯性,提供多主体、多流程的数据治理;利用基于语义模型、分类聚类算法的人工智能技术,管理与整合元数据,对主数据进行自动审核校验、查重合并等;利用知识图谱等新数据库技术进行数据建模;利用机器学习算法对数据标准优化评估;利用深度学习、监督学习、回归模型等AI技术清洗数据,评估数据质量;对数据分级分类、监控访问,识别敏感数据,从而预测数据风险。