基于数据中台的高职院校数据画像系统建设

2022-12-28 07:53王俊松边荟凇金易琛
无线互联科技 2022年20期
关键词:信息化学校系统

王俊松,朱 辰,边荟凇,金易琛

(南京信息职业技术学院, 江苏 南京 210023)

1 系统现状与问题分析

高职院校经过多年的信息化建设,建成了门类众多的业务系统,这些业务系统的深入应用产生大量业务数据,且数据总量仍然在迅速增长。 但是随着数据量的增长,也暴露出一些问题。 数据孤岛化:由于各业务系统的数据无法互联互通,随着业务系统数量增加,数据孤岛的数量持续上升,数据的开放共享十分困难。数据质量差:数据中心没有明确的数据血统,无法保证数据的一致性,因而也无法形成高质量数据,给数据的查询、使用和分析带来很大困难。 权属边界不清:没有形成“一数一源”的权威数据,未明确数据的权属关系。数据安全堪忧:部门间数据流转往往使用Excel 等传统方式,无法保证数据的安全性[1]。 未建立成熟的数据授权访问机制。 开放共享难:由于没有成熟的数据运营工具,数据的开放共享的技术成本较高,常常依赖于产生数据的业务系统厂商的支持,缺乏主动性。 数据资产不明:无法对数据进行有效管理,难以形成有价值的数据资产,进而无法有效释放数据价值。

数据中心建设的技术层面要解决数据集成、数据治理和数据应用的全流程的平台支持。 由于不同数据源带来的数据类型多、数据标准不统一,同时面向数据的各类操作流程繁多,如何选择一个高效的处理平台及系统架构非常重要。 数据中心建设的应用层面要根据高职院校的实际需求,抽象出不同层次不同角色关注的数据应用模型。 如何同时关注不同用户、不同层次的数据需求,需要分别建设面向基础数据业务、应用场景和主题场景的数据模型。 数据中心的管理层面解决数据治理背景下校内多部门的协同治理问题。 学校现有的职能部门相对独立,而大数据应用需要优化现有组织模式,提高沟通和协作的效率,逐渐打破各部门数据和业务相对封闭的状态,在学校层面进行整体的数字治理系统设计、开发和建设,推动学校治理体系和治理能力现代化。

2 数据中台系统架构

数据中台是实现校园大数据应用的核心技术。 数据中台[2]汇集结构化数据、系统日志数据、物联网数据以及互联网数据等,通过建立数据集成、治理与应用的标准化流程,实现跨系统、跨组织边界的数据高效互通,通过建立业务数据模型并应用各类数据挖掘和人工智能工具,实现海量数据的综合分析与知识发现,从而为管理者提供辅助决策,为师生及业务部门提供智慧服务。

2.1 数据集成与存储

智慧校园数据源应尽可能多地包含学校内部及外部数据,包括业务系统数据、机器日志数据和互联网数据等多源异构数据,通过数据集成工具集成到数据中心。 针对结构化、半结构化和非结构化数据等不同类型数据,应用Sqoop、Kettle、Flume 和网络爬虫等工具,制定相对应的集成策略。 结构化数据通常选择Oracle或MySQL;结构化数据的多表关联和查询可以用MPP;半结构化数据的实时解析可以用Spark&Hbase 或ELK;互联网及网站日志数据解析可以用MongoDB 等。数据计算主要包含离线计算服务、实时计算服务和面向海量结构化数据处理的分布式数据库服务等。

2.2 数据治理与服务

数据治理[3]核心要素包括主数据、元数据和数据质量。 依据对主数据的标准管理,实现主数据的标准化。 通过对元数据的管理实现不同表之间的数据血缘分析以及数据标准建立。 数据质量管理通过对数据的完整性、一致性和关联性等规则进行数据检核,形成数据质量报告。 数据服务提供数据资源服务和数据计算服务。 通过数据访问服务接口的标准化,实现应用和数据分离。 服务层采用微服务架构,将数据资源和数据计算封装成SOA、RESTful 架构对外提供服务,基于标准化接口实现对数据访问、数据计算的API 封装,以便于上层应用的调用,并支持机器学习算法分析功能。数据服务为大数据应用开发和数据分析挖掘提供平台及服务,平台依赖于底层分布式批处理框架、分布式流数据实时框架以及机器学习算法库等相关基础设施,数据服务功能包含数据开发、数据算法[4]与数据可视化等服务。

3 数据画像系统建设路径研究

数据画像抽象数据信息全貌,通过整合数据资源发掘数据应用价值,为师生和管理人员提供各类服务和决策支持。 研究数据中台下的高职院校数据应用体系,将数据画像分类为基础大数据、应用大数据和主题大数据3 个层次,如图1 所示。 分析不同层次管理模式,业务数据互动流程,数据管理规范,明确多层联动下数据生成、存储、访问、使用、更新及消除在内全生命周期内的参与人员、数据流转过程、数据监管负责机构等直接影响数据使用效果的关键节点,从全校宏观角度出发,逐步细化至核心业务场景,构建数据治理体系,提升数据质量,促进高职院校数字化转型的开展与实施。

图1 高校数据画像系统应用架构

3.1 基础大数据

基础大数据是从各类业务系统中抽取出来,依据制定的数据标准转换得到的业务领域数据。 当前高职院校的业务系统主要包含教务、教学、学工、人事、科研、就业等领域的管理或服务系统。 基础大数据建设主要环节是数据标准的建立及数据治理。 依据教育部教育信息化技术标准委员建立的教育行业标准为重要参考,结合学校的实际需求,制定学校级统一的元数据标准、代码集标准、编码规则和应用标准。 数据治理是基础大数据的质量的决定因素,除了上述的基于规则的数据校验,还需要业务领域人员针对实际应用场景的语义级校验。 基础大数据可以实现面向机器端的接口调用,同时也可接收用户的直接查询调用,这种情形下的主要开发难点是分级授权。

3.2 应用大数据

基础大数据与业务子系统是一一映射的,而应用大数据则是依赖基础大数据的相对独立的各类场景应用,这类应用数量繁多,主要是解决每一个具体的问题。 例如:在迎新业务中用来反映迎新动态大数据;在疫情防控中用来反映师生疫情风险的疫情防控大数据;在网上教学中用来反映师生互动的学生在线学习互动大数据等。 应用大数据为各类场实现精细化管理与服务提供数据支持。

3.3 主题大数据

主题大数据聚焦学校重点关注要素,涵盖学校治理、专业、课程、教师和学生5 个层面,通过数据分析与挖掘实现面向用户的数据服务与面向治理的决策支持。 学校画像:以学校核心业绩整体把控为目标,自上而下反馈不同层级建设工作的开展实施情况,针对建设项目和实施责任部门实现数据下探和数据定点,对可能存在的风险进行预估和防范。 系统可以实现指标的自动采集,对于执行不理想和存在风险的指标,系统支持自动向管理部门、执行部门进行预警,支持分项目组的多指标预警。 课程画像:面向教师团队,提供课程运行、线上教学活动、课程评价等数据,帮助团队了解课程教学状况、优势和不足,明确改进方向。 专业画像:在学校专业评估数据的基础上,从招生情况、专业建设和就业情况3 个维度呈现专业发展状况,助力专业建设的持续改进和布局优化。 教师和学生画像:由下到上设计统计层、模型层和挖掘层。 其中统计层实现纵向分级下钻和横向切片对比。 模型层通过对基本数据建模,构建多维度、可复用的数据中间件。 挖掘层利用数据挖掘算法,对基本数据或中间件进行挖掘分析,例如利用关联分析算法,挖掘与学生学习成绩强关联的相关因素。

4 数据治理管理体系

健全的管理体系是实时数据治理的体制机制保障。首先设置学校网络安全和信息化领导小组作为信息化数据资源管理工作的领导机构,负责学校信息化数据资源建设的统筹工作。 设置专门的信息化主管部门作为领导小组的日常办事机构,负责组织、协调和推动学校信息化数据资源建设工作,负责制定信息化数据资源建设规划、标准、规范等实施办法并监督落实,负责公共数据平台建设、运行、管理和对外服务。 继而按照“谁产生、谁负责、谁维护”的原则,各责任部门负责本部门数据资源的统筹规划、建设和目录编制,执行学校相关的标准、规范,按要求向公共数据平台提供权威数据,进行数据全生命周期管理,并对数据质量负责。 各部门负责人为本部门信息化数据资源管理的责任人。 各部门信息化联络员具体负责本部门信息化数据资源与学校公共数据平台对接、数据资源的日常管理、运维等工作。

5 结语

职业院校大数据应用的技术体系、应用体系和管理体系的成熟度将决定着数据应用的深度和广度。 在前期的实践探索中诸多院校已经获得了阶段性成效,很好地发挥了数据的价值,但是在建设过程中存在的协同机制问题和数据治理科学性问题阻碍了数据的进一步应用。 首先,数据治理不仅依赖于数据技术进步和数据应用创新,更需要发挥全校多元主体作用,通过多样化治理手段构建覆盖全校各层面的数据治理体系。 应进一步完善数据治理相关的规章制度,为数据治理的“常态化”提供体制机制保障。 其次,无论是数据质量检测方案的制定,还是协同相关业务部门进行数据质量整改,应探索更具有科学性、可行性和高效性的工作流程,提高数据治理效能,加快释放数据价值的脚步。

数据治理和大数据应用当前已成为高职信息化建设的主要突破口,2022 年3 月国家智慧教育公共服务平台正式上线,其中国家职业教育智慧教育平台将直接集成院校数据中心,形成学校级画像,平台的持续推进并充分运用将会带动职业院校的大数据应用探索与研究,有助于把职业教育规模优势转化为教育发展的新优势,推动职业教育的整体数字化转型。

猜你喜欢
信息化学校系统
WJ-700无人机系统
基于PowerPC+FPGA显示系统
连通与提升系统的最后一块拼图 Audiolab 傲立 M-DAC mini
学校推介
信息化是医改的重要支撑
信息化
I’m not going back to school!我不回学校了!