朱兰 张晓焱
摘要:调研江苏高职院校数据建设情况,总结了取得的成效,分析了目前存在的四个痛点,归纳了三个主要原因,在此基础上建立了全数据链管理的总体设计模型:建设一个融合的智慧数据中心,由数据库开放向数据能力开放演变,为数据应用、数据开放提供元数据信息、信息标准信息、数据质量信息、数据血缘信息;为数据应用提供实时数据源;由数据可视化向数据感知与交互转变,为数据治理提供实时数据源、数据访问反馈和数据质量反馈。
关键词: 数据链;数据建设;数据治理;数据开放;数据应用
中图分类号:G642 文献标识码:A
文章編号:1009-3044(2020)34-0177-03
Abstract:Based on the investigation of data construction of higher vocational colleges in Jiangsu, the paper summarizes the achievements, analyzes the existing four pain points, and gets the three main reasons. On this basis, it establishes the overall design model of the data chain management which includes as follows: building an integrated intelligent data center, evolving from the open data base to the open data, providing metadata information for data application and open data, standard information, data quality information, data consanguinity information; provides real-time data source for data application; transform from data visualization to data perception and interaction, and provides real-time data source, data access feedback and data quality feedback for data governance.
Key words:Data chain; data construction; data governance; open data; data application
2019年对江苏省高职院校数据建设情况进行了调研,从调研的情况看,所有高职院校数字化校园的硬件建设已经全部到位,软件建设已经从系统建设逐渐转为流程应用,数据的管理和建设也已经从单纯的要数据到关注数据的质量和应用。
高校数据的发展路径:
2013年,以共享数据库、数据交换、数据可视化为主要建设模式。
2014年,出现主数据概念,开始关注数据质量和数据治理。
2015年,数据治理与主数据管理成为业内主流;高校数据管理范围延伸。
2016年,大数据,数据安全与隐私开始被重视。
2017年,数据治理与数据应用逐步打通与融合,开始关注建设高校数据生态体系。
一般高职院校,由于经费制约、理念差距等,数据治理的建设要迟于本科院校,但是还是按照上述路径在发展。
1 痛点和原因分析
1.1 数据建设痛点
根据调研的高职院校反馈分析,普遍存在的痛点:
1) 信息标准:学校业务需求多样,一套标准没法根据需求重新组织输出;校级标准数据经常和业务系统标准脱节,导致集成失败,重复维护;信息标准历史沿革无从追溯,与学校基础信息的历史数据无法匹配。
2) 数据质量:纯靠IT技术监测数据质量与实际业务场景关联度不大,治理效果差;参与数据质量建设的人员太少,单纯靠信息中心无法做到全面的数据质量检查和提升。
3) 数据交换:交换接口多,需求变化多,业务库结构变动多,重复修改工作量大;日常工作与线下文档脱节,重复整理交换过程,维护工作量大。
4) 数据管理:元数据与数据库结构之间经常脱节,模型不一致;做好的元数据管理只应用于信息中心内部,无法被其他部门使用;做好的数据流向规划无法直接使用,所有交换过程依然需要手工开发,重复工作。
1.2 原因分析
究其原因,不外乎以下三点:
1) 数据治理体系缺失。数据治理是指将数据统一,将混乱的数据变成条理型的数据。数据治理是一种体系,它的目的是在高层建立一种制度,通过合理整合信息部门和业务部门的意见对数据进行监管。数据治理范围是一个闭环系统,从前端业务到数据展现,再从数据展现溯源数据源头。2018年4月21日,在苏州举行的第十三届中国电子信息技术年会上,梅宏院士应邀作题为“大数据治理体系建设若干思考”的大会报告。在报告中,梅宏院士指出“大数据治理体系技术支撑需要涵盖大数据管理、存储、质量、共享与开放、安全与隐私保护等多个方面”“大数据管理的相关方法与技术已有不少成熟产品与技术,但还是缺少完善的多层级的管理体制和高效的管理机制。单有技术,没有管理体制和机制也完不成”。
2) 数据运维工作繁琐,有心无力。查阅百度百聘网站上的招聘信息,运维工程师的职责是负责大数据平台相关系统的运维保障,负责大数据平台的架构审核、业务监控、持续交付、应急响应、容量规划、性能优化。但现在高职院校信息化部门的数据运维工程师严重缺乏,即使有学校配备了数据运维工程师,数量也就是一个,更会因为工作量大感觉有心无力。
3) 重视业务纵向应用,缺乏数据横向打通。目前高职院校的各部门的信息化应用系统数据源支撑主要是本部门产生的数据,而职能部门外的数据支撑很薄弱甚至缺失,缺乏数据间的横向打通。
2 数据建设的成效
当然,不可否认很多高职院校的数据建设取得了一些成效:
1) 数据集中管理。数据集中是指将各种数据集中到一个平台以便于对数据进行挖掘和分析,数据的集中是高职院校信息化建设中最重要和最核心的问题,学校的数据都来自各种业务系统,比如教务、人事、学工等,甚至于有系统采用的是非关系型数据库系统,所以要想方便对数据的挖掘分析,必须要有一个数据交换平台,这个数据交换平台主要提供信息交换,将学校里各个业务系统的业务数据抽取出来,形成一个格式和标准都统一的信息库。
2) 信息化标准初成。信息化建设初期,高职院校数据所遵循的各种标准,比如教育部标准、国标、行标等一般直接由建设方创建到数据中心中,而学校标准则是按校方的要求进行,如果已存在校标那很简单,可以直接让建设方同步到数据中心中,如没有校标则一般是建设方和学校信息中心一起到各个部门进行调研,然后形成校标初稿,经专家讨论审核定稿后形成自己学校的校标。
3) 部分业务互联互通。各个高职院校借助流程与管理平台的结合,打破了大部分系统和部门间的壁垒,实现了管理流程的优化再造,使学校的管理业务互联互通,实现了各个业务系统的数据共享。部分高职还解决了数据清洗方面的问题,使各个业务系统的数据得以交换和共享。
3 全数据链的智慧数据中心
要实现数据生态的成熟,高职院校可以建设一个如图1所示的融合的智慧数据中心,为数据应用、数据开放提供元数据信息、信息标准信息、数据质量信息、数据血缘信息,由数据库开放向数据能力开放演变;为数据应用提供实时数据源;由数据可视化向数据感知与交互转变,为数据治理提供实时数据源、数据访问反馈和数据质量反馈。
3.1 数据治理
合理的数据治理能够建立起规范有效的数据标准,提高学校内部的数据质量,充分发挥数据共享,提升数据对学校教科研、管理和决策方面的重要作用。必须参照行标、国标和教育部标准,建立可追溯的校级信息标准,信息标准的管理要高效化、语义化、同步化、自动化。完整实现智能的业务数据交换、基于元数据的校级数据管理、管理与提升数据质量。
具体信息标准管理功能可以设置“维护(增删改、启停、合并、拆分等)”、“管理(数据、历史、版本、视图等)”等相关功能。简述如下:
1) 版本管理:实现历史标准查询与追溯。
2) 自动对标:确保实时监控标准一致性。
3) 视图模式:可以为不同的应用场景输出定制化的标准视图。
4)标准维护:启用或停止标准集、增删改标准集等。
……
3.2 数据开放
数据开放主要实现可视化定制数据服务,充分实现数据共享;对数据进行权限管理、脱敏加密和使用监控,从而保障数据安全;通过第三方服务接口接收各个院系部门已有的或其他已有的数据服务,促进数据消费。
对数据进行权限管理、脱敏等是数据管理能力的体现,只有数据管理能力强了,数据开放才无后顾之忧。数据管理包括业务数据源管理、数据分类管理、数据模型管理、数据库建模、数据库联动监控等相关功能。
1) 数据共享安全:在敏感数据仿真方面要模拟数据组织和保留数据特性。可以通过脱敏策略和算法来保证脱敏数据的完整性、关系性、有效性,方便对这些数据测试使用。
敏感数据(隐私数据),高校中常见的敏感数据有姓名、身份证号码、宿舍号、QQ号、师生银行账号、工资信息等。数据脱敏(数据漂白、数据去隐私化或数据变形)就是通过某种方式和规则对敏感信息去隐私化,从而实现对敏感数据的保护。
按照数据处理方式的不同,可以将数据脱敏分为静态数据脱敏和动态数据脱敏两大类。
①静态数据脱敏:指将数据文件去敏感、去隐私化处理的同时保证数据之间的关联关系。该脱敏方式适用于项目开发单位需要获取完整的数据进行开发测试或是数据分析,对于学校,又不希望敏感数据泄漏出去,在这种情况下,对数据进行可回溯的脱敏后再用来外发给第三方公司,可以确保发送出去的数据不包含敏感信息,当项目开发单位开发完成后,将分析系统或结果数据回溯成真实的结果数據。这样既保证了开发过程中的数据共享和结果一致性,又保证了真实数据不会在开发过程中泄漏。
②动态数据脱敏指不同级别的用户按照其身份特征在前端应用处调取后台数据库中敏感数据时,进行数据脱敏,再反馈至前台呈现,不需要对生产数据库中的数据进行任何改变。动态数据脱敏同样需要支持同义替换、部分遮蔽、混合脱敏、确定性脱敏及可逆脱敏,通常可根据不同用户身份特征,指定对应的数据脱敏算法。
2) 提高数据质量确保数据有效开放,数据质量检查是数据仓库技术工作中非常重要的一步,主要涉及正确性检查、明确性检查、一致性检查和完全性检查。我们可以通过质量检查技术来代替手工检查,并由技术治理转变为场景治理,通过场景化检测让过程更聚焦;同时由技术治理转变为应用治理,学校各个数据提供部门全员参与能让数据质量工作更有效,通过数据追溯源头可以使得数据流向分明、血缘明确、质量分责。
3) 从数据库开放到数据服务开放,以数据聚合、服务聚合促进数据共享和服务共享。数据聚合解决了传统模式下,数据分布各部门,独立运作的聚合治理,形成权威的数据中心,数据聚合由双方数据聚合孵化产生出新的产品,新模式。服务聚合则是在新校园数据生态模式下,服务化数据接口丰富但分散,可以通过服务聚合进行管理。数据共享解决跨部门间的数据使用,而服务共享则规避数据库的暴露,解决服务对接和实时数据的共享使用。
3.3 数据应用
以服务为目标动态建设数据应用,通过数据服务反推业务和数据建设,提高学生管理、教学科研等方面的数据分析可视化能力。
在第五届全国数字校园建设与创新发展高峰论坛上,复旦大学信息化办公室宓詠主任介绍了复旦大学数字校园的做法,分析了从“数字化”到“数据化”的演变,展望了数字校园的发展。他介绍到:复旦大学联合二级院系在已有的数据利用基础上,进行有针对性的数据分析从而实现精细化管理。通过对全校各类数据的综合分析,可以发现学校自身存在的不足和以后需要努力的方向。宓主任同时认为随着各种新技术的出现,数字校园建设应秉承以数据服务推动业务变革的思想,积累各种业务数据和数字资源,通过数据的分析与决策,推动高校教科研和管理的转型。数据分析的可视化是大数据技术的外在表现层,其应用门槛随着各种工具的应用已经大大降低,为高职院校的数据广泛应用奠定了坚实的基础。
从调研情况来看,部分高职院校只是将可视化分析作为面子工程,他们在会议室里设置展示大屏,其他学校来参观时,如果做一个漂亮的数据可视化,就会有一种很科技感的感觉,会让学校觉得很有面子。数据的可视化分析除了能给参观者以漂亮的视觉效果外,它是可以使数据产生闭环的。学校通过这些可视化的图表分析,结合学校教学、管理等方面存在的问题,根据新情况提出新需求,并将数据与新需求进行结合,重新对数据整合、计算、分析,一直循环往复下去。
4 结束语
习总书记提出,“以数据集中和共享为途径”,建设一个融合的大数据中心,“推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。”本文通过江苏高职院校的调研,分析了各个高职院校数据建设中的痛点和原因,提出了一个融合数据中心建设模型,通过该模型实现数据全生命周期的管理。
参考文献:
[1] 何克抗. 大数据面面观[J]. 电化教育,2014,35(10):8-16.
[2] 代红,张群,尹卓.大数据治理标准体系研究[J/OL].[2019-04-03]. http://kns.cnki.net/kcms/detail/10.1321.G2.20190402.1043.004.html.
[3] 李振,周东岱,刘娜,等.教育大数据的平台构建与关键实现技术[J]. 现代教育技术,2018,28(1): 100-106.
[4] overtime. 主数据管理的思考[EB/OL]. [2016-03-27]. http://blog.sina.com.cn/s/blog_7614671f0102wi5d.html.
[5] 杨现民,陈世超,唐斯斯. 大数据时代区域教育数据网络建设及关键问题探讨[J]. 电化教育研究,2017,38(1): 37-46.
[6] 张群,吴东亚,赵菁華. 大数据标准体系[J]. 大数据,2017,3(4):11-19.
[7] 邬贺铨. 大数据共享与开放及保护的挑战[J]. 中国信息安全,2017(5):55-58.
[8] 马亮,王晓东. 智慧校园数据治理与数据服务建设——以浙江中医药大学为例[J]. 中国医学教育技术,2020,34(3): 322-325.
[9] 刘祺. 发挥数字化战“疫”优势 推动城市治理现代化[N]. 河南日报,2020(6).
[10] 科技新时代编辑部.习近平总书记关于网络安全和信息化工作重要论述综述[J].科技新时代,2019(Z1):30-33.
[11] 刘英梅.知识创新服务与图书馆——源于“知识创新服务业发展战略高峰论坛”的思考[J]. 图书情报导刊,2020(3): 12-19.
【通联编辑:王力】