文/毛琦 刘俊 王齐
西安交通大学大数据环境下高校如何开展数据分析和应用
文/毛琦 刘俊 王齐
近年来,多领域数据的爆发式增长推动着信息技术和互联网的快速发展,针对大数据的研究已经成为国家基础性战略资产储备和衡量国家竞争力的重要标志。加强信息化建设,加强数据的管理、掌握与加工,打造“数据中国”已成为“十三五”战略规划的重要组成。信息化已从各个层面被提升至国家发展战略的高度。
高校信息系统一直是数据生产大户。麦肯锡报告《大数据:创新、竞争和生产力的下一个前沿》中认为,大数据是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。统计显示,仅2009年,美国国家教育部某信息系统的数据库就膨胀至269 P 字节(1 个P 字节等于10亿个M 字节),庞大的信息程度入选当年全美10 大数据生产贡献量排名。在我国,超万人的高校非常多,对于高校管理层来讲,学籍信息、选课、成绩单、图书借阅历史、上网时间分布、校内论坛交流、微博微信等互联网登录和吃饭刷卡消费等都会产生大量信息数据;对于任课教师来说,个人工龄及薪酬管理、上课课件和视频传输、项目管理及经费应用等教学科研也会产生大量信息数据;除此之外,还有高校教务及行政系统的设备管理、办公自动化建设和学校主页建设等信息数据。这些高校现存的庞大信息系统经多年运营积累了很多基础原始数据,如何对这些原始数据开展深入的分析和应用,在统筹分析的基础上加强学校的科学化管理,为学校发展决策提供数据支撑,成为摆在我国高校面前的一个重要课题和开拓性机遇。
面对信息时代带来的各种机遇与挑战,为满足人才需求,美国政府率先行动实施了一系列促进计划,以鼓励研究型大学设立跨学科的研究生专业课程、培养新一代数据科学家和工程师人才。例如,向加利福尼亚大学伯克利分校的计算开发项目投资1000 万美元,项目旨在集成3 种数据转化信息方法(机器学习、云计算和众包); 为“EarthCube”项目( 旨在允许地球学家获取、分析和共享与地球相关的信息) 提供第一阶段的资金支持; 向一个研究培训小组(支持一项教授大学生如何利用图形和可视化工具解析复杂数据的培训计划) 提供200 万美元的资助; 为一个由统计学家和生物学家组成的专业研究团体提供140 万美元的研发资金; 召集各个学科和领域的研究人员,共同探讨如何利用大数据转变教育与学习模式等。美国已将发展大数据提高到国家战略高度,以求继续保持在国际上的科技领先地位。
在国内,从2012年开始,包括厦门大学、复旦大学、华东师范大学、上海财经大学等在内的一批大学开始重视数据的深度分析和应用工作。比如华东师范大学利用预警系统跟踪学生的餐饮消费数据,跟踪分析学生是否有经济困难,是否需要帮助;东华大学的智能实验室项目,记录实验室使用的全过程数据,形成动态表格,实现教育经费使用的集约高效。
此外,中国科学院、复旦大学、北京航空航天大学等相继成立了近十个从事数据科学研究的专门机构。
通过对网络行为数据的分析来研判教育系统网络舆情走势的价值就凸显了出来。
高校中的数据有很高的教学与科研价值,开展高校数据分析和应用工作可以辅助高校教学管理,甚至能改变教育领域传统的授课模式、学习模式和管理模式。对现存海量原始数据加以分析,可将其应用在科研计算、招生推广、学科管理、薪资统筹、学生信息跟踪等多个方面。在新形势的驱使下,多数高校已经形成共识,在信息爆炸的时代,开展数据的深度分析和应用工作,对高校的发展而言是非常有必要的一项重点基础工作。
1.学校科学决策,需要数据深度分析和应用的辅助。
对于大量业务数据进行深度分析和应用的核心驱动力是辅助高校决策支持。这种基于预测的数据分析与应用体系成功的关键在于它们是建立在海量数据的基础之上。此外,随着高校数据分析及应用体系积累的原始数据越来越多,通过跟踪记录分析找到最好的预测模式,可以对高校运转的各领域提供决策支持,具体而言,对高校预测招生生源情况、就业情况,预测在校学生的各种需求情况、教师的科研项目管理、教职工人事信息管理以及学校的将来发展状况等方面都能起到数据支持与趋势研判的前瞻性辅助支持。
2.教学质量评估,需要科学的数据深度分析和应用。
教学评估是每个高校定期要做的工作,把数据分析技术引入到教育领域的评估系统中,不仅提高了教育管理的科学性,而且增强了教育数字化建设的实效性。将基于海量数据挖掘的智能算法应用于教学质量评估中,从教师教学的效果、多媒体课件的使用、学生和教师的互动、教学与教学场所等因素中找出其中的内在联系,能为教学部门提供决策支持信息,为教师提供准确的反馈信息,使之更好地开展教学工作,提高教学质量。
3.教师教学能力的提升,需要数据支持。
过去的教学因为没有大量数据的支撑,该教什么全凭教师跟着感觉走。现在,通过深度分析学生在观看网络教学视频过程中的关注频次和浏览量,分析得出学生感兴趣、或者难理解的课程关键节点,帮助教师有的放矢地改进教学重点、确定教学难点,势必会引导教师改革教学方式。
4.校园网络信息管理及分析,需要数据深度分析和应用的支撑。
在现代信息高度发达的年代,网络舆情研究工作对高校政治思想教育工作和高校教育环境稳定的重要性不言而喻。特别是随着Web2.0时代的进一步推进,在高校管理当中,校园网BBS、微博、微信等新媒体正大行其道,“圈子”模式的交流方式为校园网络舆情分析和突发事件网络疏导增加了困难,正因如此,通过对网络行为数据的分析来研判教育系统网络舆情走势的价值就凸显了出来。
西安交通大学的信息化建设起步于上个世纪90年代初,是国内较早开展信息化建设的高校之一,目前学校信息化建设进程中的信息数据建设大致完成了两个阶段的工作:简单的资源“数字化”(主要以大量的文字和数字资源上网为标志)以及业务工作的“流程化”。期间,学校建设了办公自动化系统、科研系统、教务系统等各类业务工作系统,传统的部门业务工作开始通过网络进行办理。
现阶段,业务工作的“流程化”产生了大量的业务数据信息,而相关部门对这些数据信息的需求催生了业务数据的“共享化”需求。从使用研发层面,所谓的业务数据的“共享化”也就是应用系统与数字资源的整合优化。我校在数据“共享化”方面做出了一些有益的尝试,打通了科研和财务系统的数据接口,实现了科研、财务一站式服务;建立了移动校园门户,整合了科研、财务、OA、图书馆等业务系统的数据以及部分教务系统的数据。
然而,当前我国绝大多数高校在数据分析与应用层面遇到了类似的发展困境:当前高校还没有在真正意义上将整合的数据分析和应用提升到学校发展战略的层面上来考量。比如,在数据管理方面,多数高校还存在数据口径不一致、各部门独立发布和使用数据的现象,这就忽略了各口径间数据的联动效应,损失了数据关联背后产生的巨大应用价值,不利于学校形成大数据格局。具体表现在:
1.数据整合程度不高,仍然存在数据孤岛。
当前部分高校业务部门之间的信息缺乏统一规划管理,导致各业务系统之间无法共享数据,信息系统资源相互独立,数据的一致性得不到保证,严重影响了跨部门之间的业务协同,造成了存储系统的利用率不均衡和存储空间的浪费。信息“孤岛”难以对数据进行沉淀、积累、汇总和再分析应用,无法从中进行深度挖掘形成有价值的信息。
2.各部门各自为战,数据口径不一致。
高校的运转需要各个业务部门的协同配合,在当前高校管理过程中发现各业务部门在使用和共享既定业务数据时,普遍存在各自为战的情况,导致数据口径不一致,容易在学校信息管理中造成混乱。同时,这一现状也直接导致学校无法利用有效的数据分析解决管理中遇到的实际问题,无法挖掘现在拥有数据中潜在的价值。例如,高校的校友系统,无法与就业、招生、本科生管理、研究生管理等系统进行数据共享,造成了校友身份信息的不完整、不统一等问题,甚至部门在完善信息时还需要人工手动确认数据的情况,为校友工作上带来了巨大的困难和繁冗的重复性工作,进行数据分析更是无从谈起。
3.没有归口管理,尚未形成机制。
随着近年来高校信息化建设的逐步发展,各高校管理口的业务部门积攒了大量的原始数据,然而当前的高校数据管理体制没有对所积攒出的零散原始数据进行归口管理,缺乏协同响应的机制,无法对数据产生的标准、存放、使用、维护以及开展深入数据服务等应用进行统一的指导和规划。因此,当前高校的数据分析和应用工作仅仅停留在各业务系统之间进行简单数据交换的原始阶段。
1.在已有的信息化建设成果的基础上,构建全面互补的高校数据分析与应用管理体系。
经过多年的信息化建设,不少高校已基本形成了包括组织管理、技术保障、运行维护等在内的信息化管理运行体系。因此,在大数据时代到来之际,在加快推进高校信息化建设的关键点上,要充分利用已有的信息化建设成果,进一步推进建立以主管校领导牵头的信息化建设与管理领导小组,明确学校信息化推进的责任部门,制定与信息化建设相关的制度法规,进一步开展全面互补的高校数据分析与应用工作。通过信息化标准规范的制定、采纳和应用推广构建高校信息化建设标准规范体系,完善信息化项目管理体系及信息化运行维护、检查评估机制,迎接大数据时代的到来。
2.加强对已有数据的整合、分析与应用,提高数据对高校事务决策的辅助参议功能。
不少高校在初探信息化推进过程中产生了大量零散式、孤岛式的数据信息,这类冗余信息的堆砌仅仅实现了高校信息数据管理中留存备忘的功能。应在排查现有信息化建设进展的基础上,集成高校办公自动化、科研管理、财务管理等重要校务管理信息应用系统数据,统筹整合、深入分析,将简单堆砌的数据转化为辅助高校决策的有力支撑例证,为学校教学、科研、管理和服务水平的提升以及进一步数据分析、整合、共享之路打下坚实基础。
3.重视高校信息化工作的统筹指导和战略规划。
着力加强数据的分析与应用;着力增强网上舆论工作的主动性和创造性,承担主要工作包括:
(1)数据分析与应用工作:制定学校数据发展规划及相应数据标准;推动数据收集、存储、分析和应用工作;学校综合数据库的建设、维护、管理工作;各级各类教育统计数据汇总、上报工作;数据统计服务工作,教育统计分析和评价报告撰写工作,为学校宏观管理与科学决策服务。
(2)学校信息化推进与实施工作:制定、推广和实施学校各类信息化标准,开展标准应用的相关工作;学校教育信息化的发展规划工作;组织、协调和推进全校各单位教育信息化的建设工作;综合校务平台等软件项目的开发、评测工作。
(3)网络舆情管理工作:网络舆情的搜集采集,预警信息的提供;舆情信息汇编的制作和发布;不良信息处置,网络突发事件应急响应。
(4)公共信息服务工作:学校门户网站的内容管理和日常保障工作;信息技术培训工作;校级公共信息服务保障工作。
(5)信息资源开发工作:网络教育教学资源的开发、建设和发布等工作。
基于大数据的分析管理在高校应用中面临着机遇与挑战并存的现状。随着“数据中国”的深入开展,高校教育管理的信息化、数据化将成为不可逆转的趋势,挖掘教学数据深层次的价值并使其为学校发展决策服务是高校数据管理的重要任务。另一方面,以上文中所提到的当前所存在的问题在我国高校现今数据发展的探索过程中具有普遍性,如何结合本校实际情况进一步推进信息化进程和大数据挖掘程度还有待深入探索、修正。
(作者单位为西安交通大学数据与信息中心)