马鸿健 张耘凡 王关祥 车路 王娇
【摘 要】随着高校信息化应用范围的逐步扩大,以及物联网、云计算、移动互联等新型信息技术的广泛应用,高校信息化建设逐渐进入了大数据时代。面对迅速增长的教育信息资源,海量信息的存储和利用问题日益严峻,各大高校对于数据采集整合、集中管理、分析挖掘的需求日益明显,都在探索和思考新的应对策略。
【关键词】数据管理;数据采集;数据分析
Thinking of University data management in the Big Data era
MA Hong-jian ZHANG Yun-fan WANG Guan-xiang CHE Lu WANG Jiao
(Shandong Agricultural University, Taian Shandong 271000, China)
【Abstract】The university information system is gradually entered the era of big data, with the widely application of information, as well as networking, cloud computing, mobile Internet and suchlike new information technology. Facing the rapid growth of educational information resources, the problems of storage and utilization of magnanimity information resources is becoming more seriously. With the urgent requirement in data collection, centralized management, analysis and data mining, all of them are thinking and exploration of the new strategies.
【Key words】Data management; Data collection; Data analysis
0 引言
自21世纪以来,我国高校数字化校园建设得到快速发展,大致经历了基础设施建设阶段、应用系统建设阶段和信息数据整合阶段,提升了高校信息化的整体水平。如今,数据中心在承载着越来多和越来越重要的应用与业务系统的同时,也积累了大量的数据资源,数据管理渐行渐近。
大数据技术的目的不在于掌握庞大的数据信息,而在于对这些蕴藏知识的数据进行专业化处理,通过分析得出大量额外的有价值信息和数据关系,帮助人们优化自身的决策和行为方式[1]。高校中的数据是多源的、异构的,需要利用大数据技术进行整合,挖掘数据潜在的价值,进而帮助学校进行决策分析及管理,大数据技术的应用在高校教育信息化中起到越来越重要的地位。
1 数据管理
高校数据资源是高校各职能部门产生的业务数据及相关数据,包括教学资源数据、网络行为数据、无线认证数据等,从数据来源上涵盖教学、科研、人事、资产、财务等各个方面,从数据类型上有数据库、图像、报表、公文、音频、视频、日志等形式。
数据管理的概念最早提出于20世纪80年代,指利用先进的管理手段和计算机硬件、软件,实现对数据资源进行规划、设计、使用、维护与控制的全面管理,其目的在于充分有效地发挥数据的作用[2-5]。当前高校数据管理的工作主要包括三个方面:
1.1 数据的管理及共享服务
根据高校应用系统的数据需求,规划数据库结构和内容,将各种异构数据源进行统一,对外提供统一的访问接口和数据发现、检索等服务;建立统一数据库平台,存储各应用系统数据交换所需要的信息,并通过数据交换功能获取应用系统权威数据,根据需求定期回写到其他数据使用部门的应用系统,实现各个业务部门之间的数据共享。
1.2 制定相应数据标准和数据规划
建立高校数据标准规范,将学校各类数据资源集成,实现单一数据源管理和有授权的数据访问,保证学校主数据库中数据的实时性、准确性、一致性;对全校范围的数据资源进行统一规划,确定各类数据对应的权威数据生产部门,明确共享数据内容。
1.3 数据统计分析与应用
对集成的数据进行数据清理、数据分析及数据展示工作,除去冗余、重复的数据,提高数据质量;对高校教育大数据进行数据挖掘,发现数据中的价值,实现教学评估、学生个体分析、舆情预测等大数据分析与应用。
2 数据采集
高校信息化建设过程中,各个部门根据自身的业务需求建立了各自的业务系统,并收集了大量的、不同类型的数据,如教学、人事、科研、财务等部门的基本业务数据,教学课件、视频等多媒体数据,论坛、微博、微信等网络行为数据,校内无线网感知的位置数据等,从数据类型上可分为应用关系数据、文档、操作日志、图形数据、XML数据、流式数据等,这些数据在数据采集时可以分为两类,即结构化数据和非结构化数据,大数据采集架构如图1所示。
2.1 结构化数据采集
结构化数据采集即数据集成,将互相关联的分布式异构数据集成到一起。其实现方式是在各业务系统与数据中心之间做接口,并完成对接,实现抽取与推送数据的目的。根据实际应用的需求,数据交换分为数据库级数据交换和应用级数据交换,数据库级数据交换适合数据集实时要求高数据量不大的数据;应用级数据交换适合数据实时性要求不高但数据量较大的数据。高校中数据集成的部门和需要集成数据项名称如表1所示。
2.2 非结构化数据采集
高校产生的数据大多是半结构化和非结构化数据,在进行数据采集时,将存储于数据库以外的数据作为非结构化数据进行研究。高校中,将各种不同类型和格式的数据进行集成时,需要使用与非结构化的数据相关联的键或者标签,这些非结构化数据通常包含了与主数据相关的数据。通过分析包含了文本数据的非结构化数据,可以将非结构化的数据进行关联。如图所示,存储在数据库外部的数据,如文档、音频、视频文件,可以通过教师、学生、课程或者其它主数据引用进行搜索,将主数据引用作为元数据标签附加到非结构化数据上,在此基础上实现与其它数据源和其它类型的数据进行集成。
3 数据分析
数据采集获取到高校大数据之后,需要进行数据分析、挖掘工作。数据分析方式主要有两种,一种是传统的SPSS、SAS数据分析,另一种是采用大数据架构及相关工具进行分析,如Hadoop、Spark。
大数分析技术可以应用于高校大数据的各个方面,分析结论也可以应用于教育、教学的多个方面。通过对学生成绩数据、图书借阅数据、课外活动数据、一卡通消费数据、体能测试数据进行分析,可以综合性地分析学生的全面发展状况;在以上基础上,增加学生兴趣数据、科学研究及实践数据、就业数据,可以分析得出各类学生对就业的方向选择及社会对学生的认可程度,进而帮助学校在教学模式、培养方案上的优化,更加准确高效地培养出更多优秀的、为社会服务的高水平人才。
4 数据管理思考
从高校数据的来源及汇聚方面,高校中的数据很大一部分来源于各职能部门,而高校内部对于各职能部门间数据资源规划缺位、缺乏共享共建意识,导致了各部门建设进度不同、数据标准不统一,增加了数据资源共享共用的壁垒。因此,大量的数据分布在各个互相独立的系统中,无法有效流动形成规模效应,数据价值得不到有效挖掘。
从大数据时代的数据管理思想上,传统的数据管理只是采集基本数据,使用数据自身含义,没有利用数据的附加价值;而大数据时代的数据管理更强调数据之间的关联性,主要研究数据间的关系,以挖掘内在关系及预测为核心思想,通过对海量数据进行分析,得到未来发展趋势或者推断将来的可能性,进而为高校决策提供数据支持。
从大数据时代的隐私保护上,多项案例表明,即使无害的数据被大量收集后,也会暴露个人隐私。高校大数据覆盖高校、学科、教师、学生的方方面面,如学校课程体系、学科目录、教师的工资收入,学生的生活习惯、阅读习惯、检索习惯等。因此,需要在大数据采集、分析、决策开展的同时,做好用户隐私的保护。
5 结论
综上所述,大数据的出现,给高校的数据整合和数据管理提供了技术支持。利用大数据技术做好高校数据管理工作,让数据更好的为教学、科研、学生管理等提供决策支持,是大数据时代高校数据管理发展的方向。
【参考文献】
[1]赵玉洁.大数据在高校教育信息化中的应用探究[J].中国教育信息化,2015,19:38-41.
[2]孙曼,王全.大数据及其处理架构在高校中的应用探究[J].现代经济信息,2015,12:96+98.
[3]石峻峰,周俐霞,樊泽恒,王丽.大数据时代高校数字档案资源管理研究[J].现代教育技术,2015,01:19-24.
[4]向禹.高校档案资源异构数据采集研究与实现[J].农业图书情报学刊,2015,06:18-21.
[5]曾凌静.大数据系统架构及技术发展研究[J].石家庄学院学报,2015,06:38-43.
[6]余水清,潘黎萍.大数据管理-数据集成的技术、方法与最佳实践[M].机械工业出版社,2014∶2-9.
[7]王益.数据中心信息交换平台的研究与设计[J].中国教育信息化,2010,21:16-17.
[8]邓佳,詹华清.莫纳什大学科研数据管理实践及对我国机构知识库建设的启示[J].情报理论与实践,2014,05:136-139.
[9]赵亮.大数据在高校教育信息化中的应用[J].黑龙江教育学院学报,2014,09:14-15.
[10]舒忠梅,屈琼斐.大数据时代高校信息管理与决策机制研究[J].华南理工大学学报:社会科学版,2013,06:96-101.
[11]孙洪睿.高校数据信息平台的研究与设计[J].应用科技,2009,07:41-46.
[12]陈琴,耿植.构建高校信息管理数据仓库[J].福建电脑,2008,03:183+159.
[13]潘奇.基于Hadoop技术的高校学生行为分析系统研究与实现[D].北京邮电大学,2015.
[责任编辑:杨玉洁]