基于大数据技术的高校信息化建设

2017-04-05 07:59:24张新红陈利国
郑州铁路职业技术学院学报 2017年1期
关键词:数据挖掘校园信息化

张新红,陆 璐,陈利国

(郑州铁路职业技术学院,河南 郑州 451460)

基于大数据技术的高校信息化建设

张新红,陆 璐,陈利国

(郑州铁路职业技术学院,河南 郑州 451460)

大数据技术的出现推动了高校的信息化建设。在高校信息化建设中引入Hadoop系统及其工具集,将高校中的所有数据进行采集、处理、分析和展示,实现预测功能,为管理人员提供决策的依据。分析高校数据应用的现状并提出基于大数据技术的解决方案,使体量庞大又纷繁复杂的各类数据在高校教学与管理中充分发挥作用。

大数据;信息化建设;数据应用;数据挖掘

在云计算、物联网大热之后,大数据又成为了重点话题。大数据技术被人们用来处理在信息时代所产生的海量数据,同时,与其相关的技术发展和创新也以大数据来命名。通过对信息时代产生的海量数据进行高效的分析,可以使众多的行业获得意想不到的商业和社会价值,从而推动各行业的发展。

在高校信息化校园建设中,利用大数据技术对校园信息化设施展开大规模的数据抓取,并实施有效的深度数据分析,可为教育资源优化、人才质量提高提供科学的决策依据。透明的数据更能体现以学生为中心的教育思想,便于提前规划专业学习方向,调解学生与教师之间的矛盾,缓解社会就业压力[1]。

一、高校信息化建设现状

目前,大部分高校都已完成信息化建设。高校信息系统,学生管理系统,办公自动化系统,BlackBoard平台,e-Learning系统,教学资源库,图书管理系统,远程教育系统,教科研系统,校园一卡通系统,视频监控系统,财务管理系统,招生与就业系统等都已投入使用。这些系统各自独立,教师和学生在使用时不得不根据需要登录不同的系统进行信息录入和查询。这就造成信息重复输入,查询结果不能合并等问题。

要解决上述问题,需要建立统一的用户个人数据中心,并驱动用户主动去维护、完善个人信息。通过统一的校级个人信息填报入口,将填报服务与管理流程分离,减少用户重复填报信息的操作[2]。在此基础上建立“个人—专业/部门—院系—学校” 一体化的校级数据中心,完善数据的录入和管理。

大数据技术出现之后,为校园信息化建设带来了机遇,大数据技术在高校中的应用研究亦如星星之火正悄悄燃起。例如:北京航空航天大学在2012年9月成立了大数据科学与工程国际研究中心,并开创了国内第一个“大数据科学与应用”软件工程硕士专业;复旦大学应用大数据技术建设智慧校园;华中科技大学构建了基于大数据的就业工作系统。如何使大数据信息资源和技术服务于高校的教学和管理工作是大多数高校目前面临的重要课题。

二、大数据技术在高校中的实施

在高校信息化建设的过程中,更好地服务用户是最终目标。高校信息化管理者必须能够及时发现和挖掘用户对服务的新需求,并着力于满足用户合理的需求。当前,许多高校都有其各自的学生信息管理系统、招生与就业系统、科研系统和财务系统等,并积累了大量的结构化数据,同时在校园网、预约系统、物联网、校园一卡通系统、电子学习系统、网络社交平台、幕课、无线网、生活服务平台等使用过程中产生了大量的数据,其中大部分是非结构化数据,它们无法用常见的关系型数据库管理系统保存和处理。这些庞大、结构复杂的各种数据看似零散、无关联,如何管理和充分利用这些数据,如何在获取全体数据之后进行及时准确的分析和整合,并提出精准预测[3],才是高校信息化建设工作面临的最大挑战。

(一)大数据技术

大数据技术的出现解决了上述问题。以Hadoop为代表的开源分布式大数据处理架构进入了校园信息化视野。 Hadoop使用廉价的PC机取代高性能计算机,大大节约了硬件成本;Hadoop属于Apache软件基金会的开源软件体系,具有较强的灵活性,允许用户自己修改代码,擅长海量数据的存储和计算服务。这些特点为Hadoop架构应用于校园信息化建设提供了条件。Hadoop项目的主要构成为两部分,HDFS分布式文件系统和Map-Reduce计算框架。此外,还提供了其他一些工具集,例如:构建在Hadoop分布式文件系统和Map-Reduce计算框架之上的可扩展的数据仓库Hive,为SQL用户访问数据库提供了方便;数据流高层语言Pig、结构化数据库KBase、数据挖掘工具Mahout、日志收集工具Flume、关系数据ETL工具Swoop、高性能分布式协同服务ZooKeeper等丰富的工具集。图1是Hadoop项目构成图。

图1 Hadoop项目构成图

(二)大数据技术在高校信息化建设中的实施

在高校信息化建设和运行中产生和积累了大量的数据,这些数据需经过处理才能更好地呈现给用户。数据处理流程包括四个阶段:数据采集阶段,数据导入/预处理阶段,统计/分析阶段,数据挖掘/可视化阶段。最终实现有效服务于学校和师生用户。

1.数据采集阶段

校园网,尤其是无线网、物联网是基础设施。建设完善的无线网络覆盖,建立以RFID、无线AP、校园卡等为基础的物联网[2],为数据的捕获提供硬件支持。师生通过手机、平板电脑和智能终端实现教学、科研、选课、借还书、吃饭刷卡等活动的同时产生的大量即时数据是大数据的主要来源。数据采集系统如图2所示。

图2 数据采集系统

数据采集以“个人”为核心,建立“个人—专业/部门—院系—学校”的金字塔模式,既可避免信息重复填报,又可减少“信息孤岛”现象的存在,形成完善有条理的数据体系。

2.数据导入/预处理阶段

由硬件系统和软件系统产生的数据需要进行抽取、集成,即导入/预处理,然后再进行存储。在数据抽取阶段收集各种碎片化数据,然后使用相应的工具对大量杂乱无章的数据进行过滤,提取其中有价值的数据,最终将这些数据按照统一的格式存储。

对于结构化数据,采用ETL(数据提取、转换和加载)工具将数据抽取到Kbase数据库中;对于非结构化数据,通过Butch进行抓取,并使用Sole工具对数据进行索引后存储到Kbase数据库中。

在数据存储时要采用统一的数据标准及编码系统,合理应用CAP定理。为了消除信息孤岛,在数据存储过程中要充分考虑数据的一致性、可用性、分区容忍性,最终目标是实现数据的有效存储与使用。

3.统计/分析阶段

在统计/分析阶段,利用数据仓库软件(如Hive)对数据库中的数据进行查询和分析。Hive是一种类 SQL 查询语言,建立在 Hadoop 上的数据仓库基础构架上,称为 HQL,它为熟练使用SQL 的用户查询数据提供了便利。对于熟悉 Map-Reduce 开发者来说,使用Hive开发自定义的 mapper 和 reducer 来处理复杂的分析工作更为便利。

数据分析分为简单数据分析和复杂数据分析。简单数据分析,如利用学生手机接入校园无线网络的位置和时间跟踪学生的动向。复杂数据分析,如对已经就业的学生的成绩、就业行业、参加社团情况、实践能力情况、参加竞赛情况等数据进行分析,得出成功就业和学生需要掌握的能力之间的关系。再将这种可以复制的分析模式应用于在校大学生,帮助他们调整自己的学习、生活和实践计划,使其更好地认识自我、科学定位、准确规划就业方向,实现成功就业。

数据分析是大数据利用的高级阶段。这一阶段主要研究不同数据维度的量化和相关性。在数据分析阶段,利用大数据技术所获得的研究成果将会给业务部门带来价值,从而促进业务的发展;另一方面业务部门将会对数据产生依赖。数据分析的成果将成为部门的核心资产和重要资源,影响着人们的决策。这一阶段也是数据分析与处理技术得以广泛应用并成熟发展的重要阶段。

4.数据挖掘/可视化阶段

经过分析与处理的数据可以提供一定程度的数据分享、校园信息检索、深度数据挖掘与数据展示等功能。学校的公共信息可定向推送给相关人员,也可供学生和教职工查阅和检索。数据挖掘的结果是给机器看的, 数据挖掘可以让分析员更好地理解数据,而数据展示即可视化是给人看的。

数据挖掘是在现有数据上面进行基于各种算法的计算,进而实现预测,并能满足一些高级别数据分析的需求。主要使用的工具有Hadoop的Mahout等。

数据分析得到的分析结果,需要以直观的可理解的方式呈现给全体师生,这一过程即数据的可视化。对于展示数据而言,主要是利用变化曲线、多维叠加或者三维空间坐标等方式把分析和处理数据的结果向用户呈现[3]。可借助Tableau软件将分析的结果进行可视化的展示。Tableau Desktop 是基于斯坦福大学突破性技术的软件应用程序,它能生动地分析实际存在的任何结构化数据,可以在几分钟内生成美观的图表、坐标图、仪表盘与报告。利用 Tabpeau 简便的拖放式界面,可以自定义视图、布局、形状、颜色等等,展现特定的数据视角。数据的可视化阶段向学生、教师及职能部门提供了预设主题或者自定义的查询和展示功能。

(三)大数据技术在高校的作用

大数据技术在高校信息资源共享、教学质量评估、预测与校园舆情分析等方面起着重要的作用。

1.信息资源共享

在原有数字校园建设的基础上,制定统一信息标准,形成信息规范体系,集成各类管理系统,构建大数据交换共享平台,实现业务系统之间数据的准确同步交换,可最大程度实现校园信息资源共享。

2.教学质量评估

教学质量评估是每个高校定期要进行的项目,分为校内自评和接受主管部门评估两部分。在教学质量评估过程中引入大数据技术,可以提高教育管理的科学性,增强高校信息化建设的实效性。在数据挖掘和分析过程中所得到的有价值的信息将作为评估的重要依据,为评估专家和教学管理提供决策支持。

3.预测与舆情分析

大数据的核心就是预测。利用大数据技术进行可视化分析和数据挖掘所获得的结果可以被管理者用来作为预测的依据。对于高校管理人员来说,获取全体数据之后进行及时准确的分析和整合,并提出精准预测才是重中之重。例如:通过线上反馈与咨询预测高校未来一年的招生生源情况;通过学生在校学习情况和兴趣特长预测就业方向、就业率等。

大数据技术在高校的管理和科研中发挥着重要的作用。例如:在贫困生筛选过程中以学生校园一卡通消费情况作为依据;对学生手机和电脑接入校园网络的时间、地点和访问内容进行分析,勾画学生的运动和学习轨迹,用于考勤和学生学习行为的记录。高校大数据平台能够为师生提供个性化的学习,还可以按照每个用户的兴趣爱好和特长,将相关领域的资讯、前沿技术、相关资源推送给用户,甚至可以根据学生的兴趣爱好规划未来的职业发展。

复旦大学通过数据挖掘技术发现了学生成绩的好坏与是否按时吃早餐之间存在着一定的联系。在对使用校园一卡通吃早餐的学生人群进行成绩分析时发现,按时吃早餐的学生成绩明显高于不吃早餐或者不按时吃早餐的学生。按时吃早餐和学习成绩之间貌似没有相关性,但通过数据挖掘技术却得到了它们之间确实存在着某种必然联系。这一有趣的发现得到了学生管理者的充分重视,对于改进学生管理方法,提高教学质量起到了推动作用。

网络时代,高校师生通过QQ群、微博、BBS论坛、微信、校园网留言板、聊天室等工具进行交流。在某个热点事件发生之后,广大师生通过上述工具了解事情的真相,参与各种评论或聚在群里声讨,形成网络舆情。当一种论调得到大家的认同后,舆情甚至可以对事件的走向产生重大的影响[4],对高校的思想政治工作和稳定意义重大。

三、大数据环境下的隐私保护

在“个人—专业/部门—院系—学校”金字塔式的数据采集过程中,大数据分析的数据基础必然建立在获取更多的个人和部门信息之上,而且通过分析还可以使数据之间产生关联关系,进而揭示更多的隐私。校园个人用户和部门重要信息的隐私保护是大数据技术下管理人员面临的问题。解决方法如下:在数据库中利用角色管理功能将数据开发者和管理者划分为不同的角色,并根据最小权限原则赋予上述用户相应的权限;对于需要通过可视化技术呈现给用户的数据需消除隐私后再进行数据共享,所有数据由技术部门统一管理和维护;对浏览器进行相应的设置,确保在用户使用后彻底清除浏览历史记录;在数据存储和传输过程中使用数据加密技术,保证用户信息的安全;对于个人用户应尽量避免使用公共计算机浏览机密文件和敏感信息,不随意点击登录来源不明的网站和不明链接,增加密码强度防止暴力破解,以防止个人信息的泄漏。以上措施需要综合应用,我们常说的木桶理论同样适合于评估用户信息隐私保护的效果,任何一项的缺失都会影响信息的安全和隐私保护的效果。

四、结语

综上所述,在高校信息化建设中,利用大数据技术进行数据采集、处理、分析、挖掘/可视化,以便从大量数据中发掘更有价值的信息是我们的最终目标。同时,大数据技术的应用对于提高信息资源共享度,为教学质量评估提供更完备的参考发挥着重要作用。大数据在给学生、教师、科研人员、管理人员带来方便的同时也对他们提出了更高的要求。要使大数据技术在高校中发挥作用,产生充分的应用价值必须在校内建立持久运作的数据收集、分析系统,并将分析结果用于教育决策。大数据技术在高校信息化建设中发挥着重要的作用,值得在全国高校推广和应用。

[1]姚琪.大数据在“智慧校园”中的价值研究[J].南京工业职业技术学院学报,2013,13(4)36-38.

[2]宓詠,赵泽宇.大数据创新智慧校园服务[J].中国教育信息化,2014(24):3-7.

[3]张超,盛绍顶,汪晓华.浅谈大数据在高校教学中的应用[J].安徽化工, 2015,41(2):97-99.

[4]桑庆兵. 大数据在高校的应用与思考[J].南通纺织职业技术学院学报,2013,13(2):84-87.

[责任编辑:赵 伟]

College's Information Construction Based on the Big Data Technology

ZHANG Xinhong,LU Lu, CHEN Liguo

(Zhengzhou Railway Vocational and Technical College , Zhengzhou 451460 , China)

The big data technology improves the college's information construction. On the other hand, Hadoop system and the sets of tools can be used to do data collection、processing、analysis and showing in order to do prediction, the results are the foundation of decisions for managers. Analyzing the present situation of the application data of colleges and putting forward solutions based on the big data technology, making all kinds of large and complicated data gives full play to the role in the teaching and management.

big data; information construction; data application; data mining

2015-12-10

张新红(1978—),女,河南巩义人,郑州铁路职业技术学院讲师,研究方向为网络技术、信息安全、数据库技术、大数据。 陆璐(1980—),女,河南郑州人,郑州铁路职业技术学院讲师,研究方向为智能算法、数据挖掘。 陈利国(1979—),男,河南洛阳人,郑州铁路职业技术学院讲师,研究方向为网络技术、信息安全。

G203

A

1008-6811(2017)01-0085-04

猜你喜欢
数据挖掘校园信息化
月“睹”教育信息化
探讨人工智能与数据挖掘发展趋势
幼儿教育信息化策略初探
甘肃教育(2020年18期)2020-10-28 09:06:02
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
校园的早晨
琴童(2017年3期)2017-04-05 14:49:04
春满校园
一种基于Hadoop的大数据挖掘云服务及应用
开心校园
信息化是医改的重要支撑
中国卫生(2014年1期)2014-11-12 13:16:34
爆笑校园