大数据技术在高校中的应用研究

2017-09-28 11:18赵杨烽黄海隆朱雨成戴潇潇赵延磊
课程教育研究·新教师教学 2015年10期
关键词:大数据

赵杨烽++黄海隆+朱雨成+戴潇潇+赵延磊

摘要:随着高校信息化建设的加速,大数据分析应用被广泛提出。本文首先指出了大数据的概念及其特点,罗列了近期主流大数据平台工具。针对不同工具的特点,选择Hadoop构建了一个简单的高校大数据分析平台。

关键词:大数据;Hadoop;HIVE

中国分类号:TP37

1 引言

近年来,大数据在各行各业中掀起了巨大的风波。所有人都在了解大数据,并思考如何利用大数据。随着互联网的普及和校园信息化建设的深入,每所高校都会产生海量的数据。比如在高校中普遍使用的教务管理系统,每个学年都会产生大量的数据。由于数据产生太快,为了不影响系统正常的运行,现在普遍的做法是按照一定的时间周期,定期将某时间段的数据进行分割备份。然而,备份出来的数据基本上只是作为突发情况的查询之用,并没有得到合理的利用。为了充分挖掘数据资源,我们引入了大数据技术,通过大数据分析找到一些有用的信息。

2 大数据概念

2.1 定义

大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。[1] 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2.2 大数据特点

大数据的特点有四个层面:第一,数据量比较大。一般大数据都拥有PB级别的量。第二,数据类型比较多。数据类型包括文字、图片、视频、各类日志、地理位置信息等等。第三,处理速度快。可从各种类型的数据中快速获得高价值的信息。第四,只有在合理利用数据并对其进行正确、准确的分析的前提下,才能带来高价值的回报。业界将其归纳为4个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。[2]

2.3大数据技术

大数据技术指从各种各样不同类型的数据中,快速获得有价值信息的能力。大数据技术是数据分析的前沿技术。大数据最核心的价值就是在于对于海量数据进行存储和分析。相比现有的其他数据分析技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

3大数据处理工具

3.1 HADOOP

Hadoop[3]是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop也是公认的新一代的大数据处理主流平台。在国外EMC、IBM、Informatica、Microsoft以及Oracle都纷纷投入了Hadoop的怀抱;在国内,阿里巴巴、百度等知名公司都在构建自己的Hadoop平台。

Hadoop是一个储存大量数据的优秀平台,我们将数据存储到Hadoop之后利用Hive或者Pig去分析数据,都能从中获得的大量有价值结果。但是,Hadoop用于实时分析并不合适。

3.2 Hydra

Hydra是分布式的任务处理系统,可以同时支持流处理和批处理。它利用一种基于树的数据结构来存储和处理具有数千个节点集群的数据。它具有一个基于Linux的文件系统,这使得它可以与ext3、ext4甚至ZFS兼容;它还具有作业/集群管理组件,可以自动为集群分配新的作业和平衡已有的作业;系统还可以自动将数据备份,并自动处理节点故障。

Hydra包括很多的组件:跨异构集群处理任务的分布式作业执行系统、可网络访问的文件服务系统,还有本地备份及远程备份等。Hydra适合用于大数据的实时处理。

4 校園大数据平台构建

由于,校园数据基本上不需要实时处理,我们选择Hadoop来构建校园数据平台。我们的目的是从大量的数据中分析出一些对学生、教师和学校管理人员有用的信息。

4.1 Hadoop环境的搭建

Hadoop环境搭建相对比较简单。一个实验室有30台机器,我们为这些机器安装CentOS系统。下载 Hadoop并进行安装,修改相应的配置信息启动。下载mysql软件,并进行相应的安装配置。下载HIVE软件,配置安装并使用mysql数据库为元数据库。下载Sqoop软件进行配置、安装和启动。

4.2应用场景

校园中因为数据类型比较多,大数据的应用范围比较广泛,我们以在线判题系统的数据进行统计分析作为例子来分析。

ACM在线判题系统是一个为程序设计竞赛爱好者和ACM训练对提供练习、竞赛及交流的平台,同时也可以为程序设计语言、数据结构等课程提供练习、测试的平台。本校ACM在线判题系统每学期大概有1000来名学生在使用,承担了C、JAVA和数据结构三门课程的教学任务及学生程序设计竞赛的训练任务。由于该系统使用的是MYSQL数据库,通过Sqoop工具,我们可以更快速的将数据导入到HIVE中。在 Hive中,我们通过hql 语句(类似sql语句),可以完成数据的分析、排序、去重、结果输出等操作。

4.3校园大数据平台建设存在的问题

目前在校园大数据平台的建设基本上都处于初级阶段,很有很多问题需要注意。

1、数据获取的准确性

在我们收集数据的时候,本身数据的正确性无法判断。由于数据体量较大,我们只能根据一定的收集规则对数据进行收集和导入的系统中,这些收集到的数据可能带有一定的偏向,根据这样的数据分析出来的结论肯定不是一个好的结论,这样势必导致在决策过程中完全依赖数据驱动或分析工具本身具有内在的危险性。

2、复杂数据分析

大数据的优势在于几个不同的平台之间的关系数据分析。如果是针对单一的平台进行数据分析,并不一定比传统的数据分析系统更好。相反,在针对一些相对较小的系统时,大数据分析平台速度完全跟不上实际的要求。只有选择合适的数据、制定分析中的目标、准备好归因模型、再营销和高级细分,才算是对大数据分析做好了准备。

3、校园信息化建设

现有校园中的数据基本上是平时在使用的系统和日志数据,大量的非结构化数据并没有被收集和存储。如果要更好的进行数据分析,需要加强校园信息化建设,进行多种形式的数据采集。

4、个人隐私的保护

现在越来越注重个人的隐私安全问题,如何保护好学社个人隐私和如何真实收集数据将是一个长期存在的矛盾。

5 结论

大数据的兴起对高校的信息化建设和发展带来了新的方向。在未来的高校中,一定会有越来越多这方面的应用。大数据分析的最终结果是为学生培养工作、学校管理和科研提供决策支持。希望通过不断地努力,能真正建立起一个高效、实用的大数据平台,为学校的未来发展提供必要的数据支撑。

参考文献

[1] 杨旭,汤海京,丁刚毅 .数据科学导论[M].北京理工大学出版社 .2014.

[2] 大数据 [ol] . http://baike.baidu.com [引用日期2014-03-20].

[3] Hadoop [ol].http://baike.baidu.com/ [引用日期2015-03-20] .endprint

猜你喜欢
大数据
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索