罗军锋,锁志海
(西安交通大学 信息中心,陕西 西安 710049)
随着云计算、物联网等技术的兴起与发展,数据正以前所未有的速度飞快增长和累积,大数据时代已经来临,整个学术界、工业界、政府都开始关注大数据问题。2012年3月29日美国政府宣布了“大数据研究和发展倡议(Big Data Research and Development Initiative)”, 正式启动“大数据发展计划”,并承诺政府将为此投资超2亿美元,许多重要国家机构都将参与其中。 2012年7月10日 ,联合国发布大数据政务白皮书《大数据促发展:挑战与机遇》,指出各国政府应当使用极丰富的数据资源,更好地响应社会和经济指标。随着数据的不断增多,海洋一般浩瀚的数据已成为一种战略资源。大数据技术的目标就是从这些数据中挖掘信息、判断趋势、提高效益。大数据的挖掘和应用可创造出超万亿美元的价值,将是未来IT领域最大的市场机遇之一,其作用堪称又一次工业革命。[1]
目前,大数据没有一个公认的定义,不同的定义基本都是从大数据的特征出发给出的。比如国际数据公司认为大数据应当具有价值性,大数据的价值往往呈现稀疏性的特点。IBM认为大数据必然具有真实性。维基百科对大数据的定义为:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。大数据有四个典型的4V特点,即数量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value)。
数量:是指数据规模超大。数量级别从TB(1TB=1024GB)级别,跃升到 PB(1PB=1024TB)、EB(1 EB=1024 PB)乃至 ZB(1 ZB=1024 EB)级别。
多样性:是指管理结构化、半结构化和非结构化数据。这些数据来自多种数据源如传感器、智能设备,数据种类和格式冲破了以前所限定的结构化数据范畴,包括文本、微博、音频、视频等等。
速度:是指处理数据快,包含大量或实时数据分析处理的时间要求非常短,符合1秒定律。速度影响数据时延——从数据创建或获取到数据可以访问的时间差。
价值:是指价值密度低,商业价值高。以视频为例,连续不间断的监控过程中,可能有用的数据仅仅有一两秒。
大数据与传统的数据库也有明显的区别,两者在数据来源、数据处理方式和数据思维等方面都有很大的变化。正像孟小峰[2]所言,两者的区别就是“池塘捕鱼”和“大海捕鱼”的区别,前者代表着传统数据库时代的数据管理方式,后者则对应着大数据时代的数据管理方式,其在数据规模、数据类型、数据模式、数据对象、处理工具上都有巨大的差异。
文件系统:该系统提供最底层存储能力的支持,是支撑上层应用的基础。Google公司最早开发出了自己的文件系统GFS(Google file system),随后微软也开发了自己的Cosmos,后来开源也有了HDFS。
数据库系统:由于关系模型的分布式数据库不能应对大数据时代大规模的压力,相应地提出了许多新型数据库系统,如Google的Bigtable、Amazon的Dynamo等等,直到现在形成统一的NoSQL(not only SQL)。虽然NoSQL没有准确的定义,但一般认为具有模式自由、简易备份、最终一致性、支持海量数据等特征。同时,形成了对应的索引与查询技术。
数据分析:其上最著名的计算模型为Google的MapReduce,目前,Google公司针对MapReduce离线处理模式的不足,提出了基于Web数据级别的交互式数据分析系统Dremel,能够实现极短时间内的海量数据分析。在离线与实时处理模式上,已经出现了二者融合的趋势。
大数据处理工具:Hadoop是目前最为流行的大数据处理平台,目前,将该平台进行改进,以便应用到各种场景是研究的热点之一。当然,除了Hadoop,还有其他处理工具,这里就不一一提出。
高校也是数据生产大户,中国高校规模一般都比较大,一般万人以上的大学非常多,在高校里上学的学生从招生、学籍、选课、成绩、饭堂、活动等会产生大量的数据;教师的上课音视频、课件、实验数据等也会有庞大的数据;校务系统运行、图书馆、微博、博客等都会产生很大的数据;尤其重要的是科研和教学数据,是高等教育的两大核心功能的重要数据。在这个大数据的时代,只有用好这些数据,才能更好地帮助教学、科研,做好招生推广、学生管理等各个方面的工作,用好这些数据,毋庸置疑将会大大提高高校的信息化水平。要用好大数据,至少面临以下几个方面的挑战:
大数据集成与分析:大数据的多样性特点决定了数据来源的广泛性、复杂性,这种数据环境给大数据的处理带来了很大的挑战,必须对多种数据来源进行抽取集成,先进行数据的清洗,经过关联和聚合,采用统一的数据结构来存储这些数据。大数据分析无疑是整个大数据时代的核心所在,因为大数据的价值就产生于数据分析过程中。当然,数据分析是基于集成处理后的数据作为数据分析的原始数据。数据分析一般是根据不用的应用需求从数据中的部分或者全部进行分析。传统的分析技术如数据挖掘、机器学习、统计分析在大数据时代需要做出调整,主要原因是大数据时代的“大”字,具体的调整包括分析前数据的预处理、算法、评价质量等等。
大数据的存储:需要研究低成本、高效率的数据存储方式,众所周知,低成本一般意味着低效率,但是在大数据时代,如果处理效率低下,则大数据毫无意义,因此,必须打破常规,要处理好大数据的存储。另外,还要做好大数据时代数据存储的管理问题,因为存储空间巨大,无疑给存储硬件带来压力,同时,对非结构化数据进行有序、高效的存储管理也是面临的挑战。
大数据的融合与使用:数据不融合就发挥不出数据的大价值,大数据面临的一个非技术性的重要问题就是数据的融合。作为高等院校,大数据的融合应该走在前列,必须彻底打通数据孤岛,将各个业务充分整合,只有有效融合,才能形成高质量的大数据,才能发挥大数据时代高等教育信息化对学校发展的具体推动作用。
面对大数据时代带给我们的这些挑战,作为高等教育信息化从业人员,必须坚持不懈地学习,具体学习或者做好如下关键技术或工作:
我们要学习大数据时代的基础平台和支撑技术,学习大数据时代的文件系统,如Google的GFS系统,开源的HDFS、CloudStore系统等等,了解这些技术,方便我们实现大数据低成本、高效率的存储,也方便我们进行存储的管理。学习这些技术,将掌握大数据的基础平台与技术。
我们要学习大数据时代的数据分析技术,前面提过,大数据时代,传统的数据分析方式如数据挖掘等需要调整,那么我们就要学习传统的数据分析方式的调整与方法,研究和学习大数据时代的数据分析技术。
做好大数据时代的数据管理,大数据时代数据管理就不是以前传统的大型关系型数据库那种管理方式,而是改变成为NoSQL为代表的新型数据模型的一类技术。这种改变是因为关系型数据模型不能应对大数据时代的种种挑战。这种新型的数据模型就是为了迎合大数据时代的多样性、异构性等这些数据特征而出现的。当然,新的数据模型是新的一套理论,是截然不同的理论。这就需要我们数据管理者积极学习,应对挑战。同时,要积极升级、改造相关存储设备,以满足大数据时代的要求。
积极推动业务的深入融合,梳理业务数据,形成“大数据”,然后利用这些“大数据”建设结构和非结构化的数据分析平台,通过平台能提供更加深入、更加全面的高质量信息,这些信息能为学校领导进行高质量的决策提供依据。
总之,大数据时代的这些挑战,有些需要科研人员进行研究,有些非技术挑战,需要我们积极努力,有效进行数据的整合、业务的整合,充分利用科研人员的最新研究成果。
[1]桑庆兵.大数据在高校的应用与思考[J].南通纺织职业技术学院学报,2013(2):84-87.
[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[3]陈甜远.大数据时代的高校信息管理中心对策[J].无线互联科技,2013(5).