李瑞江
(新疆轻工职业技术学院 新疆 830021)
据百度百科,大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透,从而在制造业方面、农业领域、商业领域、金融领域、医疗保健领域、社会安全管理领域、科学研究领域无不存在大数据,因而一个大数据时代正在到来。
大数据是一个比较抽象的概念,它表示数据规模的庞大。但是仅仅数量上的巨大无法看出大数据概念和以往的“海量数据”(Massive Data)、“超大规模数据”(Very Large Data)等概念之间有何区别,对于大数据尚未有一个公认的定义,不同的定义基本都是从大数据的特征出发,通过这些特征的阐述和归纳,试图给出其定义。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法[1]。著名咨询机构麦肯锡认为,大数据是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集[2]。大数据的4V特征有四个层面:第一,大量化(Velume),数据体量巨大。从TB级别跃升到PB级别;第二,多样化(Varity),数据类型繁多;第三,价值低密度(Value),以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;第四,快速化(Velocity),处理速度快,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。只有具备这些特点的数据才是大数据。大数据技术将被设计用于在成本可承受的条件下,通过非常快速的采集、发现和分析,从大量化、多类别的数据中提取价值。
自20世纪的CD、磁盘以及磁带,直至现在备受欢迎的固态硬盘和云存储,存储的载体在不断的变化和发展。但是,大数据时代,除了数据量增长速度极快,视频、音频、微博等非结构化数据占据的比例越来越大,传统存储产品由于自身的设计缺陷,在扩展性方面、与上层应用集成度、高性能、自动化能力、成本等方面已经很难满足大数据诸多的存储特征,根本很难肩负起企业大数据存储、分析以及应用的诸多需求。尤其当前数据的类型丰富程度、容量愈发变大的情况下,并且在业务部门跟IT日益紧密的趋势下,对于数据的存储与分析的速度和性能要求越来越高,对海量数据的快速、高效存储绝对应该是大数据时代存储系统的第一必备要求,否则大数据后续相关的数据分析、处理都将成为空谈。
首先,在数据存储方面计算机体系结构要有庞大的水平扩展性,NoSQL是一项全新的数据库革命性运动,非关系型的数据库,可以为大数据建立快速、可扩展的存储库。目前Google的 BigTable和Amazon 的Dynamo使用的就是NoSQL型数据库,
其次,应对存储容量有一些优化的技术,像重复数据删除(适用于结构化数据)、自动精简配置和分层存储等技术,都是提高存储效率最重要、最有效的技术手段。结合重复删除技术,备份数据量和带宽资源需求可以减少90%以上。如何更好的支撑IT应用的性能,有效的存储大数据仅仅是第一步,处理数据的能力是企业最关心的,下面介绍较流行的数据处理技术。
数据处理是对数据的采集、存储、检索、加工、变换和传输。数据的形式可以是数字、文字、图形或声音等[3]。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。
IDC对于大数据技术定位为通过高速捕捉、发现和分析,从大容量数据中获取价值的一种新的技术架构。大数据的分析并不是一个独立存在的环节,它与大数据的收集、整理等工作紧密相连,企业需要一个完善的数据源,才能得出更为准确的结果[4]。同时,这个过程越简单,对企业的管理和分析越有利。
简而言之,从各种各样类型的数据中快速获得有价值信息的能力就是大数据技术。也正是这一点促使该技术具备走向众多企业的潜力。随着国内3G网络的发展,中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点。随着流量的增长,3G流量的争议也迅速的增加。主要问题是电信计费系统流量话单的产生设备GGSN是网关设备,只能计入一段时间之内使用流量总合,没有说访问哪个目标的IP地址,没有访问目的地,说不清流量到哪儿去了,导致用户不明流量的起诉。
但上网记录数据是海量数据,用户每个上网记录基本有几万到几十万,有的用户五六十万,如果在网关所有用户流量必经地方采集,分析流量数据,然后上成上网记录话单,话单量非常大。传统IOE方式,IBM小型机,思科数据库存储,EMC存储等方式存储这么大上网记录时候比较困难。将开源Hadoop、Hbase技术应用商用电信服务系统中来可以有效的解决此问题。首先,系统的构成,包括数据采集、数据入库、数据存储、数据查询和数据分析技术,基本技术采用Hadoop,目前上网记录数据存储一般不小于30分钟,30分钟之前的上网记录现在可以通过系统查询到。其次,用HBase处理海量的数据,入库速度非常迅速,查询速度也非常快。
大数据时代的来临将改变我们对工作、生活的思维,也将改变人们的社会工作态度行为,同时也催生了林林总总的新兴技术在推动着人类对信息与数据的创造与应用范围。大数据时代已经到来,也成为世界下一个创新、竞争和生产率提高的前沿[5]。
[1]维克托·迈尔-舍尔维恩、肯尼斯·库克耶.大数据时代[M].浙江人民出版社,2013:039.
[2]http://cloud.chinabyte.com/news/255/12541755.shtm l
[3]赵刚,大数据:技术与应用实践指南 电子工业出版社,2013.10
[4]从大数据视角看地方网络问政平台的发展与转型 周光华中国卫生信息管理杂志 2013.05
[5]大数据时代的竞争情报发展动向探析 刘高勇、汪会玲 图书情报知识 2013.03