卷首语
大数据应用实践给我们的启示(上)
“大数据”成为互联网信息技术行业的流行词汇大约始于2009年。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。三年多前,从一个在英国的亲戚那里听说他正在用大数据技术从事智能交通、智慧城市方面的应用研究,才第一次感受到大数据被广泛应用时代的来临。
大数据(Big data),或称巨量资料,是个比较抽象的概念。随着科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从Byte(简称“B”,1Byte = 8 bit)、KB(千103)、MB(兆106B)、GB(吉109B)、TB(太1012B)发展到PB(拍1015B)、EB(艾1018B)、ZB(泽1021B)、YB(尧1024B )甚至BB(1027B)、NB(1030B)、DB(1033B)来衡量。“大数据”的起始计量单位至少应是P(100万个G)、E(10亿个G)或Z(1万亿个G)。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。科技的进步已经使创造、捕捉和管理信息的成本降至2005年的六分之一,而从2005年起,用在硬件、软件、人才及服务上的商业投资也增长了整整50%,达到了4000亿美元。事实上,当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。这么大的数据量是无法用人脑来推算、估测,或者用单台的计算机进行处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,因此,大数据的挖掘和处理必须用到云技术。
大数据的特点通常可用4V来表示:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性)。
从“大数据”的特征看,它首先必须永远是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的;其次,“大数据”必须实时反应。我们上淘宝输入一个商品,后台必须在10亿件商品当中,瞬间进行呈现。如果要等一个小时才呈现话,我相信没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消费者,瞬间完成匹配呈现,这才叫大数据;最后,大数据还有一个最大的特征,它不再是样本思维,它是一个全体思维。以前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部分,我们要的是所有可能的数据,它是一个全貌。其实叫“全数据”比叫“大数据”更准确。
大数据最核心的价值就是在于对海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。所以大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据未来的方向不在于数据挖掘技术本身,而在于数据应用的商业化,从数据背后挖掘盈利模式、嫁接整合数据和商业资源成为关键。对于企业而言,如何赶在竞争对手之前掌握和正确运用大数据是一项挑战。所以“大数据”是需要特殊的技术来支持的,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统等。