文|闫城榛 宋迪
我们现在全球数据量到底有多大?答案或许会令不少人感到吃惊。有机构预计,到2020年,全球数据使用量将暴增44倍,达到35.2ZB(1ZB≈10亿TB)。
继物联网、云计算、移动互联网之后,“大数据”(Big Data)正成为全球IT业界最受瞩目的词汇。然而,对于不少人而言,“大数据”似乎还是一个相对陌生的概念。事实上,目前在医疗卫生、地理信息、电子商务、影视娱乐等领域,每天都会有大量数据产生。“大数据”正在彻底改变IT世界。“大数据”将进一步挑战企业的传统存储架构、数据中心等基础设施,也会引发数据仓库、数据挖掘、商业智能、云计算等新应用的连锁反应与快速崛起。
而需要指出的是,传统的计算机设计与软件都是以解决“结构性”数据为主。例如你到银行去取存款,银行的计算机系统记录着你的名字,在名字之后列有存取款的数量、时间、类型等信息。这些数据之间的逻辑性很强,每个“因”都产生“果”,每个“果”也都有“因”与之相对应。前半个世纪信息技术的发展,主要解决的是云计算中“结构性”数据的存储、处理与应用。
然而在现实社会中,大量数据事实上没有这样显著的因果关系,例如一个城市某个时刻的交通状况、天气情况、人的心理状态,又或者一个社会实际在互联网中引起的信息爆炸,这些信息是海量、即时又具有弹性的,我们称之为“非结构性”数据。这一类新型的“非结构性”数据与传统意义上的“结构性”数据相比有很多不同。而据统计,“非结构性”每年都按60%增速增长,并将占到未来全球数据总量的80%。
社会化媒体的出现和发展为大数据时代的到来提供了强大的推动力。当社会化媒体,尤其是facebook,微博这类的社交媒体出现之后,每一个人都在利用它们进行各种各样的信息处理和传递。从此,每个信息都有与之相对应的人,一个人的情感、爱好、生活习惯、品牌倾向都能从中得到体现。“强关系产生信任,弱关系产生信息。”中国传媒大学电视与新闻学院教授沈浩这样说到。
每个信息之间都具有关系,这种关系被完完整整地呈现在网络上,形成一个非常庞大同时也非常宝贵的非结构化的数据库。通过对这些数据的分析,我们甚至能够捕捉每个人的社会生活和社会关系,从中发掘可观的商业价值和社会价值。可以说,因为有了社会化媒体,产生了大量的社会化信息,对社会的计算才产生了现在这种大数据的趋势,大数据从而真正地开始跟社会发生关系。“这些数据如何才能为我所用?”人们这样思索着、行动着,不知不觉间正式迈入了“大数据”时代。
而互联网时代——尤其是社会化媒体、电子商务与移动通讯——把人类社会带入一个以PB为单位的“结构性”与“非结构性”数据并行存在的新“大数据”时代。
正如IBM总结的那样:“大量化(Volume)、多样化(Variety)和快速化(Velocity)”就是“大数据”的显著特征。面对这些“大数据“,有些人叹息抱怨,害怕数据量的剧增对于现有IT架构的冲击;有些人积极主动,探寻应对海量数据的应对与解决之道;还有一些人,则是顺势而为,抓住时代发展的商业机会,成为富有活力的创新者。如何管理和利用这些数据,控制隐私和公共空间的边界,并最大化它们的价值,成为问题的关键。
对“大数据”加以正确的利用和管理,可以丰富人们对世界的认识,转变人们的认识方式,使人们得以了解真实信息,提高决策水平。当社会对数据有较为完善分析能力时,人们对事件的把握及预测能力就会增强。以云计算为基础的信息存储、分享和挖掘手段为知识生产提供了工具,通过对大数据分析、预测会使得决策更为精准,这对现阶段的中国尤其重要。
云计算就是在这样的背景下出现的,它也势必成为在“大数据”时代解决新的整合问题的重要手段。
互联网的信息大爆炸,网络中需要处理的信息量越来越庞大。有人也许有这样的疑问:“难道不能用一台超级计算机来解决所有的来自互联网的所有数据请求么?”超级计算机的造价过于昂贵并不是每个企业、每个网站都能够承担的。而且,到目前为止还没有出现一台超级计算机可以解决所有的处理系统请求。
既然集中式不可以解决问题,我们可以换个角度,把所有的资源调动起来形成一个统一的资源池,然后把所有的数据处理请求看作是一个个问题,把这些问题按照一定的规则分解成一个个小的子任务,把这些子任务再交给不同的机器去同步处理,最后把所有机器运算的结果进行整合,统一输出给用户。在这种方式下,每台机器需要处理的任务都是各自的子任务,计算量降低,对于计算机的硬件性能要求也同步降低。对于管理人员来说,由于现在需要管理的是统一的资源池而不再是资源池里具体的、数量庞大的机器设备,管理与安全的问题从而也大大减少。在这样的一种解决方式里,资源池以及分解任务的方式其实就是云计算的基础概念。
“大数据”和云计算虽然是两个不同的概念,但两者之间有很多交集。面对“大数据”时代的来临,新的产业格局中充满了机会和挑战,也会出现一批新的互联网英雄,引领未来产业的发展。
“大数据”时代的来临已经毋庸置疑,这种趋势已经让很多相信数据的力量的企业做出改变。DCCI互联网数据中心创始人胡延平曾说过:“‘大数据’是提法,数据云是形态,以实时感知、分析、对话、服务能力为基础,让数据流成为商业、营销活动的核心才是关键。不仅互联网企业,各行各业企业都需要逐步建立真正的数字商业神经系统。”
在“大数据”时代,庞大的数据资源应当如何合理的保存,如何通过有效的管理提高数据的利用效率,在人们需要使用这些数据时,能够非常方便地进行调用,同时尽量不增加企业的成本?面对这些问题,“大数据”时代给IT服务提供商们提出了新的挑战,同时也给人们的生活带来了新的可能。“大数据”相关技术提供商,包括EMC、IBM、Oracle、SAP等都已经在积极布局,一方面通过并购整合增强其在这一领域的竞争力,另一方面加快研发创新推出数据分析解决方案。
IBM系统与科技部中国主机产品部新兴市场总经理唐多说:“在‘大数据’时代,确保企业大数据成功应用的重要开端,是具有支持灵活扩展、异构环境、高效性能和运行稳定的基础架构。”同时,他还阐述了ELS在“大数据”时代的全新策略,将ELS打造成为全面的企业级数据平台。
随着三网融合政策推进,传媒集团跨领域、行业的整合与全方位发展已渐成趋势。“大数据”处理的规模化、自动化、自愈性等特点使不同用户终端之间资源共享成为可能。终端用户不必携带专用的设备,在任何一个联接数据中心核心系统平台的客户端设备,如机顶盒、PC、智能手机等,都可以通过浏览器进行登录,延续看了一部分的电影或者写了一半的文章。大数据时代的到来,推进了三网融合背后的深度业务推广,使跨网络业务运营成为了可能。
如今,“大数据”已经显露其作为行业发展趋势与颠覆性力量的本质,它带来的变化是不可抗拒并可以预见的,“大数据”对包括传媒行业在内的各行业的基础IT架构甚至整个社会生活都将产生巨大和深远的影响。“大数据”时代,新的产业格局中将会产生怎样的机会和挑战,人们的生活方式会发生什么改变,行业巨擘之间将上演怎样的博弈战?着实令人期待。