智慧的大数据洞察新价值

2013-09-05 09:56汪莉莉
中国建设信息化 2013年6期
关键词:数据量企业

◎ 本刊记者 汪莉莉

随着云时代的来临,大数据也吸引了越来越多的关注。大数据正在成为改变人们生活的重要因素,从生活用水到出行,从购物习惯到流感监测,其中都有大数据的踪影。而对于许多企业而言,数据也逐渐成为企业在商战中取胜的决定性要素,美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。

实际上,大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,就在于如何提高对数据的“加工能力”,同时,通过“加工”实现数据的“增值”。大数据意味着非常多的事情,但是被援引的次数太多了,几乎失去了其本来的定义。大数据的定义通常和速率(数据移动得快),体积(数据规模庞大),和种类(非结构化和结构化的信息)三点有关。

智慧的大数据

《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。著名研究机构Gartner对大数据给出了这样的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

从某种程度上说,大数据是数据分析的前沿技术,就是从各种各样类型的数据中,快速获得有价值信息的能力,这就是大数据技术。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域,目前人们谈论最多的是大数据技术和大数据应用。大数据技术是指从各种各样类型的海量数据中,快速获得有价值信息的技术,解决大数据问题的核心是大数据技术。目前所说的“大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。

进入2012年,大数据被越来越多地提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。最早提出“大数据”时代到来的全球知名咨询公司麦肯锡认为,数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。

大数据到底有多大?一组名为“互联网上一天”的数据显示,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万。

同时,资料显示截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到 PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。IBM的研究调查也显示,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。

此外,IDC 预计大量新数据将不断涌现,它们将以每年 50% 的速度在增长,或者说每两年就要翻一番多。并不仅仅是数据的洪流越来越大,而且全新的支流也会越来越多。比方说,现在全球就有无数的数字传感器依附在工业设备、汽车、电表和板条箱上。它们能够测定方位、运动、振动、温度、湿度、甚至大气中的化学变化,并可以通信。

数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据研发就是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。

大数据蓝海

IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。

在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。数据被创建和移动的速度是高速的,因此,企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。

大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。

对于大数据的特点,业界通常用 Volume、Variety、Value、Velocity这4个V来概括。大数据的特点包括:首先,数据体量巨大。从TB级别跃升到PB乃至EB级别。要知道目前的数据量有多大,可以通过一组公式表示:1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前为止,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。

其次,数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐,如今的数据类型早已不是单一的文本形式,除了网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。

此外,价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题。

大数据的处理速度快。这是大数据区分于传统数据挖掘最显著的特征。根据IDC的一份名为“数字宇宙”的报告,预计到2020年全球数据使用量将会达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

掘金大数据需战略支持

在刚刚结束不久的两会上,来自全国各地的政府领导、企业高层、专家学者等纷纷对IT产业建言献策,以云计算、大数据为驱动的技术变革成为两会IT业关注的热点。其中,全国人大代表、安徽移动总经理郑杰在提案中建议:“大数据应该上升为国家战略。”这个提案不仅代表了通信业,同样也代表了整个IT产业的呼声。郑杰指出,大数据将从经济发展、教育、科研、民生等方面给整个社会带来深刻的影响,他建议,大数据应该上升为国家战略,用数据来决策、管理和创新,实现数据治国,将会对政务、商业、交通、旅游、医疗、食品卫生、农业、生产制造各领域发挥重大的效用。除此之外,全国政协委员、中国工程院常务副院长潘云鹤在接受媒体采访时也表示,“大数据时代已经到来,建议国家要及时把握大数据科技变革的重大机遇。”

就在不久前,中国电机工程学会电力信息化专委会拟编制发布《中国电力大数据发展白皮书(2013)》,这将是我国首次就电力大数据问题发布白皮书。电力工业积极应用大数据技术,推动中国电力大数据事业发展,对实现中国电力工业科学发展具有极大的现实意义。白皮书第一次提出了电力大数据的定义,并同时指出重塑电力核心价值和转变电力发展方式是中国电力大数据的两条核心主线。白皮书还第一次提出了电力大数据的特征即3V、3E,“3V”是指体量大(Volume)、类型多(Variety)和速度快(Velocity),“3E”指数据即能量(Energy)、数据即交互(Exchange)、数据即共情(Empathy)。由此可见,大数据不仅是一种技术变革更是一场商业变革乃至社会变革。

更加值得关注的是,奥巴马政府已经把“大数据”上升到了国家战略的层面。根据美国白宫2012年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”。希望增强收集海量数据、分析萃取信息的能力。

在大数据时代,企业就如同飘浮在数据海洋上的巨轮,作为商业世界中的个体,企业要想做到游刃有余就必须如熟悉水性一般熟悉和用好海量的数据。这些能够被企业随时获取的数据,可以帮助和指导企业全业务流程的任何一个环节进行有效运营和优化,并帮助企业做出最明智的决策。大数据在重新定义企业智商的同时,对企业核心资产也进行了重塑。在过去,衡量企业最重要的资产无外乎土地、流动资金和人才等几个要素,如今,数据作为企业一项更加重要的资产将直接关系到企业的发展潜力。然而,现阶段国内企业的大数据时代正处于探索阶段。

因此,我国大数据研发建设已从四个方面着力。一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统一,搞好顶层设计。二是规范一套建设标准。没有标准就没有系统,应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。

猜你喜欢
数据量企业
企业
企业
企业
企业
企业
基于大数据量的初至层析成像算法优化
敢为人先的企业——超惠投不动产
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
信息化在运输档案管理中的使用方法