大数据时代来临,你准备好没有?

2012-08-08 12:48周琪
电脑与电信 2012年8期
关键词:结构化企业

特约通讯员 周琪

近年来,互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每时每刻都在产生数据,数以亿计用户的互联网服务每分每秒都在产生海量的交互。2011年5月,全球知名的麦肯锡全球研究院发布了一份题为《大数据:创新、竞争和生产力的下一个新领域》的报告。报告指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于大数据的运用预示着新一波生产率增长和消费者盈余浪潮的到来。2012年3月29日,美国政府在白宫网站上发布了《大数据研究和发展倡议》,表示将投资2亿美元启动“大数据研究和发展计划”,增强从大数据中分析萃取信息的能力。

“大数据”是继“物联网”和“云计算”后IT业界最炙手可热的新名词。大家都在谈论大数据,大家都想用好大数据。但你真的了解大数据吗?当前的行业状况又是怎样?

什么是大数据?

当你开着车对着“语音助手”说:“我要在附近找一家最罗曼蒂克的餐厅。”之后,短短一两秒就能得到您满意的答案时。其背后向您提供服务所涉及到的定位、资料检索、存取、数据交换等一系列动作是何等的复杂。而这一系列动作正是由“大数据”所支撑。

大数据目前仍未有统一的定义,通常被认为是一种数据量很大、数据形式多样化的非结构化数据。

这里有几个名词需要解释一下,结构化数据、半结构化数据和非结构化数据。结构化数据可以在关系数据库中找到,多年来一直主导着IT应用;半结构化数据包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为基础,这也是谷歌和百度存在的理由;而非结构化数据广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过85%的数据属于非结构化数据。

大数据技术则可以理解为从各种各样类型的海量数据中,快速获得有价值信息的能力。掌握大数据技术,应用大数据技术会带来巨大的商业成功。这也就是Facebook、谷歌、苹果、亚马逊等巨头正在成为大数据的拥有者和使用者的原因。

大数据特点有四个层面:第一,数据容量大,现在数据单位已经跃升至ZB级别;第二,数据种类多,主要来自业务系统,例如社交网络、电子商务和物联网应用等;第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅为一两秒。第四,处理速度快,时效性要求高,从传统的事务性数据到实时或准实时数据,这一点也是和传统的数据挖掘技术有着本质的不同。

大数据有多大?

物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

从下面一组数据可以说明大数据到底有多大?

◆每1秒钟,会有60张Instagram照片被上传

◆每1分钟,会有60小时视频被上传到Youtube

◆每1天里,搜索引擎产生的日志数量是35T

◆每1天里,在Twitter上会产生1.9亿条微博

◆每1天里,在Twitter上会产生3.4亿的消息

◆每1天里,在Facebook有40亿的信息扩散

◆自人类有史以来我们所产生的信息量为5艾字节(50亿GB)

◆过去3年产生的数据量比以往4万年的数据还多

◆2010年,全球数据量已达1.2ZB,到 2020年将暴增 30倍达35ZB

◆2011年,中国互联网行业持有数据总量达到1.9EB(1EB艾字节相当于10亿GB)

◆2011年,全球被创建和复制数据总量为1.8ZB(1.8万亿GB)

◆2015年,全球被创建和复制数据总量增长到8.2EB以上;

◆2020年,全球电子设备存储的数据将暴增30倍,达到35ZB或以上。

大数据技术是怎样发展起来的?

“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题。目前,大多数事物型数据库仅实现了数据录入、查询和统计等较低层次的功能,无法发现数据中存在的有用信息,更无法进一步通过数据分析发现更高的价值。如果能够对这些数据进行分析,探寻其数据模式及特征,进而发现某个客户、群体或组织的兴趣和行为规律,专业人员就可以预测到未来可能发生的变化趋势。这样的数据挖掘过程,将极大拓展企业核心竞争力。例如,在网上购物时遇到的提示“浏览了该商品的人还浏览了如下商品”,这就是在对大量的购买者“行为轨迹”数据进行记录和挖掘分析的基础上,捕捉总结购买者共性习惯行为,并针对性地利用每一次购买机会而推出的销售策略。通过掌握大量企业本身和外部的数据,来揭示企业未来的发展方向,预测统计数据和采集其他具有可行性的信息,以便帮助企业做出下一步行动的决策。这就是大数据蕴含的商业价值。

大数据兴起的原因有以下三点:一是计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。二是内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。三是把计算机聚合成服务器集群越来越简单。

也有人怀疑大数据存在炒作成份,但不能忽视越来越多的企业因为应用大数据技术而获得收益。

谁正在使用大数据?

当你仍然在把微博等社交平台当作抒情或者发议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,而且取得了不俗的收益。数据在他们手上变成一种全新的致富手段,它的价值堪比石油和黄金。

例如:

◆华尔街根据民众情绪抛售股票;

◆对冲基金依据购物网站的顾客评论,分析企业产品销售状况;

◆银行根据求职网站的岗位数量,推断就业率;

◆投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;

◆美国疾病控制和预防中心依据网民搜索,分析全球范围内流感等病疫的传播状况;

◆美国总统奥巴马的竞选团队依据选民的微博,实时分析选民对总统竞选人的喜好。

2010年时,大数据技术的一些主要用户是大型Web企业,例如Facebook和雅虎,它们需要分析点击流数据。但是今天,大数据技术已经超出了Web,要是有大量数据需要处理的企业都有可能用到它。例如银行、公用事业机构、情报部门等都在搭乘大数据这辆车。还有就是受社交媒体推动而需要创建相应Web服务的企业。它们对于大数据项目的贡献非常重要。

而在其他垂直行业中,有些企业正在意识到,它们基于信息服务的价值定位要比它们先前想象的要大得多,所以大数据技术很快就吸引了这些企业的注意。再加上硬件和软件成本的下降,这些企业发现它们已经处在了一场企业大转型机遇的完美风暴中。

纽约的TRA公司是专门帮助电视广告主们评测其所投放的电视广告的效果的,它会把某个家庭通过电视与DVR(数字录像机)所接收到的广告与其在零售商店的账单相比对。该公司从有线电视公司的DVR以及一些日用品商店的会员卡计划中搜集数据,来进行这种比对。TRA的大数据系统所处理的数据量代表着170万个家庭以秒计的观看习惯,如此庞大的任务量如果没有大数据技术几乎无法完成。该公司部署了Kognitia的WX2数据库,该数据库允许它快速地装载、描述和分析数据,从DVR上收集细粒度的广告观看信息,继而与销售点的详细数据进行比对,再生成定制报告。Kognitia有一个内存运行的解决方案,TRA公司现有整个数据库的一半都可以放在内存里。当需要运行一个查询时,响应时间是秒级而非小时级或日级的。对TRA公司而言,大数据技术可能会给全美700亿美元的电视广告市场带来革命性的变化。传统的广告评测方法顶多只能在全国2万个样本家庭中安装特制的机顶盒来分析抽样数据。而今天,大数据技术则可以分析来自250万台DVR和机顶盒的实际数据。

公用事业行业也在刚刚开始了解到大数据所带来的应用及其价值。美国中西部的一家电力公司利用Hadoop分析来自智能电表的数据,这些智能电表可以自动完成计费功能,但是该公司还收集输电线路上任意的电流波动信息。如果收集到这些信息并且能够描绘出电流变化图,那么电力公司就可以在某个地方的变压器可能出现故障之前找到它,或者当发生停电事故时,会引起电流的波动,公司就可以探测到波动之处,在用户打电话求助之前就采取行动。

新创于2009年的BloomReach公司,拥有世界上第一个网页关联引擎,此项技术可利用海量数据,机器学习,和大规模系统科学去匹配相关产品和服务给合适的消费者,为用户获得更大的访问流量,带来更多的盈利空间。

大数据的风险

凡事有利必有弊,“大数据”本身也存在一些风险。统计学家和计算机科学家指出,大数据的集合和高密度的测量将令“错误发现”的风险增长。斯坦福大学的统计学教授特来沃尔-哈斯迪(Trevor Hastie)称,如果想要在庞大的数据“干草垛”中找到一根有意义的“针”,那么所将面临的问题就是“那么多的稻草看起来就像是针一样”。

数据聚合和大数据分析,是保证企业的营销情报的宝库,潜在的商业活动和机会。但大数据的使用者应该更多地关注所涉及的国家和地区在这信息安全领域的法律规定。企业还应该实现数据隐私最佳实践和设计分析程序,建立相关透明度和问责制,对数据的利用应该保持灵活和理想的预期变化的调节,而不是陷入困境时,才临时寻求解决方案。

话虽这么说,在初期,我们还没有看到大量的外部需求,强制要求企业确保信息的完整性。然而,随着企业规模扩大,业务处理的信息仍然会增加,需要业务决策密切联系原始数据的大数据分析,信息的质量变得越来越重要。如果同样复杂的分析可以应用到相关的安全数据,大数据甚至可能被用于提高信息安全。

猜你喜欢
结构化企业
企业
企业
企业
企业
企业
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
敢为人先的企业——超惠投不动产
结构化面试方法在研究生复试中的应用