文|青锋
小荷已露尖尖角
——悄然来临的大数据时代
文|青锋
“我们每个月向经销商推荐大约150个目标客户,因为他们想邀请潜在客户来访问他们的经销点,但同时他们又不愿将营销资金浪费在根本没有购买意图的用户身上。通过基于像年龄、性别、地理位置、财务信息、售后体验及购买历史记录等10~15个变量来定义预测模型,我们可以告诉经销商:这100个人是在这个地区极有可能购买新车的客户,而那100个人的购买可能性较低。”
这是菲亚特汽车公司客户智能及宣传经理Giovanni Lux的一段话,他所谈到的数据信息来自于菲亚特的客户关系及体验分析数据库,它包含了超过6400万个客户及6400万辆汽车的历史信息。
菲亚特在这里所用到的数据库便是当前日益引人关注的大数据,所谓大数据,指的是超过传统数据库系统处理能力的数据,它具有四个显著的特点:第一,数据体量巨大,从传统的TB级别跃升到PB级别;第二,数据类型繁多,数据信息涵盖网络日志、视频、图片、地理位置信息等;第三,价值密度低,以视频为例,在连续不间断的庞大数据中,可能有用的数据仅仅有一两秒;第四,对数据的处理要求高,即1秒定律。
图1 大数据时代悄然来临
随着人类信息化步伐的加快,特别是云计算的大范围运用,大数据正在成为一大热门话题,正如VMware公司全球高级副总裁范承工所说:“你发的一个微博、上传的一段视频,都是大数据。”大数据之所以被人们所重视,是因为相对于传统意义上的数据,大数据承载的内容更丰富、更细致,几乎无所不含。但与之相对应的是,对大数据中有用数据的整理也更为困难,而一旦能够对大数据进行有效的整理,其价值又远远大于传统数据。
其实无论我们的主观意识如何,在人类进入信息化时代后,大数据便已在客观上悄然产生,在不经意间逐渐累积,只是在过去很长一段时间里,我们尚没有能力掌控大数据,在技术层面无法对大数据进行甄选,从中挖掘出可供我们使用的有效内容。今天,随着IT设备的长足发展,随着网络条件的成熟,随着云计算从实验室走向市场,我们终于具备了在浩瀚的大数据中“掘金”的条件,开始向着这片蕴藏着丰厚宝藏的海洋进军。
云计算的应用使数据库提升到了一个新的层级,更大的存储空间、更迅速的响应时间、更丰富的信息来源,云数据库引发了新一轮的信息数据“大爆炸”。云计算使我们对信息的收集前所未有的丰富和快捷,为大数据的分析奠定了坚实的基础。面对数据库中琳琅满目的各式各样的数据,不对其进行分析,不从这些堆积如山的资源中挖掘出有价值的信息,不在这丰厚的宝藏中产生出利益,显然不符合人类的知识需求。于是,在云计算进入市场应用后的短短时间里,大数据的开发便开始被人们所关注,并正在付诸各类实验性的应用。
“虽然大数据本身是以数据形式存在,但大数据时代真正的到来离不开云计算的促进作用。以前我们都谈虚拟化、云计算,当虚拟化进入到各种各样的商务应用的时候,对虚拟化或者对云计算的框架最核心的冲击便是对大数据应用的需求,所以如何在虚拟架构上优化大数据应用是很自然的一步。”VMware公司全球副总裁、中国研发中心总经理李严冰精准地描述了大数据与云计算的关系。
但一个显而易见的问题是,对大数据的收集仅仅是“万里长征走完了第一步”,当云计算“轻而易举”地完成着对大数据的收集工作时,该如何对这些庞大的数据信息进行整理、分类、分析,成为摆在人们面前的一道难题。而一旦无法进行以上的工作,原始的数据便只是一堆“素材”,无法转变为有价值的内容,当然更不能直接为我们带来经济回报。
前文列举的菲亚特汽车公司的案例中,他们最后的分析结果来源于IBM提供的IBM SPSS解决方案。“IBM SPSS Statistics和IBM SPSS Modeler帮助我们在现有的和潜在的菲亚特汽车车主中识别出特定的目标,使经销商可以用最高效的方式分配其营销预算。第二,我们调查已购买新车或使用过菲亚特维修店的客户。然后我们使用IBM SPSS Statistics分析这些数据以提供有价值的洞察,了解客户对我们的经销商及维修中心的满意度。”菲亚特汽车公司客户智能及宣传经理Giovanni Lux这样解释这套在IBM订制的解决方案的用途。
显然,针对大数据进行相应的产品开发,为大数据的归类和分析提供成套解决方案,已经成为相关企业一项新的业务发展规划。“通常的Hadoop只针对物理机进行了优化,类似于物理机,我们把同样的技术直接搬到虚拟机上,针对虚拟机运行环境对Hadoop开源技术专门进行一些优化,同时我们这一技术也直接贡献给Hadoop社区。”李严冰描绘出一幅具体的发展蓝图,“这个项目历经了两年研发,现在我们觉得大数据处理的商机比较成熟了,通过几个月的时间就把它进入了一个项目化、产品化的阶段。”
当这一产业链逐步成型之后,越来越多的企业会感受到大数据分析所带来的益处,也会对大数据的收集日益重视。目前通用汽车的安吉星服务每年管理的数据量已多达3PB,该服务为车主提供远程车辆诊断服务、应对突发事件,这些数据无疑就是一笔金矿。利用这笔丰富的信息资源,通用公司正千方百计对其进行多层面的分析,转而为客户提供一系列有针对性的服务,使其成为一种市场竞争优势。
中国联通也正在通过采用基于至强平台及英特尔发行版Hadoop的大数据解决方案来构建移动通信用户上网记录集中查询与分析支撑系统。“这一系统可为我们的客户服务人员提供客户上网记录的快速查询服务,也可为客户本人提供高效的异常大流量的上网记录自助查询服务,这将有助于解决流量投诉问题。”中国联通研究院副院长黄文良表示,2012年10月将结束整个项目的建设,届时除了为客户服务人员提供服务外,系统还可以为中国联通的业务部门提供分析、决策服务,未来该系统还有望帮助中国联通更为准确地把握用户偏好,从而让中国联通能更有效地制定市场策略和开发新业务。
图2 大数据解决方案正在步入市场
虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现。首先,手中握有数据的公司如同站在“金矿”上,基于数据交易即可产生很好的效益;其次,基于数据挖掘会有很多商业模式诞生,定位角度不同,或侧重数据分析。比如帮企业做内部数据挖掘,或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。
大数据是一个很好的视角和工具,从资本角度来看,什么样的公司有价值,什么样的公司没有价值,从其拥有的数据规模、数据的活性和这家公司能运用、解释数据的能力,就可以看出这家公司的核心竞争力,而这几个能力正是资本关注的点。移动互联网与社交网络的兴起将大数据带入新的征程,互联网营销将在行为分析的基础上向个性化时代过渡。对大数据进行整理和分析后,可以准确地告诉广告商什么是正确的时间,谁是正确的用户,什么是应该发表的正确内容等,这正好切中了广告商的需求。
一场围绕大数据的新业务正在展现出其勃勃的市场生机。