孙泠
提起数据挖掘,你马上会条件反射般想到“啤酒和尿布”?
20年前,沃尔玛通过对一年多的原始交易数据进行分析,发现啤酒和尿布的销量具有一定的正相关,原来美国的妈妈们经常嘱咐她们的丈夫下班以后为孩子买尿布,而丈夫在买完尿布之后顺手买回自己爱喝的啤酒……
别傻了,这是商学院流传出的教材案例,真假莫辩,更何况沃尔玛自己从来没有正式承认过他们通过数据挖掘和分析发现了年轻爸爸们的“顺手购”习惯。不过,如今沃尔玛正在试图重新“发明”零售业。
太阳冉冉升起。美国本土的4000多家沃尔玛商店、沃尔玛购物中心和山姆会员店随着第一缕阳光从东向西的照射,开始了一天的忙碌。
东部时间9:00,顾客首先涌进了位于美国东岸新泽西州Newark市郊的沃尔玛购物广场。
东部时间9:32,东部沃尔玛营业半小时中收集的畅销商品信息,被快速传递到位于中部的德克萨斯州休斯顿市郊的沃尔玛购物广场,此时是中部时间8:32。
中部时间8:39,休斯敦沃尔玛的工人利用开门前的20分钟,迅速码放今天的畅销商品。
……
太平洋时间8:41,位于加州旧金山市郊的沃尔玛员工拿到的是综合了前面三个时区的当天最畅销商品名单。此时已经是东部时间中午12点了。
利用从东到西的时差,沃尔玛创造了“一小时”内的数据利用奇迹。在这里,数据并非躺在数据库里等待静态分析,而是如潮水一般,跟随太阳的走向漫过北美大陆。
从上世纪80年代起,沃尔玛就拥有了自己的商用卫星系统,并建立了世界上最大的民用数据库之一,这正是支撑沃尔玛占主导地位的核心优势之一。在沃尔玛IT大厦墙上,创始人山姆沃尔顿写道:没有不断的IT投资就不会有沃尔玛的成长。
沃尔玛实验室全球电子商务总监斯蒂芬奥沙利文最近表示,沃尔玛正着手将全球10个网站整合成一个,同时将前期试点的10节点Hadoop扩展到250个节点,沃尔玛甚至还计划开发迁移数据所需的大数据工具并开放其源代码。这意味着它们的大数据引擎已经完成预热,准备开足马力从过去难以利用的大数据中淘到金矿。
事实上,当沃尔玛投入巨资开发大数据工具并推动其技术发展的时候,我们发现对大数据最热心的企业不是IT厂商,如IBM、甲骨文等,而是能直接从大数据中获益的传统企业,他们已经迫不及待,甚至跑到了工厂厂商的前面。
在此之前,沃尔玛曾进行了一系列的收购。包括3亿美元收购的Kosmix(沃尔玛实验室前身)、OneRiot、Small Society、Social Calenda、Set Direction、Grabble等多家中小型创业公司。这些创业公司无一例外的要么精于数据挖掘和各种算法、要么在移动社交领域有其专长,这些都是沃尔玛全面开展社交媒体和移动应用大数据分析的铺垫。
沃尔玛通过Hadoop和其他开源工具分析来自Twitter、Facebook、Foursquare等社交媒体的数据源,同时开发了自己的专有技术Muppet。对基于FourSquare的签到数据,Muppet能实时分析哪家店在黑色星期五的客流量最大。
通过社交基因库和数据分析技术,沃尔玛不但能够追踪社交媒体中对地点、用户和产品的提及信息,从而优化其选货和备货的准确性,还能分析产品、用户、品牌之间的关联,进行更有针对性的线上和线下店面的产品推荐。
在社交口碑对消费者决策影响力越来越大的今天,对大数据卓越的处理能力被看做是企业在交互时代的必备能力,而通过社交媒体分析深入了解消费行为和消费心理,已经成为企业为消费者提供全新消费体验的必由之路。
15年前,西方科幻小说的主题以SPIME(SPACE+TIME,时空)为主,而现在的每一个人都是终端、都是数据采集和发布的媒介、都是时空交互的结合体——只要带着手机,随时随地都能找到你。
“Gartner预测,到2013年,会有33%的商业智能数据来自手持设备。我觉得Gartner低估了移动在消费领域的发展潜力,这个数字应该翻一倍……我估计在66%左右。”作为Teradata公司的CTO,宝立明(Stephen Brobst)还是奥巴马总统委员会的科学技术顾问,在加入Teradata之前,他先后创立了三家与数据库以及商业智能相关的公司。
10年前,当企业级IT应用的重心转向集中式巨型架构,中间件平台成为企业级应用的关键,宝立明也曾为数据库的边缘化而黯然,当时的企业级IT系统封闭而庞大,追求的目标是生产、交易数据在其中的顺畅流转。
今天,企业的边界正在消失,各种终端成为采集和发布信息的媒介。过去的数据大多来自企业内部的交易记录,而现在的企业数据更多的来自防火墙之外。比“66%的商业智能数据来自手持设备”更吓人的,是“90%的数据是非结构化的,而不是结构化的交易数据”。
在企业内部,数据从原来为少数决策者服务的商业智能,变成能够直接指导消费者行为的消费智能。目前,直接使用沃尔玛数据仓库的人数已经超过沃尔玛自己的员工数,原因是其数据链条向消费者和供应商两端延伸,使得更多的人直接在沃尔玛的数据仓库中寻找自己需要的数据。
如今,采集和发布数据的终端甚至包括一块电表。2009~2012年间,美国SCE公司为南加州的500万名用户安装了智能电表,这些电表每隔10~60分钟就会采集一次住宅和商业客户的能耗数据,并在当天对这些信息进行计费和分析。由于电力价格在峰值和谷底时相差很大,用户也可以设定提示,到达设定的数额就提示用户家里能耗过高。
也许你会问:什么样的科学怪人才会分析自己的能源消费?但是亲,在南加州,电力能源的消费很贵,有时候甚至会超过一个家庭养车的成本。
用户可以像选择信用卡额度一样,选择限制自己能源消费的额度;对电力公司来说,用户主动选择深夜开动洗衣机同样是好事一件,因为电网在波峰时段承受的压力被降低了。
数据正在成为公司除有形资产、人力资本之外的又一资产,利用数据的水平将区分每个行业的胜者与输家,是企业的的最大资源之一。