[美]维克托·迈尔·舍恩伯格
信息技术变革随处可见,人们正经历着从“技术”到“信息”的转变。大数据正在改变我们的生活以及理解世界的方式。
对于快递公司来说,车在路上抛锚的损失会非常巨大,因为那样就需要再派一辆车,会造成延误和再装载的负担,并消耗大量的人力物力。以前UPS每隔两三年就会对车辆的零件进行定时更换,但这种做法也会造成浪费,因为有的零件并没有什么毛病就被换掉了。
从2000年开始,UPS使用预测性分析来监测自己全美60000辆车的车队,以便及时地进行“防御性”修理。工作人员通过检测车辆的各个部位,只更换那些需要更换的零件即可,这种改变已经节省了上百万美元。
通过在货车上装置传感器、无线适配器和GPS,总部能在车辆出现晚点时跟踪到车辆的位置和预防引擎故障,同时,还能优化行车路线。2011年,UPS的驾驶员少跑了近4828万公里的路程,节省了300万加仑的燃料并且减少了3万公吨的二氧化碳排放量。系统还设计了尽量少左转的路线,因为左转要求货车在交叉路口转过去,更容易出事故。而且,货车往往需要等待一会儿才能左转,也会更耗油,因此,减少左转使得行车的安全性和效率都得到了大幅提升。
很少有人会认为一个人的坐姿能表现什么信息,但是它真的可以。当一个人坐着的时候,他的身形、姿势和重量分布都可以量化和数据化。日本先进工业技术研究所的教授和他的团队通过在汽车座椅下安装360个压力传感器以测量人对椅子施加压力的方式,把人体坐姿特征转化成了数据。这个系统能根据人体对座位的压力差异识别出乘坐者的身份,准确率高达98%。
这个研究并不愚蠢。这项技术可以作为汽车防盗系统安装在汽车上。有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准确输入密码,汽车就会自动熄火。
把一个人的坐姿转化成数据后,这些数据就孕育了一些切实可行的服务和一个前景光明的产业。比如,这个系统可以在司机疲劳驾驶的时候发出警示或者自动刹车。同时,这个系统不但可以发现车辆被盗,还可以通过收集到的数据识别出盗贼的身份。
在网络带来巨大的数据库之前,沃尔玛在美国企业中拥有的数据资源应该是最多的。20世纪90年代,沃尔玛让供应商监控销售速率、数量以及存货的情况,并通过打造透明度来迫使供应商照顾好自己的物流。在许多情况下,沃尔玛不接受产品的“所有权”,这样就避免了存货的风险也降低了成本。实际上,沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。
2004年,沃尔玛对过去交易的庞大的数据库进行了观察,这个数据库记录的数据不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买天气。沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒的销售量会增加,蛋挞的销量也会增加。因此,当季节性风暴来临时,沃尔玛会把蛋挞放在靠近飓风用品的位置,当然,这一改变也增加了销量。
大数据运用的极致,非美国折扣零售商塔吉特莫属了。《纽约时报》曾报道过塔吉特公司怎样在不被清楚告知的情况下预测出一个女性的怀孕情况。很多人都不知道,对于零售商来说,知道一个顾客是否怀孕非常重要。因为这是一对夫妻改变消费观念的开始,也是一对夫妻生命的分水岭。他们会开始光顾以前不会去的商店,渐渐对新的品牌建立忠诚。
塔吉特的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。他们注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概二十多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些数据甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券。
谷歌的拼写检查器基本上涵盖了世界上的每一种语言。谷歌的拼写系统一直在不断地完善和增加新的词汇,这是人们每天使用搜索引擎的附加结果。你输错了“iPad”吗?不要紧,它在那儿呢!
谷歌几乎是“免费”地获得了这种拼写检查,包括那些“不合标准”“不正确”或“有缺陷”的数据。谷歌依据其每天处理的30亿查询中输入搜索框中的错误拼写,利用一个巧妙的反馈循环将用户实际想输入的内容告知系统,当搜索结果页面的顶部显示“你要找的是不是:流行病学”时,用户可以通过点击正确的术语明确自己需要重新查询的内容。
有趣的是,谷歌并不是第一个有这种拼写想法的公司。2000年左右,雅虎也看到了从用户输错的查询中创建拼写检查系统的可能性,但并未付诸实践,旧的搜索查询数据就这样被当成了垃圾对待。只有谷歌认识到了用户交互的碎屑实际上是金粉,收集在一起就能锻造成一块闪亮的金元宝。
美國劳工统计局的人员每个月都要公布消费物价指数(CPI),这是用来测试通货膨胀率的。这些数据对投资者和商家都非常重要。联邦政府为了得到这些数据,会雇用很多人向全美90个城市的商店、办公室打电话、发传真甚至登门拜访,他们反馈回来的价格信息达80000种,甚至包括土豆的价格。采集这些数据,政府每年大概要花费两亿五千万美元,虽然这些数据是精确、有序的,但是采集结果的公布会有几周的滞后。
麻省理工学院的两位经济学家对此提出了一个大数据方案,那就是接受更混乱的数据。通过一个软件在互联网上收集信息,他们每天可以收集到50万种商品的价格。虽然这些收集到的数据很混乱,也不是所有数据都能轻易进行比较,但是把大数据和好的分析法相结合,就会变得不一样,例如这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,而那些依赖官方数据的人直到11月份才知道这个情况。
(林冬冬摘自浙江人民出版社《大数据时代》)