胡泳
大数据的中心原则涉及搜寻运营数据之间的相关性,这个想法简单明了。借助廉价的云存储,我们现在可以收集与各种业务流程相关的令人眼花缭乱的数据,从到达公司装卸码头的卡车数量,到在给定的日期和時间内每分钟处理的订单量,再到假日周末后的星期一收到的客户投诉数量。新的功能强大的处理器和可扩展的数据库使熟练的操作员可以挖掘这些数据,以寻找数据内的模式:特别是操作变量之间的相关性。通过发现这些模式,大数据有望暴露出复杂的关系,以解决瓶颈问题,改善日常运营。在理想状态下,我们可以认为,数据驱动生产力的全新时代由此开始。
问题在于这些相关性常常是虚假的。这使得数据专业人士往往需要挥舞魔杖来确定哪些大数据关系是有意义的,而哪些仅仅是巧合。要想解决这个问题,其实可以用一种更简单的方法来显示相关性:纳入带有语境的“小数据”(small data)。情境意识,也就是上下文,可以使看似复杂的情况变得清晰明了。情境的最简单示例可能是位置。Google Now就是使用你当前的位置来提供高度相关的搜索建议,例如在步行范围内的商家。其他形式的情境信息还包括人(例如与你一起工作的人)和时间(例如重合的日历预约)。对企业推荐引擎最有用途的情境类型之一是主题,比如邮件的信头信息。了解到一个员工目前最关注的事情,推荐引擎可以建议与这些主题中相关的电子邮件、文档和商业交易。很明显,将电子邮件用作情境的锚定物,可以消除无关内容的提示,因为数据工具意识到这些无关内容与你当前念兹在兹的东西完全不相干。
进行情境计算(contextual computing)所需的四种关键数据为:社交、兴趣、行为和个人。这四方面中有些已经相当成熟,而有些在这几年才开始流行。能自如地掌握并运用这四项数据的玩家,将在互联网行业的竞争中占据极大的优势。社交数据显示了你如何与其他人联系以及他们如何相互联系。它还揭示了这些联系的性质和情感相关性。在理想的情境计算状态下,软件和服务的轻轻一推就可以将两个陌生人联系到一起,他们同时在同一地点,并且可以相处融洽。然而,如果你对某个人的活动和兴趣知之甚少,那么世界上的所有社交数据都将毫无用处。而一个人的口味和喜好很大程度上是围绕着彼此相关的主题组织起来的。它也与同你自己的生活非常相似的个人之间的口味重叠相关。但兴趣图谱无法读取你的好奇心可能将你引入的新方向。而且,它也做不到根据你所阅读的内容有效地推荐你喜欢的餐厅或度假胜地。行为是最可以轻松掌握的数据。行为数据很容易描述你实际所做的事情,而不是你声称要做的事情。传感器可以完成这项工作,自我报告机制也是如此。这些数据可以与兴趣数据两相对照,从而使计算机能够(也许比你更好)算出你下一步做什么的可能性。个人则是与一个人的最深层信仰、核心价值观和个性有关的一组数据。它是令一个人在世界上与众不同的原因,就像社交数据有助于显示一个人与他人相似的原因一样。鉴于心理学仍然难以准确解释我们的个人认同如何发挥作用,因此以可计算的形式记录此类信息的过程甚为缓慢就不足为奇了。
单独掌握某一大项的数据,并不能得出可靠的结论,以及作出完美的情景计算。也因此,对待大数据要有正确的态度。既不要忽视数据的价值,也不要把数据当成神。