魏武挥
对于广告来说,从浪费50%到浪费49%,都是很值得去投入的事。建立在相关性而非因果上的大数据营销,不可能让广告主从此不再浪费广告,它只能做到:浪费得少一点。
国内有一家民营航空公司,会员不下数百万,会员的一个重要信息是邮箱地址。另外,微博账号申请也需要一个邮箱地址。
通常来说,同一个邮箱地址意味着航空公司里的会员和微博里的会员,应该是同一个人。公司做了一个筛选,合并出10万个用户来。
然后一家第三方公司的数据部门介入,主要任务是看这10万会员的微博用户,在社会化媒体上的行为,比如“说”些什么,比如喜欢介入什么样的话题去转发评论,比如喜欢关注什么样的商业账号等。研究这类事的原因在于:这个航空公司很想知道它在社会化媒体上发起什么样的活动(以及活动所配备的礼品刺激)会吸引到这10万会员参加,成为earned media。
是相关性而非因果
这个案例并非严格意义上的大数据,因为数据还是不够海量。不过,它的原理和大数据营销有关:寻求相关性。
相关性不是因果,很难得出这样的结论:因为经常坐某某航空公司的班机,所以喜欢参与某某活动(反过来也不成立)。但这两个变量之间,从普遍意义上讲,存在一定的关联。这个道理就像穿红袜子和炒股票的关系,或许有一定的关联系数,但绝不是因果关系。相关搞成了因果,差不多和“迷信”就没有区别了。
商业应用上,其实不太需要拼命挖掘因果。你只要知道坐该航空公司班机和参加特定活动之间存在一定概率就行了,至于究竟是为什么,可以暂时忽略。对于营销业者而言,这个概率哪怕能提高10%,都是不小的成效。
但问题在于,很多人把相关等同于因果,这样的做法会形成很有些误导性的结论。比如说,当在这10万用户中发现,他们特别喜欢某类活动,这个结论是不具有推广性质的。再新增5万航空公司微博用户时,你很难把上述结论也放他们头上。因为这里面没有因果关系。要确认因果关系,必須经过一个很复杂的观察和思考过程,排除所谓“隐性变量”。这不是那么简单的做一些数据分析就可以的。相关性是因果的前提,但不等于因果。
于是,大数据出现了。
大数据寻求的是海量数据,海量到什么份上?就是全样本。全样本和抽样显然是不同的。过去的研究,由于操作性的关系,很难做到全样本,需要去抽样。抽样的科学做法是“随机”——不过这一点听着容易,做起来相当困难。
大数据首先不是抽样,它获得的数据是全体样本数据,其次它不是在让用户回答问题,而是实打实地去获取用户的“行为”。用户声称对某活动会有兴趣和用户是否参加了某活动,显然后者更能说明问题。
最重要的一点在于,大数据分析和抽样分析的核心区别在于:前者是动态的,后者是静态的。
前文提到,随机抽样方法成本很高,故而它很难每天都去做一次,事实上,为某个特定的问题一个月乃至一个季度做一次随机抽样,都很难实施。于是,一个随机抽样所形成的结论,其实是静态的,它只能说明在做那次调研时的一些相关性。当有新的用户(样本)加入时,很难再说明过去的相关性是否能够成立,除非,你能找到真正排除了各种隐形变量后的因果关系。
如果试图减少成本去做非随机抽样,那么,它的结论就更没有推广意义。当新用户加入后,非随机抽样的结论基本不能适用。
但大数据的分析却是动态的,每秒都有可能产生一个新的结论。让我们用最常见的亚马逊购物页面上的“购买此商品的顾客也同时购买”来举例。
这个部分里的商品是活动的,由于新购买的产生,会导致这个模块里的商品可能会产生变化。不过,这个模块也有可能是导致商品集中化购买的重要原因:用户看到了这个模块里推荐的商品而产生购买的可能是很大的(也许他本来就没有任何购买的念头,甚至连这个商品都不晓得)。
大数据处理的方式不是探幽细究型的,挖空心思去想究竟原因为何没有这个必要,不过拿出一些结论来演绎也是会闹笑话的:比如吃海参有助于提高智商。大数据其实不需要做什么演绎,它的任务只是让你在某一时刻能做到提升成功率的事,哪怕只有1%。量一大,1%都是极其可观的。
是动态的非静态
回到航空公司的具体案例来。10万同时拥有航空公司会员和微博会员的人,并非随机抽样而得,故而这10万人对于整体数百万航空公司会员而言,没有代表性。但我们的目标不是想寻求坐这家航空公司班机的人和参与某网络活动的因果关系,我们只是想提升一下参与活动概率并希望看到更多人会去转发某个活动罢了。故而,10万微博用户,够了。
在某一个时点,跑了一下数据,大致能看到一些相关性,于是我们开始设计某种活动,并有针对性地让这10万微博用户知道,这次获得的参与度和转发率,比毫无数据支撑背景下的胡乱策划,成功率应该会高一点。同样的人力投入,得到了相对较高效果,这就是数据分析的好处。
过了三个月后,又有需要策划的活动,注意,这一次依然需要再跑一次数据。因为样本可能不止10万了,也许15万,也可能运气不好有2万微博用户已经“死亡”,只剩8万。另外一个可能是有某些新的外部变量加入,比如出来一种新的商品让很多人趋之若鹜。这个时候拿上一次的数据来指导策划,又是盲人骑瞎马,夜半临深渊了。
不同时点,不同目标的活动,都需要再次跑数据,这可能是大数据分析的麻烦之处。
更宏大一点的就是真正意义上的“大数据”了。阿里巴巴并购新浪微博,这件事从商业逻辑上讲,一个是中国最大的消费平台,一个是中国最大的碎片化言论平台,两者数据的合并,是颇能挖出更多的相关性来。
当你发表一条微博时,忽然配套出来了一条广告。是的,你很烦,感觉又被骚扰了。但从商业角度而言,如果你过去的烦是一万次广告推送才会有一次点击,现在变成九千次推送就有一次点击,都是了不得的进步。一万次为什么会变成九千次?因为一个人的言论和他的消费倾向,的确是存在一定相关性的。
广告圈里一句名言:我知道我的广告浪费了一半,但我不知道浪费了哪一半。对于广告来说,从浪费50%到浪费49%,都是很值得去投入的事。建立在相关性而非因果上的大数据营销,不可能让广告主从此不再浪费广告,它只能做到:浪费得少一点。
这就够了。