从阿里巴巴淘宝看大数据相关性的营销手段

2015-08-15 00:53张安琪

新闻研究导刊 2015年1期

张安琪

（辽宁工程技术大学，辽宁阜新 123000）

一、阿里的云计算

6亿注册买家，600万家店铺，10亿种商品，一万多个商品类目，20亿元的每日交易额。淘宝网的这组数字，足以见得阿里集团大数据矿山的资源厚度。淘宝商城的创始经理、华平投资合伙人黄若这样比喻：“如果将淘宝比作一块肥沃土地，只要拿一根竹竿往地下一插，油就会冒出来。”油是什么？就是大量买卖双方产生的所有交易数据背后的商业价值。在数据中发现相关性，创造更大的商业价值，是阿里集团数据委员会的数据团队正在做的事。阿里在网络平台上把所有商家、库存、消费者数据、交易数据全部组织起来，对接到所有的消费者、商家、仓库，让商家能够根据实时交易状况，把货事先配送到大区去，这样可以极大地提升快件配送的效率，从而降低成本。这些数据可以做的事情还有很多。截至2012年底，阿里金融已经为超过二十万家淘宝商家提供了贷款服务。如此大规模的业务该怎么样把风险降下来呢？这就要依靠大数据的力量了。前期阿里金融会通过历史交易记录、订单数量和店铺信用体系等对申请人进行定量分析，甚至引入心理测试系统，评估其性格特征，综合所有数据信息进行信用评级。在此之后，阿里会继续实时监控贷款企业的网络经营状况，一旦发现不良状态，系统将及时发出预警，从而确保还款安全。

阿里巴巴淘宝对大数据相关性分析的应用可谓是出神入化，数据就是基础，数据就是财富。而要分析就要有数据的支撑，提到数据的来源除了阿里自身庞大的数据网，阿里还更积极地获取更多的数据资源。2013年阿里巴巴以5.86亿元收购了新浪微博18%的股份。一方是日访问量超过9000万的电商帝国，一方是拥有5亿多注册用户的社交平台，此次联合无疑大大打通了数据平台。阿里力图构建一条大数据全产业链。试想新浪阿里在用户账户互通后，可能带来的海量社会化电商交易额，由此产生的强大商业爆发力绝对会在互联网世界掀起一片喧哗。

二、大数据的相关性预测是什么

平均每一秒都有200万用户在使用谷歌搜索，Facebook用户每天共享的东西超过40亿，twitter 每天处理的推特数量超过3.4亿。据相关统计证明，目前世界上百分之九十的数据是在互联网出现后迅速产生的。举个例子来说，如今大家都越来越喜欢网络购物，相信大家只要在淘宝上买过东西就会知道，当你浏览淘宝的时候，网页下面总会有猜你喜欢这一栏。你会惊奇地发现这里面推荐的东西有一些比你特地去搜索的时候还要感觉称心如意的商品。是淘宝会读心术吗？不，它的原理就是大数据的相关性预测。

数据的相关性预测其实没有那么难以理解。比如说传染病是很难研究的，因为发病快，病人很快就死了，没法像癌症那样去研究它的病理学是什么。那最后是怎么发现传染方式的呢？以霍乱为例，实际上就是有两张地图，一张是得霍乱病人的分布图，另外一张是伦敦市水井的分布图，最后发现两张图之间有一些联系规律，所以觉得跟饮水有关。这只是个在科学不发达时期的例子，通过水井跟霍乱这两种非相关数据的分布找到了相关性，虽然不知道为什么，也没办法解释，但是却能够做出较好的防范。先不要管这个猜想对不对，能有防范的措施就已经很好了。这就是数据相关性分析的特点，不是因果，而是相关。我们不需要去探究为什么，只是知道是什么就够了。

在商业营销方面，其实不太需要拼命地挖掘因果。不如说是没有那么多的因果可以考寻。顾客的想法是没法猜的，也许他前一秒迫不及待放进购物车里的东西下一秒就会突然不想买了。而对于营销者而言，你只需要知道他想买过，他曾经大量的搜索过这类商品就可以了。至于他想买和不想买的原因，可以暂时忽略之。然后接下来我们就可以在他打开网页的时候开始推送同类商品或者相关产品的信息了。顾客会看到更称心如意的商品，说不定就回心转意想要购买了。当然这全部都是猜测，但是这个概率即使只有百分之一，这对营销来说也是不小的成效，这便是大数据相关性预测的效果。

三、相关与因果，动态与静态

但问题在于，很多人把相关等同于因果，这样的做法会形成很多有些误导性的结论。比如说在百万用户的搜索习惯中发现，他们特别喜欢某种商品。但这种结果结论是不具有推广性质的。再分析另外的几百万用户的时候你很难把上述那个结论也放他们身上，因为这里面是没有因果关系的。要确认因果关系，必须经过一个很复杂的观察和思考过程，排除很多的“隐性变量”。这不是那么简单地做一些数据分析就可以的。相关性是因果的前提，但是不等于因果。

于是我们看到了大数据的力量。大数据顾名思义就是大量的数据，多到什么地步呢？就是全部样本主体。提到样本就不得不说最早相关性的鼻祖——抽样调查。抽样调查的方式很多，我们可以做调查问卷，调查后回收进行统计计算出其中的相关性。然而为了这某一特定的问题抽样调查需要持续，因为随着时间的流逝以前的结果会越来越不足以说明问题。所以说抽样调查的结果是静态的，它只能说明你做那次抽样调查时的一些相关性，而且这种相关性还很微弱，因为抽样的样本太过稀少。当不断地增加新的样本时，一切就又得重新开始了，过去的所有结果也要推翻了。这些还是次要的，抽样调查最不可避免的问题还有一点：为你填写调查问卷的人在问卷中所写的答案并不一定就是他心中所想，或者就算他这么想了他实际上也不会这么做。

然后让我们回到大数据上来。大数据不是抽样，它是实打实的拥有所有人心中的“问卷”。最重要的是它获得的是用户真实行为。用户回答他喜欢这个产品和他确实付款购买了这个产品，显然后者更能说明问题。大数据的分析是动态的，随着数据每分每秒的更新，它的结论也是在变的。让我们再来看看淘宝的推荐系统。它的推荐方式是多种多样的，比如说“猜你喜欢”，它里面的商品都是根据你平时的搜索或购物习惯来的。或者是“浏览过此商品的顾客还浏览过”，“购买过此商品的用户还购买过”等等。它会想尽办法找到各种关联，然后通过你的选择再次整合出新的数据，源源不断地进行推荐系统的完善。

四、“不和谐的音符”的价值

讨论了这么久的相关性预测我们知道，我们最希望看到的结果就是大数据主要的汇集成了一个大的预测方向，那些边角料的数据往往是不会被计较的。不过可不要轻易地忽略它们，这些看似“不和谐的音符”也可以通过继续进行数据分析预测实现它们的价值。阿里的数据团队曾经在淘宝上收集了一些小而精美的店铺，这些店里的商品款型奇特，往往受到一些熟客的追捧。通过追踪这些购买者，他们发现了一部分挑选商品有独特眼光的购物达人，再结合这些购物达人搜索的关键词，可以看出在之后的一个月里这些关键词被人搜索的次数会高出20%。就是说这些消费者的行为数据往往在揭示下一阶段的流行趋势。

五、小结

大数据不做有绝对把握的事，还是那句话，哪怕是只提高了百分之一你购买的概率，大数据的价值都是非常有必要的。也许你会说只有百分之一还是碰巧瞎猫碰死耗子撞上的，有什么用？不过淘宝今年的双十一销售额足足比去年双十一增加了200多亿元我想这绝对不能用偶然来下定论吧。

大数据的相关性预测其实已经不是什么新鲜事了，沃尔玛将蛋挞与飓风用品，啤酒与尿布摆在一起销售，谷歌网站可以正确预测流行感冒，美国折扣零售商塔吉特能够正确预测一个女性是否怀孕。这些超前准确的预测让我们对相关性预测充满信心。随着互联网的飞速发展，越来越多的数据会从以前想象不到的地方提取出来，数据总量的增加也预示着大数据的相关性分析会更加的接近于百分之百。亚马逊的创始人格雷格·林登说：“在组里有一句玩笑话，说的是如果系统运作良好的话亚马逊应该只推荐你一本书，而那本书就是你将要买的下一本书。”虽然相关性分析有不确定性众所周知，也许你根据某些数据得出的结论其实只是一个巧合，而且现在的事实是亚马逊推荐的书也有很多不一定是你想买的。

必然性的成功太过艰难，我们更应该抓住那可以无限接近成功的可能性。要达到运作良好的状态需要的条件要很多，需要考虑数据收集的难易度，如何才能迅速积极的随时调动出已有的数据对自己有价值的部分，数据收集的成本对于各个企业来说也是首要的问题，不过阿里巴巴淘宝的成功更加能给我们信心，相信这些问题会随着技术的发展而不再成为问题。

［1］维克托·迈尔-舍恩伯格（Viktor Mayer-Schönberger）（英）.大数据时代［M］. 2013.

［2］孟晓峰，慈祥.大数据管理：概念、技术与挑战［J］.计算机研究与发展，2012（1）.

［3］魏武挥.大数据：利用相关性的营销［J］.

［4］张耀疆.大数据强调相关性而非因果性［Z］.

［5］付倩倩.阿里巴巴“淘宝”［Z］.

［6］邵晓峰.拆分的基础设施：云计算与大数据［Z］.