“万物皆可用大数据分析”,这些年来,数据的规模越来越大,各种大数据存储平台、分析平台、数据处理工具、数据展现工具以及数据分析模型层出不穷。随着各种大数据技术越来越成熟,好事的人们开始使用这项技术和相关的工具链去分析一些有趣的事,得出了很多颇为八卦的结论。
社交媒体007
大数据擅长把海量分布在不同时间不同地点的数据收集起来,通过各种模型化的处理,将数据之间的关联和规律展现出来,从而挖掘出一些“不为人知”的结论,适合被挖掘的数据首推社交媒体数散落Facebook、Twitter、微博等大型社交媒体中的位置、时间、帐户关联和人物舆论倾向等信息,这些都是非常好的商业信息,也是非常有价值的“猛料”,“狗仔队”们自然不会放过。
中山大学软件学园的同学们就开发出这样一款“网络神算”应用。它可以不断获取多个社交媒体中目标帐户的各种信息,嗯,再将这些数据集中后进行大数据分析,就能精准分析出任意微博用户的喜好、密友等个人信息,“八卦材料”就这么轻轻松松地生成了。在这份材料中,可以有你的院系专业、专长爱好、同学密友、行为特点……不需要“内鬼”,不需要黑客,类似的“社交媒体007"就可以把目标人物的各个方面都调查得清清楚楚,让每个在社交网络上的人都透明起来。
事实上,这种技术早就在娱乐圈里流行起来。美国著名歌星玛丽亚·凯利(Mariah·Carey)以形象多变出名,每次公开露面(或者出门被跟拍),她的着装都会成为八卦小报的话题。光是事后八卦还不够,她的歌(狗)迷(仔)们已经开始用大数据和计算机来预测她下一次公开亮相穿什么。在这个模型中,与玛丽亚·凯利着装有关的大数据被分为不同的场合特征,同时特征库会考虑当天的天气、出场的时间、当季流行的样式和颜色等等,最终可以预测出她当天穿什么颜色衣服出场,是裙装、裤装还是晚礼服。
无独有偶,国内也有人把过去27个月中近73亿次浏览的中文社交媒体数据进行分析对比,考察当红女星的热度和粉丝评价。结果发现,范冰冰是大众眼中不折不扣的话题女王和热度冠军。虽然也有像高圆圆和周迅这样的女星能够搏得绝大多数的人的喜爱,但是范冰冰的热度是无人能及的。对范冰冰的评价往往是美艳和霸气,即使一些负面评价出现,也为推高热度做出了贡献。有意思的是,该技术自动搜集的范冰冰相关的数据中,大部分来自于Twitter,这么说“冰冰棒”的影响力远不止中国本土哦。
“3·15”大数据打假直指明星们的微博水军,TFBOYS三位小偶像首先中枪,在“明星最敬业水军榜”的前十名中榜上有名。在他们的微博中,95%以上的活跃度来自于不到5%的“水军”粉丝。在数量惊人的转发量和点赞量当中,很多都非常类似,不禁让人怀疑这些“最敬业”的粉丝是不是都是网络机器人。同样的应用背景下,Facebook也在几年前开始利用大数据技术,评价名人帐户的真实性,意在发现那些“冒充”名人的家伙。
数据洪流凶猛
大数据和社交媒体配合,使用起来比论坛和小报的威力要大得多。不想被八卦“连累”的名人们自然也不会被动连接,他们与各自的经纪公司也操起了大数据的武器,把这个高大上的新技术当作自己个人品牌营销的一部分。
这不,英国著名歌星“阿呆姐”的团队就意识到来自粉丝的大数据的重要性。在她新专辑和演唱会门票的在线销售中,“阿呆姐”的粉丝们不得不首先在官方网站上进行预登记《Pre-registration),同时填写一份调查问卷。一周之内,他们就收集了来自于几百万粉丝的大数据。后续,她的团队会根据粉丝的情况有针对性地展开营销和包装,相信“阿呆姐”有了大数据保驾,也会越来越火的。
美国著名多栖明星Lady Gaga也是较早“站队”大数据的明星。在她强大的个人品牌背后有一名叫特洛伊·卡特(Troy Carter)的助手。他很早就认识到Facebook和Twitter上粉丝所传达的海量数据具有非常巨大的商业价值。要知道,Lady Gaga可是有5100万Facebook粉丝和3100万Twitter粉丝,每个粉丝一些微小的碎片化的举动汇聚在一起,都可以成为一条巨大的“数据洪流”。“看懂这当中的趋势就可以看清下一步做什么。”Lady Gaga这些年的大红大紫和大数据的贡献是分不开的。
在今年,中国著名的新闻平台也把其娱乐频道的数据整合起来,发布了“娱乐行业大数据报告”,这在娱乐业众明星当中取得了不小的反响。在其颁奖典礼上,众多明星悉数出席,为大数据“捧场”。大数据可以更八卦,也可以让明星们更有名。数据是中立的,分析是客观的,大数据让这一切不再“众口难调”。
大数据也遭怼
看到大数据这么风光,也有人不乐意了,有一些“怼”大数据的人士开始从中挑剌,把大数据也放在八卦当中了。
有一个著名的“怼”大数据的笑话一直流传着。一头猪发现每天饲养员发给它的饲料不管在质量上还是数量上都有很大不同。这些会和天气、每天的时间、节假日等等都有关系。猪圈的几个饲养员所支持的党派还不同,所以发下来的饲料的情况甚至和美国总统大选的进展也有一定的关联。这是一头有统计背景和IT技能的猪,它开始细心地收集这些相关的数据,并把数据放进自己的大数据模型中进行挖掘。经过三个月的努力,猪发现自己的饲料统计分析和预测模型已经足够成熟了,可以准确地预测今后三天的饲料质量和数量。很遗憾,就在这个时候,猪被送进屠宰场了,一切都没有意义了。这个例子告诉我们,大数据不是万能的,尤其是在不同生命周期的应用中,是否使用和怎么使用大数据都有很大的差别。
还有人对大数据技术的关联分析能力产生异议。有个叫泰勒·维根《Tvler Vigen)的人直接对准大数据的七寸,发布了一系列大数据关联的例子,证明很多所谓的用大数据找关联性都是无稽之谈。有趣的是,很多看似“强相关”的数据完全是风马牛不相及。比如说:在过去的十年间,全球用床单上吊自杀的人的数量与全球芝士的消费量呈现出几乎相同的趋势,这两者之间真的有关联么?火车与汽车相撞的死亡人数趋势也和美国从挪威进口的原油趋势相类似,不过我们很难从现实生活中在这两者之间找到什么联系。这么说,难道一直充当“八卦先锋”的大数据自己也是个亦真亦假的“八卦”而已?
更有些好事者开始逐一验证传说中成功的大数据案例的真实性。
坊间流传的一个著名大数据案例来自沃尔玛:啤酒的销量和婴儿尿布的销量是有关联的。原因是,新生儿的爸爸们往往在采购婴儿尿布的时候,也为自己采购啤酒。所以,沃尔玛把啤酒和婴儿尿布摆在一起,可以同时促进这两个产品的销售。有人因此跑到各大超级市场调查货架的摆放情况,发现几乎没有一家超市把啤酒和婴儿尿布放在一超。难道这个故事只是个传说?
总的来说,不是大数据越来越八卦了,而是八卦的人们学会使用大數据了。“神一样”的大数据也不再是那个无所不能的利器,它自己也陷入争议当中。不过,可以预见的是,随着人类可以采集和驾驭的数据越来越多,分析和挖掘模型越来越成熟,还是会有更多的“八卦”涌现出来。无论这些结论是否合理,大数据“前进的步伐”已经停不下来了。endprint