吕理哲
1996年IBM设计的超级电脑深蓝和国际象棋冠军Garry Kasparov比赛,结果以2∶4落败,电脑比不过人脑。第二年,新版的深蓝已经改造成一个1.4吨重、256核处理器的巨无霸电脑,深蓝再战卡斯珀罗斯,深蓝先输一盘后,第二盘赢回来,接着三盘都平局,最后一盘 Garry Kasparov重复采用第四盘的开局(Caro-Kann Defense),竟然兵败如山倒,不到20步就弃子认输。
来年Garry Kasparov再向深蓝挑战,IBM因为深蓝的广告任务圆满达成回绝了他。于是,历史记录了“1997年电脑打败最厉害的人脑国际象棋高手”,人类没有讨回公道的机会了。
其实,IBM胜之不武,深蓝后台挂着一个100年来世界上国际象棋高手对奕的棋谱记录和收集得到的各种残局样本,深蓝每秒钟可以处理2亿步棋。Garry Kasparov赢过深蓝一回,自恃甚高,还允许IBM的工程师在棋赛进行中修改程序。更不公平的是电脑不会累,这场棋赛按照标准赛制双方都有时间限制,前面几局卡斯珀罗斯因为时间不够,常常得赶鸭子上架而导致平局。
电脑不断电就不累,而大师下一盘棋可能就会心力交瘁,二者无法相提并论。Garry Kasparov每下一步棋,深蓝可以迅速地从数据库中找到曾经发生过完全相同的棋局,再分析出下一步在所有棋局中成功率最高的方法,或是从未失败的对策。不论如何,对每秒钟有能力处理上亿步棋的深蓝来说一点也不吃力,加上IBM工程师的人工智能技术,根本不需要每次都去搜索整个数据库。
IBM的深蓝小组在棋赛后就解散了,但延伸的技术可能就是今天的大数据。
今天,许多媒体进行民意调查,可能取样数只有一两千人,就能显示出社会大众对特定事物的看法。如果有机会取样上亿个,差不多就可以预测所有特定事物的发展趋势。以前,请人在街头或是电话访问,不可能取很多样。但是今天网路把大家连在一起,一家购物网站一天都能完成上亿笔生意,何况想方设法从网络上拦截到大家的邮件、微博、微信、短消息和查询内容,一小时取样几亿笔数据根本不算难事。
谷歌每天就有30亿笔民众搜索关键字的数据。2009年谷歌在《自然》(Natrue)科学杂志上发表了一篇论文,精确预测出美国哪几个州即将在接下来的冬天爆发流感。文中解释了他们利用民众搜寻关键字的大数据,整理出来的结果和美国疾病管制局2007和2008年各地发生流感的数据完全符合。
几个星期后,一种结合禽流感和猪流感菌株的新病毒H1N1跳上了所有美国媒体的新闻头条,大数据让大家见识到了非常厉害的预测能力。
由于取样数据达到了足够大的量,就不用去管背后的原因,只要知道那样很准就行了。例如,亚马逊网络书店开幕之初,聘请了许多编辑为他们卖的书写书评,书评写得越精彩,自然那本书就卖得越好,这也是亚马逊所以能在当初许多竞争对手中,笑到最后的原因之一。后来卖的书多了,数以亿计,利用软件技术从大数据中整理出在购买甲书的客户中,超过特定比例的客户都买了乙书,下一次只要有客户订购了甲书,亚马逊就把乙书推荐给他,乙书卖掉的机会也就很高。
亚马逊电脑主管的目标是持续改善推荐书的大数据系统,要让买书的客户至少再多买一本书。
古时候传下来的命相秘籍,多以神秘来装饰,而不是以实用让人信服,因为古时候收集数据不容易,取样不够就会以偏概全,大师如果只是打坐冥想,恐怕不容易理清人的复杂性。
大数据的应用软件技术很重要,但数据量大更重要。例如,大数据中整理出有几百万名孕妇购买的食物里某一基本元素(钠、铁、钾等)的含量超出常人,就可以反过来从购买的食物中找出怀孕的客户,这肯定比算命师用八字去猜一个人什么时候怀孕更准确吧!而John Wanamaker说不知道广告哪一半浪费了,是因为那个时代没有大数据。
谷歌帮亿万人搜寻需要的信息,用广告去拦截搜寻的答案而大赚广告费,亚马逊觉得自己是“亿货公司”(比百货多很多),客户到亚马逊买东西还要让谷歌提成(用广告费方式)不合理,于是自己建立了广告机制,广告费自己赚。这些“IT大款”都有大数据,可以准确地作出选择。
媒体靠广告收入生存,以前50%的广告泡了汤没关系,因为没人知道那50%跑去哪里了。今天广告主已经知道了找得到目标客户的广告方式,媒体是不是觉得如履薄冰、战战兢兢?
看来,媒体未来的竞争对手不仅是同类媒体。