吕理哲
媒体的功能是为大众整理并提供信息,绝大部分媒体不针对这样的服务向阅听人收费,而是利用聚集的阅听人数目(发行量)吸引广告主来付钱刊登广告。报纸、电视、地铁站的墙壁、网络上的文章、音乐和视频都有聚集阅听人的能力,都是媒体。
如今的媒体和以往不同,主要是因为互联网不但可以用来提供信息,还能与阅听人双向沟通,和传统媒体单方向提供信息的效益相比,有了明显的差异。其中搜索引擎这种不生产内容的媒体,倒是把天下所有媒体当成自己的材料,成就了谷歌一家搜索引擎在2012年内做到的营收,居然比美国1382家报纸的总体营收还要多。
报纸为读者报道新闻,除了读者买报纸为报社增加一份发行量以外,报社无法从读者这一端得到任何反馈。但是谷歌(Google)除了帮助大家去找她们要的信息以外,同时利用他们的搜索,收集到了珍贵的海量数据(big data)。
什么是“海量数据”?
2009年,谷歌旗下几位工程师在著名的《自然》(Nature)杂志上发表了一篇论文,解释了谷歌如何储存民众每天超过30亿个搜索信息的关键词,再加以运用,精确预测出美国哪几个州即将在接下来的冬天爆发流感。
几个星期后,一种结合禽流感和猪流感菌株的新病毒H1N1跳上了所有媒体的新闻头条,美国疾病管制局(CDC-Center of Decease Control & Prevention)为了应付这种蔓延迅速的流感,要求全国的医生一碰到新流感病例,就必须立刻通报,以避免类似1918年西班牙流感的危机,那是一场有5亿人受到感染、千万人送命的大灾难。
人们从身体觉得不舒服到自己认为可能感冒了,然后过了几天之后才会去看医生,最后经过层层通报的关卡才会到达疾病管制局。但病毒的面对面传染不会有层层关卡,何况疾病管制局一个礼拜才汇总一次,可以想象疾病管制局只能记录,根本就无法掌控病毒蔓延的真实情况。
谷歌先挑出美国人最常使用的前5000万个搜索关键词,再与疾病管理局2003~2008年的流感传播数据比对;总共用了4.5亿个不同的数学模型去测试分析,最后这套软件系统找出45个关键词,用前几年的数据放进数学模型里面去运算,结果竟然和2007年、2008年疾病管制局统计的全美国流感真实数据十分符合。
不需要动用任何医疗资源,不用访问医院,更不用采集流感检体,谷歌这套系统就可以掌握美国流感疫情和疾病管理局一样,差别在于实效性,谷歌系统几乎可以实时跟踪疫情的发展情况,管制局的记录却得等一两个礼拜,也就是汇总全国医生的汇报以后。
谷歌不是只整理出民众得流感后身体不适时,用哪些关键词到网络上去搜索,就能预知流感传播的时间和地区,而是从几千亿笔的海量数据找出和流感的相关性和在各地区出现的频率,从而通过建立数学模型去预测。
其实,重点在于数据量的庞大,没有海量数据,即使你有谷歌工程师的才华,也无法在疾病管制局发布流感数据以前,知道你住的城市在什么时候会发生流感疫情。
这就是在传统报纸媒体的基础建设中找不到的机会,报社有订户的个人资料,却只能用于送报或是催缴报费,而无法像谷歌这种网络媒体,即使没有用户的个人资料,也能在庞大的数据量中找出各种社会现象的变化。如果海量数据应用得当,看来要改变许多领域的面貌,像流感预测这样的公共领域只是其中一个例子。
1990年左右,IBM开始开发了Candide英法语翻译系统,可惜因为收集大量数据的成本太高而作罢。如今我们可以看到谷歌利用海量数据创造了超过60国语言的翻译系统,其中有14种语言可以用语音输入,可以想象IBM当时收集数据的难度。现在谷歌有不断增加的海量数据可以预测流感,当然也可能将这种能量应用到各种商业领域。此外,传统报纸得派业务员去拉广告,而谷歌可以先找到客户以后才去做广告宣传。
但是传统报纸不会消失,只是赚钱无法和新媒体相比,这是基础建设的根本差异,非战之罪。