周婷婷
(华中科技大学 新闻与信息传播学院,武汉 430074)
大数据时代数据运用的理念与实践研究
——以英国《卫报》为例
周婷婷
(华中科技大学 新闻与信息传播学院,武汉 430074)
大数据时代给传媒业带来了巨大的改变与新兴的机遇。如何在数据运用上因地制宜,不断创新,是当前各家媒体必须认真思考的重大课题。《卫报》在将数据特别是大数据运用与媒体实践紧密结合的探索中,已经走在了全球媒体的前列。它在数据运用上确立了“开放式”理念,明确提出“开放式新闻”模式,主要相关实践包括开放数据平台,开放技术平台,以及借助大数据技术提升广告效果等,并都取得了不错的成果。在传统媒体普遍陷入发展困局的当下,《卫报》的个案可以给我国媒体提供一些参考与借鉴,可以学习他们改革的勇气、创新的锐气以及开放的心态与业态。
大数据;《卫报》;数据新闻;开放式新闻;传媒业
近年来,随着计算机、互联网、社交媒体、智能手机、物联网的相继出现,通信技术与互联网技术逐渐结合起来,传播技术发展日新月异,整个社会的数据总量也随之不断迅猛增长。
2011年起,“大数据”渐渐成为社会讨论中的热门词汇。“大数据”之大,不仅仅在于生成与运用数据之海量,更在于能从中发现以往“小数据”无法提供的大价值。人们高呼,大数据时代正在到来。数据,变成了重要的生产资料和社会资源;数据,将成为国家竞争的前沿,行业创新的源泉①。
“大数据”所向披靡,席卷政界、商界、学界乃至社会的各行各业。新闻传媒业,本来就是信息产业的重要组成部分,是一个与数据关系极为密切的行业。在大数据时代,传媒业迎来了新兴的巨大发展机遇。如何抢先抓住大数据带来的发展机遇,在数据运用上因地制宜,不断创新,真正释放出隐藏的巨大潜力,已成为摆在每一家媒体机构面前的重大课题。
他山之石,可以攻玉。国外一些媒体在数据运用的探索方面走在我国媒体之前,已经取得了相当可观的成绩。英国《卫报》就堪称媒体数据运用领域的弄潮儿,在全球引领风气之先。本文将着重考察《卫报》数据运用的核心理念与主要实践,以期为我国媒体提供相关参照与借鉴。
1.大数据时代的到来
2011年,美国著名咨询公司麦肯锡的全球研究院(McKinsey Global Institute)发布了聚焦大数据(特别是其在经济、商业领域发展)的研究报告——《大数据:创新、竞争和生产力的下一个新领域》(Big Data,the Next Frontier for Innovation,Competition,and Productivity)。这一报告在全球产生了很大影响,“大数据”概念迅速流传开来,来自社会各行各业的人们都开始关注大数据,探索大数据。
2012 年 1 月,在瑞士达沃斯举行的世界经济论坛上,“大数据”是讨论的主题之一。论坛上发布了题为《大数据,大影响》(Big Data,Big Impact)的报告,提出:数据已经成为一种新的经济资产类别,就像货币或黄金一样。
大数据还获得了欧美发达国家政府的高度重视。2012 年 3 月,奥巴马政府发布了《大数据研究和发展倡议》。倡议提出:将通过收集庞大而复杂的数据资料,获得知识和洞见,以提升能力,协助加速在科学、工程等领域的发现步伐,强化美国国土安全,并转变教育和学习模式。同时,六个美国联邦政府部门和机构承诺,将新提供超过 2 亿美元的资金,用于改善获取、组织、分析海量数据所必需的工具和技能,以应对大数据时代带来的机遇和挑战。
2012年7月,联合国也发布了关于大数据技术的白皮书《大数据促发展:挑战与机遇》,指出大数据时代已经到来,这对于联合国和各国政府都是一次历史性的发展机遇。
我国政府虽尚未提出直接以专有名词“大数据”为名的支持政策,但是也出台了不少相关发展规划。2011 年 12 月 8 日工信部发布的物联网 “十二五”规划中,信息处理技术被列为四项关键技术创新工程之一。其中包括海量数据存储、数据挖掘和图像视频智能分析,这些都是大数据技术的重要组成部分。另外三项关键技术创新工程:信息感知技术、信息传输技术和信息安全技术,也都与大数据技术密切相关。
2.大数据时代给传媒业带来的改变
大数据对于社会各行各业都产生了冲击,甚至我们每一个人都概莫能外。大数据时代,将带给传媒业巨大深远的改变和多种多样的创新可能。
在新闻生产方面,大数据技术将渗透到新闻生产的核心环节中,大大改变现有的生产模式与机制。主要表现为:(1)新闻报道的信息来源将发生重大的结构性变化。物联网中传感器采集的数据、社会化媒体中的用户生产的内容(UGC)以及新媒体中的各种用户数据,都将在报道中得到更为广泛与深入的应用。(2)大数据将重新树立新闻报道的质量标杆。大数据可用于揭示事实、深入挖掘,比起一般新闻报道仅从某些角度、层面进行考察更为有效。它还可用于趋势预测,撰写预测性报道。(3)在新闻报道类型与形式方面,新闻报道数据化、数据报道可视化的比重会不断增加。(4)众包模式将在新闻生产中日渐流行,普通受众将越来越多地参与到新闻生产中。(5)在某些新闻报道领域,计算机能够取代人工,凭借数据挖掘和叙事模版生成新闻稿件。(6)大数据技术能够帮助媒体准确把握受众特性与需求,从而更有针对性地进行新闻生产与传播②。
在传媒经营管理方面,大数据能够显著增强媒体决策的科学性。媒体可以借助网站、客户端等渠道收集到更加丰富、多元的用户数据,精准理解用户需求。在把握好用户需求的基础上,不断改进产品设计,制定营销策略,提升广告效果。依靠数据分析了解到的用户需求,往往比用户自我填答的更加真实全面,而且能够实时捕捉到用户需求的动态变化。就用户整体而言,大数据技术可以分析海量的用户,提供比考察小样本用户更加全面准确、层次多样的结果。就用户个体而言,大数据技术可以更好满足每一位用户的个性化需求[1]。
3.英国《卫报》的数据运用探索概况
《卫报》是与《泰晤士报》《每日邮报》等比肩的英国著名大报。尽管《卫报》的纸质版本还比较偏重于对英国本土的报道,其网站则早已走上了向国际媒体发展的道路,报道范围涵盖全球,并锐意创新,不断开发新的报道工具,在世界上具有较大的影响力。如2013年《卫报》率先披露了美国中情局前雇员斯诺登提供的秘密档案,曝光美国政府的棱镜计划,引发广泛关注与激烈讨论,促使美国总统奥巴马作出了限制政府监听权限的决定。凭借相关系列报道,《卫报》获得了2014年普利策新闻奖中最重要的奖项“公众服务奖”。
在将数据(特别是大数据)运用与媒体实践紧密结合的探索中,《卫报》的发展也走在全球媒体的前列。《卫报》创造了数项“第一”纪录,它既是最先使用“数据新闻学”一词的媒体,也是最先启动数据新闻专门网页的媒体,2009年就在网站上创办了“数据博客”(Datablog)栏目[2]。
在数据新闻、媒体创新等领域,《卫报》屡获大奖③。如2011年,它凭借对谷歌电子表格软件Spreadsheets、谷歌免费数据分享软件Fusion tables等的创新性运用,完成了许多备受瞩目的报道,获得了美国奈特基金会Knight-Batten奖“新闻界创新”奖项的荣誉提名奖。2012年,它对伦敦骚乱的系列数据新闻报道,帮助读者更深入地理解了事件进程与背后原因,因此获得全球首届“数据新闻奖”以及英国数据协会颁发的优秀新闻成就奖。
《卫报》的数据运用理念,是其集团整体发展战略和商业模式探索的一个有机组成部分。2012年,《卫报》集团提出了“开放式新闻”(open journalism)模式,这可谓是当今最具开创性的新闻媒体商业模式[3]。
传统媒体赢利的两大主要渠道——发行与广告,近年来在数字新媒体的强势打压下呈现出直线下滑的态势。传统媒体虽然也在向数字化平台拓展,向新媒体转型,但在赢利模式上往往还是换汤不换药,主要依靠数字媒体的付费订阅和在线广告收入。这些收益并不足以弥补它们在传统媒体平台上的损失,陷入经营危机的例子比比皆是。
此外,传统媒体在数字化平台上的付费订阅,必须用系统封闭来保障数字内容的版权价值。这种封闭原则和网络传播互联、互通、互动的特性在本质上是相违背的。如果社交网络无法链接和引用这些内容,其传播范围将大受局限。无人关注的内容,又谈何广告价值呢?
在此背景下,《卫报》大胆改变了传统的媒体运营思路,成为业界公认的传统媒体拥抱新媒体的先锋。2011年年中,《卫报》集团宣布了相对激进的“数字优先”战略转型计划,从制订宏观规划、调整商业策略到重新设计组织架构、配置各种资源,全方位向数字媒体转型。集团总编辑阿兰·拉斯布里杰(Alan Rusbridger)宣称,未来的《卫报》将不再是以报纸为媒介的媒体,而是数字媒体。《卫报》将主要为快速增长的数字平台用户开发新的商业策略,保持稳定的商业运作[4]。
《卫报》新的商业策略,核心指导原则就是开放,以内容开放换取用户规模和在线广告。他们陆续推出了一系列开放举措,2006年开放评论平台,2009年开放数据平台,2010年开放技术平台,2012年明确提出“开放式新闻”模式。由此,《卫报》一步步将自身置于开放式架构的中心,其“开放”的商业模式越来越清晰,也越来越坚定。
与此相应,《卫报》数据运用的核心理念也正是“开放”。其开放数据平台、开放技术平台等方面的改革,都与数据的开放运用息息相关。接下来,我们将具体考察《卫报》在数据运用实践中如何贯彻与发扬这一理念,取得了怎样的实际效果。
1.开放数据平台,邀请用户参与数据新闻报道
《卫报》很早就意识到了新闻需要新的形态,也就是“开放新闻”。总编辑拉斯布里杰对“开放新闻”的定义是:它是一种完全织入世界上现存信息网的新闻。它和这个网络相连;从网络中筛选和过滤;与网络紧密合作;利用普通人发表和分享材料的能力更好地讲述世界。
自2009年起,《卫报》向用户开放了越来越多的数据库链接和搜索,其中包括统计数据(Straight Statistics)、世界各国政府数据库(World Government Data Store)等等。这些来自政府机构、非政府组织、科研院所等的数据,以往主要供记者从中挖掘新闻。现在有兴趣的读者可以自己去查证新闻报道的数据源头,也许还能从中发现一些被隐藏、被忽视的新故事。
2009年1月16日,《卫报》网站创办了“数据博客”栏目。起初它只是一个小小的博客,专门提供《卫报》新闻报道背后的完整数据集。创办者原先设想其读者应该是些应用程序的开发者,然而他们惊喜地发现广大普通读者有着深入了解各种数据的浓厚兴趣。读者们关注多种多样议题的相关数据,从碳排放、东欧移民、阿富汗发生的死亡事件,到甲壳虫乐队在歌曲中使用“爱(Love)”一词的次数[5]。
2010年,《卫报》在数据博客的基础上进一步扩大设置了数据商店(Data Store)。今天,当我们点击进入《卫报》网站上专门的数据频道(http://www.theguardian.com/data),可以看到其名称是“数据商店(Data Store)”。下方的口号“事实是神圣的”系曾任《卫报》编辑的斯科特先生于1921年所言,其原话为“评论是自由的,但事实是神圣的”。现在,这句话被拿来彰显《卫报》发布数据、捍卫事实的信条。
频道下设多个栏目,主要包括:(1)数据博客,提供各种原始数据和《卫报》制作的数据可视化作品,以及探索数据的工具等;(2)佳作展示(Show and Tell),主要展示编辑们从互联网上搜罗到的其他优秀的信息图表和数据可视化作品;(3)大数据(Big Data),主要探讨各行各业如何有效运用大数据以获得成长与灵活性;(4)数据新闻学(Data Journalism),刊载数据新闻方面的业界资讯与研究文章。
频道首页上还有一篇文章《释放事实(Free the Facts)》的链接,这是《卫报》总编辑拉斯布里杰的大作。文中写道:尽管网上能找到不计其数的统计数据,将数据可视化的工具也越来越多,但随之而来的还有各种混乱和难以接近。你怎么知道要看向哪里,什么是可信的或是最新的?官方文件通常以不可编辑的PDF文档形式发布,没办法用来分析;而有时海量数据的公布正是为了埋藏真相。记者们每天都必须走在钢丝上,确保我们公布的数据是正确的——如果我们没有做到,请尽快让我们知道。文章的结尾,他邀约广大读者来“告诉我们你运用数据做出了什么,以及我们应该如何运用数据”,“事实是神圣的——它们属于我们所有人”。[6]
《卫报》特别相信读者在运用数据和参与新闻报道方面的巨大潜质。比如《卫报》“数据博客”的创办者西蒙·罗杰斯(Simon Rogers)就认为,数据新闻的使命在于帮助人们发现和使用数据。必须认识到,在任何一个给定话题上,总有人比记者、编辑更加博学。所以如果把数据放出去,媒体会因此获得回报,能对议题进行更加专业深入的报道。
《卫报》成功地将“众包模式”(crowdsourcing)④引入了数据新闻报道,集合众多读者的力量,在短时间内就能完成工作量很大的报道任务。不仅可大大节约时间与人力、物力成本,更能充分调动读者的参与积极性,与他们建立起更为和谐融洽的关系。《卫报》关于国会议员开销的调查报道,就是一个众包式新闻生产的经典案例。
2009年,英国爆出政客选举开支丑闻。《卫报》的竞争对手《每日电讯报》成立了一个专门的记者团队,花了一个月时间检查泄出的文件,连续在头版上刊登报道揭露官员们根本站不住脚的花费。这引发了公众极大的愤慨,作为回应,政府在线公开了超过100万份的扫描文件和收据。这样海量的数据要处理起来,对于任何一家媒体都是极大的挑战。
《卫报》选择请求读者帮助来筛选这100万份文件,从中查找尚未被披露的渎职行为。他们开始在《卫报》网站上运行一个开源软件,允许读者一个个检查记录,并将它们分成四类:“感兴趣的”、“不感兴趣的”、“感兴趣但已经知道的”和“调查这个”。超过两万名读者参与进来,在80小时内就检查完了17万份记录。《卫报》在头版设置了一个进度指示器,随后又开发出一个业绩最佳志愿者的名单,进一步为志愿者增添了动力。当《卫报》为每一个文件都配发了一幅相关议员的照片时,读者的反应变得更为热烈,报社甚至不得不租赁服务器空间来应对大家的关注。完成这一极具社会影响力的报道后,报社支付的现金还不到150美元。
在《卫报》的“数据商店”里,有专门为读者准备的培训课程,读者可以从中学习数据新闻报道的主要方法和工具等内容。他们还不时举办一些竞赛,以提高读者的参与兴趣。比如《卫报》曾和Google合办了一次竞赛,提供关于欧洲经济的公开数据,鼓励用户从更多角度来解读数据,并尝试用更有创意的方式来呈现数据。
通过这些方式,《卫报》不仅强化、深化了自己的数据新闻报道,还增加了读者的使用黏性,提高了读者的数据素养,探索出了一条可持续的双赢道路。
2.开放技术平台,邀请第三方参与数据增值开发
从2010年5月起,《卫报》向第三方开发者授权,免费开放了大量内容供他们进行商业运用。其中包括《卫报》1999年以来数以百万计的文章、图片、视频等,以及他们获取的许多公共数据库信息。
这种开放在技术上是通过开放API实现的,《卫报》上线了开放平台(Open Platform),提供API开放。API(Application Programming Interface,应用程序编程接口)指的是一些预先定义的函数,目的是向应用程序与开发人员提供(基于某软件或硬件)访问一组例程的能力,而无需访问源代码或理解内部工作机制的细节。获得API使用权限的第三方不仅可以访问网站的所有内容,还可以进一步对内容进行修改、整合、再创作等,最终形成新的应用在第三方平台上向用户推送[7]。
这又是一项能实现双赢的合作。第三方开发者无需大额的硬件与技术投资就能便捷创业,付出的成本更少,成功的机会却更大。而《卫报》则能借此获得更大的流量和市场份额。
在《卫报》总编辑拉斯布里杰看来,媒体内容的未来影响取决于它们有多开放和多透明。《卫报》没有像《华尔街日报》《纽约时报》那样,把自己生产的内容封锁在付费墙之后,而是把它们公开出来,并邀请大家对它们进行重组与再生产。
这不仅仅是利他主义。《卫报》认为分享内容能够帮助他们开启新的服务和收入来源。拉斯布里杰想让《卫报》的文章、图像和数据集在社交网站、博客圈及其他吸引了大量人潮的流行平台上无处不在,广泛传播。《卫报》凭什么认为只有它的内部团队才能够想出足够好的方法,把生产的内容打包并传递出去?如果成百上千的合作者有机会在《卫报》内容的基础上进行革新,成功的机会岂不是更大?[8]
为了更好满足不同客户的需求,《卫报》提供了三个不同级别的服务。第一级别的客户可以自由使用《卫报》的头条新闻、标签以及元数据,无需注册或使用密钥,不会向其收取任何费用。第二级别的客户可以使用《卫报》上所有的文章,但是《卫报》会嵌入广告、水印以及进行绩效跟踪。客户可以保留他们的收益,但是需要注册以及提供访问密钥。第三级别则是定制业务,需要依据实际情况进行收益共享。
技术平台开放使《卫报》的内容通过第三方应用在手机、平板电脑、电子书等多种数字平台上被广泛分享和使用,还通过社交网站进一步转发扩散。由于大部分内容都是带有广告的,它们被使用得越多,附带的广告传播得也越广,因此能够形成一个以《卫报》为中心的强大广告网络,获得更高的广告利润。当然,《卫报》也允许第三方开发者设计自己的广告位,允许他们放置自己的广告,以保证其参与热情。
3.使用大数据挖掘分析技术,提升广告效果
2012年,《卫报》与新兴的定向网络广告公司(Ad Targeting Company)Quantcast签订了合作协议,希望借助大数据挖掘、分析技术,细分广告受众,以便帮助广告主更加精准地投放广告,提高投资回报率。
Quantcast创新地运用了小组抽样数据+Cookies追踪的方式,跟踪了全球九亿多用户。通过分析消费者在数以百万计的网站中活动的习惯,获得关于他们的准确信息。其中虽然不包括用户的姓名和地址,或其他过于敏感的隐私信息,但用户的年龄、性别、受教育程度、子女、收入情况等重要信息,都能被分析出来。以此为依据,广告主、广告代理商、刊登广告的媒体,和分散的广告目标受众,能够既有效率又有效果地被连接起来。
《卫报》商业发展与品牌延伸部主管斯蒂芬·福尔维尔(Stephen Folwell)表示,《卫报》在锁定目标广告受众以及向他们提供所需要的东西等方面,变得更有经验了。传统的广告模式,是先猜测人们需要什么,然后生产出这个东西,再构建一个受众群体,向他们售卖。而现在《卫报》希望变成由受众、广告主等共同组成的社区的心脏。通过《卫报》,广告主能够直接与其潜在用户交流,把产品出售给他们[9]。
当前,传统媒体都不同程度地陷入了发展困局。受众流失、影响力下降、营收减少、关停裁员、质量难保、创新乏力……似乎是难以摆脱的恶性循环,只能徒生江河日下之叹。传统媒体中,比起广播电视,报纸的日子更为难熬。在此背景下,英国《卫报》独树一帜,在大数据时代依然能继续领跑,生机勃勃。在快速变化、竞争激烈的媒介环境中,他们为什么能抢占先机,成绩斐然?通过上述对《卫报》数据运用的考察,我们能找到一些答案。
首先,令人印象深刻的是他们敢于大幅改革的勇气和不断追求创新的锐气。尽管《卫报》是一家有着一百多年历史的老牌报纸,却不过于迷恋过去。在传统媒体与新兴媒体融合发展的道路上,敢于提出“数字优先”的转型战略。在传统的“媒体—受众”关系发生扭转之际,敢于充分信任读者的能力,邀请读者变身为媒体内容的生产者。鼓励创新的氛围,弥散到了媒体运作的方方面面。大的有理念的创新、模式的创新,小的则包括报道工具的创新、报道形式的创新等等,不一而足。
其次,是他们开放的心态与业态。《卫报》提出的“开放式新闻”商业模式,并非新闻界唯一有效的运作模式。付费订阅模式,如果运作得宜,同样能够较好地支持一家媒体的发展。然而,我们无法忽视的是,在互联网环境下,无论是新媒体还是老媒体,开放都是大势所趋。任何一家媒体,如果将自己全然封闭在一个小圈子里,都无法获得长足发展。在大数据时代媒体数据运用的理念上,开放都必须占据一席之地,只不过是在开放的程度与步骤上有所差别罢了。
此外,《卫报》的数据运用实践也为我国媒体提供了可资借鉴的具体范本。开放媒体数据平台、将众包模式引入数据新闻生产、开放技术平台、使用大数据技术提升广告效果……,都可以成为我国媒体探索自己在大数据时代发展道路时的尝试点与突破口。也许不能一下就全面铺开,但不妨从最成熟、最具可行性的方面开始做起,渐渐积累经验,形成自己的长项与特色。
最后,《卫报》走过的道路其实还能为我国传统媒体提供信心与动力。大数据时代能够给传统媒体提供转型助力与跨越式发展的机遇。传统媒体集聚下来的优质受众资源,可以转变为产出惊人内容的生产者。传统媒体长期累积的优质内容数据,可以释放出巨大的潜力。
注释:
① 关于大数据的基本概念、主要特征,大数据在不同行业中的应用,可参阅James Manyika, et al.:“Big Data:the Next Frontier for Innovation,Competition,and Productivity”.McKinsey Global Institute, McKinsey & Company, 2011;维克托·迈尔-舍恩伯格、肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,浙江人民出版社,2013年。
② 参见彭兰:《“大数据”时代:新闻业面临的新震荡》,《编辑之友》2013年第1期;官建文等:《大数据时代对于传媒业意味着什么》,《新闻战线》2013年第2期;彭兰:《大数据时代新闻信息资源的结构性变化及其影响》,《中国广播电视学刊》2013年第7期;仇筠茜、陈昌凤:《大数据思维下的新闻业创新——英美新闻业的数据化探索》,《中国广播电视学刊》2013年第7期。
③ 关于《卫报》在数据新闻领域的探索实践, 可参阅章戈浩: 《作为开放新闻的数据新闻——英国〈卫报〉的数据新闻实践》,《新闻记者》2013年第6期;文卫华、李冰:《大数据时代的数据新闻报道——以英国〈卫报〉为例》,《现代传播》2013年第5期。
④ 关于众包模式在新闻生产中运用的背景、原因及更多实例,可参见吴乐珺:《“众包”模式推进美国公民新闻再发展》,《国际新闻界》2007年第8期。
[1] 陈娟.大数据时代的媒体用户关系管理[J].传媒观察,2013(7).
[2] 罗世宏.资料拯救新闻——新闻业在危机中寻路[EB/OL].(2013-12-17).http://dajia.qq.com/blog/3576120 88257448.
[3] 张煜麟.“开放式新闻”商业模式的兴起与运作特点——以英国《卫报》新闻集团为例[J].现代传播,2014(7).
[4] Alan Rusbridger.The Hugh Cudlipp lecture: Does journalism exist?[EB/OL].(2010-01-25).http://www.theguardian.com/media/2010/jan/25/cudlipp-lecture-alan-rusbridger.
[5] Simon Rogers.Behind the Scenes at the Guardian Datablog[M]//Jonathan Gray,et al.The Data Journalism Handbook.O’Reilly Media,Inc.,2012.
[6] Alan Rusbridger.Free the facts[EB/OL].(2009-03-10).http://www.theguardian.com/news/datablog/2009/mar/10/1.
[7] 徐剑,苏昱.开放API 开放内容——《纽约时报》《卫报》的网络战略转向新途径探析[J].新闻记者,2011(4) .
[8] 胡泳.大数据时代的新闻[EB/OL].(2014-03-21).http://www.eeo.com.cn/2014/0321/258016.shtml.
[9] Patrick Smith.Guardian Open Platform Revenue Realities[EB/OL].http://www.themediabriefing.com/article/guardian-open-platform-revenue-realities.
责任编辑:刘伊念
(E-mail:lynsy@jhun.edu.cn)
2014-11-10 本刊网址·在线期刊:http://qks.jhun.edu.cn/jhxs
周婷婷,女,湖北武汉人,华中科技大学新闻与信息传播学院讲师,博士。
G206
A
1006-6152(2015)01-0123-06
10.16388/j.cnki.cn42-1843/c.2015.01.016