数据新闻:发展现状与趋势*

2016-02-13 20:13□文│徐
中国出版 2016年10期
关键词:数据新闻趋势传感器

□文│徐 笛



数据新闻:发展现状与趋势*

□文│徐 笛

[摘 要]首先简要梳理了数据新闻的历史发展进程。继而通过对比中外的数据新闻操作,提出目前我国数据新闻操作存在着数据人才匮乏,数据挖掘深度不够,以及数据不开放、来源模糊不清的问题。最后提出传感器数据的应用以及数据图书馆的兴起将成为值得业界关注的新焦点。

[关键词]数据新闻 趋势 传感器 数据图书馆

*本文系复旦大学新进教师科研启动基金资助项目(JJH3353014)的研究成果

数据新闻并非新鲜事物,但它却从未像今天这般遍地开花。《纽约时报》《华尔街日报》《卫报》等堪称全球新闻业风向标的英美媒体,均热忱耕耘数据新闻领域,且佳作频出。南美洲的阿根廷《民族报》也不时推出令人耳目一新的数据新闻作品,有的报道甚至撼动了阿根廷政界。国内媒体诸如网易、财经新闻网、《南方都市报》《新京报》、澎湃新闻等也相继开设了数据新闻栏目。数据新闻正在全球范围内掀起一股热潮。

目前,学术界对数据新闻的准确定义莫衷一是。简而言之,数据新闻是指从数据中挖掘新闻故事,并利用数据来讲述故事的新闻报道样式。探察数据新闻的发展趋势,有利于新闻机构洞悉前沿变化,做出预判。

一、数据新闻的发展历程

早在19世纪初,英国《卫报》就刊登了以图表形式展现的数据分析报道,可谓是数据新闻的原始形态。20世纪50年代,计算机开始进入美国的新闻编辑室,记者编辑们通过计算机运行模型,预测大选的结果,并进行报道,被称作计算机辅助报道(Computer-assisted Reporting, CAR)。[1]这是新闻业与电脑科技碰撞的成果。将计算机技术引入新闻业,拓展了新闻操作的空间,丰富了新闻报道样式。

20世纪60年代,美国底特律、洛杉矶等地区发生种族骚乱。当时舆论倾向认为骚乱参与者多来自社会底层,教育程度有限,因无力改变生活窘境而参加骚乱。为验证这一流行观点,《底特律自由报》(Detroit Free Press)在1967年开展了问卷调查,记者菲利普·梅耶和两位社会学家合作,用随机抽样的方法对400余名骚乱参与者进行了调查,并运用计算机对统计数据进行分析,结果显示教育程度与参与骚乱之间并没有明显相关性,受过大学教育的人和高中没毕业的人都有可能参加骚乱,此外参与者也并不一定来自社会底层。[2]数据分析的结果有力地驳斥了有关种族骚乱的刻板成见,这是传统的叙事新闻难以达到的效果,该报道也斩获了1968年普利策新闻奖。[3]这种报道样式被菲利普·梅耶称为“精确新闻”,是指在新闻实践中运用社会行为科学研究方法,使用抽样、计算机分析和统计推断等工具,发现、理解并解读事实。[4]

精确新闻的出现也是对当时流行的“新新闻学”的一种矫正。新新闻学允许在报道中增加艺术性的内容使其更引人入胜,或者“合理”描绘采访对象的心理活动。[5]但有的记者打着新新闻学的旗号编造事实,以使报道更具故事性。批评者认为新新闻学是对客观性的背离。而精确新闻提升了报道的准确性、深度和可信度。精确新闻由此风靡一时,国内新闻界业也纷纷相仿。1993年,《中国青年报》设立了社会调查中心,并辟专版刊登该中心进行的民意调查的结果。随后《北京青年报》推出了“公众调查”版,每周一期,专门刊登民意调查或社会调查结果。国内有20多家媒体相继开设了相关版面。可惜的是,由于报道成本较高等原因,这些版面和栏目逐渐关停。[6]精确新闻将严谨的社会科学方法引入新闻业,开启了新闻业与社会学的联姻,推动新闻业朝更加科学化的方向前进。

计算机辅助报道与精确新闻为数据新闻奠定了基础,大数据时代的到来,爆发式增长的数据量以及数据存储、分析工具的进步,直接推动了数据新闻走向流行。2009年英国《卫报》在其网站上设立了数据博客栏目,持续发布数据新闻作品,这标志着数据新闻开始成为精英媒体的常规生产内容。2010年《卫报》依据维基解密提供的海量战争数据,制作了伊拉克战争日志数据新闻作品。39.1万条战争伤亡数据被搬上了地图,每一次死伤事件都在地图上生成一个红点,点击红点弹出对话框,可获得死伤人数、袭击地点等信息,地图上密密麻麻的红点,以震撼的视觉效果,揭示了战争的残酷。这张互动地图流传甚广,也震动了英国政界,在一定程度上推动了英国做出从伊拉克撤军的决定。[7]这则报道也成为数据新闻的经典范例,直接引爆了数据新闻的热潮。

二、我国数据新闻发展现状

我国的数据新闻实践略晚于国外媒体。2012 年1月,门户网站网易创立了“数读”栏目,这是国内媒体最早开辟的数据新闻栏目,每周发布两到三条数据新闻作品。[8]随后,财新网、《南方都市报》、澎湃新闻等相继成立了数据新闻制作部门。数据新闻作为舶来品,进入中国时间不长,对比国外的数据新闻操作,国内数据新闻生产存在着制作人才匮乏,数据挖掘深度不够,数据不开放、来源模糊不清等问题。

1.制作人才匮乏

数据新闻的生产流程不同于普通的叙事新闻,它对从业者提出了更高的技能要求,从业者既要懂新闻又要懂编程。制作一条数据新闻,首先要获取可用的数据,操作中常要抓取网页上的数据,这就要求制作者掌握基本的网页抓取技术。但这一技术是建立在熟知网页编写语言和网页结构基础之上的,这对于通常来自人文社会学科的新闻工作者而言,是较大的挑战。一家纸媒的数据新闻部门就曾受制于此。该报记者浏览网站时发现了极具新闻价值的数万条数据,但要点击超链接在弹出窗口中读取每条数据,逐个复制与粘贴的工作量无法想象,也会非常耗时,不符合新闻时效性的要求。通过Python语言(一种计算机程序设计语言)可以自动抓取每个弹出框内的内容,但编辑部内无一人会使用这种语言,只好求助他人并支付了较高酬劳。这并不是孤例,国内很多数据新闻产品都是在“技术外援”的帮助下完成的,但长期依赖外援并不可取,一是增加了媒体的经济开支,二是增加了沟通成本。此外,如果找不到合适的“外援”,选题很有可能夭折。

目前媒体对于会编程的新闻人才可谓求贤若渴,很多记者编辑希望借助培训继续充电,以掌握一定的编程技能。但数据新闻所需要的编程技能并不是短时间充电能够补足的,而且编程语言也在不断进步更新,充电也应是长期的过程。要解决人才短板的问题,一方面新闻从业者应加强自主学习,另一方面媒体也应拿出具体措施,激励员工参加培训充实自己,以提升新闻制作质量。前文所提到的精确新闻的创始人菲利普·梅耶,正是在哈佛大学一年的脱产培训中,系统掌握了社会科学的研究方法,在返回新闻工作岗位后,他学以致用,才有了精确新闻的产生。

2.数据挖掘深度不够

国内数据新闻报道数量正在增加,但能够被业内普遍认可的经典范例却不多。一方面是因为数据新闻尚处于初期发展阶段,业内尚未形成统一的衡量标准,通常都是依据点击量或社交媒体上的转发量作为评判质量的标准。另一方面也是因为数据新闻本身概念模糊,对于包含多少数据量、如何呈现才能够被称作数据新闻报道存在很多争议。不少报道仅对数据进行了可视化呈现,缺乏对数据的深入挖掘和情境化分析,报道的深度不够。此外,目前的大部分数据新闻报道都属于“小数据新闻”,[9]数据量较小,数据形态单一,也极少使用统计分析的方法处理数据。比如“三公经费”是数据新闻中的热门题材,但对“三公经费”所做的数据新闻报道还停留在展示数据的层面,如用饼图标示三项公务开支的比重,或用柱图比较不同地区或不同部门的开支。如一则报道中用大小不一的方块组合成的方形图揭示了中央单位三公经费历年来的升降变化,方块面积越大表示开支数额越大。由图可知,国家税务总局连续数年位列三公开支首位,有网民评论道,为什么国家税务总局一直位列“榜首”,但报道中只展示了现状,并未详解原因。此外报道还可以联系社会情境对数据做更深入的解读,比如“八项规定”出台后,为何“三公经费”还在上升。只展示是什么,而不深究为什么,是很多数据新闻作品的通病,报道着力于在视觉上吸引人,看上去很抢眼,但对数据的挖掘和解读深度不够,难以给受众留下深刻印象。

3.数据不开放、来源模糊不清

在传统叙事新闻中,清楚交代新闻源是客观性最基本的要求。数据新闻的新闻源即数据来源,在操作中也需详细说明。目前数据新闻作品基本都写明了数据来源,但普遍存在标识模糊不清的问题。有的报道仅写数据来自某机构,比如源自新华社或联合国,但两家机构公布的数据成千上万,读者无从得知具体使用了哪一组数据。还有的报道写数据来源时使用机构的简称或英文简写,更是让读者一头雾水。国外的数据新闻在操作中很重视对来源的交代,方便读者自行判断数据的可信度,这体现了新闻从业者对受众的尊重。英国的《卫报》还会在每则报道后附上整理好的原始数据,点击链接便可下载。《卫报》将公开源数据看作是开放新闻室的一部分,也是民主化新闻生产过程的努力方向之一。传统的新闻生产流程相对封闭,新闻生产者与读者距离较远,生产者凭借经验猜测读者的喜好。社交媒体拉近了生产者与读者的距离,读者可在社交媒体上提供实时阅读反馈。但新闻生产过程很大程度上仍然是封闭的,由生产者主导的。《卫报》将源数据公开,意在吸纳读者参与到新闻生产过程中,让每一位读者从数据中寻找自己的兴趣点制作数据新闻。《卫报》数据博客同时在Flickr(用于分享图片的社交网站)上建立了群组,用于分享读者生产的数据新闻作品。国内的数据新闻都不曾开放源数据,一家纸媒数据新闻部门的负责人曾表示,在合适的时候将开放原始数据,但竞争压力以及开放可能带来的其他风险让人顾虑重重。

三、数据新闻新趋势

数据新闻领域变化日新月异,新技术与新工具不断涌现,在可见的未来,传感器数据的广泛应用以及数据图书馆的兴起将成为值得关注的新焦点。

1. 传感器数据的应用

传感器是一种电子感应装置,它可以监测环境变化,并将变化转化为数字信号输出。移动网络和电子设备的发展使传感器日趋普及,并渗透到日常生活的每一个角落,带定位功能的手机、GPS(卫星定位系统)、智能手环、电子监控设备以及空气质量监测设备等都属于传感器。传感器可以对事物进行长期监测并返回海量的一手数据,其造价也在逐渐降低,因而日益得到新闻业的青睐。尤其在环境报道领域,传感器更加彰显功用。例如要调查一个垃圾填埋场是否造成了附近的空气污染,记者可能难以从官方获取数据,即便能拿到数据,数据也可能存在瑕疵。如果记者能够自行搭建污染监控设备,便可获取一手数据,还可与官方数据进行对比,获取更多信息。

国内媒体曾使用霾表来监测空气中PM2.5的含量,这也是传感器在新闻中的应用。但这种应用还是尝试性的,使用传感器获取大量数据主要有两种途径,一是自己搭建传感装置,直接获取监测数据。美国纽约公共广播电台(WNYC)就曾采用这种方法制作了“追踪蝉”项目。在美国的东北海岸,每隔17年,在初春时节,蝉的幼虫会破土而出。当地表以下8英寸的土壤温度达到64华氏度(17摄氏度)时,蝉虫就会爬出地面。为了预测蝉虫的到来,手工爱好者、纽约公共广播电台的数据编辑约翰·基夫(John Keefe)设计制作了一个监测装置,将温度计粘在尺子上,同时连接感应器和9个LED显示灯,当土壤温度上升时,感应器输出电流,显示灯就会亮起。当温度达到64华氏度时,9个显示灯会全部亮起。装置需要29个步骤来完成,编辑部制作了详细的视频与文字说明,希望听众能自行组装设备并放在自家后院进行监测,其中部分要件需掏钱购买。编辑部同时搭建了“追踪蝉”项目主页,听众可在页面上输入自己监测到的结果。最终编辑部获得了听众贡献的1750条温度数据,数据来自800多个不同的监测地点,另有4300条数据记录了看到蝉虫的时间和地点。这些数据被绘成了互动地图,点击地图上的圆点可获得地理位置信息以及温度数据。这是一条有趣又带有科普价值的新闻,听众的参与热情超乎编辑部成员的想象,这条新闻在社交网站上获得了数万次的转发量。制作者约翰·基夫认为,准确性并不是这条新闻的首要考虑要素,重要的是听众接受了一次非正式的科普教育,此外听众还参与到了社区公共活动之中。[10]

另一种方式是从公共监控系统中获取数据。《佛罗里达太阳哨兵报》(The Florida Sun Sentinel)的记者从高速公路监控系统中获得了警车行驶速度记录,记录显示大量警车长期超速行驶,因超速还造成过死伤事故,但涉事警察都逃脱了惩罚。作为一种福利,佛罗里达州警察可以在下班后将警车开回家,民众对非执行公务的警车超速的抱怨由来已久,但一直缺乏有力的证据。《佛罗里达太阳哨兵报》的调查记者约翰·麦恩斯(John Maines)和萨莉·凯斯汀(Sally Kestin)联手展开调查,他们在一条高速公路上设置了测速器,用来监测驶过的警车的行驶速度,并获得了数百条数据。但数据量不足以证明警车超速是一种系统性问题。随后他们向警方申请依据警车上的GPS系统公开警车的位置信息,但警方以安全考虑为由拒绝了信息公开申请。一个读者电话启发了记者,高速公路收费站的监控系统中应存有通过的警车的信息。在佛州,警车不需要缴纳高速费,监控系统会为警车设置一种特别的代码以使其免费通过,只要知晓这种代码就能提取警车通过收费站的时间信息,将两个收费站之间距离除以警车经过两个站点的时间差便可获得警车行驶的平均速度。两位记者向高速公路管理机构提出了信息公开申请,并获得了250兆含有110万行数据的Excel文件。运行几个公式,就获得了警车的行驶速度信息。数据显示,从2010年10月到2011年11月间,在公务时间以外,该州的警察有超过6000次以每小时90英里以上的速度驾驶警车,有的警察在限速60英里每小时的高速路上持续以90英里的速度行驶。大量数据表明警车超速是一种系统性和习惯性的行为,报道刊登后,警方对9名警察实施了纪律处罚,对130名警察进行了处分。这篇报道以翔实的数据、深入的挖掘,揭露了警方的弊病,报道也获得了2013年普利策新闻奖。时隔一年后,记者再次搜集了同样的数据,并进行对比后发现,警察超速驾驶行为下降了84%。

对传感器数据的利用将成为未来几年数据新闻领域炙手可热的焦点,但在利用数据的同时也需要考虑数据的准确性问题,尤其是由新闻机构自行搭建监测设备时,最好能够获得学者的指导,可以避免因专业性不足带来的失实风险。此外隐私问题也不容忽视,比如通过智能手环或一些手机应用可以获取个人健康情况数据,这些数据牵涉到个人隐私问题。

2. 数据图书馆

数据图书馆的兴起是数据新闻领域另一个值得关注的焦点。数据图书馆亦可被称作数据超市,提供大量的数据,可在线下载。这些图书馆有的是由NGO组织来运营,还有的是媒体机构设立的,比如《卫报》设立了自己的数据商店,任何人都可免费下载商店中的数据。但并非所有的数据图书馆都是免费的,美国非营利新闻机构ProPublica也建立了自己的数据仓库,其中部分数据只能付费下载,因这些数据是ProPublica花费了高额的律师费用通过信息公开申请等方式获取的。《芝加哥论坛报》曾专门为媒体机构开发了数据图书馆搜索工具Panda,它可在云端进行操作,也可安装在媒体机构的电脑上,工具自身存储了大量的数据,比如选举数据、环境数据、股市数据等。我国也正在兴起一些小规模的数据图书馆,比如青悦开放环境数据中心,该中心主要提供环境类数据,并对非营利机构开放,但仍需提出申请。国内从事数据新闻的媒体机构也在建立自己的数据仓库,在未来几年,将会有更多的数据图书馆浮出水面,如果这些资源得以共享或开放,将极大地丰富数据来源,提升数据新闻的整体质量。

(作者单位:复旦大学新闻学院)

参考文献:

[1]Alexander Benjamin Howard, “The art and science of data-driven journalism: when journalists combine new technology with narrative skills, they can deliver context, clarity, and a better understanding of the world around us” [EB/OL] http://towcenter.org/the-artand-science-of-data-driven-journalism/,2014

[2][4][5]菲利普·梅耶著,肖明译.精确新闻报道:记者应掌握的社会科学研究方法(第四版)[M].北京:人民大学出版社,2015

[3][6][9]方洁.数据新闻概论:操作理念与案例解析[M].北京:人民大学出版社,2015

[7]章戈浩.作为开放新闻的数据新闻:英国《卫报》的数据新闻实践[J].新闻记者, 2013(6)

[8]方洁.数据新闻概论:操作理念与案例解析[M].北京:人民大学出版社,2015:23

[10]Fergus Pitt, “Sensors and journalism”[EB/OL].http:// towcenter.org/research/sensors-and-journalism/,2014

猜你喜欢
数据新闻趋势传感器
康奈尔大学制造出可拉伸传感器
趋势
简述传感器在物联网中的应用
“传感器新闻”会带来什么
跟踪导练(三)2
初秋唇妆趋势
中外数据新闻编辑流程比较研究
大数据时代新闻的新变化探究
媒介融合时代数据新闻可视化教学探索
从“数据新闻”看当前互联网新闻信息传播生态