彭 兰
(中国人民大学 新闻学院,北京 100872)
数据新闻是近年来业界的一个热门话题,而一个诗意的表达是,它是数据与新闻的相遇。尽管这样的表达听上去很美,但是,它带来的,也许是一场严峻的洗礼。
数据新闻,也可以称为数据驱动的新闻,这个概念的正式提出,在2009年前后。
数据新闻记者墨科·劳伦兹(Mirko Lorenz)对数据新闻的定义是,数据新闻是一个工作流程,它意味着深入到数据之中,对数据进行清洗、结构化,为特定目标进行数据过滤,以及通过可视化来完成报道。①Lorenz,Mirko.Data driven journalism:What is there to learn,http://www.slideshare.net/mirkolorenz/datadriven-journalismwhat-is-there-to-learn他的定义不仅说明了数据新闻的特点,也概括了数据新闻的基本流程。
维基百科对于数据新闻的界定是,数据新闻指对大规模数据进行分析、过滤与加工,在此基础上形成新闻报道。维基百科还提及了国外研究者的一个代表性观点,那就是数据新闻越来越多地建立在可以免费获得亦即开放的互联网数据基础上,利用开源工具进行处理。②http://en.wikipedia.org/wiki/Data_driven_journalism尽管维基百科对于数据新闻的界定并非是最准确的,它提到的“大规模”、“开放”、“开源工具”等也不一定是数据新闻的必备元素,但是,维基百科中关于数据新闻的定义,体现了近年来大数据技术背景下业界、研究界对数据新闻的一些新的认识。
尽管数据新闻这一概念近年来才出现,但是多数研究者认为,数据新闻的源头可以追溯到20 世纪中期在美国出现的计算机辅助报道。1952年,CBS已经采用计算机辅助报道的手段来预测美国大选的结果,20 世纪60年代后,在美国,调查报道记者通过对公共数据库的信息的分析来发现新闻线索也变得普遍。而公共服务类新闻,也在利用计算机作为辅助手段来预测趋势、告知常识,或者揭露政府或私人企业的不端行为。数据新闻的先驱者之一北卡罗来纳大学教堂山分校的菲利普·梅耶(Philip Meyer)曾通过对1967年底特律骚乱中相关材料进行数据分析得出判断,认为这场骚乱的参与者并非都是文化程度低的南方人。而20 世纪80年代比尔·戴得曼(Bill Dedman)的报道“金钱的颜色”,则揭露了美国主要金融机构在贷款政策方面的种族歧视问题。斯蒂夫·道伊格(Steve Doig)在“哪出了错”的报道中,通过对20 世纪90年代初期发生的安德鲁飓风造成的破坏模式的分析,揭示出城市开发的政策和进程带来的影响。①http://datajournalismhandbook.org/1.0/en/introduction_4.html
在美国新闻界的一种看法是,数据新闻与计算机辅助报道是不同的,计算机辅助报道主要是把数据的收集与分析作为提高报道能力的一种手段,而数据新闻则把主要注意力放在数据上,也就是把数据作为一种核心要素而不是一种附加手段。当然,也有人认为,这两者并没有本质区别。①http://datajournalismhandbook.org/1.0/en/introduction_4.html
在美国,20世纪70年代初期,还出现了计算机辅助报道相似的另一个词“精确新闻”,其目标是将社会科学与行为科学的研究方法引入到新闻采访报道中。这一概念的提出者菲利普·梅耶认为,记者要更好的保证新闻的客观性和真实性的话,就需要掌握更多的数据收集和分析的能力。①http://datajournalismhandbook.org/1.0/en/introduction_4.html尽管与数据新闻有着一定的血缘关系,但精确新闻也并不等于数据新闻。
在国内,与数据新闻常常在一起使用的是数据可视化和信息图表这两个词,甚至有些时候它们会被当作同义词,但这几者实质上还是有区别的。
《纽约时报》阿隆·菲尔霍夫(Aron Pilhofer)认为,数据新闻是一个概括性术语,它包括了在持续发展着的一整套新闻叙事的工具、技巧与方法,涵盖了从传统的计算机辅助报道(使用数据作为“信息源”)到最前沿的数据可视化和新闻应用等。②http://datajournalismhandbook.org/1.0/en/introduction_2.html
我个人对他关于数据新闻的这样一个界定是认同的。如果基于这样一个认识,我们可以看出,数据新闻涵盖了新闻生产的一整套流程,数据可视化只是这个流程中的一个环节。一切利用数据来发现新闻、呈现新闻要素、解释新闻的手段和形式,都可以称之为数据新闻。但它并不一定要求结果的“可视化”。
而数据可视化,则需要两个要素,一是可以被用于分析的数据,二是其形象化的呈现,目前在数据可视化领域所处理的数据,主要包括数值型数据(即我们通常所说的数字)、文本型的数据以及“关系”(例如社会化媒体中人们的相互关注关系、信息转发关系,企业间的合作关系、投资关系等)。数据可视化往往需要借助一些专业软件。数据可视化虽然在新闻领域得到更多的关注,但显然,它不仅仅用于新闻领域。支付宝提供的个人账单,已经可视化。类似的,在商业领域里,数据可视化手段必然会日益普及。
信息图表与数据可视化有交集,但两者也不等同。信息图表包括一切将信息或数据形象化、可视化的手段。根据道格·纽瑟姆(Doug Newsom)的概括,作为视觉化工具的信息图表包括:图表(chart),图解(diagram),图形(graph),表格(table),地图(map)和列表(list)等。③《信息图表设计的概念与历史》,参见http://www.douban.com/group/topic/16410517/。这些形象化的呈现,并不一定都要以数据的分析与加工为前提。目前在国内流行的“图解”类信息图表,只是将文字符号简单地转换成形象易懂的图形符号,很多都并不能称之为纯粹的数据可视化作品。因此,信息图表在某种意义上是一个比数据可视化涵盖范围更广的概念。但在本文中提到的信息图表,主要指基于数据可视化技术形成的信息图表。
尽管数据新闻、数据可视化和信息图表三者有一些区别,但在现实中,的确难以在它们之界划出一条清晰界线。
利用新媒体技术,今天的数据可视化或信息图表作品,还可以实现更多的交互性,用户的鼠标可以成为探索深层信息的工具,也就是说,在信息图表中隐藏着一些信息,它们可以通过鼠标的动作触发出来,这是为了在保持页面清爽的前提下,给用户提供更丰富的信息。甚至在一些个性化的交互式作品中,每一个用户都可以将自己的相关数据输入进去,从信息图表里获得个性化的数据处理结果,信息图表变成了一种工具。
一些数据可视化或信息图表,也在与动画结合起来。例如,群邑公司制作的《指尖上的中国》系列,在国内网民中受到广泛关注。这个系列将中国移动互联网发展的相关数据及图表,通过动画的形式呈现出来,信息图表的动态化展现,可以给人留下更深刻的印象。
在某种意义上,数据新闻、信息图表与融合报道也有一定的关联。数据新闻和信息图表可以是融合报道的一个构成部分,也可以成为一个融合性报道的完整载体,因为交互式信息图表本身具有整合信息的功能,例如,时间线这样的信息图表,既可以基于时间线索展示事物发展过程,也可以将成百上千的各种形式的报道整合在时间的坐标上。融合报道的核心,是将多种形式的报道内容在深层结合起来,而信息图表这个框架往往具有这样的优势。
无论给相关实践或作品贴上什么样的标签,将数据作为新闻报道的资源甚至是核心资源,用数据思维来进行新闻报道,已经是大势所趋。
在国外,英国《卫报》和美国《纽约时报》在数据新闻方面的探索,被认为代表了今天媒体在这个领域的最高水平。
2009年,英国《卫报》的西蒙·罗杰斯(Simon Rogers)开办了《卫报》的数据博客(Guardian Datablog)。最初,这个博客主要是提供《卫报》新闻报道背后的相关数据。后来,它的内容日益丰富,今天它已经包括多种数据资源、各种案例、数据新闻的工具及教程以及与数据新闻相关的各种资讯。
2012年在首先在互联网上推出的《数据新闻手册》(http://datajournalismhandbook.org/1.0),是数据新闻领域的一个重要研究成果,同时也是这个领域一个重要的协作生产与分享平台。虽然从名称上来看,这是一部传统的书籍,但本质上它是一个基于众包模式的、可以不断更新的在线项目,参与者通过谷歌在线文档完成协作式写作,参与者来自英国《卫报》、BBC、《金融时报》、美国的《纽约时报》《华盛顿邮报》、美国独立新闻机构ProPublica、德国Zeit在线等。这样一个项目的创意来自2011年在伦敦召开的MozFest 2011 会议,在欧洲新闻学中心和开放知识基金会的倡导下,十几位富有经验的数据新闻实践者在网络中参与了这样一个协作写作项目。①《协作、开放、免费、全球——荐《数据新闻手册》,http://www.neweyeshot.cn/archives/10575其电子版于2012年4 月底上线,其纸质版将由O’Reilly 出版,而不同语言版本的翻译也由各国志愿者完成,其中包括中文版。
与传统的新闻报道相比,数据新闻在很多方面,都有自己特定的规程,它是一个新的信息采集与加工过程。
研究者保罗·布拉德肖(Paul Bradshaw)曾提出了数据新闻的倒金字塔结构,如图1,这个结构概括了数据新闻所需要的几个步骤:②The inverted pyramid of data?journalism,http://onlinejournalismblog.com/2011/07/07/the -inverted -pyramid -of -data -journalism/
图1 数据新闻的倒金字塔结构
(1)数据的收集(Compile):通过各种途径收集相关数据。
(2)数据清洗(Clean):数据的清洗通常包括两个方面,去除人为的错误,以及进行数据格式的转换以便进行相应处理。
(3)了解数据的背景(Context):就像对待其他信息一样,对于数据,我们也需要了解数据是由什么人在什么时间什么样的情况下采集的,数据收集的方法是什么,此外还需要了解与数据有关的术语,清楚数据的含义。在这一前提下,还需要了解此数据的背景数据,以便更大的背景下进行分析,例如,仅仅了解一个城市当前的犯罪案件的数据是不够的,还需要把它放在这个城市的人口数据或警察局的数量等背景之下,或者与五年前的犯罪数据进行对比。
(4)数据的结合(Combine):将两个不同系列的数据结合起来,往往可以发现更多深层问题,例如当一个数据系列与地图这样的数据结合时,那么基于空间的数据分布规律将更加一目了然。
经过以上这四个步骤,数据里的杂质越来越少,所以从数据量来看,这是一个倒金字塔式的结构。最终,经过筛选、加工的数据需要进行传播(Communicate),即通过各种可视化手段,将数据的结果呈现出来。
数据的收集是数据新闻面临的首要挑战。尽管数据新闻来源本身十分广泛:新闻记者自己采访、调查获得的数据,研究机构提供的研究数据,网络用户的各种行为数据、搜索引擎产生的数据、社会化媒体的内容以及其他网络公共资源,各种政府机构或组织、企业等发布的公开数据等,都可以成为数据新闻的资源。
另一方面,今天的数据新闻还需要更多地利用网民的力量来进行数据的收集。《卫报》在很多时候会将其读者转化为数据的采集者。西蒙·罗杰斯接受采访时说,“如果现在有一个有意思的项目,我们需要人来录入数据,就可以让读者帮助我们。这是我们在调查国会议员开销时所采用的方法。当时有45 万个文件,但时间非常少,几乎干不了什么事情。那除了向读者开放项目,还能有什么更好的方法么?”①《<卫报>数据博客的众包式数据》,http://datajournalismhandbook.org/chinese/getting_data_5.html
除了利用众包的方式让网民参与媒体数据的生产外,用户的“自我数据化”,也是数据新闻越来越重要的数据来源。这种自我数据化,既可以表现为用户通过各种网络平台主动发布的与自己的生活状况、意见态度、情绪等有关的内容数据,也表现为被各种新媒体平台记录下来的用户的各种行为数据。这些行为数据,是持续的、相对准确的,更重要的是,个体数据可以汇聚为整体数据。“自我数据化”、“个体行为数据化”,为数据新闻,打开了一个全新的空间。
2014年春节期间,百度推出了“百度迁徙”项目,它通过对用户手机的GPS 定位数据的收集与整理,将分散的个体用户的迁徙轨迹聚合起来,呈现出春运期间中国人口流动的整体面貌。央视《晚间新闻》开设的《“据”说春运》栏目,多次引用了“百度迁徙”的研究成果。这样一种对春运人口迁徙的全貌及其内在规律的揭示,是过去传统的新闻采访报道无法企及的。
当移动终端以及物联网的传感器日益普及时,人们的活动将有更多的记录方式,各种物体采集或发出的数据也越来越普遍,这将使数据新闻进入一个全新的时代,在个性化的新闻以及预测性新闻报道方面,物联网数据的应用尤其值得关注。
要能完成数据新闻的全过程,新闻记者需要一些全新的能力。
德国之声的米尔科·洛伦兹(Mirko Lorenz)认为,同数据打交道就如同踏入广袤的未知领域。第一眼看过去,原始的数据令人眼花缭乱、头脑混沌。这种繁杂的数据,的确难以恰当地将其可视化。它需要经验老到的记者,这些人拥有从混淆、乏味的原始数据中“看出”其中暗藏故事的能力。②《为何记者要运用数据》,http://datajournalismhandbook.org/chinese/intro_1.html
菲利普·梅耶认为,当信息稀缺时,我们主要的努力是寻找与收集信息,但现在信息已经过载,对信息的处理就变得更为重要。对信息的处理包含两个层面,其一是在奔腾不息的信息流中发现其中的意义和结构,其二是将那些与用户有关的重要内容呈现出来。像科学一样,数据新闻用可重复验证的方式来披露自己的方法,展现其发现。③http://datajournalismhandbook.org/1.0/en/introduction_2.html
保罗·布拉德肖认为,数据新闻起源于两种可能,一是某些问题需要数据来阐释,二是某些数据引发了某些问题。
结合各种研究者的观点,我们可以将从事数据新闻所需要的能力大致分为两大方面:
其一是用数据来发现问题、揭示意义的能力,这种能力需要建立在新的思维基础上,而思维的关键是关系思维。因为问题与意义的发现,往往是基于对数据关系的揭示。
其二是用数据来承载、表现新闻的能力,其重点是可视化表达的能力。
保罗·布拉德肖在数据新闻的倒金字塔结构中提到的第四个阶段“数据的结合”,对于数据新闻来说至关重要,而数据的结合,本质上,是发现数据之间的关系。
数据之间的关系,是事物之间关系的一种表现形式。数据关系的揭示,对于新闻的深层发现,具有重要意义。
1.在数据关系中探究背景及原因
尽管大数据时代一种代表性观点是,因果关系不再重要,相关性的挖掘才是重点。但是在数据新闻里,因果关系的挖掘不仅存在,而且仍然是很重要的。因为新闻报道的任务,不仅仅是告诉人们发生了什么,还要告诉人们这些事为什么发生,而原因的揭示,往往就是因果关系的发现。
在某些时候,相关性分析实际上也是揭示因果关系的基础。
2011年8 月英国发生全国性骚乱,当时英国首相卡梅隆的观点是,贫困并非导致骚乱的主要原因。但在骚乱发生后,英国《卫报》启动了一个名为“解读骚乱”的项目,这个项目的目标是通过数据收集及相关分析手段,对骚乱产生的原因及影响进行深层研究。项目组在他们搜集的法庭数据基础上完成了一个对比性的信息图表“贫富因素与骚乱”①参见http://www.guardian.co.uk/news/datablog/2011/aug/16/riots-poverty-map-suspects,在一张显示各个地区贫富等级的英国地图上,2 000 多个骚乱参与者的家庭住址被标识出来,从图中可以清楚地看到,骚乱参与者绝大多数居住在英国的贫困地区。当骚乱参与者家庭住址这样的数据与展现贫富等级的地图数据两者被关联起来后,贫富因素与骚乱之间的关联,也得到了揭示。
从表面上看,这个案例揭示的是生活区域的贫富状况与骚乱参与行为之间的相关性,但这个相关性的证实,为证明贫富因素对骚乱的影响提供了依据。
2.在数据关系中梳理共性
再优秀的记者,在传统的新闻采访手段和方法之下,也往往只能聚焦于一个事物的某个侧面或某个局部,在这个“点”上进行深入的开掘,尽管对全局状态及普遍规律的揭示是媒体的目标,但很多时候,心有余而力不足,而今天的数据,却在这方面展现了新的可能。
数据可以帮助我们将分散的个体、孤立的现象之间的共性或共同规律挖掘与呈现出来,这同样有赖于对数据本身关系的分析。
关于诺贝尔奖获奖者的信息图表“诺贝尔奖获奖者的规律”(Nobels,no degrees)②具体图表参见:https://www.behance.net/gallery/14159439/Nobel-no-degrees正是这方面的一个范例。这个作品在名为“信息是美的”信息图表设计大赛的2013年评奖中获得数据可视化金奖,它通过对1901 -2012年间六大类诺贝尔奖获奖者的个人信息的数据梳理,帮助我们发现了获奖者的某些共同特征。
这个看上去像乐谱的图表,按照诺贝尔奖的类别列出了六个时间线,线上每一个点代表一个获奖者,它们被定位在获奖的时间点上,而此时获奖者的年龄,也在图中被标识出来,从中可以看到获奖时集中的年龄段。在时间线的右端,列出了世界上最著名的七所大学,通过指向这几所学校的线条可以看出来,大多数获奖者都出自这几所名校。同时,该类获奖者的学位构成也在右侧用条形图进行了统计,从中可以看出,医学奖获奖者的博士比例为100%,而文学奖和和平奖的博士比例则较低,甚至很多人没有学位。在六条时间线的下方,是对获奖出生地进行的数据统计,以30年为一个统计周期,在1901 -1930年间,出生于巴黎的获奖者比例最高,1931 -1960年间,出生于伦敦的获奖者最多,1961 -1990年,纽约出身的获奖者占了上风,1991 -2012年,纽约继续保持优势。这个出生地的比较图显示了20 世纪60年代后获奖者从欧洲向美国转移的动向。
“信息是美的”数据可视化大奖的银奖作品“如何赢得奥斯卡”③具体作品参见:http://djchina.org/2014/02/24/iib-awards-2013,也是同样的思路,这一作品将1928年以来奥斯卡最佳男/女主角获得者的获奖角色进行了分析,从角色的性别、角色属性(历史人物还是虚构人物)、角色出生地、故事发生的年代、角色的职业特点、是否有性场景、影片结束时角色是否还活着等若干个维度,总结出最有机会获得奥斯卡奖的角色特点。其发现是,一个虚构的、来自北美地区的女性角色,故事发生在现在或不远的过去,在影片中没有性场面,在影片结束时仍活着,其扮演者有更大的机会获得奥斯卡最佳女主角奖。尽管这样的数据分析未必是准确可靠的,但是这样一种在设定的数据维度上进行规律挖掘的思路,是具有借鉴意义的。
腾讯网的“中国发言人——外交部发言人表达可视化分析”(见下页图2)④信息图表出处:http://news.qq.com/newspedia/attitude.htm,是目前国内运用数据思维进行新闻发现和新闻呈现的一个范例。
这个作品以2009年2 月-2013年5 月间外交部网站1 000 余篇新闻为基础,对外交部历任6 位发言人涉及16 项事务议题、涵盖21 个国家和地区的回答进行了数据分析。数据分析首先是对外交发言人经常使用的不同属性的词语进行词频分析,例如,赞同感谢类的词语总共使用1 120 次,严重关切类的词使用676 次。尽管词频分析的思路在今天的数据新闻中并不少见,但本专题在词频统计之外,更多地通过对词语间的关联、词语出现的语境的分析挖掘,去揭示中国外交表态中的常见模式和内在规律,例如,“严正交涉”一词,经常出现在台湾事务、西藏事务、新疆事务、钓鱼岛等议题中,如果是与台湾事务有关,则经常指向的是美国、日本两个国家,如果是与西藏事务有关,则指向美国、日本、印度、英国、欧盟等国家或地区。这样一种数据挖掘,把外交部发言人的发言表态规律直观地呈现在人们面前,此外,这个作品还提供了每月词频的统计,将中国外交的阶段性焦点以动态的方式呈现在人们面前。这个可视化成果为人们理解今天中国的外交政策、外交格局提供了一个新颖的视角。
图2 信息图表“中国发言人——外交部发言人表达可视化分析”(局部)
3.在数据关系中探求模型
当一些事物的共同规律变得日益明晰时,一些不断重复的行为或变化模式甚至可以上升到“模式”或“模型”的高度,这样的模式或模型,不仅可以呈现或解释当下,也可以用于预测未来。
在BBC 拍摄的电视片《大数据时代》(The Age of Big Data)里,数据分析专家杰夫·布兰丁汉姆指出,数学模型可以帮助我们理解事情的起因和演变过程,而人类的行为就像自然界一样,是有规律可循的。几位数据分析家通过对洛杉矶警察局1 300 多万条犯罪记录的分析,建立了这个地区犯罪的模型,基于这个模型的软件可以帮助警察预测在某些地区知规律来看,人的大脑处理图形、图像等视觉符号的可能发生的犯罪。
微软研究院的科学家埃里克·霍维茨(Eric Horvitz)与以色列理工大学的博士研究生奇拉·拉丁斯基(Kira Radinsky)合作的一项研究,是基于1986 -2008年间《纽约时报》的数据库中的新闻报道,以及海量的互联网数据源信息(例如维基百科、FreeBase、OpenCyc、GeoNames 的内容等),研究过去几十年间各种社会事件之间的关系,通过软件对新闻事件蕴含的规律的不断分析,发现各种事件之间的关系与规律模式,这一模式为预测未来提供了可能,目前他们开发的软件可以完成三个方面的预测:对即将发生的大规模疾病做出预警;对死亡事件做出预警;对暴力事件做出预警。①常宁,《还真有软件可以科学预测未来了?!》,http://www.tmtpost.com/16384.html与上面的两个案例相比,谷歌基于用户搜索数据的分析来预测流感爆发、电影票房等的案例,更为人们熟知。类似的预测技术,也出现在百度。2014年百度推出的百度预测平台,先后推出了世界杯比赛结果的预测、高考作文题预测、高考志愿填报预测、疾病预测、热门旅游城市预测、经济景气指数预测。尽管这一系列的预测产品依据的数据来源不尽相同,其预测准确程度也还有待提高,但是,在某些方面,基于数据的预测还是显现出了初步的力量。例如,在世界杯期间,百度预测在小组赛阶段预测准确率为53.33%,1/8 决赛和1/4 决赛的预测准确率达到100%,半决赛预测准确率为50%,决赛结果预测准确。与百度类似,微软、谷歌对于世界杯比赛结果的预测也都是令人鼓舞的。
尽管上述案例都发生在媒体之外,今天的媒体在大规模地采用数据来进行社会现象、经济走向等的分析预测方面,还存在着很多障碍,但是,未来媒体与技术公司之间在数据新闻方面的合作一定会大大加强,媒体主要依赖专家进行趋势预测的方式将越来越多地被依赖数据和软件的方式所替代。
在新闻发现阶段的所有数据关系的分析与挖掘,最终还是需要通过相关技术来实现。数据关系思维,也是建立在对技术的了解与运用基础上的。
尽管数据新闻不等于数据可视化,数据新闻也未必一定要用可视化的图形来呈现,但是,从人的认速度远远高于对文字处理的速度,因此,可视化的确是数据新闻的一种“快捷”呈现方式,其传播效果通常要好于文字传播效果。
一般情况下,我们关注可视化,总是关注其作为一种表现手段的应用层面,但可视化,首先是一种思维,它与文字表达的思维有着很大的差异。
自称为数据记者的大卫·麦克坎德雷斯(David McCandless)在TED 演讲中指出,图形是一种语言,这种语言可以改变我们的认知和观点。①演讲视频参见:http://v.qq.com/page/7/A/q/7AxhsetMTAq.html
要掌握这样一种新的“语言”,首先要完成思维方式的转换。在思维方式转换基础上,寻找到合适的逻辑结构与表现形式,并用相应的技术来实现它。
1.新闻对象的数据化:可视化的基础
目前的数据可视化有三个主要方向:
针对数值型数据的可视化。可视化的形式可以是饼图、柱状图、折线图等,它们的作用主要是显示各个数据的量值,并进行直观比较,或展现其变化规律。
针对文本型数据的可视化。可视化结果可以是词树(Word Tree)、词云(Word Cloud)、标签云(Tag Cloud)等,它们的作用主要是对文本的特征进行直观呈现,如词出现的频率、出现的语境等。
针对关系类数据的可视化。事物、人或各种组织机构的关系,都可以通过网络图(Network Diagram)等进行呈现。
因此,要完成新闻的可视化加工,其基础在于将具象的新闻对象,变成抽象的数据。新闻的“5 个W+1 个H”中,何人、何时、何地这三者本身就可以作为数据处理,但何事、如何、为何这些过去难以当作数据看待的要素,以及复杂新闻报道中的背景揭示、影响分析等,如何转换成数据,则是具有挑战性的问题。这些问题的解决不仅仅是可视化的基础,也是整个数据新闻流程的开端,在实际操作中,它往往是在数据收集之前就要进行考虑的。
对于那些不能直接作为数据来处理的较为抽象的新闻要素或者概念化信息,可以考虑寻找其中一个或几个可以用数据来呈现的具体元素,例如腐败现象这个抽象的问题,往往与权钱交易有关,其中的关系网络、金钱数额,都是可以用数据来表现的。
2.逻辑结构:可视化的核心
有些可视化作品只有一个简单的图表,而有些可视化作品则是一系列图表的组合。无论是单一的图表,还是图表的组合,其内在的逻辑结构都是非常重要的。
正如菲利普·梅耶所说,数据新闻的一个重要价值,是在奔腾不息的信息流中发现其中的意义和结构。数据表现及数据关联的逻辑应该就是结构中的一部分。
对于那些数据对象相对单纯、没有复杂数据关系的数据新闻,可视化的重点是某个(或某几个)特定维度的数据呈现。数据基础维度的选取,决定了可视化作品的展现逻辑,例如,基于时间维度的数据展现,或基于空间维度的数据展现。
对于那些包含了多重数据对象、数据之间存在各种关系的可视化作品来说,其核心就是将数据的结构关系揭示出来,数据之间的关系结构,往往也是可视化作品的逻辑结构。
目前可视化新闻作品最常见的逻辑结构包括以下几种:
(1)基于“关联”的逻辑结构
这里所说的关联,主要是指的“相关性”或者“直接联系”。
运用“关联”这样一种线索,可以将事物之间的复杂联系直观呈现出来,而这正是新闻报道特别是深度报道要实现的目标。
2014年7 月财新网推出的可视化产品“老虎家族——周永康案关系网”(见下页图3,其升级版标题为“周永康的人与财”)便是国内在数据可视化方面的一个代表性作品②信息图表出处:http://datanews.caixin.com/2014/zhoushicailu/,它用高度凝练的界面,将周永康案涉及的各种人物和机构之间的关系进行了全面的呈现。也许从作品的界面来看,内容并不算太复杂,但是,每一个在图表中展现出来的关系链条,都蕴含着太多故事与信息,它们的背后是记者艰苦、深入的调查与采访。这个案例的特殊之处是,它的数据并非通过计算机系统进行的数据抓取和自动分析,作为可视化依据的主要数据,即当事人或机构之间的“关系”,都是由记者们的调查来揭示与证实的。这个作品可以视作记者功力与技术能力结合的一个范例。
多数时候,这类结构的关联逻辑是用形式上的线条来代表的,但在某些案例中,也可能通过空间关系等来体现。
相关性的揭示,也可以为因果关系的分析提供前提与基础。有时,信息图表本身在呈现相关性的同时,也隐含了指向因果关系的线索。
图3 信息图表“老虎家族——周永康案关系网”
(2)基于“比较”的逻辑结构
在可视化或信息图表中运用比较的思路是非常常见的。饼图、柱状图本身就是对比的手段,而更复杂的信息图,可以将“对比”的思路放在更大的时间跨度和空间跨度上。
图4 信息图表“寡头垄断危害中国互联网发展”
图4 是关于中美互联网上市公司对比的一个信息图表①信息图表出处:http://yuqing.people.com.cn/n/2013/0329/c210117 -20968254.html,它的思路是通过市值这样一个数据,来展现中美两国互联网企业发展的不同状态,进而揭示影响这种状态的原因。尽管数据本身并不复杂,但是,当把时间放在1996 -2012年这样较长的跨度、空间跨度放在中国与美国两个国家时,我们可以看到,在2012年及其之前上市的中国互联网公司,其成立时间均在2006年及以前,而2006年后,美国还有大量新的互联网公司诞生,其中不少已上市。两个不同国家互联网行业的活力与创新性水平,通过直观的数据呈现,被充分展现出来。而从市值大小这个数据维度看,中国互联网市场是腾讯与百度两家独大的格局,而美国市场上,尽管Google 更为强势,但Amazon、Facebook、Twitter、Youtube 等也有相当规模,市场较为均衡。这个信息图表传递了这样一种判断,寡头垄断的格局对中国互联网企业的不断发展与创新是一个妨碍。尽管这样一种判断还缺乏更坚实的依据。但至少数据本身可以启发人们在这个方向下做更多的思考。
比较可以直陈差异,也可以在不动声色中,让人们了解矛盾与冲突。因此,比较性的图表,往往具有一种内在的张力。很多时候,它们也具有评论的力量。
当然,就像文字表达一样,比较性的可视化图表虽然有自己特定的数据比较维度,但是,它也需要将客观性原则放在首位。
(3)基于“演变”的逻辑结构
可视化或信息图表中,展现事物演变过程的逻辑也是常用的,在某种意义上,这也是一种比较,只不过它是基于时间维度的比较。这种思路可以直接通过可视化软件中的折线图、堆栈图等来实现,也可以通过更复杂的“时间线”等揭示更大跨度的变化过程。
图5 英国《卫报》的“解读骚乱”专题中的信息图表“Twitter 上的谣言传播”(局部)
图5是英国《卫报》“解读骚乱”项目中的一个数据分析成果①信息图表出处:http://www.guardian.co.uk/uk/interactive/2011/dec/07/london-riots-twitter。研究人员将Twitter 上超250 万条与英国骚乱有关的数据进行提取、分析,研究在此次骚乱中Twitter 所扮演的角色,其中一个重点是研究谣言在Twitter 上的流传过程。图5 是一个可以交互的动态图表,当拖动时间轴的滑块时,可以看到各种不同颜色的气泡的运动过程,其中代表着谣言及其支持信息的是绿色气泡,代表着反对谣言的信息的是红色气泡,代表质疑谣言的信息的是橙黄色气泡,代表一般性评论的是灰色气泡。气泡的运动,也就是各种声音在Twitter 上的传播及相互作用过程。在很多个案中,绿色气泡的势力在红色气泡与橙色气泡的“围攻”下,最终会逐渐衰落,这个过程形象说明,Twitter 本身具有对谣言的识别与澄清能力的。
当然,可视化作品并不局限于以上几种逻辑结构,有些信息图表也可能把几种逻辑结合使用,但是,无论如何,一个好的可视化作品,一定要有清晰的逻辑线索。
3.用户体验:可视化效果的评价指标
除了讲求内在逻辑外,数据新闻的可视化同样需要强调用户体验,用户体验也是可视化作品传播效果的重要评价指标。
可视化作品的用户体验,首先应该表现为“明晰”。图表的内在逻辑、图例等的意义,应该能够让人一目了然,不能把信息图表变成一个挑战人们智力的游戏。
从用户这端来看,可视化作品好坏的另一个重要衡量标准确是“好看”。这既体现为审美上的“好看”,也表现为用户体验上的“好看”,在用户体验上的“好看”更是重点,也就是说要让用户在不必费太多力气的情况下,就可以看清图表中的内容,抓住要点,并能产生深刻印象。
有很多可视化作品,包括一些优秀的作品,其思路非常清晰,内在逻辑也简单明了,但是,因为版面本身的限制,很多线条交织在一起,线条的走向与归属是很难分辨的,因此,信息传达的有效率受到了限制。类似这样的问题,仍是未来可视化实践中需要继续解决的。
4.技术:可视化的支持要素
与简单图解类的信息图表不同的是,可视化作品的完成,通常有更高的技术含量,需要的软件也更为专业。因此,掌握一些可视化工具,是完成可视化的数据新闻的必要条件。
但如果要制作出更多创造性的信息图表的话,还需要突破现有的可视化工具的限制。因此,专业的数据可视化的制作者,往往会拥有更基础的技术。
未来技术的创新,也可以促进数据新闻的多样化发展。
目前的数据可视化中的数据,主要是数值型、文本型的数据,以及“关系”这样的数据,而音频、视频信息的数据分析与可视化还相对有限。这两个领域的数据可视化,将是未来发展的一个新方向。这也有赖于相关技术的发展。
另一方面,数据的呈现方式,也将从可视化向“可听化”(Sonification)方向拓展。获得“信息是美的”数据可视化大奖“交互式作品”类银奖的“倾听维基百科”(Listen to Wikipedia)①具体作品参见:http://listen.hatnote.com/#sthash.740HdS3S.dpuf,是一个极具创意的案例,它将维基百科上的每一个信息的变动都用视觉与听觉双重手段表现出来,不断变幻极似中国古曲的声音,是维基百科上文章的变动信息的呈现,声音越低沉表示文章变动越大,与此同时,视觉化手段——圆圈也呈现着这些变化,圆圈大小反映着变动的大小,色彩反映的是编辑者的身份(注册用户、非注册用户或机器人)。任何一个新用户的加入,在这个图表中都会显现他们的用户名及欢迎语。点击每一个圆圈,可以进入到相应的维基百科页面。这个交互式信息图,使人们在大珠小珠落玉盘似的视觉与听觉感受中,亲眼看见维基百科的成长历程。
总体来看,数据可视化的实践还处于起步阶段,技术的不断变革,会给数据新闻的呈现方式带来更多的可能。
尽管数据新闻实践在国外越来越火热,在国内,也已成为一个新话题,但是,数据新闻带来的挑战是超乎想象的。
数据来源与数据的质量仍然是数据新闻实践中关键的障碍之一。
在美国等国家,有很多政府主导的公共的信息或数据库,它们是媒体的重要资源。其中美国的Data.gov 更是一个代表。在美国政府的“开放政府计划”(Open Government Initiative)的背景下,2009年5 月21 日,Data.Gov 上线发布。Data.gov 网站公布的数据主要由联邦政府授权机构进行采集与整理,用户还可以推荐其他的数据集载入网站。此外,网站还提供地图索引方式链接各州政府公开的数据集。
但在中国,这样的数据库,还极为有限,即使有许多政府网站,它们作为数据来源的可利用程度也十分有限,各级政府机构对于数据的统计、保存意识还非常缺乏,而缺乏科学的数据统计体系,更是一个至关重要的障碍。同样,企业等发布的数据,其公信力也未必有保障,也很难成为媒体可以完全信赖的数据资源。
媒体自身在数据的积累上,也存在很多问题,在大数据时代最核心的几个数据平台,如用户平台、移动终端平台、物联网平台方面,媒体更是处于弱势。
要推进数据新闻的实践,媒体必须加强与外界合作,通过外援方式获得更广泛的数据与技术支持。
2014年11 月,上海文广集团(SMG)宣布与阿里巴巴集团在商业与金融数据服务以及财经资讯领域初步达成战略合作意向。双方将以SMG 旗下第一财经为平台,携手进入市场潜力巨大的数据服务领域。尽管SMG 与阿里巴巴的合作的目标,是更广意义上的数据产品和服务的开发,但是,这样的合作,也将会给SMG 的财经新闻报道注入更多的数据资源与数据处理能力。这个消息在某个意义上是一个信号,对于传统媒体而言,新闻产品与服务中的数据来源,已经不是媒体自身可以完全掌握,借助外部力量,必将成为一个趋势。
另一方面,将用户更多地作为数据生产的力量吸纳到媒体的生产体制内,也是一个可能的方向。
胡泳等认为,真正的数据新闻,应该是以开源的理念制作,让公众有意参与。寻求开放才是大数据时代的动力。②胡泳 郝亚洲:《新闻的迁徙》,http://huyong.baijia.baidu.com/article/4534尽管开源只是数据新闻的思路之一,但的确在今天的时代,通过开源的方式,丰富数据新闻的数据来源,是一个必要的思路,更重要的是,开源的方式,可以促进数据新闻的思维与手段的不断变革。
人才的挑战,是数据新闻实践中另一个更重要障碍。在中国来说,尤其如此。
财新传媒CTO 黄志敏认为,做数据新闻需要的是又懂内容、又懂技术、又懂设计的人。但他同时表示,这样的人才目前在国内一个都没见到,最好的情况是懂其中的两样。“所以我只能是把不同的人组合到一起。”①《纸媒试水新媒体,是下大海不是进游泳池》,http://chuansongme.com/n/952944
这样的问题,在国内媒体是普遍存在的,在国外,也仍然存在。
近年来,在国内外新闻院系,关于新闻传播的学生是否需要学技术、学编程的讨论也越来越热烈,如果从数据新闻发展的角度看,掌握包括编程在内的必要数据处理技术,应是有志从事数据新闻工作的媒体人必备的能力,尽管并非他们每一个人都一定会在具体操作中充当技术环节的实施者,但技术能力决定了数据新闻分析的思路,决定了新闻发现的能力。即使是在团队合作中,侧重新闻内容的记者,也需要具备与技术人员对话的能力。
而懂艺术、有足够好的视觉表现能力的新闻人才,在今天也是普遍缺乏的。这样的人才需求同样会呼唤新闻传播课程的改革。
当然,期待三栖人才的大量涌现是不太现实的,团队协作必然是数据新闻生产中必然的常态,但是,媒体机构需要给不同专长的人提供更多的协作可能,甚至在组织机构、空间布局上,来促成不同部门、不同成员之间的合作,
西蒙·罗杰斯在谈到他在《卫报》时的经历时提到,“如果离编辑部近,你就更容易提出建议并参与其中进程;与之相反,如果人家看不到你,他也就不会想到你。在维基解密之前,我们与图形部门在一起,跟编辑部在不同的楼层。维基解密事件之后,我们就跟编辑部做起了邻居,待在同一个楼层。这意味着我们能够更容易地向编辑提出想法。新闻室另一端的记者们也会想到让我们新闻报道提供帮助。”②西蒙·罗杰斯:《卫报数据博客的幕后》,http://xiaoyongzi.github.io/web/newsroom_3.html这些从业者的经验,的确是可以为未来媒体的改革提供参考。
万维网思维的提出者蒂姆·伯纳斯·李指出,数据驱动的新闻代表着未来。③http://datajournalismhandbook.org/1.0/en/introduction_2.html新闻与数据的相遇,带来了新闻思维的变革、新闻表现手段的变革,更会带来新闻生产流程与机制的变革,传媒机构和新闻教育机构,都需要付出极大的努力,才能适应这一变革。