从海量数据中挖掘新闻故事:数据新闻内涵探析*

2016-02-13 11:59刘银娣
中国出版 2016年9期
关键词:海量发展

□文│刘银娣



从海量数据中挖掘新闻故事:数据新闻内涵探析*

□文│刘银娣

[摘要]海量数据及其处理技术的产生推动了“数据新闻”这一新闻形式的发展。国外的新闻媒体看到了数据新闻给新闻业带来的巨大发展机遇,纷纷开始建立数据新闻团队,增加相关投资。相较而言,我国的传统新闻媒体对数据新闻的发展则相对谨慎。究其原因,作为一个新出现的名词,对其理解尚存偏差是重要原因之一。事实上,对于数据新闻的内涵,目前尚没有统一的理解,文章试图从数据新闻的发展背景和发展历程出发,通过梳理其发展脉络,来理清数据新闻的真正内涵,为我国传统媒体发展数据新闻清除部分疑虑。

[关键词]数据新闻计算机辅助报道精确新闻数据可视化内涵

*本文系2015年度华南理工大学中央高校基本科研业务费项目中央高校基本科研业务费项目“大数据环境下我国新闻记者计算机辅助报道现状与提升策略研究”(2015xzd05); 2014年度国家社会科学基金项目“数据新闻学发展前沿研究”(14BXW003);广东省哲学社会科学“十二五”规划2014年度学科共建项目“我国出版集团数字化转型中的商业模式创新研究”(GD14XXW07);广东省新媒体与品牌传播创新应用重点实验室(2013WSYS0002)资助研究成果

海量数据及其连接点的产生给已经受到互联网巨大冲击的新闻产业带来了诸多挑战和机遇。一方面,新闻经常在社交网络上由事件最相关的人发布,新闻专业组织已经不再是不可撼动的新闻话语主体;另一方面,却又促使新闻回归其本质:挖掘公众无暇处理的信息,核实信息,理清信息的内涵后将之发布给公众[1],告诉公众这些信息背后的价值,赋予其正确的解释[2]。国外的传统新闻媒体在经过20余年的持续衰退后,看到了这一变革蕴含着的巨大机遇,纷纷开始发展这种代表着新闻业未来发展前景和方向的新闻形式——数据新闻(Data Journalism),相较而言,我国的传统新闻媒体则是相对谨慎和缓慢。究其原因,一方面是因为我国数据新闻人才的匮乏,另一方面,作为一个新出现的新闻发展热潮和名词,很多人对数据新闻的理解也尚存偏差,因此,对其发展也就难免存在较大疑虑。在这里,我们试图从数据新闻的发展背景和发展历程出发,通过梳理数据新闻发展的脉络,来理清数据新闻的真正内涵。

一、数据新闻的发展背景

海量数据以及丰富而便利的数据处理技术的产生和发展为数据新闻的发展奠定了技术基础,怀疑主义的盛行则进一步推动了用数据说“真话”,以确保专业新闻媒体权威性和公信力的数据新闻的迅速发展和繁荣。

1.海量数据的产生

从20世纪中叶开始,专业记者就开始通过访问和梳理政府统计数据,法庭记录、商业报告等文件资料发现大量有价值的新闻事实,制作出有深度的调查性新闻报道。然而,此时记者可以获取的数据量毕竟是有限的,处理方法也相对笨拙,因此,限制了这种以数据来驱动新闻报道的新闻形式的发展。2009年1月,美国总统奥巴马正式签署了《开放透明政府备忘录》(Memorandum on Transparency and Open Government),列出了具体步骤要求美国联邦政府各部门和机构必须改善其透明度、公众参与度、加强政府部门之间、政府部门与非政府组织(NGO)、个人、私人企业之间的合作[3],由此开启了全球各国政府开放数据运动的序幕。2011年在美国政府的倡议下,成立了开放政府联盟(Open Government Partnership),截至2015年8月20日,全球已有65个国家加入了这一组织[4],这些国家纷纷建立统一的政府开放数据门户网站,集中开放大量数据集。尽管我国并未加入开放政府联盟,但是也于近年来建立了国家数据公开网站“国家数据网”(http://data.stats.gov. cn/),向公众开放800万笔经济统计和人口统计数据[5];众多企业也认识到了大数据蕴含的巨大商业价值,纷纷从用户身上捕捉大量数据,作为用户的直接接触者,他们比政府拥有更为庞大的数据集;媒介组织本身作为信息的收集、过滤和发布者,其拥有的数据量同样不可小觑。当政府、企业、媒介组织的数据汇聚在一起,就从根本上改变了我们所处的信息环境,让我们身处一个海量数据的环境,同时也为新闻业打开了一扇大门:通过挖掘数据来讲述新闻故事,因为数据是社会建构的,为了理解数据集,首先要理解那些创造这些数据集的人——想想他们为什么要这么做,或者他们试图发现什么,一旦你理解了这些人和他们的目标,你就可以开始讲述真实而深刻的故事[6]。

2.丰富而便利的数据处理技术的产生和发展

有了海量数据,我们还需要具备海量数据处理技术和技能,才能对这些数据进行分析和处理,否则也只能望“数据”兴叹。强大而便利的数据处理软件的发展则为我们处理海量数据提供了强大的工具。例如“开放路化”(Open Refine)、“谷歌融合表”(Google Fusion Tables)、表格(Tableau)等基于网络的软件就可以帮助记者迅速而便捷地进行数据收集、处理、分析和可视化。陶氏数据新闻中心(Tow Center for Digital Journalism)还预测未来将会出现更丰富更便利的数据处理软件,让用地图、新闻应用和可视化的方式分析和展示数据变得更加简单易学。[7]

3.怀疑主义的盛行

在互联网迅速崛起以前,承担着信息挖掘、过滤、呈现和传播的专业新闻媒体在全球社会中扮演着重要角色,而今,随着社交媒体的产生和“公民新闻”的发展,快速的报道不再是新闻媒体的专利,人们拥有了更多信息获取的渠道。然而,这些非专业媒体发布的新闻信息大多未经审核,信息质量参差不齐、可信度堪忧,在某种程度上推动了21世纪初期的怀疑主义的产生。[8]而在这场新媒体海啸中,数据新闻将会为我们揭穿伪科学、宣传、误导和网络谣言提供帮助。正如卡迪夫大学(Cardiff University)新闻学教授理查德・萨姆布鲁克(Richard Sambrook)写道:“在怀疑主义盛行的时代,社会充斥着对实证引导的新闻的需求。人们更愿意去相信那些通过数据收集和分析发现的新闻故事,更愿意阅读那些通过数据来呈现的新闻事实,过去简单的以个体采访、个体观点或假设为来源的新闻已经无法得到受众的信任,因此,我们非常需要借助科学实证方法生产更接地气的新闻。[9]当然,数据并不意味着真理,因此审查并公开数据和数据处理方法就显得尤为必要。“政治真相”(PolitiFact)、“卫报数据博客”(Guardian Datablog)等数据新闻组织就已经采用了比之前任何一个时代更细致、审慎和公开的方式认真核查事实,力争用数据说“真话”,以确保数据新闻乃至专业新闻媒体的权威性和公信力。

二、数据新闻的发展历程

正如莉莉安娜・布利戈鲁(Liliana Bounegru)在《数据新闻手册》引言中提到的,将数据看作新闻而非小说来源的思想早已有之:几个世纪以来,记者就一直在通过各种方式收集数据,使用数据去改进传统报道方式。[10]因此,尽管很多人认为数据新闻是一项现代发明,但是事实上,其历史甚至早于报纸,可以追溯到17世纪,那时很多定期出版的刊物都会雇佣国际商人来报道关于经济环境的新闻,包括革命、战争、疾病或恶劣的天气带来的商品贸易中断的成本等商业细节,这些新闻中充满着丰富的数据报告。1821年5月5日的 《卫报》 (当时名为《曼彻斯特卫报》)在“读者来信”栏目中,用四个版面刊登了一幅庞大的图表,揭示教会学校学生的实际人数远远超过教育改革支持者对于学生人数的估计,这也被该报视为其数据新闻的开端。[11]因此,很多人将数据新闻视为一项现代发明,这其实是一项误解。从这一时期一直到20世纪40年代,记者从来没有停止过将数据运用到自己的新闻报道中,不过这一时期的“数据新闻”更应该称之为“数字新闻”,主要是运用社会科学统计方法,通过人工的方式处理数字,并将这些经过处理的数字整合到新闻故事中,使之为新闻叙事服务。直到20世纪中叶,计算机技术革命为记者将数据融进新闻报道创造了更多的机会,才赋予了数据新闻现代意义,因此,在追溯数据新闻的发展历史时,我们选择以计算机辅助报道作为其开端。

1.计算机辅助报道(Computer-Assisted Reporting,简称CAR)的产生

目前,关于计算机辅助报道发展历史的文章很多,大多数历史学家认为其产生于20世纪50年代以后[12],伴随计算机技术而产生和发展。其标志性的事件是1952年,格雷斯・霍泼尔(Grace Hopper)带领着一个程序员团队将早期的选举投票数据输入到“电子数字式积分器和计算机”(Electronic Numerical Integrator and Computer,简称ENIAC)中,并写出了使得计算机可以正确预测结果的算法。其建立的这个模型不仅可以准确预测最终结果,而且其百分比误差不到1%(他们通过计算预测艾森豪威尔可以获得83.2%的选票,最终其实际获得了82.4%的选票)[13]。格雷斯・霍泼尔和她的团队使用ENIAC与内特・斯尔弗(Nate Silver)60年后做的事情差不多,都是使用统计模型去预测政治选举结果,因此,很多人都认为数据新闻是计算机辅助报道直接进化的产物。

2.精确新闻学的提出和发展

其后,因为技术和资金的障碍,计算机辅助报道的发展非常缓慢。直到1967年,底特律(Detroit)发生了一场骚乱,记者菲利普・梅耶(Philip Meyer)使用数据和社会科学方法来讲述发生在底特律的真实的故事。其发现底特律骚乱的主要驱动因素是失业、恶劣的居住环境、拥挤的生存条件以及警察暴力,而非其他记者人云亦云的经济和教育问题,并据此赢得了下一年的普利策奖,才使得计算机辅助报道重新受到重视。梅耶称其为“精确新闻学,包括在全面的数据采集和采样实践活动,审慎分析以及对分析结果的清晰直观呈现”。[14]其后,精确新闻学被广泛应用于财经新闻领域,大多数美国大学新闻院系也将其列为专业课程,作为记者专业技能训练的重要一环。

3.数据新闻的迅速崛起和蓬勃发展

在接下来的几十年里,美国的记者开始不断探索和扩展如何运用数据去完成报道和了解读者。微型计算机和个人电脑这些工具极大地改变了计算机辅助报道的实践和形式,到20世纪90年代末,全球的记者在很多主要调查性新闻中都开始使用计算机辅助报道技巧和数据库。

21世纪伊始,移动计算革命增加了网络连接、网络访问,提高了网络速度,也从根本上改变了计算机辅助报道的范围,并产生了一个新的名词——数据新闻。传统新闻媒体,例如英国的《卫报》,美国的《纽约时报》以及专门的数据新闻网络媒体等都是最早的数据新闻实践者。2014年,更是迎来了数据新闻发展的热潮:数字神童内特・斯尔弗(Nate Silver)将其数据新闻博客“5308”(FiveThirtyEight)从《纽约时报》分离出来,加盟ESPN(娱乐与体育新闻电视网);新媒体公司沃克斯传媒(Vox Media)聘请《华盛顿邮报》的知名数据新闻记者埃兹拉・克雷恩(Ezra Klein)领导运营沃克斯网站,并获得了4650万美元的融资;《卫报》《华盛顿邮报》《纽约时报》等知名新闻媒体也在纷纷增加数据新闻领域的投资,有影响力的数据新闻报道也不断涌现。

与国外相比,我国发展数据新闻的主要是网络媒体,新浪、搜狐、网易、腾讯等四大门户网站从2012年开始陆续开设数据新闻栏目,财新网也于2013年开始成立了数据新闻团队,传统新闻媒体的发展速度则相对缓慢,截至目前,我国尚没有数据新闻报道和团队获得国际数据新闻大奖,获得国际关注的数据新闻报道也相对较少。

三、数据新闻的内涵

从数据新闻的发展背景和发展历程中,我们可以看到,数据新闻并不是一个新的概念,而是一个新的名词。作为一个非常新颖的术语,数据新闻目前尚没有一个明确的定义。数据新闻学的入门读物《数据新闻手册》(Data Journalism Handbook)没有直接对其做出定义,只是对其意义做出了描述:数据新闻为将传统新闻的敏感性和说服力的叙事能力与海量数据信息相结合创造了新的可能性[15]。方洁、颜冬从新闻呈现形态、新闻生产流程、新闻行业发展三个层面来对数据新闻进行定义,指出“数据新闻的内涵就是基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式”。[16]章戈浩的定义则更加简单,其主要从新闻生产模式的角度对其进行定义,指出“数据新闻,又称数据驱动新闻(data-driven journalism)。它指的是对数据进行分析与过滤,从而创作出新闻报道的方式”。[17]

从以上这些定义中,我们可以看到,对于数据新闻的理解,可谓莫衷一是。然而,我们仍然可以从这些不同的理解中找到相似之处,即都非常强调“数据”以及大数据技术使用在数据新闻中的核心地位和价值,有浓厚的技术中心的烙印。然而笔者却认为,这种理解忽略了新闻业本身所承担的功能和核心价值。新闻业承担着信息过滤、筛选和加工、重塑的功能,通过新闻从业者和媒体这些“守门人”的把关,让符合社会公众利益的真实的信息得以呈现和传播,以保障公众的知情权,满足公民的精神文化需求。对于新闻业而言,大数据及其相关技术只是在纷繁的信息海洋中挖掘出真正有价值的新闻的一种工具,数据新闻并没有从本质上改变新闻的本质,其只是帮助我们进行更为深入、更有说服力的报道工具,是对文字叙事的补充,并不会从根本上改变新闻,“与其说数据新闻是新闻业的技术革命,不如说是新闻实践的工具改良”。[18]

因此,笔者认为数据新闻不是“发现故事中的数据”“使用数据讲故事”,而是发现数据中的故事,将数据转化为新闻背景和故事;不是基于“数据的抓取、挖掘、统计、分析和可视化”这些技术而产生,数据科学技术手段只是发现故事、讲故事、呈现故事的重要工具。基于此,笔者对数据新闻做出如下定义:大数据环境下,利用数据科学技术发现和提取蕴含在海量数据中的具有新闻价值的信息,将数据转化为新闻背景和新闻故事的一种新闻报道方式。

四、结语

进入21世纪以来,随着海量数据及其处理技术的产生与发展、怀疑主义的盛行,计算机辅助报道发展成为了数据新闻。数据新闻的故事基于原始数据而产生,它可能是一篇纯文本的文章,可能是数据可视化,可能是视频,也可能是新闻交互项目,它可以有多元化的载体,定义它的不是“数据可视化”“交互地图”等呈现形式上的东西,而是从数据出发,挖掘和讲述好新闻故事。理清数据新闻的真正内涵,我们就可以看到,数据新闻并不是对传统新闻的颠覆,传统媒体在数据新闻的发展中仍然具备较强的优势。目前国际上最有影响力的数据新闻团队或者由传统媒体创办,或者其团队成员有着丰富的传统媒体从业经验。我国的传统媒体在变革面前不能固步自封,应在强化其固有的新闻专业能力的基础上加强数据技能的培训,努力去探索数据,帮助我们更好地理解社会,理解世界。

(作者单位:华南理工大学新闻与传播学院)

注释:

[1]European Journalism Centre. Data-driven Journalism:What is There to Learn?[R/OL].[2015-7-20] http://www. lateledipenelope.it/public/ddj_paper_final.pdf

[2]方洁.数据新闻概论:操作理念与案例解析[M].北京:中国人民大学出版社,2015:12

[3]Memorandum on Transparency and Open Government[EB/OL]. [2015-7-26]http://www.archives.gov/cui/documents/2009-WH-memo-on-transparency-and-open-government.pdf

[4]Open Government Partnership. Participating Countries[EB/ OL].[2015-7-20]http://www.opengovpartnership.org/Calendars [5]国家数据网.玩转中国统计数据库[EB/OL].[2015-7-21]http://data.stats.gov.cn/staticreq.htm?m=aboutctryinfo

[6][7][13]Tow Center for Digital Journalism. The art and science of data-driven journalism[R/OL].[2014-9-11]http://www.internews.org/sites/default/files/resources/ Tow-Center-Data-Driven-Journalism.pdf

[8]比尔·科瓦奇,汤姆·罗森斯蒂尔.真相:信息超载时代如何知道该相信什么[M].陆佳怡,孙志刚,译.北京:中国人民大学出版社,2014:12

[9]Richard Sambrook. Journalists Can Learn Lessons From Coders in Developing the Creative Future[EB/OL].[2015-6-12]http://www.theguardian.com/media/2014/apr/27/ journalists-coders-creative-future

[10][15]Jonathan Gray,Liliana Bounegru,Lucy Chambers. Data Journalism Handbook[EB/OL].[2013-6-18] http://www. datajournalismhandbook.org/1.0/en/

[11]Simon Rogers.The first Guardian Data Journalism:May 5,1821[EB/OL].[2014-7-21]http://www.theguardian.com/ news/datablog/2011/sep/26/data-journalism-guardian

[12]Stephanie Glenat,Laurent Heutte,Thierry Paquet. The Development of Computer-Assisted Reporting[J]. International Journal of Information Technology and Decision Making,2007,(2)

[14]Philip Meyer. The New Precision Journalism. Bloomington: Indiana University Press, 1991:7

[16]方洁,颜冬.全球视野下的“数据新闻”:理念与实践[J].国际新闻界,2013(6)

[17]章戈浩.作为开放新闻的数据新闻——英国《卫报》的数据新闻实践[J].新闻记者,2013(6)

[18]石磊.数据驱动新闻的技术化迷失[J].今传媒,2014(7)

猜你喜欢
海量发展
一种傅里叶域海量数据高速谱聚类方法
迈上十四五发展“新跑道”,打好可持续发展的“未来牌”
构建高速海量视频智慧云联网平台
海量快递垃圾正在“围城”——“绿色快递”势在必行
从HDMI2.1与HDCP2.3出发,思考8K能否成为超高清发展的第二阶段
砥砺奋进 共享发展
改性沥青的应用与发展
一个图形所蕴含的“海量”巧题
多通道海量数据记录系统设计
一种海量卫星导航轨迹点地图匹配方法