文/刘高颖
数据新闻生产模式及发展方向研究
文/刘高颖
互联网时代的到来给整个社会带来了巨大的影响,这当然也包括新闻业。如何实现新闻与互联网的融合成为许多新闻从业人员思考的问题。2010年以来,大数据概念的兴起给传统媒体带来了一次新的契机,这就是数据新闻。数据新闻结合了数据、新闻和可视化,以互联网终端为载体,通过网络进行传播,成功地发挥了传统媒体和互联网的优势。数据新闻的广泛应用,为新闻业如何利用互联网树立了典范。
数据新闻 生产模式 大数据
关于数据新闻的定义,《数据新闻手册》中给出的说法是“用数据处理的新闻”,这种“处理”更多地被理解为“驱动”,即由数据驱动的新闻,包括对大量的数据进行收集、过滤和分析,以获得数据之间隐藏且复杂的相关关系,然后以可视化的形式呈现给受众。这种驱动方式在一定程度上改变了传统新闻形式的制作思路,新闻内容不再依赖于记者对于事实的描述而是依靠对数据的挖掘和展示,数据成为新闻内容的主体,通过数据来讲故事,最终呈现数据的新闻价值。
数据收集和过滤,就是根据选题设定的内容或者条件,搜索相关数据并尽可能地去除错误数据。数据的收集可以通过搜索引擎、访问数据源网站或者抓取网页数据等多种方式实现,具体的收集方式与选题内容密切相关。通过数据的收集从海量的数据中获得有价值的数据,再通过数据过滤去除错误数据,保证最终数据结果的有效性。
数据分析,是指用适当的统计分析方法对收集来的大量数据进行分析,提取有效信息和形成结论。也就是发掘数据与数据之间隐藏的相关关系或者逻辑,来呈现一个未被发现的新闻事实或者普遍规律,从而让数据的新闻价值得以体现。
可视化是数据新闻生产的最终环节。将数据和数据之间的关系以及要体现的新闻事实通过可视化的形式展示出来,利用图形、色彩、动态等不同的展现方式来突出重点和说明问题,最终让受众能够从中获取有效的信息。
1.以数据作为新闻主体。数据新闻是由数据驱动的新闻,这里的数据并不是作为新闻中文字的补充说明内容,而是新闻的主体。按照数据程序员兼多媒体记者米尔寇·洛伦茨(Mirko Lorenz)的说法,数据新闻学是一个包含了下列元素的完整工作流程(Workflow):将数据纯净化、结构化来“深入资料”、挖掘特定信息来“过滤数据”、再将数据“视觉化”以作出报道,可见数据贯穿于数据新闻生产的始终。
2.开放的新闻资源。对于数据新闻来说,开放的新闻资源既包括开放性的数据也包括新闻资源的共享。开放性数据使数据新闻不再局限于时间的限制,也就是说数据新闻获取的信息可能不再是新近发生的事件,它可能是对过去某段时间发生的事件的总结,从而得出未被人发现的结论。新闻资源共享则是指新闻媒体通过数据的收集与整理,开始建立起属于自己的数据库,这个数据库不止包括数据内容也包括对应的代码,例如,英国《卫报》的“开放平台”和我国新华社建立的多媒体数据库。将个体所拥有的数据新闻资源向所有受众和其他媒体开放,受众和其他媒体可主动获取资料,利用这些资料进行再创作,形成新的视觉化效果,或者利用你的数据与其他数据相结合,在另一个选题中发挥作用。
3.注重宏观叙事。传统的以文字为主体的新闻,在宏观叙事上有着先天的不足。一方面是传统新闻多注重于个案访谈,通过极具代表性的个案来反映普遍问题。另一方面,文字对于描述反映宏观问题的数据以及数据和数据之间的关系等逻辑性问题存在描述复杂、晦涩难懂、逻辑不清等问题。数据新闻的特点则弥补了传统新闻宏观叙事的不足。数据新闻是以数据为主体,数据的来源是对大规模客观事物的统计和调查,这种统计和调查甚至可以做到以全部调查对象为样本,这就说明数据新闻反映的问题或者结论是具有普遍性的,并且是有客观依据的,这也正是宏观叙事要表达的内容。
4.为故事服务。数据新闻是以数据为主体的,但它并不是数据的简单罗列,它是通过数据与数据之间的关系来说明数据背后隐藏的事实,也就是通过数据来讲故事。例如,英国《卫报》的数据博客,作为数据新闻最成功的代表,其著名的新闻报道《伊拉克战争日志》和《英国伦敦骚乱》等都是通过数据来揭示背后隐藏的更深层次的问题。数据成为说明事实的一种方法,这种方法更为准确和真实,也更能赢得受众的信任。所以,当我们面对数据时,不能仅限于数据表面呈现的直接意义,要具有新闻敏感性,善于抓住数据与数据之间的联系,发掘数据背后的价值,让数据为故事更好地服务。
1.错误数据与消错策略。怎样的数据是有效的数据呢?对于数据新闻来说,数据首先要和新闻选题相关,其次要保证数据的真实、准确和完整。在数据挖掘过程中,错误的数据可能会有多种表现。
数据与新闻选题不相关。数据的收集是一个逻辑过程,越精确的逻辑收集规则越能获得有效的数据。相反,粗糙且随意的数据收集则会导致大量与搜索目标不相关的数据出现,这类数据就是错误数据的一种表现。
数据本身是错误的。导致这种情况发生的原因,可能是与数据相关的操作人员在处理数据的过程中,出于个人原因所造成的数据格式错误、数据描述错误等情况。这种情况分为两种表现形式:一种是可见的,如数据格式错误,数据分析人员可以直观地发现错误数据;另一种是不可见的,因为从表现形式上这类数据与其他数据并无差别,但是它却是不真实的或者说是不能反映真实情况的,这种数据的危害更大。
数据是不完整的。数据的不完整多数情况下是由于数据收集者在制定数据收集规则的过程中出现明显漏洞所导致的。数据的不完整也有两种表现形式:一是少量数据的缺失,这种情况可能对数据分析结果影响不大,但也要根据实际情况确定;二是大量数据的缺失,这种情况肯定会对数据分析结果造成严重影响,只能采取重新进行数据挖掘的方法进行弥补。
数据的消错策略则贯穿数据新闻的整个生产过程。首先,围绕选题收集有效数据。数据收集要明确选题的中心和关键,制定正确、可行且有效的数据挖掘方法,从源头上把控数据的有效性。其次,根据关联清洗无效数据。在数据收集过程中,要从统计分析的角度出发,注意数据的变化和特点以及选题本身的限制条件,如数据的均值和范围,利用数据与数据之间的关联特点清洗掉无效数据。同时,在清洗数据的过程中,不断总结和归纳,形成有效的错误分析方法甚至工具,并结合专业系统或者分析方法来辅助处理数据,最终提高数据的有效性。最后,拓展思维处理错误数据。错误的数据是无法避免的,只能尽量减少,一种方法是在选题设定的数据挖掘条件下,进行数据弥补;另一种方法是采取逆向思维的方式,根据错误数据的特点,来设计错误数据的处理方法,以优化数据分析结果。
2.如何进行数据分析与提升新闻敏感。对于收集获得的数据如何进行分析并发现其新闻价值,是一个非常重要的问题,新闻敏感与数据分析的结合则提供了很好的解决方案。通过新闻敏感设置有价值的问题,再通过数据分析对这些问题进行验证,或者依靠新闻敏感来发掘数据之间隐藏的关系。通过这种方式获得的新闻价值,是在客观事实的基础上发掘的未被人知的问题,它既满足了新闻新鲜性的要求,也满足了客观性的要求,又可通过对数据的分析准确把握受众的需求,再依靠新闻敏感来提供满足受众需求的新闻内容。例如,中央电视台在两会召开期间所进行的数据新闻报道《两会大数据》和《据说两会》都是从数据中发掘受众的需求,将两会报道与受众关注热点紧密结合,真正做到了受众本位化。所以说,在数据新闻的生产模式中,数据分析一方面要依靠数据知识和统计知识,另一方面仍然需要从业者具有相当程度的新闻敏感,通过新闻敏感来把握数据分析的方向,甚至发掘数据分析的重点。
3.数据分析的误差与数据开放。数据分析必然会产生误差,误差在允许范围内是可以存在的,但是与事实相背离的误差却会产生很大影响,特别是作为新闻业来说,很可能给受众造成误导。在数据新闻的生产过程中,数据分析误差的产生可以大致归结为两个原因:一是系统误差;二是相关性误差。
系统性误差是指在分析过程中由某些固定原因引起的误差。这些固定原因并没有一个明确定义,它可能是数据收集方法的缺陷,也可能是分析过程中的固定变化。美国《文学文摘》针对美国总统大选进行的调查,由于调查方案限制了调查对象的阶层,使得调查结果与实际结果大相径庭。今天,大数据的发展似乎避免了类似这种问题的发生,但是,一方面,大数据是否能够代表其全部调查对象是很难界定的;另一方面,大数据也带来数据的快速更新,通过数据分析得出的结论很可能在极短的时间内就会过时。
相关性误差是指过分关注数据间的相关性,而忽视数据之间的因果关系。以Google的流感预测模型为例,该模型在2007—2008年成功地通过分析网络上与流感有关的搜索实现了对流感的预测。但是,2013年《自然》杂志刊登的文章却指出,Google的流感预测模型对2012年流感患者数目的预测比美国疾病控制与预防中心给出的数据高出了近1倍。造成这个结果的原因是由于媒体对于该预测模型的报道使得受众在网络上进行了许多与真实流感无关的搜索,这些搜索产生的数据依然被纳入分析范围,最终导致预测产生了误差。这种情况就归结于相关性误差,即用户提供的数据与分析目标具有相关性,但是并不具备因果性,也就无从具有分析价值。
处理这些问题的一个有效途径就是对数据分析的复制,这其中最关键的就是数据开放。在保证受众隐私的前提下公开获得的数据样本信息,同时公开数据挖掘算法的设计以及演进过程,为其他研究机构或者企业能够验证数据分析结果提供便利,这实际上并不是一个牺牲自我利益的选择,而是一个多方共同协作的选择,使得大数据的研究分析形成一股合力,从而能够更快地发现自身的系统缺陷、方法不足或者数据变化,推动系统完善和算法的正确演进,最终使数据分析发挥应有的作用。
数据新闻依然在发展中,因为与数据新闻生产模式相关的技术在不断地更新换代中,另一方面,新闻工作者对于数据新闻的探索也在不断地进行中。如何不断挖掘数据的作用,不断提高技术的利用水平,如何更加贴近受众的需求,这是数据新闻发展中不可避免的问题,也指明了数据新闻的发展方向。
1.预测性新闻的增加。大数据的核心是预测。对于与大数据息息相关的数据新闻来说,预测必然成为数据新闻的一个重要特征。数据新闻的预测其实包括两部分:一是报道内容中存在的预测;二是对新闻热点的预测,也就是对受众行为的预测。
预测性报道是指对将来发生而未发生的事件所作的前瞻性的报道,它着重对新闻事实的发展变化或者前景进行科学预测,其价值取向表现为准确性、科学性和权威性。数据新闻以大数据为驱动,大数据把数学算法运用到对数据的分析上,通过不断扩大数据量、不断修正算法,使得分析结果越来越准确。预测性新闻的另一个方面体现在对于受众行为的预测。这种预测应用到新闻业当中就是实现新闻内容的个性化定制,根据对用户的描述,来预测用户感兴趣的内容,实现新闻内容的个性化定制和主动推送,真正做到定制专属产品。
2.数据新闻互动化尝试。数据新闻另一个重要的发展趋势就是互动化,这包括两部分:一是新闻制作中的互动,即众包新闻;二是在新闻呈现形式上的互动,即可视化与互动。
众包(Crowdsourcing)是指一种分布式的解决问题和完成工作的做法,通常包括将任务外包给多个人组成的网络,即“大众(Crowds)”。众包新闻则是数据新闻实现受众互动的一种方式,将新闻要处理的选题以任务的形式分配给广大受众,一方面可以提高数据和资料的处理时间;另一方面可以让受众提供更多的线索,发现更多新闻背后不为人知的故事,这也是数据新闻开放性的重要体现。
数据新闻通过可视化实现互动,指的是依靠互联网技术使受众通过鼠标的移动、滑屏和点击等方式来选择个人所关心的新闻内容,实现互动和精确化阅读,受众也从单一的信息接收者变成一个主动的信息选择者。这种方式打破了传统的单向的线性传播方式,优化了受众的阅读方式,也使得新闻媒体能够更准确地把握受众对于新闻内容的关注重点。
3.可视化的新形式。数据新闻视频化是数据新闻可视化发展的一个重要方向。数据新闻视频化就是按照事件的时间顺序以信息图的方式呈现新闻内容,同时可配以对信息图的语音说明,是一种视听结合的呈现方式。相关实验结果表明,大脑在视听双通道刺激下,更容易整合信息,具有视觉为主、听觉为辅的协同补偿作用。同时,视频化可以展现时间性特点,与图像的空间性相结合,能够给受众以更加清晰的表述。
HTML5技术的应用也是数据新闻可视化的重要发展趋势。HTML5实际上是一种基础的开发语言,用于网页内容的呈现,其标准统一后,学习和开发成本迅速降低,应用越来越广泛。同时,手机应用的发展也是越来越轻量化,例如,微信将要推出的“应用号”就是通过去APP化来降低用户手机运行程序的成本,其主要依靠的技术就是网页技术,当然就包括HTML5,这对于数据新闻来说也是具有重大影响的,新闻媒体要学习利用网页制作技术和微信、微博等网络社交媒体来推动数据新闻的继续发展。但是,需要注意的是,HTML5只是一种技术手段,它并不是数据新闻可视化的中心,数据新闻的可视化依然要依靠数据的收集、挖掘和呈现方式的结合来达到效果,但是HTML5技术的应用为这种效果带来了更多的可能。
4.计算机“编辑”的出现。用计算机来代替人工写新闻,这是数据新闻领域出现的新尝试。传统的新闻形式是以文字为主体的,其撰写逻辑多是新闻编辑者的思维逻辑,所以用计算机来完成这类新闻在目前来说仍然是无法实现的。但是,数据新闻是以数据为主体的,数据之间的逻辑是可以通过计算机来梳理的,这就为计算机来撰写新闻提供了可能。目前,在数据应用最广泛的财经新闻报道中,已经出现了用计算机来写新闻的实际案例。美联社在2014年就宣布将使用计算机来完成其下关于美国企业的财报报道。但是,目前计算机写新闻只限于财经新闻领域,涉及的数据分析较简单,报道内容也较为单一。但是,不可否认的是,计算机写新闻将是未来的一种趋势,这种方式将记者从模板式报道中解放出来,让记者有更多的时间去完成突发新闻、深度报道、调查性报道等更有深度的新闻,也更有精力去追求“数据背后的意义”。
时代的变迁必然催生事物的变迁,新闻亦然。虽然数据新闻本身并不是新鲜事物,但是数据新闻的快速发展离不开其所处的这个时代——互联网时代。互联网时代带来的改变是巨大的,信息呈爆炸式增长、受众拥有了话语权、网络成为信息传播的主要渠道,等等,这些在不知不觉中影响和改变着我们的生活,也影响和改变着新闻业的发展。把握时代特点成为新闻业发展的必然要求,这也就是为什么数据新闻能够大放异彩的原因。
作者单位 河北大学新闻传播学院
[1]胡正荣,段鹏,张磊.传播学总论[M].北京:清华大学出版社,2008.
[2][英]西蒙·罗杰斯.数据新闻大趋势:释放可视化报道的力量[M].岳跃,译.北京:中国人民大学出版社,2015.
[3]周婷婷.大数据时代数据运用的理念与实践研究[J].江汉学术,2015(2).
[4]周咏缗.大数据时代信息图表新闻的生存之道[J].新闻界,2014(1).
[5]郎劲松,杨海.数据新闻:大数据时代新闻可视化传播的创新路径[J].现代传播,2014(3).
[6]陈昌凤,乌日吉木斯.数据新闻与大数据思维的应用[J].新闻与写作,2014(4).
[7]乔晓燕,彭佳卉.视听诱发脑电特征提取与大脑认知机理分析[J].测试技术学报,2013(6).