文|许秋里 王丹宁
网易新媒体实验室:
数据的准确和叙事的严谨是数据新闻的生命
文|许秋里 王丹宁
数据新闻是把双刃剑,准确的数据选择和严谨的逻辑叙事是关键。这是网易新媒体实验室近期在尝试“用数据解读新闻”、进行数据可视化产品制作时尤为重视的两点。
数据新闻是基于数据的获取、挖掘、分析、叙事并进行可视化呈现的新闻报道方式,其核心是用数据来报道新闻。当提取的数据跟内容主题不吻合时,这个数据可视化的呈现是无效的;当选用的一套数据难以构成跟主题相符的完整叙事逻辑时,这个数据新闻报道是生硬的。要让一个数据新闻产品能真正实现让用户简明易懂地通过数据获取新闻,引用数据的规范和数据表达的逻辑主题的统一,是重要的一环。
数据新闻可视化需要用大量数据来解读新闻和传达观点,作为严肃的新闻报道,被引用的数据必须注明出处,且来源需要权威可靠。一般来说,政府部门是权威数据的主要来源,如果数据来源于社会调查机构,则需要考量它的影响力和样本量等是否值得引用。
网易新媒体实验室一开始在制作数据可视化专题《PX项目在中国》时,并没有给每个数据都添加来源,只是突出展示了重要数据来佐证观点。比如在展现“PX项目在中国的地理分布”时,对“无公开投产年份”“和未见相关批复”的城市没有进行标注,事实上造成了某些信息的缺失和整体逻辑表达的不完整。同时,不同跨度的年份进行等比的年份绘制,属于信息呈现不对称。我们在进行第二版制作时,针对这些问题进行了修改。就效果而言,相对于直接铺开重点数据信息,完整和严谨的信息更容易凸显数据趋势,且这样的趋势不是“编辑去告诉用户的”而是通过严谨数据“用户自行感受和判断的”。
相反,非权威性的数据或者数据比例展示不当、数据单位缺失会带来用户对新闻观点真实性的怀疑。
新闻强调时效性,新近且全面的数据在表现上更具说服力。同时,我们在选用数据时尤其注意数据的时效与叙事主题的统一。在数据可视化专题《失衡的中国网费与网速》中,我们引用了中国工信部网站、《中国互联网络发展状况统计报告》的数据,选用了截止到2014年的全国各省网民人数、网民增速和网民普及率,信息量大且新,能更好地说明目前中国各省区互联网人口规模、网民普及率和增速的现状。
除了最近一年度的数据能更好地描绘最新情况外,我们也从报告中去掉了“移动电话使用人数分布”、“手机网民的分布”等与这一页的叙事主题关系度很弱的数据信息,仅保留为“规模”、“普及率”、“增速”的各省分布相关的数据,与这一幅图想传达的“在沿海省市,网民人口比例超6成,增速加快”的主题相吻合。
在搜集数据的过程中,我们最先找到的是各类数量大、内容杂的初始数据,这时就要进行“数据清洗”,即从不同来源的数据中抽取我们需要的部分,进行统计分析,重新整合为一组新的多重维度的数据。这样构成的多维度图表,综合了不同衡量标准下的数据,体现出新的关联。相应的,每组数据都需要在图中分别标明来源和时间。
数据可视化专题《PX项目在中国》中,网易新媒体实验室用三个维度的数据共同展示PX产能较高的省份与年产能、投产时间的关系。左侧将省份按照“GDP”从高到低排序,中间按照“PX年产能”从大到小排序,右侧则是按“投产年份”从早到晚排序,中间饼图是该省多个PX项目的产能分布。这三个维度的数据,其来源和呈现信息的角度都是不同的,所以网易新媒体实验室在标注上特别注明GDP的截止年限,年产能的定义,年份上若“无公开投产时间”亦加以标注,确保多维度的数据呈现时也能保证每个数据有据可考、信息准确。
数据新闻要求编辑将新闻思维和数据的良好使用相结合,用数据为受众诠释新闻、叙述这组数据的新意义。就H5形态的数据新闻可视化专题而言,每一页中数据所传达的信息,必定要和每页想要表达的观点所吻合。整体上,各部分的数据逻辑推进也要和观点逻辑推进保持相一致。
比如,在“PX世界产能过剩,中国供不应求”这个小标题下,我们挑选了多维度数据来支撑想表达的小标题逻辑,数据所展现的直观趋势和小观点相吻合。用户可以一目了然的看到,从2009年到2013年,PX的产量折线逐年递增,PX的需求量折线递增趋势明显,而中国的PX自给率却是在逐年下降。即使没看到标题,用户根据数据也可轻易理解到“中国PX供不应求”这个层面。
在数据可视化专题《失衡的中国网费与网速》中,我们把每页的小观点抽离出来放在一起,也可以看到完整的逻辑演绎。
封面是“失衡的中国网费和网速”,内文的逻辑呈现包括以下六点:1.中国网速落后世界,仅上海一地略高于世界平均水平;2.网费遥遥领先他国,宽带资费占人均GDP比重大;3.接受高网费低网速的中国网民规模10年间不断扩大;4.尤其在沿海省市,网民人口比例已超6成,增速加快;5.与规模化递增的网络人口相反,通信基建增速放缓;6.总理注意到这个问题,工信部承诺大幅提网速降网费。
叙事逻辑从中国网速落后世界切入,谈到网费却领先他国。继而提到中国庞大的网民人口、普及率和增速,说明网络几成生活必需品,网速和资费对每个中国人都息息相关。接着延伸至通信基建的行业的发展现状,称与规模化递增的网络人口不协调的是通信基建增速放缓。最后落在新闻李克强总理注意到网速、网费和通信基建相对落后的问题后,工信部承诺大幅提网速降网费的新闻。整个数据新闻产品的逻辑结构,也是一个新闻专题的报道逻辑。
为了保证信息量和逻辑顺畅,数据可视化专题往往要在有限的空间内同时呈现多维度信息。网易新媒体实验室在数据新闻可视化的尝试中,把单一的时间、人数、速度、高度、面积等数据维度,进行重新组合和叠加,生成一个具有多维度信息的图表。这就要求新闻编辑用不同的方式帮助用户理清维度,清楚明了地划分数据信息。除了用文字区分,颜色和图例是我们常用的区分复杂多维逻辑关系的方式。
比如,在“PX项目纠纷发生时间与当地人均GDP、城市人口关系图”这页中,我们用圆圈的大小表示“PX项目纠纷地人口多少”,用圆圈的不同颜色对应图例中不同的“PX项目纠纷处理结果”。同时增加传统坐标轴,纵坐标用人均GDP数值来体现城市的经济发展水平,横坐标说明各次纠纷发生的时间。整张图看下来,用户先注意到色块内的城市,然后即可顺着坐标轴、颜色、图例了解到纠纷时间、纠纷地发展水平、纠纷处理结果等信息。看起来直观且有延伸性。
同样,在专题《失衡的中国网费与网速》中,表现近年中国网民规模趋势时也用到了类似的方法。(如图)
不论是偏向内容呈现的信息可视化还是专注数据逻辑演绎的数据可视化,呈现给用户的内容都要和整个新闻产品想要传达的核心观点相吻合。在封面这一留给用户“第一印象”的重要地方,简洁有力的体现出主题和暗喻想表达内容的可视化设计亦十分重要。
比如专题《中国十年撤侨路》在封面就体现出中国和历年撤侨国家的联系,专题《失衡的中国网费与网速》的封面用天平的形式表现出网费和网速不平衡的现状,让用户对主题一目了然。
对网易新媒体实验室来说,数据新闻产品的完成不是某个编辑的一己之功,它需要每个人都变身“内容产品经理”进行团队作战,从数据的获取、数据的呈现、数据的叙事等方面进行内容包装和产品制作。同时,一个数据新闻产品的完成,也非我们策划、制作团队一方的功劳,数据来源包括众多媒体人和专业调查机构的辛劳和付出。对我们而言,最关键的是完成的数据新闻产品需保证数据的准确性和逻辑呈现的严谨性,引用客观公正吻合主题的数据、结合数据严谨叙述新的事实,这是数据新闻的生命。
(作者单位:网易新媒体实验室主管许秋里;网易新媒体实验室编辑王丹宁)