张书娟,程天鹏,邵 彤
(浙江越秀外国语学院网络传播学院,浙江绍兴 312000)
许多国外知名媒体如英国的《卫报》、美国的《华尔街日报》等早在2011年就开始了对数据新闻实践的探索。同年,中国四大门户网站也先后开始了以静态信息图为主要表现形式的数据报道。[1]目前,学界对数据新闻的研究集中在业务实践层面,且多选定《卫报》等国外媒体为主要研究对象,研究方向单一,对理论方面的探讨较为缺乏。研究的重复和不足使得数据新闻研究还存在很多空白点,这为本研究提供了可行性。
在数据新闻近10年的实践过程中,国内各数据新闻团队一直在对数据新闻的实践进行创新。其中,网易《数读》栏目是国内较早开设的数据新闻栏目之一,在一定程度上对国内部分数据新闻媒体或平台起到了示范意义和引领作用,故下文将以网易《数读》栏目为例证分析国内数据新闻的一些共性创新点。
可视化是数据新闻的典型特征,也是数据新闻与传统新闻之间的最大差异[2]。数据新闻运用可视化元素可以将一系列晦涩的数据具象化与清晰化,相较于传统新闻更易于帮助受众了解新闻内容。国内数据新闻媒体或平台对可视化元素的运用主要以静态图表为主,基本图表类型有圆饼图、直方图、折线图、散点图等,特殊图表类型有时间轴、气泡图、关系图、信息图、数据地图等。网易《数读》栏目不仅对静态图表进行了一系列创新,还加入了少量动态图表。
1.时间轴元素的创新
时间轴是将某一类或者某几类事件通过时间顺序进行串联所形成的一种较为完整的图文呈现。对于时间跨度较大的新闻事件,传统媒体很难梳理出完整、清晰的发展脉络,时间轴元素则在很大程度上可以弥补传统媒体在这方面的不足。
网易《数读》栏目在使用时间轴时往往不是孤立的,而是将其与其他特殊图表类型结合起来,这样就产生出一些创新的可视化呈现方式。如网易《数读》栏目在其数据新闻《韩国的承诺:我为“敌军”找遗骸、建墓地》①参见:韩国的承诺:我为“敌军”找遗骸、建墓地[EB/OL].[2020-02-12].http://data.163.com/14/0318/22/9NLF 671100014MTN.html。中创新性地将时间轴与信息地图结合使用,时间轴展现了历年来发掘出的遗体数量,信息图则让受众对各地区所发现的遗体数量一目了然。再如,网易《数读》栏目在另一篇数据新闻《数据泄露:政府、金融、零售网站最危险》②参见:数据泄露:政府、金融、零售网站最危险[EB/OL].[2020-02-14].http://data.163.com/14/1226/02/AEBU6 CPA00014MTN.html。中将时间轴与气泡图结合起来,不仅详细列举2013-2014年全球范围内各大公司的泄密事件,而且用气泡图表示泄密数据的数量,并将泄密数量与气泡大小设成正相关关系;这使该报道呈现出较强的视觉感。
2.动态可视化的创新
除了被广泛使用的静态图表外,数据新闻的可视化手段还包括动态图表,较为常见的动态图表有动态时间轴、动态数据地图、交互式图表、三维演示等[3]。网易《数读》栏目在这一方面另辟蹊径,在其知乎专栏数据新闻《一百年前,我们都只有1米5》中进行了动态图像的尝试。该篇数据新闻运用视频形式展示了1975-2014年男、女身高体重上的变化趋势,这使该篇数据新闻在趣味性上有了进一步提升。
此处所谈的社会化媒体主要指的是微信公众平台。网易《数读》栏目于2015年6月15日上线微信公众号平台,只意在扩大自身的传播范围,并未考虑微信公众平台的特色,因此网易《数读》栏目前期在该平台上所推送的内容基本是对其网页版的直接转录。而随着对数据新闻实践的不断探索,网易《数读》栏目在其微信公众号平台上出现了一些创新。
1.图文组合式可视化形式
在国内,大部分数据新闻媒体或平台在微信公众平台上推送的方式为图解式报道,即用一张长图表示内容,辅以少量文字或不加任何文字。网易《数读》栏目在微信公众平台上推送的内容报道形式却大不相同:除对数据可视化处理后的图片或图表外,对内容进行评论的文字同样是推送重点,有时其比重甚至超过图表。
图解式数据新闻的最大优点是能够让受众快速把握新闻重点,但其缺点是图片本身的尺寸存在限制,无法配载过多文字,在这种情况下,要想对一些重要数据进行解释就只能以简短的文字进行甚至无法进行。网易《数读》栏目在微信公众平台上实践的图文组合式报道则很好地保留了图解式新闻的优点,并在很大程度上弥补了其缺点,是对数据新闻报道形式的一种创新。
2.多媒体可视化形式
除了创新式的图文并举的可视化形式,网易《数读》栏目在其微信公众平台上还特别设置了H5数据新闻专题,截至2020年2月该专题已发布29篇报道。H5使数据新闻中的数据更加动态化,其表现形式也与受众尤其是年轻受众贴近。例如,2016年4月22日网易《数读》栏目在微信公众平台上推送了一篇内嵌H5的数据新闻《今天的你,还吃的起猪肉和蔬菜吗》①参见:今天的你,还吃得起猪肉和蔬菜吗[EB/OL].[2020-02-15].https://mp.weixin.qq.com/s/KsSMRQOGj4H4Y 4kb4SSIdg。,此篇数据新闻以H5的形式由猪肉与蔬菜价格上涨引出2015年11月至2016年3月的国民消费者价格指数权重下调趋势,并在尾页设置了具有趣味性的转发按钮,这提高了社会化媒体的社交属性利用度,使数据新闻形式更具互动性质。
国内数据新闻发展至今,各数据新闻团队一直在对数据新闻的实践进行创新,但一些不足也在这一过程中浮现出来,这些不足在不同程度上体现出了国内数据新闻媒体或平台在进行报道时常见的共性问题。
数据是数据新闻的充分必要条件,所引数据的质量也决定着数据新闻的质量[4]。国内数据新闻所引用的数据来源多样且复杂,在被引用的过程中也存在着数据来源模糊、数据时效性偏低和数据验证性不足等问题。
1.数据来源模糊
国内各大数据新闻媒体或平台在相关新闻底部对大部分所引用数据标注了数据来源,但这一举措略显简单,因为并非每个数据新闻都提供了相关数据原始数据的查询、下载的链接或方式,这种原始数据来源的缺失使得数据的可信度有所不足。网易《数读》栏目在对期刊数据进行引用时较为规范,标注了详细明确的页数,但在对政府或行业报告进行引用时只简单标注了报告名称,疏漏了对具体页数的标注,并缺少对来源机构背景的调查及其所用样本的说明,这增加了读者对原始数据的查证难度,这也说明国内数据新闻在数据引用方面仍缺少“标准”。
随着通过固定程序从公开信息中抓取数据的数据搜集形式的出现,国内各大数据新闻媒体或平台也开始热衷利用“爬虫”等技术手段在知乎、微博、豆瓣等国内较为知名的社会化媒体中抓取一定数据。如数据新闻《大学每月生活费4 500,要多了吗》②参见:大学每月生活费4 500,要多了吗[EB/OL].[2020-02-15].https://zhuanlan.zhihu.com/p/97324990。就爬取了知乎问题“大学生生活费多少够用”下的1 016个回答数据,但是其只公布了对抓取数据筛选后的结果,未公开初始数据、筛选标准、处理模型等信息。
2.数据时效性低
在国内数据新闻中,部分数据新闻中的数据是来自数年或十数年之前的,对当前阶段的现实参考意义符合性偏低。例如,在2019年11月23日发布的《中国肥胖地图出炉,哪个省的人腰更粗》③参见:中国肥胖地图出炉,哪个省的人腰更粗[EB/OL].[2020-02-15].https://www.163.com/data/article/EUM4 RSFB000181IU.html。中,部分新闻数据来源于中国疾病预防控制中心慢性非传染性疾病预防控制中心王丽敏团队于2019年10月发表在期刊《内科学年鉴》的论文《中国成人肥胖患病率的地理差异:来自2013-2014的全国慢性病和危险因素监测的结果》,该论文虽然发表于2019年,但其中所用的研究数据却是2013-2014年的。
时效性是新闻价值之一,对于数据新闻而言也是重要的价值标准,因此在数据新闻制作过程中以时效性欠缺的数据源作为基础而生产的数据新闻,其可信度也相对有限。
3.数据验证性不足
在网易《数读》栏目网页版2012年1月1日至2019年12月31日的377篇数据新闻①下文所选的统计样本皆与此同。中,未标明数据来源的共43篇(占比11.4%),标明数据来源的共334篇(占比88.6%),其中含有一个数据来源的数据新闻共255篇(占比67.6%),含有两个数据来源的数据新闻共56篇(占比14.9%),含有三个及以上数据来源的数据新闻共23篇(占比6.1%)。
在数据来源类型方面,样本中数据源自国外的共165篇(占比43.8%),源自网络的共94篇(占比24.9%),源自政府机构的共52篇(占比13.8%),源自学术机构的共20篇(占比5.3%),源自民间机构的共26篇(占比6.9%),自主调查得来的共35篇(占比9.3%),未标明数据来源的共43篇(占比11.4%)。②样本中存在一个样本含有多种数据来源的情况。
数据新闻所引数据的可信度与数据来源的机构单位息息相关,甚至可以说数据可信度最重要的依据是数据来源的机构单位。按照数据可信度从高到低的次序,数据可以依次分为法律性数据、研究性数据、第三方数据、利益相关方数据和随机数据。[5]而在网易《数读》栏目中,样本中的法律性数据和研究性数据均来自政府机构和学术机构,占比19.1%(共72篇)。
为了保证新闻的客观性,数据应该从多个不同的机构选择。单一的数据来源只能提供片面性的参考,而且其中的数据也缺少交叉性的验证。但在网易《数读》栏目中,样本中含有两个及以上数据来源的数据新闻只占总数的21%(共79篇)。
可见,国内数据新闻所引数据的可信度及验证性都有着不小的提升空间,而数据的验证性不足对数据的可信度也会产生一定负面影响。
在国内数据新闻中,动态图表类型占比过低。尽管国内数据新闻对时间轴等特殊静态图表类型进行了一系列创新,同时也尝试运用了动态图像与H5元素,但其对数据的分析方式及最终呈现路径的选择仍然存在不足。
1.数据处理止于归纳
在国内数据新闻的生产过程中,挖掘数据这一步骤过于简单甚至是缺失。根本原因在于其数据来源大都为第三方,这些第三方数据在被获取前就已经经过了分析处理,数据新闻媒体或平台只需稍作归纳并进行一定程度的可视化处理便能生成一篇完整的数据新闻。国内数据新闻媒体或平台的确也大都是如此处理。
2.预测性报道缺失
数据新闻的最终呈现结果有两种表达路径。第一种表达路径是,通过分析已有数据对其含义甚至变化原因进行解释,满足受众对复杂数据的求知需求。第二种表达路径是,以已有数据为起始点,通过分析其中规律预测未来的发展趋势,为某一行业或某一事物的下一步发展方向提供重要参考。[6]
在所选择的377个样本中,具有针对性的预测性报道数量偏少,指导意义也偏弱。例如,在数据新闻《人口流失、生育率低,多省面临后继无人》③参见:人口流失、生育率低,多省面临后继无人[EB/OL].[2020-02-15].https://3g.163.com/news/article/ADG2 CQUA00014MTN.html。中,网易《数读》栏目依据国家统计局第六次全国人口普查的数据预测湖南、湖北、广西、贵州、山东等劳务输出大省老龄化问题将提前爆发。这则新闻看似是对人口老龄化问题进行了预测,但其实它只给出了一个结论,缺少实质性的分析,以致参考意义不足。可见,其与真正的预测性报道仍有一定差距。
国内数据新闻选题广泛,但策划性不强,多样性亦显不足,其内容报道大体存在两种偏向:地域性偏向和接近性偏向。
1.过于关注国际事件
在所选的377篇数据新闻中,涉及国内的数据新闻共计197篇(占比52%),与国际相关的数据新闻共计180篇(占比48%)。不管是从篇数还是比重看,与国际相关的数据新闻在满足关注国际事件的这部分受众的需求方面稍显过量。数据新闻是一个非垂直类的新闻类型,这样的选题行为一方面与自身特点不符,另一方面无法贴合关注国内新闻话题的受众的需求。因此在选题的地域分布上,国内数据新闻媒体或平台应予重视。
2.涉及国内的报道接近性偏向严重
在197篇涉及国内的数据新闻中,社会民生类共148篇(占比75.1%),经济类共23篇(占比11.7%),环境类共9篇(占比4.6%),其他类共17篇(占比8.6%)。可见,国内数据新闻媒体或平台在国内新闻的选题方面偏重社会民生。之所以如此,恐怕是因为:一方面,此类选题与受众生活相关,接近性明显;另一方面,在政府机构及其他机构所公布的数据中,与社会民生相关的数据较多,获取难度较低。这或许在一定程度上可以说明,国内数据新闻媒体或平台存在数据决定选题的倾向。
3.体育与文化类型选题偏少
在所选的样本中,体育和文化类数据新闻占比极低,其中体育类数据新闻只有1篇,即2012年2月15日发布的《林书豪出成绩并非侥幸,有25%概率成为超级巨星》①参见:林书豪出成绩并非侥幸 有25%概率成为超级巨星[EB/OL].[2020-02-15].https://www.163.com/data/article/7QAD4R9J00014MTN.html。,文化类数据新闻也只有1篇,即2012年12月10日发布的《霸气美国人垄断诺贝尔奖》②参见:霸气美国人垄断诺贝尔奖[EB/OL].[2020-02-15].https://www.163.com/data/article/8DHRA96300014MT N.html。。原因大概有三。第一,外部数据环境缺少体育与文化类的数据资源,使得“巧妇难为无米之炊”。第二,体育与文化类数据的处理形式难以丰富。体育类数据主要集中在参赛人数、历年奖牌、运动员个人情况等方面,文化类数据更是单一地围绕在诺贝尔奖周围。第三,各种体育赛事举办的频次较高,体育类数据更新极快,而与之相反,文化类行业新闻素材出现的频次较低,相关数据资源和可供选择的选题都相应较少。这三个原因使得体育与文化类数据新闻制作难度变高,以致最终造成国内数据新闻在体育与文化方面的缺失。
如今,国内大部分新闻媒体和平台都建立了自身的数据新闻栏目,如网易《数读》栏目、腾讯《新闻百科》栏目、搜狐《数字之道》栏目、新浪《图解天下》栏目、新华网《数据新闻》栏目、人民网《图解新闻》栏目、财新网《数字说》等。从各大新闻媒体或平台对数据新闻的建设和实践看,受众对数据新闻的接受度与关注度正在日益提高,而与之相伴的是受众对数据新闻的要求也会相应提高,这就需要数据新闻行业在原有的基础上不断地创新和优化。
数据的公开度、可信度、准确性等对数据新闻的质量发展起着重要作用,如若外部数据存在公开度不足、可信度低、准确性缺乏等一系列问题,数据新闻媒体或平台将会难以获取到质量和数量同时符合需求的数据,这将在一定程度上限制数据新闻选题类型多样化、数据前期的交叉性验证等流程的进行,进而对数据新闻行业的良性发展有所影响。可见,各方协作建立一个更具开放性、包容性的外部数据环境是未来数据新闻发展的一个必然趋势,但这一目标因为某些原因是难以在短时间达成的,所以多措并举十分必要。
1.建立自采型数据库
外部数据环境是数据新闻质量发展的重要保障,但数据新闻媒体或平台亦可建立自己的数据库资源,形成一个内部的数据生产机制,以此消弭一些外部数据缺失带来的负面影响。数据新闻媒体或平台对内可以将自身过往的一些原创内容及历史数据填充进自身数据库,对外与其他数据新闻媒体或平台合作,通过购买、共享等方式扩充自己的数据库,与此同时,还可以定期从国内外的数据服务公司购买所需数据。此外,数据新闻媒体或平台可以采用众包模式使用“爬虫”、Python等程序从网络中抓取由网民所生产的海量数据内容来充实自建数据库。
2.注重核查所引数据
在对数据进行选择时,数据新闻媒体或平台首先要对数据的时效性进行审核,要避免引用缺乏时效性的数据。其次,在确定了要引用一组数据后,数据新闻媒体或平台应尽量找寻另一组来源不同但研究对象相同的数据,以此形成交叉性比对,通过对比来验证数据的准确性,增强数据的说服力。最后,对于多组研究对象相同的数据,数据新闻媒体或平台要依照法律性数据、研究性数据、第三方数据、利益相关方数据、随机数据这一先后顺序合理筛选,以保证数据的可信度。
数据新闻吸引受众的一大法宝就是通过对数据的分析让受众了解数据背后所蕴含的意义。如前所述,国内数据新闻媒体或平台在数据挖掘方面明显不足,这不仅无法满足受众的求知感,而且制约了自身的纵深发展。因此,国内数据新闻媒体或平台需要对所引数据作进一步深入透彻的分析。
1.分析数据背后的趋势
传统媒体也有预测性报道,但这些报道大都是某一领域中的资深从业人员或专家的口述分析及经验判断,他们容易受到自身学识、心理偏见等因素的干扰。而对于数据新闻来说,预测性报道由现有数据产生,相较于传统媒体的预测性报道,数据新闻所产出的预测性报道虽然视角宏观,分析计算过程复杂,但预测结果局限性更小,准确性更高,产出更快。具体而言,依托海量数据,数据新闻中的预测性报道能够得出一定的规律,能够给出较为精确的时间节点,而非传统预测报道所常用的“或将”“未来”“多年后”这一类模糊性的时间词语。有鉴于此,虽然预测性数据新闻在数据分析和新闻制作上的难度远高于一般的数据新闻,但从重要性而言其仍应被各大数据新闻媒体或平台广泛制作和发布。
2.加快数据新闻团队建设
传统的新闻采编流程是记者加编辑的递进式采编流程,在这种模式中记者与编辑在职能区分上十分明确,相互之间干预性较小。但数据新闻的生产过程环环相扣,内容与形式密不可分,因此数据新闻的生产需要记者、编辑、设计人员和技术人员的通力合作,需要团队间相互沟通和传达意见。换言之,数据新闻的生产模式是一种全员协作式的生产模式。在这种模式下,每个参与制作的人员都会直接影响数据新闻最终的呈现结果。故而对数据新闻团队而言,其间的每一个成员都应该是具备基础的新闻职业素养和一定的设计/技术感官的复合型专业人才。未来国内各大数据新闻媒体或平台应该加快和完善自身的数据新闻团队建设。
3.合理运用机器新闻
机器新闻是指利用机器介入实现机械化、智能化新闻生产的新闻活动,其本质是一套算法语言或软件程序。机器新闻的出现是大数据技术为新闻行业带来的一次发展,对于数据新闻而言也是如此。一个数据新闻媒体或平台只需确定好选题,搜寻到相应数据,并将这些数据导入预先设定好的程序中,机器便可以对数据进行快速分析和计算,在相对人工而言较短的时间里生成一篇数据新闻作品。这种信息化、标准化的数据新闻生产模式能够在很大程度上弥补国内数据新闻媒体或平台专业人才缺失的问题。虽然利用机器新闻所生产出的数据新闻存在客观、准确、分析具有深度等优势,但其在情感性、叙事性、趣味性等方面略显不足,这就需要编辑或其他专业人员进行合理的润色和加工。
国内数据新闻的选题范围在一定程度上来说是极其宽泛的,涵盖了较为常见的各个新闻类型,就各个选题数量来看,国内数据新闻选题整体上呈现出一种大而全的特点,但偏向国际新闻与社会民生新闻,某些选题明显缺失,因此对新闻选题予以平衡是国内数据新闻媒体或平台所应该重视的。
1.关注国内重大事件
数据新闻本身是一种综合型新闻类型,并非垂直领域新闻类型。根据前文的统计分析结果,国内数据新闻媒体或平台可以在保持对国内社会民生选题关注的基础上适当增加一些国内重大新闻的选题,这样既能保持国内数据新闻媒体或平台原先的从宏观视角选题的特点,又能使所产生的数据新闻在地域上更接近受众,也对自身平台的选题类型进行了均衡。
2.对体育与文化类选题进行创新
在传统的新闻报道中,体育与文化是重要选题类型之一,而在国内数据新闻中却明显缺失该类选题。前文已经分析了出现这一情况的原因,即体育与文化类数据新闻从确立选题到搜集数据等一系列生产流程的操作难度明显高于其他类型的数据新闻,但这不应该成为国内数据新闻媒体或平台放弃体育与文化类数据新闻的理由。国内数据新闻媒体或平台应该在实践中探索创新,找到贴合体育与文化类选题的最佳可视化方案,以期在未来增加这两类数据新闻。
3.强化自身社会责任感
随着全媒体时代的进一步发展,网络媒体对流量的追求不断上升,对所应肩负的社会责任感的关注程度却在下降。在当前的网络社会中,流量即利益,但如果网络媒体一味地追求流量,一些相对低级趣味的内容就会乘虚而入,给社会带来一些负面影响。
虽然国内数据新闻从内容和形式上尚未出现网络媒体的这些弊端,但数据新闻选题在一定程度上也跟社会责任感有所关联,国内数据新闻选题的不平衡性可能会对受众产生潜在影响,换言之,数据新闻也在培养受众的审美趣味,引导受众的审美偏向。因此,国内数据新闻媒体或平台应该不断强化自身社会责任感,不仅要拒绝暴力、色情、猎奇等低俗信息,更要将社会责任感注入工作的每个细节当中,以更好地推动社会向着良性健康的方向发展[7]。
在全媒体背景下,传统媒体涉足数据新闻领域是一种趋势,但无论是传统新闻还是数据新闻,其本质始终未变,新闻媒体或平台自身所应承担的社会责任同样不会改变。随着国内数据新闻行业的发展,实践中的问题虽会一一浮现但也将在行业优化中一一消散。当前相关技术仍在高速发展,数据新闻未来将趋向智能化、多元化:一方面,依托大数据支撑,以人工智能为基础,对天气、体育、财经等新闻选题及一些突发性的事件进行快速且及时的报道;另一方面,基于数据新闻的特性,将充分发挥其智能预测的功能,从多角度满足受众的需求,形成“用户式驱动”的数据新闻新范式。