刘苗苗
数据新闻是基于新闻价值和公共利益,运用数据科学从各类数据中发现事实,可视化呈现数据的新闻形态。[1]以财新“数字说”、网易“数读”等为代表的国内数据新闻栏目生产了不少优秀作品。财新获得“2018年度全球最佳数据新闻团队奖”,代表着我国数据新闻业的发展和进步。
然而,数据新闻的探索实践中仍存在一些问题。目前相关研究大都关注国内数据新闻的生产水平,从作品水平高低、规范程度的维度对整体进行评价,在理论层面指出解决问题的必要性,但缺少针对具体案例的分析,对数据新闻最基本的内容准确性关注较少。本文认为,数据新闻应首先坚守准确性这一底线,进而在数据分析、可视化技术、叙事等方面提高水平。
米尔科·劳伦兹提出数据新闻的流程包括以下基本步骤:通过反复抓取、筛选和重组来深度挖掘数据,聚焦专门信息以过滤数据,可视化地呈现数据并合成新闻故事。[2]核心步骤包括数据采集、数据分析、数据呈现。数据分析是对经过清洗、转化等处理的数据进行分析;数据呈现包括数据可视化及叙事两部分,将数据分析结果告知受众。本文将沿着这三个步骤,以国内新媒体数据新闻作品为研究范围,剖析其中存在的不准确、不规范等问题。
数据新闻诞生于数据公开的语境,[3]公开数据是数据新闻的原材料。但在我国,数据开放水平仍然不高,数据源有限且不易采集,很大程度上限制了数据新闻的选题范围和深度。其次,国内数据新闻普遍存在数据源交代模糊的问题,信源的不透明影响着数据新闻的可信度。
20世纪80年代,世界范围内兴起政府改革,开放政府以提高公共治理水平。[4]2009年起,许多国家和组织建立了开放数据的门户网站,开放数据运动在全球范围内兴起。[5]大量有权威性和公信力的政府公开数据促进了数据新闻的诞生和发展。但国内数据公开程度不高,客观上数据源易得性低。其次,数据新闻具有很强的跨学科特征,具备编程能力又掌握新闻传播规律的复合型人才短缺,不同学科背景间的沟通也存在障碍,导致主观上的数据不易得,通常为现有数据的再利用。除政府数据外,国内数据源还包括行业报告、互联网数据、公开报道等,媒体自采数据较少,且一定程度上缺乏客观性、准确性和权威性。
例如界面推出的《2019年到底该不该买房?先看懂趋势再说》,数据源为“公开资料整理”,其中部分信息被标注为“传闻”,作为数据新闻发布有一定误导性。再如,新华网推出《Z世代宅人的真相了解一下》,数据源为极光大数据发布的《2019年Z世代“宅人”研究报告》。但极光大数据在声明中表示数据仅供参考,不对其精确性、完整性、适用性等作任何保证。因此使用二手数据难以保证新闻的权威性,还会因依赖单一数据源、缺乏客观性影响真实性。
传统新闻报道往往采用多信源保证报道平衡和真实。原则上数据新闻中的数据源也应有多个,不同数据源应互相印证。[6]但实际操作中难以实现——数据源本就易得性不高,多数据源更会抬高时间和人力成本。而即便数据源不是单一的,也存在不同数据源无法互相印证的情况,更应保持审慎态度,弄清原始数据统计方法,说明数据选取的原因。例如财新推出的《中国的医生数量在稳步上升,为什么还是不够?》,“中国每千人口执业医师数量”有两个数据源,分别为经合组织数据和中国官方统计数据,文中注明因统计机构与统计方法不同,两者不一致。但图表中只呈现了前者,未提及中国官方数据,未说明原因,数据源无法相互印证直接削弱了数据新闻的可信度。
传统新闻报道的信源指记者向之寻求信息的人,通常对记者的报道有既得利益。[7]信源和知晓方法的公开可澄清其中的倾向性,使得受众能够评判信息是否可靠。[8]在数据新闻中,数据源应被视作最重要的信源,保证公开透明。当数据采集困难影响了数据源的权威性、准确性,公开数据源对于数据新闻自证可靠性便更为重要。其次,作为知识生产的数据新闻相当于一次科学研究,[9]科学研究要求研究结果的可复现,必须详细交代数据来源。
透明度高的数据源不仅要求交代数据出处,还包括采集方法、采集时间、数据完整性和影响性,将缺失数据、替代数据的使用等告知受众。[10]国内大多数数据新闻中数据源交代模糊,只标注获取数据的网站。例如界面发布的《近3成中国人春节都去旅游了,但国内游火不起来了》,其中虽然在每一张图表下方都提到了多个数据源,包括“国家统计局”“文化和旅游部”“携程”等,但也仅有这些网站的名称,过于模糊。而即便新闻中使用的不是数字,交代信息来源也是必要的。在澎湃推出的《2018上海踏青赏花地图》中,点击交互地图上的标记可看到赏花信息,却看不到信息来源。与之相比,《卫报》数据新闻对数据源的交代应成为努力的方向——提供数据下载、搜索,鼓励用户评论和参与,秉持开放数据的理念,寻找认识和解决问题的新视角。[11]
数据新闻业者的工作不是抢先报道,而是洞察事实的深层次原因和真相。在信息超载而真相稀缺的当下,公众需要透视数据的数据新闻,了解数据背后的故事;通过分工协作生产的高价值数据新闻可以增强专业媒体的竞争力。这些价值很大程度上源于数据分析的深度和科学性,国内数据新闻的失范正是表现在这两方面。
数据分析的目的是把隐藏在数据背后的信息集中和提炼出来,分为初级的描述性数据分析、高级的探索性数据分析和验证性数据分析。[12]数字天然带有象征严谨的神圣光环,相对于其他事实更可能被粗浅地解读。[13]而不少数据新闻中仅将结构化数据加以可视化,不进行数据分析,或仅有简单的描述性数据分析。
以多家数据新闻栏目推出的“晚婚”相关作品为例,这些作品关注点有差别,数据分析的深度不同,存在的问题也是多样的。界面推出《如果春节你被逼婚,你就这么对付他》,仅将人口性别比和结婚率、离婚率作历时比较和可视化,没有进一步的解读。网易推出《“爸妈逼你结婚,都是为了你好啊”》,展示了近年来结婚率下降的趋势以及代表网民态度的词频,解读了晚婚的原因和年轻人的心理态度。但其问题在于对原因的分析并非基于数据,而是参考了其他资料,用数据分析辅助报道,并非严格意义上的数据驱动新闻。财新推出《“云养蛙”火了,背后的现实是年轻人越来越晚婚》,将中、日、美三国的初婚年龄、结婚离婚比做了比较,通过对比分析展示了三个国家的婚姻状况,进行了推测解读。然而看似要揭示“旅行青蛙”游戏流行的背后原因,数据分析却无法证明晚婚是游戏流行的背后现实,“云养蛙”成了一个“蹭热点”的噱头。
有深度的数据分析应在解答“是什么”的基础上进一步探求“为什么”“怎么办”;应深入分析多来源、多类型的数据,透视数据背后的本质,而不是停留在搬运、堆砌数据的层面。按照报道的目的、依靠科学的程序和方法进行统计分析,数据才能成为支撑报道叙事逻辑的关键线索和论据。[14]
准确理解和使用数据,弄清原始数据的真实含义,不生搬硬套,是数据分析的第一步。此外还应注意“数据的陷阱”:例如计算平均数时说明具体种类——均值、中位数还是众数;建立在小样本容量上的百分数容易产生误导,直接给出具体数量更有价值。[15]例如搜狐发布的《全国300个城市的租房压力VS房租抵税力度》,根据可支配收入及房租平均单价,按照人均36.6平方米的住房标准计算了房租与收入比。但“城市人均住宅建筑面积”36.6平方米,反映的是“有当地户籍并有住房的城市居民的人均住房面积”,[16]而非租房者的居住面积,以此计算月平均房租显然不合适。没有弄清原始数据的含义,盲目追热点、拿来即用的态度使数据新闻成为假新闻。
同时期澎湃推出《新个税法为你省下的钱,超过了全国多少人?》,用代表全国工资分层的9088份样本计算税改对不同收入群体影响,用户可以在交互网页上输入个人工资,查看全国排位,这种个性化的数据相对而言更有实用价值。遗憾的是澎湃未给出样本库来源、计算过程和方法等,仅注明计算结果没有考虑专项附加扣除,作为工具的参考价值有限。
当人工智能技术渗入新闻生产时,算法也应用于数据新闻实践中,由于算法设计本身的局限性和输入数据的错误导致的失实风险,将是数据新闻业者必须警惕的问题。如果算法出错,波及面更广,后果更严重。[17]
数据呈现包括数据可视化和叙事两部分。数据可视化是将数据信息转化为形象化的视觉表征形式,[18]分为静态信息图、交互式信息图和动态信息图。[19]可视化已不仅是工具,更是一种媒介:探索、展示和表达数据含义的方法。[20]作为新闻报道的一种,数据新闻以叙事为手段,强调数据在叙事中的地位。[21]在数据呈现阶段,常见问题包括数据可视化缺乏规范性、直观性,用数据引导叙事的故事性不强。
无论哪一种可视化类型都有其规则可循,规则不取决于设计或统计数字,而是为了确保受众准确解读编码数据,[22]确保分析者准确观察并阐释数据,是关系新闻准确性的又一基本要求。例如数据可视化机构“数可视”在其微信公众号发布的图表《20年来,一个导师,平均带几个研究生?》(图1),横坐标轴没有完整、明确的刻度,只显示了20年间的8个年份,且相邻年份的间距不相等,而横轴间距的大小决定着曲线的倾斜程度,因此图表不准确。其次,非连续数值应用直线而非平滑曲线联结,应以折线图反映趋势的变化。再如新华网发布的《数据描绘快递小哥,走进你我身边“熟悉的陌生人”》,在快递员家庭情况的可视化中,“61%的快递员有儿女”本意应为61%已成家的快递员有儿女,但图中未做出明显视觉暗示,总体似乎成了全体快递员。
可视化图表在准确性基础上的另一个重要指标是直观性。有研究表明,人的眼睛天生是用来感知影像的,超过三分之一大脑皮层用于处理视觉信息,[23]直观的视觉传播方式突破民族、语言的限制,使数据在视觉的瞬间被解读,提高了信息传播效率,[24]这是数据可视化的主要目的。但许多数据新闻根本没有实质上的可视化,或可视化的呈现形式与内容不统一。
图像表意简化、终止了符号所指到能指的思维过程,[25]阅读可视化符号与阅读文字符号获取意义的过程有着本质不同。而有些数据新闻栏目发布的作品只是将数据放入图文编排中,没有数据可视化。例如新华网出品的《消费潜规则“潜”行,遇到“它”你该怎么办》(图2),在表示各领域“消费潜规则”比例时,没有用视觉信息表明数值间的大小关系,信息传递仍依靠文本,未实现分类数据的可视化。再如新华网发布的《越来越便捷,来一场说走就走的出境游》,其中呈现出境游客目的地时,仅在地图上标记了亚、欧两洲的位置和对应数值,不属于空间数据的可视化。
同样是在空间信息中可视化区域数据,网易推出的《失踪的中国孩子,被拐去了哪里》,采用了等值区域图。例如在表示“中国失踪儿童主要来自哪些省份”时,用地图上圆点的大小和颜色共同表示数值大小。值得一提的是,无论数据如何,等值区域图中面积大的区域总是得到更多的注意。[26]因此该作品中没有在地图上直接填充颜色,而用圆点大小避免了省份间面积不同造成的干扰。但在表示“中国失踪儿童主要省际流向”时,采用了动图的形式,表示失踪儿童流入、流出路线的线条同时穿行在地图上,只有流动方向的区别而没有更明显的视觉暗示,动态的线条杂乱而不直观。因此不能为了“炫酷”的技术而可视化,形式应服务于内容。
同一张图表信息量过大也会导致可视化不直观。例如网易发布的《听说,只有结婚才会拯救男人》,在同一张图中,展示了4种疾病分别对应的未婚、离婚、丧偶3种婚姻状态与已婚的死亡率比,并加入性别区分,信息量过于丰富使得受众不容易在短时间内理解。图像表意不意味着肤浅和非理性,[27]但复杂的信息图表难以满足当下受众阅读可视化新闻所期待的快感,会限制数据新闻的传播效果。
数据新闻是用数据讲述的新闻故事,“可视化地呈现数据并合成新闻故事”[28]是最后一个流程。故事性使数据新闻区别于一般的数据报告,为数据增加人情味,让用户产生心理接近性。数据叙事不意味着要用文字讲故事,随着技术的发展,包括新闻游戏、新闻工具在内的“交互叙事”[29]日益成为数据新闻的一个亮点。然而一项对国内媒体两会数据新闻的研究显示,超过四分之三的作品无交互功能。[30]因此对大部分无法提供参与式叙事的作品而言,在采访基础上形成的故事化文本必不可少。财新的互动数据新闻在这一方面表现突出。例如《五环之外》多角度探索了北京五环以外人们的生存状况。互动页面左侧为非虚构写作文本,对上班族、家庭主妇等具体人物的描写细致,用户在交互网页上探索式阅读,故事与数据紧密结合实现了立体化的叙事。
国内数据新闻实践存在的问题,直观表现为新闻基本采编业务不规范,弱化了数据新闻引导用户洞察数据背后信息的功能。新闻专业主义对新闻工作者追逐真相、服务公众利益的要求在新媒体时代仍不应松懈,在数据新闻生产中,新闻专业主义更应坚持。
注释:
[1][29]张超.数据新闻的交互叙事初探[J].新闻界,2017(8):10-15,45.
[2][14][28]方洁.数据新闻概论 [M].北京:中国人民大学出版社 ,2015:2,3,2.
[3][9][21]张超,钟新.新闻业的数据新闻转向:语境、类型与理念[J].编辑之友,2016(1):76-83.
[4]张成福.开放政府论[J].中国人民大学学报 ,2014,28(3):79-89.
[5]全球政府开放数据运动方兴未艾[J].电子技术与软件工程,2014(5):5-6.
[6][10]张超.论数据新闻的实用主义客观性原则[J].中州学刊,2018(9):166-172.
[7][美]卡琳·沃尔-乔根森,托马斯·哈尼齐.当代新闻学核心[M].张小娅,译.北京:清华大学出版社,2014:109.
[8][美]比尔·科瓦奇,汤姆·罗森斯蒂尔.新闻的十大基本原则:新闻从业者须知和公众的期待[M].刘海龙,连晓东,译.北京:北京大学出版社,2011:83.
[11]文卫华,李冰.大数据时代的数据新闻报道——以英国《卫报》为例[J].现代传播(中国传媒大学学报),2013,35(5):139-142.
[12]张文霖,刘夏璐,狄松.谁说菜鸟不会数据分析(入门篇)[M].北京:电子工业出版社,2013:15-16.
[13] Gray J, Chambers L,Bounegru L. The data journalism handbook[M]. O'Reilly,2012.
[15][美]哈夫.统计数字会撒谎[M].廖颖林,译.北京:中国城市出版社,2009:25,115.
[16]张延群.24个大中城市人均住房面积及房价相对泡沫估算[J].西部论坛,2015,25(1):60-65.
[17]张超.新闻生产中的算法风险:成因、类型与对策[J].中国出版,2018(13):38-42.
[18]周子渊.数据驱动与图像驱动:数据新闻发展的动因分析[J].中国编辑,2018(3):23-27.
[19]沈浩,谈和,文蕾.“数据新闻”发展与“数据新闻”教育[J].现代传播(中国传媒大学学报),2014,36(11):139-142.
[20][22][26] [美]邱南森.数据之美:一本书学会可视化设计[M].张伸,译.北京:中国人民大学出版社 ,2014:44,3,165.
[23][25][27]欧阳友权.新媒体的技术审美与视觉消费[J].中州学刊,2013(2):155-159.
[24]杜士英.视觉传达设计原理[M].上海:上海人民美术出版社,2015:46.
[30]江宇,解晴晴.国内“两会”数据新闻报道研究——基于2013-2018年5家媒体“两会”数据新闻报道的分析 [J].传媒 ,2019(1):91-94.