□ 文/肖书瑶 赵鹿鸣
内容提要 本文结合对2018年美国计算机辅助新闻报道年会的观察,介绍了美国以及各国媒体在数据新闻等领域的最新技术与前沿思考供借鉴、探讨。
美国计算机辅助新闻报道协会(The National Institute for Computer-Assisted Reporting,以下简称NICAR)创立至今已有二十余年历史。每年举行的NICAR大会既是全球调查记者、数据新闻记者的交流盛会,也是观测美国媒体如何进行融合转型的风向标。
2018年3月11日,新一届的NICAR大会在美国佛罗里达州落下帷幕。224个分会议和334位演讲者为上千名参会者带来了美国以及各国媒体在数据新闻等领域的最新技术与前沿思考。他们当下的理念、方法及挑战,可以给中国的数据新闻业提供经验参考。
20世纪80年代中期,计算机辅助报道在美国兴起,一些记者尝试用电脑进行数据分析,借此完成新闻报道。1989年,美国《普罗维登斯报》记者埃利奥特·贾斯平(Elliot Jaspin)在密苏里新闻学院创办了计算机辅助报道协会。1994年,NICAR成为IRE(Investigative Reporters and Editors,调查记者与编辑协会)附属项目,并开始举行一年一度的交流大会。目前,“计算机辅助报道”这个术语在美国被更多地描述为“数据新闻”,因此,每年的NICAR大会便成为了全球数据新闻行业难得的沟通机会。
NICAR大会的参与者既有来自世界各媒体的记者、编辑、设计师,也有来自美国各高校的老师与学生。许多参会者并没有数据新闻从业的经验,甚至并没有系统学习过。因此,大会不仅为经验丰富的从业者设立最前沿的研讨会、小组讨论,还为“半路出家”的初学者开设了视频演示课以及实践性极强的教学课程。从Excel基本知识和进阶技巧、谷歌表格的使用到R,Python和SQL语言的学习,再到可视化设计和地图绘制,基本涵盖了数据新闻生产的全流程和常用的工具软件。224个分会议的内容涉及到数据挖掘、数据分析、信息设计、动画视频、软件展示、机器学习、案例分享、新闻思维以及新闻教育等方面。
数据新闻已经成为近年来中国学界和业界热议的话题。数据化才是数据新闻最主要的特征,而大数据、人工智能并不是此前生产一份数据新闻的必要条件。理解这一事实是我们考察其发展动向的前提。
但值得一提的是,近年来,越来越多的美国媒体开始将机器学习、自然语言处理等技术作为辅助报道的手段,例如事实核查或帮助记者进行重复枯燥的工作,甚至是识别天空上方隐藏的侦察机。这使得数据新闻在数据化的基础上,开始真正呈现智能化的趋向。NICAR大会上谈到在媒体领域的机器学习应用,至少从四年前就开始了。
在今年大会的“机器学习辅助报道的入门指南”(Getting started with machine learning for reporting)研讨会上,来自Buzzfeed、《纽约时报》(New York Times)、《明尼阿波里斯星坛报》(Minneapolis Star Tribune)和《洛杉矶时报》(Los Angeles Times)的记者介绍了三个机器学习在新闻上的应用案例,讨论了“对记者来说机器学习到底意味着什么?”“什么时候需要使用机器学习”以及“如何为你选择的算法来优化数据结构”。
▲ BuzzFeed News与Flightradar 24通过机器学习追踪侦察机飞行轨迹。
▲ 《芝加哥论坛报》尝试从数据中找到新闻故事中的报道对象。
《洛杉矶时报》此前的一篇调查报道揭露了洛杉矶警察部门因为错误地将14000条严重袭击归为轻型犯罪,使洛杉矶地区暴力犯罪率统计显示下降。记者利用此前时报的关于犯罪的报道作为样本训练机器学习关键词来分辨什么是“严重犯罪”和“轻型犯罪”,然后应用分析于当地警察部门自2005到2012年以来的犯罪数据记录。报道促使当地警方采取包括改进内部问责和培训警察正确分类犯罪行为在内的一系列改变措施。
此外,美国新闻聚合机构BuzzFeed News也在大会上深度解析了他们运用机器学习技术完成的作品《天空中的密探》。这篇报道与航班追踪网站Flightradar 24合作,获取了两百架联邦政府侦察机的定位数据,然后用地图的形式展示出它们累积的飞行路线及随时间变化的航班动态,从而完成对政府空中巡查规模和范围的调查呈现。
其中,最引入瞩目的流程是他们的数据收集——团队首先将侦察机的规范图像录入一台电脑,然后训练电脑以此作为依据,对美国上空所有的政府侦察机进行识别,再对它们的飞行路线进行追踪,最后完成可视化。如果说现场图片的人脸识别仅仅是提高了记者的采写效率,那么对于这篇作品而言,没有机器的帮助,报道几乎无法完成。
总体来看,美国的数据新闻业正朝着智能化的方向审慎前行。机器学习听起来非常艰深,但在媒体使用最多的技术场景,还是对资料进行分类和打上标签。比如,有大量政府文件需要知道分别是什么类型的,那么记者可以设计一个算法训练机器去学习以往的数据来获得分类特征,一定量的学习后,机器便能够将新的政府文件根据特征而自动分类,代替人工阅读海量的文本文件,省去了很多重复性劳动。
《明尼阿波里斯星坛报》的记者蔡司·戴维斯(Chase Davis)也在“何种情况下需要使用机器学习”给出了他的建议:是否重复而枯燥;可以让实习生来做吗;但如果这样会感觉到强烈的愧疚吗?同时,Buzzfeed的记者彼得·奥尔胡斯(Peter Aldhous)则提醒同行永远要记得去检查机器学习的结论,“不然你就让算法做了你应做的工作。”
需要注意的是,智能化的数据新闻生产固然有利于将新闻作品的时效、深度、广度提升到新高度。但美国的新闻从业者也在反思,在视人工智能为一种新方法时,要持有谨慎且怀疑的态度,因为所有的算法都是由人类编写,不可避免地包含了人们的固有偏见和主观判断。NICAR大会有一个分会议的主题就是“算法问责制”(Algorithmic Accountability)。
酷炫的可视化效果是数据新闻吸引眼球的最终视觉呈现,但一篇数据新闻背后还隐藏着大量的数据挖掘和清洗工作。甚至在某些看起来并不那么“数据化”的新闻背后,往往是数据驱动的结果,是数据引领记者找到背后的故事和真相。
在“数字背后:如何在数据中找到你的报道对象”分会议中,《芝加哥论坛报》(Chicago Tribune)的记者Micheal J. Berens介绍了如何在数据中找到适合报道的对象并且丰富他们在故事中的形象,尤其是在数据驱动型报道中找到典型,把他们从幕后带向台前。《芝加哥论坛报》在当地医疗数据库中对相关医疗事件进行分级,从中找到了三个典型人物,然后对他们进行了跟踪采访,由此通过一系列融合数据、图片、视频的多媒体报道揭露了伊利诺伊州的医疗辅助机构对残疾人的虐待问 题。
显然,这并不是我们所说的一个智能化的数据新闻,但这显示了一种典型的数据驱动型新闻工作流程:跟踪极端值、量化和分离数据、给数据评级、做实地调查、得出结论。他们努力从数据中找到新闻报道的对象(Turn Data Into Characters In Your Story)的方法依然收获了美国同仁的赞誉。因为在保持技术更新之外,依然不要忘记对数据背后反映的真相进行实地调研和采访,这才是一个完整的数据新闻作品不可或缺的重要流程,也是目前美国媒体进行数据新闻生产的共有理念。
《芝加哥论坛报》的迈克尔·J·贝伦斯(Micheal J. Berens)谈到了许多数据分析与调查采访结合的实用技巧,例如:创建你自己的数据库;报道对象并不一定是“人”;不要使用不能反映普遍现象的异常数据;一个代表性的对象和好过几个弱的;与愿意和你交谈的人谈话;追踪和观察报道对象的生活而不仅仅是听他怎么说。
当前,全世界的传统媒体都在困窘中前行,数据新闻能否成为媒体融合转型的长期路径,学界依然在讨论中。但无论如何,越来越多的美国新闻院校开始意识到数据的重要性,因为信息公开法案、政府公开数据、社交网络数据的出现,使其成为了一个不可或缺的内容来源。由此,新闻院校与媒体在近年来达成的又一个共有理念是:掌握计算机编程、数据挖掘、可视化等技术,或将是未来人才培养的基本要求。
可是,当智能化的新技术成为目前媒体的转型逻辑,新的挑战接踵而至——当技术趋于成熟,它是否会反噬新闻业,对编辑、记者的职业本身造成新的冲击?这一话题也在2018年的NICAR大会上多次提及,具体来看,它不仅是促成了数据新闻的进一步变革,而是会对整个新闻业施以影响。
首先,如果读者已习惯在社交网络和信息聚合类应用上阅读新闻,那么这些平台上的算法如何推送新闻将影响各媒体的流量多寡,这对大量依靠互联网流量的机构来说无疑是个巨大的考验。如2016年,皮尤研究中心的结果显示,美国有44%的新闻阅读流量来自社交平台脸书(Facebook),但同年这一平台却调整了他们的内部算法,不再以推送新闻优先,而是以用户亲朋分享的实时动态为推送优先。这使得诸多机构如 Five Thirty Eight、Buzzfeed News在短时间内减少了大量流量,进而失去了一部分广告收入,他们不得不裁掉部分办公室、精简团队来节省支出,本需要大量复合技能人才的数据新闻业只能向美国东西两岸的大型媒体靠拢。这一过程一方面让相关人才向计算机行业外流,另一方面也迫使媒体在数据新闻的生产上削减开支或调整周期。近来年,作为一种应对,美国媒体开始在用户体验和效果监测上狠下功夫——比如积极与技术公司合作,开发分析平台来监测读者的覆盖率、观看率、观看时间;同时调查读者的浏览习惯,相应地调整新闻推送的平台、频率等等。这些举措,都让媒体更好地理解读者,从而对内容生产做出更明智的决定。
其次,新兴技术的加入也使新闻业的用工需求出现变化。比如,在2016年的美国总统大选期间,美国的数据新闻业就迎来了井喷,几乎所有媒体都愿意招聘拥有编程、数据分析、可视化等技术的人才,以便在新闻作品中提供更全面的内容、更吸引人的交互效果。但是当大选结束后,这类需求却急遽下降,因为常规时期的媒体并不需要这么多的数据新闻记者。此外,算法加持下的自动化新闻(Automated Journalism)的出现也迫使媒体对记者、编辑们的分工进行调整。因为自动化新闻在代替记者撰写一些相对“机械”的内容的同时,也让媒体意识到,这种“人机联动”的生产模式一旦成熟,那么记者也许可以获得更充裕的时间去完成一些更深度的报道,整个新闻业的工作分配就会继续调整。如何吸引更多的计算机科学、数据科学人才的加入?如何训练传统记者与智能技术的相处?如何调整人与算法的工作分配?将是未来所有新闻行业都会面临的挑战和机遇所在。