文_周建国 徐 洁
作为大数据时代一种独特的融合报道方式和创新新闻形态,数据新闻以数据为核心驱动力,以可视化为主要呈现方式,依托数据来讲故事,改变了传统新闻生产模式和叙事模式。在媒体深度融合和媒体数字生态圈构建的大背景下,数据新闻可以说是“融合进行曲中的创新乐章”。
今年初,钱江晚报·小时新闻客户端成立“数据新闻实验室”,新创栏目“有个数”,对数据新闻的生产与传播作了一些粗浅尝试。“有个数”以热点话题为切入点,基于数据挖掘、筛选,将“资讯+数据”二者智能结合,通过数据的获取与分析,把新闻背后的故事,通过数字化、可视化、交互化的形式,进行直观呈现,让新闻从可读变成“可视”,从静态变成动态,实现单向传播向互动式、服务式、沉浸式、场景式传播转变。近一年来,数据新闻实验室发布20余篇数据新闻产品,点击阅读量过百万。
本文从话题关切、数据驱动、创意呈现三个方面,即数据新闻的内容、手段、形态,浅析小时新闻数据新闻实验室的探索,以及实践中的瓶颈与突破。
“数据新闻”,或称“数据驱动新闻”,是“基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式”,即运用各种技术软件来抓取、处理、分析和形象化呈现数据,挖掘数据化叙事的新闻价值。数据新闻融合报道的发展方向,正契合媒体融合向纵深发展的大势,代表着未来新闻业发展的一大方向。国内媒体如人民网、新华网、澎湃新闻等均在数据新闻报道中早有布局。
数据新闻的出发点是“服务公众利益”。所有数据的处理和呈现,归根究底,是为了通过数据寻求真相,用数据说话,通过数据分析来挖掘现象背后的意义,让公众了解数据变迁的内涵及宏观数据如何影响每个人。这一点,无论是国际上旨在表彰全球最优秀数据新闻产品的Sigma数据新闻奖,还是国内的中国数据内容大赛,都把它作为一件优秀数据新闻作品的重要评判标准。
“服务公众利益”这个出发点,同样是区域性都市类媒体小时新闻做数据新闻的总体路径指向。在实际操作中,结合钱江晚报·小时新闻聚焦都市大生活的定位,我们赋予“服务公众利益”以更生活化的解读:用户关切。本地化、生活化是小时新闻的定位,同样是我们跟进数据新闻的标准。从这个角度看,我们的数据新闻实践,更多是偏服务性的话题新闻,而不是严格意义上的调查型数据新闻。
一种是循着热点事件或话题,找到可操作的角度和数据;一种是从老百姓最关注的领域诸如房子车子教育等话题里寻找小切口。
比如今年欧洲杯时,对丹麦球员埃里克森的急救,被奉为教科书式救援。而杭州是全国最早布局AED的城市之一,也是国内首个AED立法的城市。《发生万一时,杭州救命的AED够用吗》快速对接杭州急救中心,对设备在杭州的分布、使用情况、志愿者配备、存在问题等进行梳理,有科普,也有服务性。
对一些本地用户关注的社会生活类选题,我们尝试尽量通过数据梳理分析,从中找到一个大家普遍可能感兴趣的话题去体现“用户关注”。比如我们一口气梳理了杭州截至2020年12月底85次共5000万人次参与的车牌摇号数据(从2014年5月首次摇号开始),得出了摇车牌背后科学或玄学的结论:你摇了那么多次摇不到,隔壁老王为啥摇了几次就中了;到底是什么影响了你的运气;实在摇不到我该出多少钱竞拍……兼容趣味性与实用性。
《隔壁老王为什么比我们先摇到车牌》
对用户有用,即数据新闻的应用,同样是“服务公众利益”的一个重要衡量方面。一个出色的数据新闻产品,同时也应该成为用户工具,能让用户在新闻应用中发现自己的故事,或者找到与他们最相关的资讯。首届Sigma数据新闻奖中,就设有“最佳新闻应用奖”。但在实际操作中,限于数据获取及技术处理难题,数据新闻产品的应用还很难做到,所以我们尝试通过线下互动去弥补应用的不足。《父母“继承”你的手机之后,都在干什么》关注了中老年人的数字鸿沟,我们通过对一定年龄段手机用户的画像和应用偏好值,来观察生活在杭州这座“智慧之城”里的老人们的数字生活。报道发布后,我们又联合浙江省图书馆发起教老年人使用智能手机的公益活动,通过这种信息+服务的方式,叠加线下活动,体现“陪伴型”媒体的人文关怀和社会责任。
数据新闻是“数据驱动的报道”,开放的数据是数据新闻的核心驱动力和基本要素。可以说,大数据让我们能以一种前所未有的可量化的维度,去探究事件背后的某种关联。我们通过把文本、视频、音频等资料数据化、结构化、知识化处理,探索有意义的数据联系,从中挖掘新闻报道,将孤立的“新闻事件”扩展为“情景报道”,从用文字讲故事到用数据讲故事。它的独特之处在于,你把数据放一起后,会找到一些规律或异常,可以提供现场采访看不到的角度。
实践中最典型的一则数据新闻,是2010年10月23日英国《卫报》刊登的伊拉克战争日志。这是一幅借用谷歌地图提供的免费软件制作的点图,39.1万条数据来自维基解密。它将伊拉克战争中所有人员伤亡情况均标注于地图,地图上一个红点就代表一次伤亡事件,点开红点就是这次伤亡事件的基本新闻要素。没有多余的文字,点图上密布的红点却显得格外触目惊心。在这里,数据就是真相,数据就是新闻。
什么样的数据资源能够帮助我们更靠近上述目标?如何在纷繁复杂的数据中挖掘,筛选出有价值、有意义的信息?实际操作中,我们获取数据的途径主要有以下几种:
1.政府及相关组织公开数据:政务网站、政府工作报告、规划等。目前国家、省级和市级的一些开放数据平台基本上都能找到每一年的相关数据。
2.高校、智库、学术刊物、行业协会的发布,或第三方机构发布的数据,但很多都不公开或者需要有偿获取;
3.基于权威媒体公开报道的梳理,包括历年来本报报道的相关数据梳理与分析;
4.现在很多商业公司、互联网平台掌握着大量与公众生活相关的数据,例如出行、消费等,在评估公益性、权威性、科学性等维度下,我们会主动寻求这方面的资源支持与合作;
5.自主采集,通过编程用计算机语言来爬出想要的互联网数据,但这一方法具有时间、金钱成本和技术门槛的限制,需要专业技术人员才能实现。
数据新闻的核心是对大数据的处理运用。《卫报》的伊拉克战争日志新闻中,涉及数据量多达39.1万条。就小时新闻数据实验室近一年的尝试来看,在数据获取上,数据来源单一、分布不均衡,数据开放程度有限等问题是数据新闻生产的主要障碍之一。作为重要数据源的政府部门提供的数据存在一定滞后性,媒体想要进一步掌握更为详实、个性化的数据较难。而一些机构提供的数据以及受众参与调查的数据有时不够客观全面,运用到报道中会造成数据分析结果的偏差。所以在实践中,经常是多种渠道、手段组合在一起。
比如《隔壁老王为什么比我们先摇到车牌》,我们梳理了杭州实施小客车摇号以来共85次摇号结果。车管所官网会发布每月小客车牌照的申请审核结果和摇号结果,但是不提供下载,所以需要用爬虫程序来抓取数据并结构化。
我们也会和一些平台合作。比如今年的世界睡眠日的稿子——《你的手机正在暴露你的睡眠秘密》,我们就是和“个推”合作,通过手机用户的位置和应用偏好值来观察杭州“睡不着”人群。
《你的手机正在暴露你的睡眠秘密》
数据新闻中的数据也不只局限在统计数据,纯文本的内容,或是空间数据,在数据新闻产品的制作中也会经常被用到。比如近期我们和复旦大学新闻学院合作的《从2944首宋诗里,找寻桂花树下同样的打开方式》,就是对《全宋诗(词)》收录的29万首诗词进行文本分析,找出桂花诗和赏桂相关的生活场景。
从国内外数据新闻获奖作品来看,数据开放程度不同,获得公开数据难易程度不同,也决定了衡量数据指标时侧重点的不一样。相比而言,Sigma数据新闻奖更强调技术如何助力数据开放,为了鼓励数据开放与共享,首届Sigma数据新闻奖专设了“数据开放奖”,中国数据内容大赛则更强调技术运用助力既有信息的梳理、描述和视觉呈现。
《从2944首宋诗里,找寻桂花树下同样的打开方式》
事实确实如此。由于实际操作中大数据获取的难度,我们更多时候只能基于“小数据”的梳理分析来达到目的,比如通过统计、抽样调查、实验等传统手段方法获取样本数据。
虽然数据新闻并不等同于新闻可视化,但实践中,大多数据新闻以可视化为主要呈现方式,即把数据放入一定的情境中进行展示,从而体现易读性、直观性、交互性和沉浸性。可视化呈现包括可视化数据图、互动图表和网络在线演示等。
在我们的既定印象中,数据往往是枯燥的,是令人畏惧的,身边大多数文科出身的小伙伴都说“看到一堆数据就头疼”。即便已经从挖掘到的纷繁数据里,清理出有价值、有意义的数字,它依然是冰冷的。
数据可视化有助于将枯燥的数据信息以及错综的关系链以形象、生动、简单的方式呈现,增强用户交互式、沉浸式阅读体验。不论是Sigma数据新闻奖还是中国数据内容大赛,都非常注重可视化的呈现。2020年Sigma数据新闻奖的“最佳数据可视化报道荣誉奖”颁给了一则关于“为什么你的智能手机导致你的‘短信脖子’”的作品。2020年中国数据内容大赛的“最佳移动交互设计”奖则颁给了澎湃新闻《东京奥运会前,我们让所有奥运冠军一起PK了一把》。前者在易读性和直观性上有很好的体现,后者的可视化效果和沉浸式体验很吸引用户。
2020年中国数据内容大赛的“最佳移动交互设计”奖
如何把单调的数据做出想象力?我们在数据可视化上也做了一些尝试,希望在清楚展现数据的同时,加入设计与美学的体验,让枯燥乏味的数字和解释变得生动起来。
比如加入动态图。动态图示相对而言更加生动,能更直接展现变化和纵深感。《跟着小时视频穿越时光,去看看杭州一路走来的样子》这个作品,我们让直方图随着时间变化,读者可以很明显地看到杭州的行政区划在72年间的变化,也可以很明显地看到“拥江发展”的推进。
动画视频也是一种有效尝试。今年7月的郑州大雨,大家都知道雨很大,但从数字上看,几百毫米的降雨量没有感性认识,所以我们换了一个浙江人民都熟悉的量词来类比——西湖——一个城市,1个小时里倒进103个西湖,读者就有了直观的感受。在此基础上,我们把这个类比做成动态数据图示,结合现场画面混剪、配音,生动易懂。
传播形态的互动化、可视化已经成为数据新闻的发展趋势。如上提到的图表、动画、H5等不同呈现形态的数据可视化产品,其适合的内容和传播途径都不一样,但它们都必须服务于简明叙事的需要,不能为了数据而数据,为了设计而设计。但实践中,数据新闻的可视化呈现仍以静态的图表和图形化处理为主,交互程度较低,视觉元素和交互设计的多样化还不够,难以有效引发阅读兴趣。
作为一种跨学科、跨领域的融合报道形式,数据新闻以其话题关切、数据驱动、创意呈现,丰富了融合报道的产品形态,催生了媒体融合变革机制的内驱力,有助于推动媒体融合纵深发展,但它同时也对新闻从业者提出了更高的要求。一方面,我们很少能找到现成可遵循的标准和经验,只能在不断变化中摸索——数据开放、技术加持,以及流程再造、体制机制的创新。另一方面,数据新闻短期内难以找到市场化应用的路径,很多时候只能作为一种纯新闻产品生产,在市场化的压力下,尤其需要媒体有潜心做内容的定力和远见去支撑。
团队组建上,数据新闻团队需要技术、设计、采编等不同知识背景人员的结合,向更多元的媒体形态拓展。因此,必须打破传统新闻生产中的部门限制,再造采编流程,把技术和设计嵌入采编团队,组建包括设计、技术和传统采编人员在内的数据新闻团队,进行融合新闻生产。
5G时代,技术引领。近一年来的实践表明,基于传统媒体转型过来的媒体平台,由于技术人才、技术积累等“先天不足”,在技术工具的运用、技术支撑数据处理等方面,存在亟待补足的短板,难以做到真正的“数据驱动新闻”,离真正意义上的“数据驱动媒体”更是任重道远。
在这之前,破题可以先从向外借力寻求合作开始。目前很多高校的新闻学院都开设了“数据挖掘与可视化”的相关课程,具有科技与技术牵引的先天条件,更具有数据分析能力。而媒体为创作者提供平台的同时,也能帮助他们进行社会转化。今年以来,小时新闻数据实验室就和复旦大学、浙江大学两所高校先后进行了合作,结合高校产研理论优势和新闻媒体专业优势进行数据新闻产品合作。《从2944首宋诗里,找寻桂花树下同样的打开方式》就是“有个数”和复旦大学“复数实验室”的合作产品。
此外,如何加强数据新闻产品传播的大流量和效应?如何加强数据新闻的市场化应用,通过“数据说话”为垂直领域的经营需求叠加核心竞争力?如何破题社会资本对数据可视化产品的投入与开发?等等,这些都是下一阶段必须厘清的问题。