浅谈新闻行业的数据获取与数据使用

2022-07-06 17:19周栩睿
记者观察·下旬刊 2022年3期
关键词:数据新闻数据可视化数据分析

周栩睿

关键词:数据新闻;澎湃“美术课”;数据获取;数据分析;数据可视化

随着计算机技术的发展,数据在新闻行业的使用程度逐渐加深,出现了数据新闻报道这样的新型报道方式。数据新闻又称“数据驱动型新闻”,即通过反复抓取、筛选和重组来深度挖掘数据,聚焦专门信息以过滤数据,可视化地呈现数据并合成新闻故事。与传统新闻不同,数据新闻的数据采集和数据分析量级已经远远超过传统新闻实践中的数据图表,网络数字媒体的出现又为数据交互可视化提供可能。所以,如何找到好数据、使用好数据越来越成为现在新闻行业发展需要思考的问题。

澎湃“美术课”作为我国数据新闻行业较为知名的新闻媒体栏目,在2014年7月上线以来,秉持着“数字是骨骼,设计是灵魂;与新闻相关,又与新闻无关”的理念,在数据的采集、分析和可视化方面为数据新闻的学习和制作提供了较多的经验分享和作品参考。据统计,在过去的2021年,澎湃“美术课”共发表数据新闻191篇,下面本文将从数据采集、数据分析和数据可视化三个方面,结合澎湃“美术课”在2021年发表的数据新闻,对数据新闻的数据获取和数据使用进行分析总结。

数据新闻的数据采集

新闻消息的信源十分重要,所以数据来源的重要性也就不言而喻。有效的数据可以让新闻叙事更加完整紧密,可以让可视化顺利进行。首先,数据来源应当具有权威性,并且来源广泛,使得后面的数据分析步骤可以对数据进行交叉验证,以增加数据的完整性、准确度和可信度;其次,采集数据的手段可以多种多样,其中涉及对技术的不同程度的要求;最后,收集到的数据不仅仅只局限于“数字”型的数据,而是包括文本、音乐等其他形式的广义上的数据。

据统计,2021年澎湃“美术课”发布的全部新闻中的数据来源,在去年澎湃“美术课”发布的191篇数据新闻中,形式有图文、视频(或动画)和H5三种,使用的数据来源总共近400个。通过对这些数据来源进行归纳整理,可以发现澎湃“美术课”在数据采集方面主要具有以下几个特点:

数据来源广泛,注重数据权威性

在澎湃美术课发布的所有作品中来看,其数据来源大多来自公开数据源,公开数据源的数据具有一定的准确度、可信度和完整性,大概可以分类为一般性信息源、专业|生信息源、司法和商业机构信息和以众包方式创建的数据。其中一般性信息源作为数据主要来源涵盖的范围和领域广泛,比如世界各国各级政府和各职能部门的公开数据和工作报告,WHO、奥组委等非营利组织数据,天眼查、淘宝等商业机构数据,央视等媒体公开数据等。另外,由于疫情期间澎湃“美术课”生产了大量与医疗和健康相关的新闻数据,故在过去一年大量数据来自专家观点和医学论文。数据的可溯源和来源的权威性可以保证数据的可信度,从而保证新闻的真实性。(如图1)

另外,在许多数据的呈现中,作品汇集了多方数据来源。通过将不同来源的数据进行汇总比照,可以达到数据的交叉验证,进一步增加数据的真实性和可靠性。

采集数据的手段多样,具有一定独创性

除了一般的在公开信息来源进行数据检索收集的方式,澎湃“美术课”还采用了一些具有一定技术难度的数据收集方法,通过这些方式获得的数据属于一手数据,具有独创性。其中最常见的就是网络爬虫,在作品《网络求助可视化:善意就像火花,一个点燃另一个》中,作品便是以微博相关话题下爬取到的微博作为数据。这样的收集方法可以做到根据选题对时间范围、平台、数据类型等进行“定制”,使收集到的数据贴合选题。同时,相比从公开数据源收集已经被整理好的数据,这种方式可以更加灵活地获取更详细的数据,可以为之后的可视化提供更多可选素材。

另外,澎湃“美术课”也会通過互动和发起问卷调查来收集读者和用户的数据,在《H51测一测你是哪种减碳星人》这一作品中,便是通过H5的交互形式让用户自己点击作品中的元素生成自己的数据;在2021年,澎湃“美术课”还通过投票和问卷形式收集了参与者数据。这样的收集方式基于一定的媒体影响力,通过互动的方式让用户更有参与感,也让他们成为了新闻的参与者和生产者。

一切皆可为数据——数据类型的多样性

数据既是对事实观察和记录的结果,也是信息的表现形式和内容主题,它可以是符号、文字、数字、声音、图形图像、视频等形态。进入大数据时代,数据类型的范围变得更加广泛,通过先进的信息技术,我们可以收集到大量的信息,比如互联网行为及大量的文本、声音,并将它们转化为可以利用的数据,技术的进步让一切皆可变成数据。

比如,澎湃“美术课”作品《H51爆款新出歌曲调配指南》,将12首新春歌曲从节奏、强弱、乐器等多方面变为数据,从而为之后的声音可视化提供素材。另外,数据新闻《10000条儿童精神科问诊数据:家长懂孩子心里的苦吗?》中的数据来源为医生的问诊记录,文本中的关键字词也成为了数据新闻中可以进一步利用的数据。

数据新闻的数据分析

由于数据新闻在进行制作时按照数据分析在先、文字在后的顺序,因此数据分析这一步骤是获取数据相关性,从而挖掘数据价值,发现数据新闻叙事逻辑的重要步骤。由于数据量较大,且部分可能存在不准确或缺失等情况。因此在数据分析之前,应当对数据进行整理,并进一步对其有用性进行判断,即通过核验对重复的、缺失的或者错误的数据进行删除、补全或纠正的操作。

进入数据分析阶段,数据一方面可以通过计算平均值、百分比、众数等对数据的整体情况进行宏观描述,作为文案中的重要支撑数据,另一方面也可以通过对同一类型的数据进行分组对比、在某一维度对数据进行观察、验证不同维度数据之间的相关关系等方式发现数据的差异、变化和相关性。比如数据新闻《10000条儿童精神科问诊数据:家长懂孩子心里的苦吗?》中,将问诊记录中的关键词进行词频分析,通过将关键词进行筛选和分组对比后就能看出当孩子出现什么情况时,家长更愿意带孩子看医生。(如图2)

数据新闻的数据可视化

可视化形式

目前数据可视化在新闻领域的探索主要集中在静态信息图、交互可视化、视频/动画、VR/AR新闻这几个层面,其中澎湃“美术课”的数据新闻作品的可视化形式主要有静态信息图、交互可视化和视频/动画这三个形式。在过去一年,澎湃“美术课”发表图文形式的数据新闻113篇、H5作品5篇、视频或动画73篇。

静态信息图主要由条形图、折线图、气泡图等基础图形进行组合、美化而成,通过大小、形状、颜色、位置等可视化变量来表示数据的类别、变化或差异。比如数据新闻《给虚拟偶像一个月砸了13万,为啥?》中的静态信息图,将气泡图和条形图组合起来,通过气泡大小来呈现消费的高低,在右边通过条带的长度表示一个月消费区间的人数,同时用不同的颜色来区分不同的月消费区间。

澎湃“美术课”的交互可视化主要是H5作品,比如《H5爆款新春歌曲调配指南》,用户可以通过滑动、点击查看12首新春歌曲在旋律、副歌主题句、乐器、节奏、强弱方面的信息,同时在最后还可以通过选择旋律风格、速度和乐器制作属于自己的新春歌曲。而在视频和动画的制作上,主要是将静态和动态信息图与视频资料拼接起来。

适应移动端的阅读习惯

随着移动端互联网的发展,澎湃“美术课”的数据新闻更多倾向于在移动端呈现。而因为PC端和移动端的屏幕宽度不一样,所以在数据可视化方面有不同的特点。

首先,因为屏幕变得更窄,所以信息图的宽度也要变窄,另外文字和图形也要进行一定程度的放大,突出重点,以保证在手机这样的小屏幕上可以看清。信息图宽度变窄的同时,还要尽可能保证一张图可以在一屏中出现,这样可以防止用户需要来回滑动屏幕才能阅读完图中的信息。如果出现信息图较长的情况,就应该通过简化数据、分成多个图、做成动态图或H5等方式来对数据的可视化做进一步处理。

另外对于信息量较大的图,比如地图、较长的时间轴、同一坐标轴下有大量数据等,可以通过制作H5、视频或动画的形式进行呈现,不过这三种形式如果想要回看前面的内容会比较麻烦,所以页面与页面之间、画面与画面之间的逻辑性需要更强,才能加深用户的印象。

独特的设计风格

澎湃“美术课”作为一个数据新闻栏目,同时也作为一个品牌,在可视化设计方面拥有较为独特的风格。

在信息图的可视化设计方面,图形被黑色边框包围,信息图主体框架用黑、白、灰三种颜色搭建起来,同时图中一般会选择使用2—3个彩色用来填充图形或者标注重点文字。另外,数据来源、数据标注、标题和澎湃“美术课”的标志在同一篇数据新闻的不同信息图中,其位置基本一致。(如图4)

有一定风格的可视化设计不仅有利于形成媒体独特的风格,也有助于用户和读者对媒体数据可视化呈现风格的熟悉,从而方便用户和读者更加顺利地读懂信息图。

现在,人们正处于一个信息冗杂的时代,注意力的分散让人们难以捕捉真正有价值的信息。数据新闻可以依靠对数据的采集、分析和可视化,为受众提供可靠的、准确的、可读性高的有时甚至是有趣的信息,让人们对新闻事件的理解不只停留在宏观的数据和微观的个人故事,对新闻内容产生更深层的理解。而这些都需要新闻媒体扩大自己获取數据的途径,提高自身的数据使用素养。

猜你喜欢
数据新闻数据可视化数据分析
大数据时代背景下本科教学质量动态监控系统的构建
可视化:新媒体语境下的数据、叙事与设计研究
我国数据新闻的发展困境与策略研究
基于R语言的大数据审计方法研究
中外数据新闻编辑流程比较研究
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
大数据时代新闻的新变化探究
媒介融合时代数据新闻可视化教学探索
从“数据新闻”看当前互联网新闻信息传播生态