肖婧为
【摘 要】我国媒体已经开始大数据新闻的尝试,目前主要的呈现类型包括数据图表、数据地图和数据漫画等,但在应用过程中存在对大数据概念认识不清、呈现方式过于单一以及对受众隐私权的保护比较薄弱等问题。本文结合西方发达国家大数据新闻的案例对上述问题进行详细分析,希望对我国媒体有所启示。
【关键词】大数据 大数据新闻 可视化 数据图表 数据驱动
【中图分类号】G206 【文献标识码】A
在信息化时代,随着计算机技术、移动互联网技术、云计算技术的发展,人们通过电脑、手机等智能终端获取海量的信息,大数据的研究对象就是这些呈爆炸性趋势快速增长的数据资源。大数据技术通过对数据资源的整合分析,做出预测和推断,并指导人们的决策。大数据的这一功能已在政治、文化、经济、商业、军事等诸多领域中应用,并越来越受到人们的重视。
一、大数据与大数据新闻
有些人认为大数据就是“数据量的大小超出了传统意义上的数据尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。”①事实上,大数据并不等同于海量的数据。首先,大数据包含了大量的非结构化数据和交互数据,如网络日志、图片、声音、影像、地理位置信息、购物行为、搜索行为等,这些数据来源丰富,而且成本很低;其次,大数据并非是数据的简单堆积,而是存在关联的数据,通过空间维度上多角度、多层次的信息交叉,呈现出时间维度上人或社会有机体的相互关联性的活动;第三,大数据具有时效性,例如手机上的路况软件可以实时看到车辆的运行情况、拥堵原因、公交进站时间等信息。
大数据新闻与其他新闻的不同之处在于,将传统的以人为中心的新闻敏感与数据技术相结合,从宏观层面对社会中某一事件的发展趋势进行把握,或者将某一宏观事件与每个人的联系点进行具体分析。在大数据新闻中,编辑记者可以通过简单的图表展现复杂的事件状况,并且更加直观地体现出受众与新闻的内在联系,可以说,数据既是新闻的资源,也是新闻表达的工具。
二、我国大数据新闻呈现类型
目前,大数据新闻在我国的可视化应用主要有数据图表、数据地图、数据漫画等呈现方式。通过这些方式能够让受众更加深入地理解身边的数据,数据也变得具有可塑性、可行性和人性化。更为重要的是,大数据新闻通过不同的呈现方式帮助受众掌握新闻事实,了解事件的内涵和真相。
1.数据图表
在大数据新闻中,用静态的数据图表展现数据与数据之间的关系是最常用的方式,通常有树状图、饼状图、柱状图、坐标系图、曲线图等。大数据新闻中所使用的数据图表还分为单一型数据图表和复合型数据图表,单一型数据图表对同一组数据仅以一张数据图表进行呈现,复合型数据图表对同一组数据从不同维度制作多张数据图表进行呈现。目前,媒体更多使用的是复合型数据图表,可以从不同角度对数据进行分析,更全面地为受众展现事件的全貌。数据图表除了静态的之外,还有交互式和动态的数据图表,其中融入了更多视频、音频和动画等元素,尤其在涉及经济方面的话题时,用简明、灵活的互动信息图表取代枯燥的数字进行阐释,更容易得到受众的青睐,提高受众的参与度。
2.数据地图
数据地图是一种将地理信息与新闻信息、新闻数据结合表现的数据新闻形式,是一种将新闻数据按区域分类、汇总后呈现于地图上的数据新闻类型,是大数据中非常具有代表性的一种可视化类型。数据地图重新建立了数据与物理空间之间的联系,只有当数据在地图上以视觉化的方式呈现出来以后,才能更清晰地揭示不同地理位置上不同数据之间的关联。
3.数据漫画
数据漫画是用一种诙谐的方式将数据转变成图画的新闻类型。数据漫画最早应用于科普类新闻,由于科普类文章不仅涉及很多数据而且内容艰涩难懂,而数据漫画可以将枯燥的内容形象化,让读者在娱乐中获取有用的信息。现在数据漫画更多地应用于包含人和人的关系,以及人和组织结成复杂社会网络的新闻题材。对新闻记者来说,这种数据关系图可以为以后的调查和报道提供依据;对受众来说,直观、有趣的漫画形式可以帮助他们快速弄清人物关系或理清事件的来龙去脉。
三、我国大数据新闻应用的反思
我国许多传媒机构都开始了大数据新闻的实践。比如:人民网推出了图解新闻频道、千龙网推出了图表新闻板块,还有搜狐的“数字之道”、新浪的“图解新闻”、网易的“数读”等。但是,我国大数据新闻还存在诸如对大数据认识不清、新闻呈现单一、受众隐私保护比较薄弱等问题。加深对大数据的认识,创新大数据新闻的呈现方式,加强对受众隐私的保护,是我国媒体大数据新闻亟需解决的问题。西方媒体在这方面做了一些有益的尝试,值得参考和借鉴。
1.对大数据的认识存在误区,需要澄清
第一个误区:大数据得出的结论不需要解读。由文中大数据的概念可知,大数据是关联性数据,即大数据发现了以前看似毫无关联的事物之间存在的相关关系。但新闻的传统解读却是具有强烈的因果逻辑,大数据的相关关系和新闻解读的因果关系在新闻传播中产生了矛盾。有些大数据新闻在呈现时忽略了因果关系,使新闻结论与人们的认识逻辑相悖,造成受众解读的随意性和偶然性,使大数据新闻报道失去了核心的意义。例如:2014年中央电视台“据说春节”栏目中关于过年最怕被逼婚、各地最爱吃什么等选题,依据的是网络调查或者网友点击率等数据,但没有说明其适用范围,依据这样的数据得出的结论显然并不具有普遍意义。由此可见,大数据只是一种资源和工具,它的目的是告知而不是解释,它也可能导致误解。因此,媒体在利用大数据时应当了解数据的来源和范围,并对数据关联进行合理的解释,避免对数据的误读。
第二个误区:大数据新闻可以单独呈现。由于大数据这个概念的火爆,很多新闻事件的报道便只用数据漫画、数据图表来呈现,这种形式的新闻可以在社交传播中产生良好的效果,但若只是沉溺于这种表面的形式而忽视了新闻内容的故事性,就是舍本求末了。事实上,大数据强调的是信息结构化和去故事化,这和新闻表达的逻辑在某种程度上是相悖的。在报道重大新闻时,可以将大数据新闻的可视化呈现与记者的故事化稿件相结合,在展现人们生活的温度和质感上下功夫。大数据新闻中的所有数据均要服务于新闻内容,只有这样才能使新闻焕发新的活力。正如英国《卫报》数据新闻编辑西蒙·罗杰斯(Simon Rogers)所说:“数据新闻不是图形或可视化效果,而是用最好的方式去讲述故事,只是有时故事是用可视化效果或图形来讲述。”②
第三个误区:大数据是精确的。新闻是讲究精确性的,但大数据的方法却是以模糊性呈现为特点的。由于大数据的增长速度远大于储存速度和分析处理的速度,在数据成几何数级的爆炸式增长的同时,“垃圾”数据的增长速度更快。大数据分析出的结果并不都是准确的,比如:Google Correlate(谷歌发布的一种数据挖掘工具)的用户通过上传数据到服务器,便可以整理出各种类型的图像,谷歌强大的搜索功能为图像提供未来发展趋势图。有人通过这个工具发现,人的增重和出租公寓具有相关关系,但常识告诉人们,这种关联只是一种巧合。因此,新闻工作者对大数据所体现的“规律”要进行甄别,避免虚假信息的泛滥。
2.大数据新闻的呈现方式单一,需要创新
第一,缺乏互动性。我国的大数据新闻大多以静态图表的方式呈现,缺少互动性。这种呈现方式是通过对大数据空间与时间的交叉分析发现事件的发展规律和趋势,将分析结果以数据的形式简明、清晰地呈现给受众,使受众能够跳出简单新闻事件的桎梏,从宏观层面了解新闻的社会背景和事件的深层含义。但是,这种静态大数据新闻的报道方式只是传统新闻的数据化延伸,是大数据新闻最简单的应用形式,受众只能被动接受信息,缺少互动性,使传播效果大打折扣。
互动性的大数据新闻增加了视频、音频、动画等多媒体元素,受众可以通过鼠标或者手机按键选择自己想要了解的信息。例如:2011年8月英国爆发了一场由伦敦蔓延至6个城市的骚乱事件,英国《卫报》第一时间对事件爆发的原因进行了分析,绘制了7个传播最广谣言的照片,受众点击任何一张照片都可以了解谣言产生、扩散以及现在传播情况的动态图。照片上还有一个交互时间轴,展示了英国骚乱期间中的各种事件,包括政府发表的言论、骚乱分子的情况以及受到骚乱分子侵扰地区的现场等。每个事件都用圆形图标标注,不同图标代表不同人的微博,可以看到发表的时间、内容和转发量等信息,图标还用四种不同的颜色来表示受众对谣言的态度是支持还是反对。这种由受众参与互动的大数据新闻形式令人耳目一新,受众能够真切地感受到新闻发生在自己的身边,对新闻事件的理解也更加丰富和深刻。
第二,缺乏个性化。大数据新闻成为互联网时代的宠儿,无论是传统媒体还是新媒体都纷纷试水这种数据呈现的新方式。但是,媒体都不约而同地选择用科普知识、数据梳理、人物关系等信息图的形式来帮助受众理解复杂的数据和背景知识。大量雷同、缺少个性化的大数据新闻造成了受众的审美疲劳,使受众的接收兴趣大大降低。例如:2014年10月28日党的第十八届四中全会召开,搜狐新闻和新浪新闻都对四中全会做了大数据新闻图解,介绍了四中全会的议题内容,特别强调了“依法治国”的重要议题,两者在形式、内容上都高度雷同,缺乏个性化。因此,在呈现大数据新闻之前,应全面了解数据集合的特点、性质,找出数据与新闻点的最佳契合处,结合受众的兴趣,为不同需求的受众呈现不同的新闻。事实上,每个受众都会在网络中留下的大量非结构化数据,如鼠标的点击、搜索的内容、浏览的网页等,媒体可以通过这些数据分析受众的使用习惯和认知偏好,从而为受众订制个性化的新闻。英国广播公司(BBC)在2012年制作了《预算计算器:2013财政政策将如何影响你》(Budget calculator:How will Budget 2013 affect you?)的个性化大数据新闻,并获得了该年度的全球数据新闻奖。预算计算器可以帮助受众理解英国新修改的财政预算以及相关政策对不同人的影响。当你填写今天喝的啤酒数量后,预算计算器就可以计算出在新的财政政策下,啤酒的支出是增加了还是减少了。同样,如果填写个人的收入、支出状况,预算计算器会自动计算出新的财政政策下你的收入是增加还是减少了,从个体角度解释了宏大的财政政策对受众实实在在的影响。相比而言,英国广播公司(BBC)个性化大数据新闻受众的参与程度更高、娱乐性更强。
第三,缺少数据驱动的调查型新闻。大数据可以帮助人们找到平时很难发现的事件中的关联,但是数据无法解释出现这种关联性背后的原因和影响。对新闻工作者来说,大数据技术可以发现以前被忽视的社会问题,但是某种社会现象和问题只知道结果是不够的。在数据结果的驱动下对社会问题进行深入剖析,这种大数据新闻被称为数据驱动型调查。目前,我国媒体仍然停留在对大数据的搜集、分析与简单解读的层面,忽略了数据新闻背后的深度解读。例如:2015年“3·15”国际消费者权益日之后,新浪用大数据盘点了微博中消费者关注度的报告,其中的数据包括消费者对“3·15”话题的总阅读量、微博消费者投诉的反馈率、消费者博文投诉的十大行业等诸多信息,但是,为什么74%的投诉信息没有反馈?为什么食品安全问题的投诉最多?受众却不得而知。目前,发达国家已经出现了专门从事大数据分析的记者,他们通过对繁杂琐碎的大数据的挖掘,发现一些事件中的特殊逻辑,并通过深度调查为受众解读。例如:英国广播公司(BBC)的大数据调查团队发现英格兰和威尔士的年轻警察数量急剧下滑,为探究这一数据背后的原因,英国广播公司的记者做了近一个月的深度调查,并对警察局高层就相关问题进行专访。
3.受众隐私的保护薄弱,需要加强
关于隐私的概念,传统的隐私指的是涉及私密的、敏感的、非公开的私人领域的个人信息。进入互联网大数据时代,隐私问题主要表现为共享的、公共领域的个人信息泄露。传统新闻生产过程中侵犯受众隐私的问题,媒体已经开始重视,并通过更换名字、模糊图像、不公开报道等方式,尽量在避免侵犯受众隐私的前提下满足受众的信息需求。信息社会中,人们在网络中留下了各种信息,这些隐私信息与大数据的公共数据混杂在一起,很难进行物理上的隔离,因此也难以界定数据中隐私部分的保护范围。大数据的信息源开放后,不同系统中的数据相互印证,人们的隐私信息如家庭住址、电话、行走轨迹等就会暴露无遗。例如:百度等搜索网站对用户的网页浏览习惯一清二楚,微博、微信等社交应用对受众的兴趣图谱、社交网络了如指掌。而且,我国大部分网民隐私保护意识薄弱,根据中国互联网络信息中心的统计数据,对社交网站利用个人资料进行商业活动,超过一半的受众(51.5%)表示可以接受商家通过个人资料进行的推送消息;对手机软件读取通信录来推荐好友的功能,三分之二的用户表示不反对商家这一行为。我国网民对网络隐私保护的不重视,加剧了隐私问题的严重性。因此,我国应在法律、媒体与技术等多方面加强规范,从根源处杜绝大数据的滥用,保护受众的隐私。
首先,从立法层面来看,我国还未把隐私权作为一项独立的人格权利来进行规定,这方面在立法改革中应给予完善。另外,数据的使用同样需要提高到法律层面来进行规范,例如:什么渠道取得的数据可以使用?如何使用这些数据?什么样的数据不可以使用?哪些数据使用行为侵犯了受众的隐私权?目前,我国出现了一些数据分析公司,社交软件也掌握了大量的受众上网行为习惯数据,对这些公司和社交软件的数据采集行为和资质也需要做出明确的规定和约束。
其次,加强新闻工作者的数据素养。数据素养指的不仅是吸收数据知识、分析管理数据、应用数据的能力,还包括对数据发布中道德规范的了解和遵守。新闻工作者要对用户行为数据有清醒的认识,在公布数据挖掘成果的时候,心中要有一把道德衡量的尺子,时刻牢记不侵犯他人隐私的基本原则,权衡好受众的知情权和隐私权之间的关系,加强自律。
最后,从技术层面来看,目前大数据挖掘以及数据可视化技术已经比较成熟,但是规范数据使用、保护受众隐私的相关技术却很匮乏。因此,应加大对数据隐私保护方面技术的研发和使用,从根源处保护受众的隐私权。2013年2月,世界经济论坛针对大数据时代的信息隐私问题发布了题为《解锁个人信息的价值:从收集到使用》的报告,该报告指出大数据时代要依靠技术来保护个人隐私,将重心从监管转移到从源头限制数据的滥用。该报告称,新技术可以让个人控制自己的隐私信息,同时让重要的数据资产相对自由的流动,例如在大数据上增加可追踪和识别的标记。③
(作者单位:中央人民广播电台总编室)
(本文编辑:莫玉玲)