基于第三届中国数据新闻大赛入围作品的实证研究

2019-09-10 07:22陈积银冯娇
教育传媒研究 2019年1期
关键词:作品统计分析

陈积银 冯娇

【内容摘要】当下,数据新闻的选题范围越来越广,技术支撑越来越多样,学科知识越来越交叉,交互性越来越强,传播平台越来越重视移动端的呈现,用户或者受众的口味越来越挑剔,传播的范围越来越广。本文以中国第三届数据新闻大赛的入围作品为研究对象,从议题设置、数据质量、可视化呈现、技术运用四个方面进行统计分析,探析目前中国数据新闻实践存在的不足之处,并对未来发展应注意的问题等提出建议。

【关键词】数据新闻大赛;统计分析;作品

数据新闻即数据驱动新闻,是“基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式”。目前,数据新闻在全球掀起一股浪潮,影响着新闻界的未来发展方向。中国高校和媒体对于数据新闻的研究和实践起步较晚,但近年来国内数据新闻发展如火如荼,学界和业界都对此作出了有益的探索。学界对数据新闻的相关研究近两年来呈快速增长趋势,研究的深度和广度都大幅提升。此外,数据新闻教育也逐渐得到了国内高校的重视,不少高校都相继开设了数据新闻相关课程。在数据新闻学术研究热度高涨的同时,业界实践也取得了蓬勃的发展。主要包括网易的“数读”、新浪的“图解新闻”、搜狐的“数字之道”、腾讯的“数据控”以及新媒体平台上财新网的“数字说”、新华网的“数据新闻”、澎湃的“美数课”和“百度”的“数据新闻实践”等。

为推动中国高校新闻传播教育和业界新闻业态的数字化转型,首届中国数据新闻大赛暨数据新闻教育研讨会和第二届中国数据新闻大赛暨腾飞新丝路传媒高端论坛分别于2015年6月在西北师范大学和2016年5月在北京师范大学举办,大赛获得了国内外的广泛好评。在前两届数据新闻大赛圆满落幕的基础上,第三届中国数据新闻大赛于2018年6月29日至30日在西安交通大学新闻与新媒体学院举办。本次大赛吸引了业界学界300多个团队、1500多人参与报名,共收到数据新闻作品360余件,网络投票点击量超过110万人次。除了在高校引起广泛关注外,本届数据新闻大赛也得到了业界的多方支持,大赛开办的消息发出以来,吸引了人民舆情数据中心、北京电视台、澎湃新闻、第一财经、《深圳晚报》、川报集团大数据工作室等机构的积极参与。

本文拟对本次数据新闻大赛的50件入围作品进行分析,以展现当前数据新闻在议题分布、数据来源、数据处理和可视化等方面所呈现出的特点。

一、选题设置:由表及里、以小见大,更为关注当代人的生存现状

对第三届数据新闻大赛入围决赛的50件作品的主题进行分类,分别为经济、文化、社会、政治、教育和其他。在本届大赛不限定主题的情况下,入围的50件作品中,社会新闻占比高达38%,是本届大赛作品关注最多的领域;其次是经济新闻,占比20%;政治新闻占比16%;文化新闻占比14%;教育新闻占比较低,仅占2%;其他类型主题占10%(详见图1)。

本届入围作品广泛关注了人们的健康、就业、社会保障、交通出行等方方面面的问题,由表及里、见微知著。如《北京养老:问题与改革并行》《良禽择木,人才择城:最适合你发展的二线城市》《在扩大的那一线希望》《诞生有罪,结婚无罪?》《何以安居》《董小姐的故事》《中小学生书包越减越重》《失焦—中国视障群体的生活现状报告》等。都在密切关注当代人的生活现状,关注社会发展存在的问题,同时也充满了深刻的人文关怀。就具体的案例而言,香港城市大学的作品《单身有罪,结婚无罪?》便是从第四次单身浪潮入手,分析当下已然成为一种社会问题的单身现象,分析导致越来越多年轻人选择这种生活方式的深层原因,重点剖析了父母与子女在婚姻问题上的分歧,揭示了中国当代青年日益沉重的“逼婚”压力。

二、数据来源与数据处理工具:多元化与丰富性增强

数据新闻需要通过数据关系揭示新闻背景及深层次原因,通过数据关系梳理事件的相关性以及建立规律和预测模型。因此,数据质量至关重要。

(一)数据来源:数据的运用多元化,非政府、企业类来源增加

本届数据新闻大赛入围作品的数据来源主要分为五类:一是媒体;二是政府;三是非政府组织、企业;四是研究机构、院校、学者;五是自行搜集(如通过实地调查、采访、互联网平台及其他渠道直接收集第一手信息)。

在本届大赛入围的50件作品中,使用的数据来源呈现多元化特点,有三个或三个以上类别数据来源的作品占30%,两个类别数据来源的作品最多,占40%,只有一类数据来源的作品占30%。可见,采取多种类型数据来源的作品占据绝大部分。在数据来源类别分布方面,在入围的50件作品中,使用了非政府组织、企业类别来源的作品达36件,占比72%,成为本届入围作品使用率最高的数据来源类别;其次是政府类来源,占比46%;媒体来源占比26%;研究机构、院校、学者类占比24%;自行搜集类占比14%。本届作品非政府组织、企业类数据来源使用率较高的原因与选题类型密切相关,本届比赛社会、经济类选题占比最高,政治类仅占16%。同时也与近年来各种商业数据库的勃兴有很大关系,如沃德社会气象台网络情报实时监测与智能分析大數据平台等,这些数据库拥有海量的各类数据源,为数据新闻实践提供了极大便利。

从具体作品来看,浙江大学城市学院作品《希望之声—AI语音技术创造新未来》利用了国家统计局、环境保护部、浙江省卫生计生委、浙江省疾控中心、国家卫计委等多个数据来源,类型上以政府来源为主;DT财经的作品《重新认识地铁上的上海》则主要以企业数据为主,使用了百度地图、美团点评、e成、ofo小黄车、中原地产等数据来源;西北师范大学作品《电子时代下,实体书店何去何从》使用了镝数数据库、沃民高科大数据平台等商业数据库;华南理工大学作品《单身有罪,结婚无罪》则采用数据抓取工具对豆瓣、知乎、百度贴吧相关数据进行人工抓取。入围作品中无论是数据类型还是获取手段都呈现出多样化的特点,多样化的数据来源能使数据新闻的类型和内容更丰富,但在选择来源时须更谨慎,保证所选择数据的真实性和准确性。

(二)数据处理:工具种类更为丰富,新闻业务更加精细

数据新闻要求在大量数据中通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识。本次大赛入围作品共出现21种数据分析工具,本文将出现过两次或两次以上的工具单独列出计算比率,仅出现过一次的工具统一归入其他类别(如图2所示)。入围作品中使用频率最高的数据分析工具是Excel,使用Excel进行数据分析的入围作品占总数的86%,其次是Python,占比23%,SPSS占比18%,ableau和SQL分别占比14%,R语言、Echart和openr efine各占比9%,其他13种仅出现过一次的工具占比59%。值得一提的是,虽然各种技术工具已经十分普及,但是手动进行数据分析作为一种辅助方式,依然在多个作品中发挥作用,占据比例45%。从对数据分析工具的统计中可以看出,数据新闻制作者在克服技术难关上作出了积极的努力。

体现在具体的作品中,香港中文大学的“KFC and McDonald’s Social Media Analysis”中,先使用Python爬取推特上麦当劳与肯德基的推文内容、发帖时间、推文点赞量以及推文转发量,再使用Knime爬取脸书上麦当劳与肯德基的贴文内容、发帖时间、帖文点赞量以及帖文分享量,然后使用Excel对所获取的数据进行筛选和分析。澎湃新闻的作品《我的汶川记忆》中,使用SQL对数据库中的UGC内容进行包括排序、聚类、字段匹配、搜索等数据挖掘,在借助Python的同时,利用jieba分词进行文本分析。

三、数据的可视化呈现:技术更加成熟,呈现效果更注重阅读体验

与传统新闻相比,数据新闻的可视化通过对海量复杂数据、地理或时间等相关信息以兼具形象化与趣味性的信息图表的方式展现给用户,化抽象为具象,与传统的新闻报道相比更直观生动,更具易读性,给受众提供了更好的阅读体验。在具体的新闻报道中,数据可视化工具可以起到提示信息要点、解析时间进程、解释各类关系、呈现分布状态等作用。

(一)可视化设计:呈现形式多元化、交互性

与传统新闻相比,大数据时代的数据新闻越来越注重版面设计的交互性以及创意的表现。其接收的信息和视角可以由受众自行定义,将受众带入新闻中,受众的自主性和个体性得到实现和尊重。同时也提高了新闻报道的精度,尽可能为受众呈现庞大的社会事件全貌。由图3可看出,本届入围的50件作品中,运用静态图的作品所占比例最大,有40%之多,运用动态交互式信息图的作品次之,占32%,二者同时使用的作品则占28%。

体现在具体的作品中,中国传媒大学的《互联网江湖,谁主沉浮?》运用D3技术制作出散点图和数据转换的动画效果,使用ScrollMagic技术制作网页滑动交互效果,从多个维度展现了近两年来阿里巴巴和腾讯的投资、收并购情况,以及其在互联网领域的垄断现象。使得数据呈现形象、流畅,给人眼前一亮的感觉,极具可视性。不论是静态图,还是动态交互式信息图,只要符合所用数据自身的规律特征,能够清晰地刻画出数据间隐藏的规律,揭示其背后的意义,呈现出完整而有价值的数据新闻作品,就是成功的数据可视化设计。

(二)可视化工具:工具种类越来越丰富,可视化处理注重感官体验

本届数据新闻大赛入围作品50件,在各个作品所使用的可视化工具中,共出现47种工具,本文将出现两次及以上的工具进行单独统计计算,出现一次的工具统一归入其他类别。

从图4可以看出,在出现的47种可视化工具中,Photoshop的使用率最高,达到43%,50件入围作品有22件采用了Photoshop作为实现数据可视化的工具,Echarts紧随其后,占比高达30%,Tableau占比19%,镝数和EXCEL分别占比15%,Html占比13%,Wix、Adobe Illustrator、Pr分别占11%,Adobe Effect、CSS分别占9%,JavaScript、Flash、D3分别占6%,Piktochart、Tagxedo、PPT、地图慧、百度图说、BDP、Dreamweaver、Jquery、tagxedo、RAW、Visual Studio Code分别占4%,其他僅出现过一次的工具合计占比47%。可见,本届大赛用于可视化的工具种类非常丰富,并且大部分作品都使用了两种以上的可视化工具。

表现在具体的作品中,西安交通大学的《中小学生书包越减越重》,运用H5技术作为数据可视化工具,使得作品在移动端能够得到更好地呈现,页面内容以动态形式次第出现,极具动感,背景音乐的加入给读者以更丰富的感官体验。

四、总结与反思

大数据时代正在改变着我们的生活方式和生产方式,新闻业也受到了影响,学界参与数据新闻大赛的积极性让数据新闻的发展有了一定的后备力量,同时也反映了各高校对数据新闻持续增高的关注度,业界也通过改革新闻生产流程与机制,运用数据思维和多样化的手段不断进行数据新闻的实践与创新。本届数据新闻大赛入围作品呈现出的特点及不足之处主要体现在以下几个方面:

第一,从议题的选择方面来看,本届入围作品更加关注与人有关的方方面面的社会问题,以人为本,立足当代人的生存状态,相比以往体现出更多浓厚的人文关怀。但存在的问题是,描述性比较强,停留在浅层次上的问题披露、现象描述层面,而对解决问题的方法、途径的探索是大部分作品所缺失的。

此外,在本次入围的50件作品中,涉及世界性议题的仅占10%,分别是上海外国语大学的A Long Way Home,探讨澳洲政府针对中国移民的政策;西安交通大学的《数说全球媒体视域下的中美贸易战——零和博弈,你输我赢?》;河北工业大学作品《数说中国援非这些年》;西安交通大学的《小桑丝路游学记》;以及香港中文大学的KFC and McDonald’s Social Media Analysis。可见国内高校在数据新闻议题选择上较多地局限于国内问题,缺乏广阔的国际视野,而在仅出现的5个国际议题上涉及政治议题4个,经济议题1个,议题类型比较单一。由此可见,开阔视野、加强对国际性、世界性议题的关注是现阶段数据新闻实践应着力加强的部分。

第二,从数据质量上观察数据新闻大赛的入围作品,可以发现数据来源大多是各种公开提供数据的机构、组织或者网站,这种来源相对方便,准确度、权威性也比较有保证。但是毕竟类型有限,数据的广度、深度不够,制作出的数据新闻也难免会受其局限。一方面,用户自主挖掘数据的缺失,使得数据新闻的深刻性受到限制;另一方面,大多数数据新闻中标注的数据来源只是注明了数据源所属机构的名称,读者根据这些信息很难找到数据新闻所使用的具体数据。因此,对数据新闻就只能停留在浏览信息的层面,既无法通过数据对其进行查证复盘,也无法就自己感兴趣的做进一步了解。

造成这种情况的一部分原因是数据新闻未形成统一的信息公开标准,数据新闻建立在海量的数据基础上,数据的客观、真实、准确是数据新闻真实性、客观性、可靠性的重要基础。数据新闻公开自己的数据源是他人对其进行复盘、验证和二次开发的必备条件,这也从侧面展现了数据新闻生产者对自己所用数据的自信。但是,现阶段数据新闻数据源公开得仍不很理想,使得数据新闻与用户之间,以及数据新闻生产者之间的交流沟通受阻。建立完善的数据公开机制,加大数据的开放力度是改善这一现状的可行手段。

第三,从设计来看,数据新闻大赛入围作品的可视化手段中,静态图所占的比例相对较大。静态图的好处是加载容易、浏览更为流畅,但其局限性也十分明显,与动态交互式图相比,静态图对数据的包容度和表现力相对较低,也难以实现与用户的有效交流互动,无法有效地吸引用户的注意力。在本次入围作品中,交互式动态图的比例较往届有所增加,主要的体现形式是随着读者点击图的不同部分,会展示出专属于此部分的个性化信息,使读者与动态图产生互动,从而增加图的信息容量和趣味性。

数据新闻作为新闻的一种新的呈现方式,极强的可视性是其不同于传统新闻的一大优势,①如何更大程度地发挥这一优势,仍是数据新闻制作者需要深思的问题。但需要格外注意的是,随着数据新闻实践者在可视化技术方面的努力,越来越多的作品在可视化技术的运用上日益成熟,表现形式更加丰富多彩。不过,数据新闻的核心本质仍是新闻,而非可视化技术,为防止近年来出现的“数据唯大”“技术崇拜”等极端思维,在对数据新闻进行排版布局时,不宜过度追求感官刺激而忽视了新闻的叙事性使命。

第四,从技术运用来看,本届数据新闻大赛入围作品使用了多种多样的数据发掘、数据分析和可视化工具,借助技术的力量将大量信息通过图像、视频、音频等方式呈现出来,给受众以丰富的感官体验,极大提高了数据新闻的可视性和吸引力。由此可见,技术型人才对于优秀数据新闻作品生产具有重要意义。但是现阶段数据新闻相关技能的培训仍处于规模有限、人数不多、时间较短、不够深入的状态,这使得高质量的数据新闻核心人才相对稀缺。

第五,尽管国内的数据新闻取得了长足发展,但是在当前数据新闻发展的过程中,还有以下问题需要加以注意:

一是数据的使用问题。数据大不代表大数据,数据里的真实性需要加以辨别,数据的代表性也需要加以分析,不能因为数据是海量的,就得出这个数据一定是真实有效的。现阶段数据造假,“网络水军”等对数据的污染很严重,②所以在数据的处理方面一定要去伪存真、去粗取精。

二是防止唯数据论英雄。数据是为新闻服务的,新聞是为人服务的,所以利用数据讲故事才是数据新闻的核心。现阶段部分数据新闻为数据而数据,一味强调数据,而忽视了从数据背后挖掘相关故事和新闻价值,这是亟须注意的问题。

三是可视化方面不能一味地求酷。可视化是新闻更有效讲好故事的一种方式。不能说交互的就一定比静态的好。可视化要围绕故事展开,而不能忘记新闻的本真。现阶段,中国数据新闻方面的人才依然偏少,尤其是技术型的人才更少。所以,加强数据新闻技术人才培训是当下数据新闻教育的重头戏。数据新闻技术是不断更新的,不是一劳永逸的。所以,数据新闻人才需要保持终身学习的心态,不断探索各种前沿技术。

总之,我们既要看到,作为一种相对较新的新闻样式,数据新闻带给学界和业界很多惊喜,但也应对包括但不限于数据新闻在内的新技术保有应有的理性,用古人的话说,是“君子善假于物”,而不是“物反作用人”。

注释:

①数据新闻,又叫数据驱动新闻。是指基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。数据新闻在大数据技术的推动下发生质和量的飞跃。数据新闻是随着数据时代的到来出现的一种新型报道形态,是数据技术对新闻业全面渗透的必然结果,它的出现在一定程度上改变了传统新闻生产流程。

②张超:《大数据时代新闻业的展望与迷思》,人民网,http://media.people.com.cn/n1/2016/0308/c402790-28182076.html,2016年3月8日。

猜你喜欢
作品统计分析
巧用比较分析方法突破诗词鉴赏难题
做优秀记者:如何从一般素材中“挖”重大新闻
如何发挥新时期统计工作的作用之我见
对丁旭东音乐作品的探究和分析
简论20世纪的法国文学潮流
以统计分析为基础的房地产税收优化分析
SPSS在高校图书馆服务体系中的应用研究