◎姜大为
(安徽广播电视台,安徽 合肥 230051)
传统的新闻采访较为复杂,记者获取信息往往要通过查询资料,现场目击采访,而大多采访运用的还是那种偶遇式采访调查,采集的样本还是随机样本,整个新闻采访的过程以记者独立调查为主。近些年来,媒介技术的不断进步,大数据的思维方式开始介入到新闻传播领域,新闻行业也开始了对大数据应用的探索。特别是在新闻采访中,大数据的创新应用为新闻信息采集的发展注入了新的活力。大数据时代,数据资源不仅是新闻采访中的重要元素,而且成为了变革新闻报道生产方式的重要力量。
传统新闻采访与大数据信息采集比较
众所周知,传统新闻报道式微的重要因素就是制作周期长,采访取证耗时耗力。大数据时代用数据采集这种采访方式可以让专业的记者把精力集中在对数据浅层信息源进行选择性的分析上,挖掘新闻的深层意义,有效提高记者的工作效率。
大数据时代调查记者在采访时可以在原有的基础上进行发展和延伸。传统的信息采集方式,记者需要通过调查走访或是在档案馆、资料室查阅。而在数据化时代,各种档案都有电子化的数据记录,调查记者可以经过核实后可以直接利用,更可以通过大数据技术对记录的数据进行分析处理。《南方都市报》为了调查城市空气污染指数,曾向全国31个省市的环保系统提出了公开PM2.5数据的申请,很快得到了10个省市的回应,其回复的速度比联系宣传部门采访要快得多。
在新闻报道的数据采集上,比较常见的就是直接采用公开发表的数据,主要有以下三种方式:第一,通过网络在线获取。第二,通过图书馆馆藏资源获取。第三,利用工具采集数据。这三种方式也是最高效的数据采集手段,目前国内媒体用数据来做调查报道最常见的是直接获取官方公布的数据信息。2020年1月武汉新冠病毒肆虐,对人民的生命造成了极大的伤害,每日新增的数据使全国弥漫着一种恐慌的情绪。起初处于对安全的考虑,央视开始并没有派出大量记者实地采访。为了消除恐慌情绪,央视在新闻报道多次引用了国家卫健委数据库里的数据,通过大数据比对深度解析了病例迅速上升的原因。国家卫健委的数据都是由各地上报汇总、及时更新,数据信源来自官方权威,可信度高。以央视2020年2月2日《新闻1+1》关于新型冠状病毒肺炎的报道为例,我们可以从图表中看到:
截至2月2日24时在病死率方面全国<湖北<武汉,全国范围除湖北以外的新冠肺炎致死率是0.18%,而武汉市却达到了5.15%。随后李兰娟院士在采访中对这组数据进行了解读,新冠病毒并不会因为病毒离开武汉会有所减弱,可能是由于在其他省份是几名医生对一名患者而在武汉是一名医生要面对多名患者,加之匮乏的医疗物资等原因造成在病死率方面武汉要远远大于其他地区。
对这种对时效性有要求的调查报道,可以清晰地看出数据采集的优势。记者着重于对数据的分析,以数据为主辅以专家采访来报道,可以在极短的时间内完成报道。报道中以数据来佐证新闻事实,短时间内向人们解读了前期新冠肺炎病毒致死率高的原因,以高效的手段在一定程度上消除人们的恐慌情绪。
图片来源:2020年2月2日《新闻1+1》节目截.http://tv.cctv.com/2020/02/02/VIDE0QnBmIUwa31L3ktKu9Un200202.shtml.
大数据技术的发展,样本数据更加丰富,使得调查的结果更加具有科学性。传统新闻报道遵循的是抽样的理念,通过样本来推断总体。但是任何记者在采访的过程中,都会受制于自身的视野和样本的数量,可能会对调查的结果带来伤害。大数据信息采集可以在一定程度上规避记者主观感受的风险,避免记者把相关性和因果性相混淆。传统的调查方法来了解采访对象,可能是通过对其相关联的人进行采访,来获取其信息。然而通过大数据技术我们可以通过社交网站、微信、微博的数据,分析人物关系来调查这个人,这样得出的结果可能更加全面。大数据对于新闻采访最大的优势在于其基于数据来源的多样化及海量数据分析下计算出的结果,准确度大大提升,在信息爆炸的时代给受众以安全感。
2014年央视新闻频道在“据说春运”的报道中,利用百度地图LBS定位了手机大数据,通过LBS这个平台对2亿部智能手机的用户进行定位,通过从获取的数据实时制作出中国春运迁徙图,整个过程没有和以往传统的调查报道一样派记者在各大火车站蹲守采访,其信息的获取全部是通过手机定位。在LBS平台下定位的信息是非常具有说服力的,因为这个平台的定位信息覆盖了十万以上个APP,每天定位信息数据达到十亿以上。[1]大数据分析的结果是北京和成都之间的路线是春运几天最热门的线路,这个结果与成都铁路局的统计调查结果不谋而合,这说明通过大数据分析精准地反映了当年春运的旅客迁徙轨迹。
大数据新闻报道方式更多的是一种从微观视角到宏观视角的转变,宏观层面的视角对于调查报道来说比微观视角更胜一筹。而有效加工的大数据可以更加真实、客观地揭示隐藏在事件背后的意义,大数据样本的科学性让新闻报道的结论更具说服力,提升了新闻采访的科学性。
大数据采集降低采访成本,节约人力物力。调查取证是新闻报道最重要的一个环节,而这个环节最大的劣势在于采访成本过高。在大数据技术的支持下,作为新闻记者不一定非要去新闻现场进行调查采访,可以通过对有效数据的收集和分析工具来挖掘对报道有价值信息。
大数据背景下,记者可以通过收集受众的数据来完成报道,有效的降低调查成本。英国《卫报》为了了解英国议员的消费情况,邀请了两万余名读者参加调查。缘起《卫报》的对手《每日电讯报》已提前获知英国议员违规消费的信息,为了回应受众不满的情绪,政府公布了所有议员近四年以来的消费情况,总计100多万份文件。这些未经整理的数据,仅仅通过记者或是新闻团队在短时间内是无法核实的。于是《卫报》将这100万份文件数据压缩成45万份在网上发布,并设计了一个让读者参与的软件,参与的读者可以领取数据。在调查项目上线的80小时内,就有1.7万份文件被读者审核完毕,使得作品最终得以呈现。[2]《赫芬顿邮报》在关于金融危机的调查中也曾发起过“Blogging the Meltdown”的项目,调查的内容主要是让公众填写经济下行对于生活的影响,在大规模的数据的基础上,集合受众的故事来完成,取得了受众很高的认同感。
大数据时代,记者除了通过直接在数据库索引数据还可以通过在互联网上发调查问卷的形式向读者来获取数据。以这种数据采集的方式完成来采访的前期准备,帮助媒体节省采访成本,具有一定的经济价值。
大数据技术对新闻采访带来诸多便利的同时,可能会带来一系列的风险。因为报道数据的来源可能不够客观,造成数据可能会“说谎”,以及记者在采访过程中数据素养的缺乏会导致一些伦理问题。因此,新闻媒体在利用数据进行报道的过程中必须对其产生的风险进行治理。
首先,记者做好数据“把关人”。记者在利用数据进行报道的过程中,务必要做好“把关人”。大数据时代,任何人通过互联网都能发布信息,越来越多渠道造成了信源的不确定性。记者在获取数据的时候首要的问题就是做好数据的核实工作。调查采访不可丢,数据收集结合实地调研,了解数据的背景和与之相关联的因素。具体可细化到:第一,记者对报道中逻辑和细节要有质疑的态度和批判性的思维,不能过分的依赖数据而造成事实的偏差。第二,记者不断对数据和报道内容核实,特别是对重要数据进行反复验证,辨别数据真伪。新闻媒体和记者在调查报道的过程中,数据收集一定要和调查采访相结合,交叉印证新闻事实才能提高调查报道的精确性。
其次,提升从业者数据素养。新闻高校培养专业人才,提升从业者的数据素养。由于历史原因,国内新闻院校的人才培养与社会的需求存在着脱节的现象。以往新闻报道的从业者大多是文科生,而现在的传媒行业一大趋势就是工科化,数据分析、编程、页面设计等人才都是市场所急需的。未来的新闻学院可能是偏向理科的,新闻学院一定是与设计学院、计算机学院、数学与统计学院相结合的,“新闻+技术+大数据”是未来培养记者的方向。
近年来,美国的密苏里大学、加州大学伯克利分校、纽约大学、学北卡罗来纳大学的新闻传播学院等高校都增设了数据新闻的课程。哥伦比亚大学设立了“新闻学—计算机科学”的双硕士学位,由新闻学和计算机专业的老师联合授课,除去学习新闻传播学知识还要学习大数据与编程的课程,由专业记者兼大数据专家Jonathan Strays授课,培养的学生未来可以从事调查报道的数据分析、线上编辑、互联网设计员等工作,这种学科交叉的培养模式已经成为了共识。为了满足大数据背景下媒体对于新闻数据人才的需求,国内的新闻院校也陆续开设了大数据相关的课程,逐步解决新闻队伍中数据人才匮乏问题。中国传媒大学、清华大学、中国人民大学、复旦大学、武汉大学等高校也都相继开设了数据新闻的课程。开设数据新闻课程的同时,高校应该加强与企业的合作建立数据新闻人才基地。目前财新传媒数据可视化实验室、网易数读、新华网数据新闻等知名媒体与高校已经建立了合作关系,这为未来数据新闻人才的培养提供了重要的实践平台。阿里巴巴和重庆九所高校签订了协议,部分核心课程由阿里云大学承担,利用企业这个平台来培养大数据人才。
记者提高数据素养可以从以下两个方面的入手:
第一,在报道中要保证调查数据的真实性。所谓数据的真实性不仅仅要求数据的出处具有权威性,而且要求采集的是全面的数据。应用数据的目的是为了反映客观事实,而不是为了获得需要的结论而片面的选择数据。在报道中,对数据的实际用途有着深刻的认识,记者需要对数据功能的边际有着深入的了解,同时也需要了解到自身所存在的局限性,在对大数据进行评价时,记者需要表现足够的客观、理性,保证数据的合法性。大数据背景下,在报道的生产过程中,数据的作用举足轻重。这就要求从事报道的新闻机构和个人在技术上要发展加密技术,在思想上要做到行业自律,与此同时政府职能部门加强对数据的监管。多方努力,才能保证数据的合法性。
第二,记者提高数理统计能力,科学运用数据。国内不少的调查报道在数据的使用中几乎都是数字的堆叠,以这种方式呈现出来的报道除非是专业人士,普通受众几乎是不会去看的。因此,记者在面对这些堆叠的数字中要能寻找到对受众有意义的数据,并能结合数据进行深入的采访和挖掘。在报道生产的过程中会需要用到大量的数据,对此从事采访的新闻工作者需要表现出高度敏感性,真正地喜欢运用数据,提高审核数据、分析数据的能力。在数据的基础之上做出决策,针对数据,从业者需要真正的拥有从数据中找到问题以及反思批评能力。
最后,数据采集遵守新闻伦理。从当前数据报道的新闻实践来看,在数据采集和数据应用和数据展示层面引发了一些新的职业道德问题和新闻伦理的问题。让受众牺牲个人的数据利益来为媒体采集信息,而由此产生一些风险和后果都是不合理的,有违新闻伦理。媒体在利用数据进行采访的时候,要充分考虑到公众的利益,要对公众负责。因此,记者在采访报道过程中,还必须遵守以下几条原则:
第一,尊重公众利益。利用数据进行采访报道,不能以损害公众利益为代价。记者在采访的过程中要告知采访对象有关个人信息采集及处理的注意事项,必须获得数据采集主体的同意。媒体在收集了大规模的用户数据后,就需要对这些数据进行深入挖掘以及分析,此时制作机构需要与相关利益人进行充分的沟通,有效的了解其中所存在的潜藏风险。必须要将尊重原则落实到实处,给予弱势公众以平等对待。对于数据应用的媒体来讲,需要采取一系列的措施来保障匿名信息,使得个人信息尽可能不会出现泄漏的情况。
第二,公平参与原则。新闻报道最大的作用就是要维护社会的公平正义。大数据时代,数据公平是报道客观公正的起点。采访报道中要充分考虑数据鸿沟的情况,必须要对这种现象进行规范,遵循公平公正原则,采集数据时兼顾大部分群体的利益,在分配数据资源的过程中尽量地体现出公平,采取必要的措施,使得数据鸿沟尽可能地缩小。在开发及应用大数据技术的过程中,给与公众平等的机会参加调查报道的权力,同时这样权利也是不容任何组织与个人侵犯的。
第三,公共利益优先原则。个人利益与公共利益发生矛盾时,要优先保障公共利益。在西方国家,个人信息要涉及到公众利益就不属于隐私了,因此隐私权是有可减性的[3]。采访报道的目的之一在于维护公共的利益,在调查报道中若因公共权益使用到个人数据,新闻媒体必须权衡利弊,牺牲一部分个人的数据权力。但可以利用技术手段对个人数据进行加密处理,但必须将这种伤害降至最低。目前我国新闻界在数据应用伦理方面尚未有完备的规范体系。一般较为普遍的观点是:政府对外公布的数据可以作为获取的数据源。绝不能以记者一己私利来侵害公众的合法权益,当个人隐私与公共利益相冲突时,记者要根据法律法规,得到有关部门授权后方可利用数据来进行报道。
在利用大数据进行新闻采访时,我们既要承认它的实用价值,又要认识到它的局限性。在采访中将数据为我所用,不能沦为技术的奴隶。新闻工作者只有理解大数据在新闻采访中的利弊,做好新闻报道中的风险治理,才能充分地发挥大数据在新闻报道中的作用,从而体现大数据在新闻采访中的力量和价值。