柳 竹
(南京政治学院,江苏 南京 210000)
恩格斯说:“在科学上,一切定义都只有微小的价值。”目前,学界和业界对于大数据的概念并未形成共识。我们不妨转变思路,从大数据的各个侧面,以期窥其全豹。
舍恩·维克托·迈尔伯格所著的《大数据时代》被认为是当前研究大数据的集大成之作。国内学者多引用来自该书的大数据定义,即,需要处理的信息量过大,已经超出了一般电脑在处理数据时使用的内存量。[1]该定义突出强调了大数据的“数据规模大”这一特点。国内学者对该定义进行了丰富和发展,如彭兰教授认为大数据的概念,首先是指信息量或者数据量的巨大。数据的计量单位,已经从传统的G、T,发展到P、E、Z、Y。[2]栾轶玫教授进一步指出,大数据除了量的巨大之外,还是存在关联的数据。[3]
(1)大数据的特征。根据IBM 的解释,大数据的特点可以由“4V”来概括,即Volume,Velocity,Variety,Veracity(一说value)。具体而言,volume 指数据体积庞大,一般指在10TB(1TB =1024GB)或跃升到PB 级别的规模;Velocity 指数据处理速度快,基本能够做到对数据的实时处理,有“1秒定律”之称;[4]variety 指数据类型多样,改变了以文本为为主的单一存储形式,代之以图像、动画、音视频、地理位置信息等多类型数据。这种形态的数据通常被称为半结构化和非结构化数据。[5]Veracity(一说value)指数据价值密度低,大数据的数据规模庞大,但并非所有数据都对我们有用。
(2)大数据的数据来源。《大数据时代》一书认为,大数据的庞大数据主要由三个部分组成:以政府企业为主的海量交易数据、以社交媒体为主的海量交互数据、和以大数据挖掘与应用技术为主的海量数据处理。例如,淘宝网服务器基于用户购买行为的统计数据。
(3)大数据处理的三个特点(大数据思维)。面对如此庞杂的大数据,需要与之相适应的数据处理思维。《大数据时代》一书的作者认为大数据处理的三个特点即大数据思维,包含三个方面:总体样本取代随机样本;对不精确的容忍度增加;相关关系取代因果关系。
正如“罗马不是一日建成的”,大数据新闻也不是一夜就有的。大数据新闻既是新闻报道追求新闻客观性的必然趋势,又是在大数据背景之下数据新闻的进一步完善。这两部分共同构成了大数据新闻的源起。笔者主要从历史的角度加以梳理。
(1)澄清两组相关概念——大数据新闻与数据新闻。一部分学者将大数据时代兴起的新的新闻生产方式称为大数据新闻;另有一部分学者将其称之为数据新闻。澄清这两组概念是我们研究大数据新闻源起的基础。数据新闻(Data Journalism),也称数据驱动新闻(Data-driven Journalism),是“基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。”[6]大数据新闻大数据新闻是基于大数据分析思维的新闻报道,是数据驱动新闻更高一级的形态,代表了未来新闻发展的一种趋势。目前的大数据新闻更多是停留在实验性阶段,预计在 2020 年以后或者更晚一些时间,大数据新闻的规模化生产会逐步到来。[7]从这个语境来看,学者们所指的大数据新闻和数据新闻其实是同义反复。从狭义上来看,数据新闻是指数据驱动的新闻,从广义上来看,数据新闻是指将大数据运用于新闻实践的重要表现形式,是新闻学形成和发展的新领域。因此,学者们将数据新闻的外延有所延伸。当人们提及大数据时代下的数据新闻时,约定俗成地将它赋予了大数据新闻的含义。
(2)数据新闻(狭义)是新闻报道追求新闻客观性的必然趋势。数据新闻(狭义)是新闻客观性原则一度被颠覆、纠正之后形成的。20世纪30年代,解释性报道方式在新闻业界兴起。这一报道形式强调运用动相关背景资料对新闻事件的来龙去脉进行阐述,因而不可避免地融入了报道者的主观性,动摇了新闻的客观性原则。20世纪60年代,新新闻主义和调查性报道的新闻报道方式几乎同时兴起。新新闻主义以文学创作的手法报道新闻,彻底颠覆了新闻的客观性原则,最终受到媒体人和受众的严厉批判。而调查性报道兴起于越南战争,水门事件是其巅峰。调查性报道彻底抛弃了新闻客观性的原则,而向故意与当局挑战的态度发展。这样,新闻业在经过半个多世纪的试错和纠正之后认识到,新闻的客观性对于新闻报道满足受众“知”的需求至关重要。数据新闻的雏形——精确新闻报道应运而生,新闻报道继而朝着一个更加客观、公正、全面的方向迈进。
(3)大数据新闻是数据新闻(狭义)在大数据背景下的进一步完善。数据新闻的发展主要经历了三个发展阶段,[8]包括尚未成熟的大数据新闻在内历经五种新闻报道形式。从中我们可以看着数据新闻的发展是伴随着相关数据处理技术的进步而发展的,因而,大数据时代,数据驱动新闻向大数据新闻的跨越也就变得不言而喻了。第一阶段,20世纪60年代到70年代,随着抽样技术和计算机技术在新闻报道领域的广泛应用,精确新闻报道方式兴起,为新闻报道提供了更高的精确度。有助于新闻客观性被忽视和扭曲后的重塑。第二阶段,20世纪80年代到21世纪初,出现了三种类型的数据报道形式,即20世纪80年代的电脑辅助报道,20世纪90年代的数据库新闻,21世纪初期的数据驱动新闻。这三种类型的新闻报道方式均得益于计算机强大的数据处理功能。第三阶段,即大数据新闻,主要是基于互联网及其衍生技术平台实现的以大量数据搜集与分析为主要工具而生产出来的新闻,将大数据思维内化到传统数据新闻生产、实践当中,是数据新闻在大数据背景下的进一步完善。
新闻的客观性原则可以分为两个层面:一个是理念层面,一个是操作层面。单就操作层面而言,新闻的客观性原则主要表现为:将事实与意见(包括价值判断)分开、以超脱情感的中立观点表述事实、努力做到公正和平衡,为涉及的各方提供应答机会。[9]大数据时代的到来果真能像大数据迷思的拥护者所期望的那样,促进新闻的客观性么?笔者必须以审慎的态度回答这个问题。
(1)大数据相关技术手段仍不成熟。大数据属于舶来品,在国内新闻领域尚处于试水阶段,有一系列的技术问题有待攻克。主要涉及数据的存储、提取和统计技术。例如,大数据庞大的数据量大大超过了硬件技术的发展速度,引发了数据存储的危机。再如,大数据新闻的立足点和归宿在于通过记者对于庞大数据的分析、处理以达到受众的轻量和简化阅读,关键在于记者运用计算机信息处理技术并结合数学、统计学等知识提取、分析数据。但现阶段记者还不具备这种大数据分析能力。总之,没有成熟的技术依托,大数据对新闻领域的作用甚微,对新闻客观性的促进作用甚微。
(2)大数据时代“把关人”机制仍然存在。大数据迷思的拥护者认为,大数据时代,记者报道新闻的第一手资料是数据,而不是对于“人”的采访。因而从新闻制作的源头上即保证了新闻的客观性。但大数据强调对全体样本的分析,单个数据的信息密度较低,导致了大数据新闻在题材选择上受限,主要以统计类的新闻题材为主。因此,在其他题材新闻报道中,新闻生产仍遵循就有的生产模式。记者、编辑充当了信息“把关人”的角色,对每日发生的可能具有新闻价值的信息进行筛选、报道、整合。在此过程中,报道者的立场、倾向、态度将有意无意地渗透在新闻报道文本中,新闻的客观性仍然难以保证
(3)大数据难以规避虚假信息,有损新闻的客观性。在大数据时代,信息成爆炸性增长,信息公开与资源共享使得信息获取成本不断降低趋于零。大数据的数据来源有一部分来自散步在互联网信息。互联网的匿名性导致网络有时成为不理性民意的宣泄口,不实信息、虚假信息与真实信息混杂,给大数据提取、分析、统计工作带来一定难度。一旦虚假信息未经甄别地纳入全体样本的范畴,数据分析结果就会发生偏差,对新闻的真实、客观性造成程度不同的冲击。
[1] 维克托·迈尔·舍恩伯格(英),肯尼思·库克耶.大数据时代生活、工作与思维的大变革[M].浙江人民出版社,2013.
[2] 彭兰.“大数据”时代:新闻业面临的新震荡[J].编辑之友,2013(1):6-10.
[3] 栾轶玫.大数据重塑媒介生态[J].视听界,2013(4):23-27.
[4] 倪宁.大数据时代的传播观念变革[J].西北大学学报(哲学社会科学版),2014,44(1):139.
[5] 朱金莉.大数据时代对传统新闻媒体的颠覆与嬗变[J].学术论坛,2015(1):153.
[6] 方洁,颜冬.全球视野下的“数据新闻”:理念与实践[J].国际新闻界,2013(6):76.
[7] 喻国明.从精确新闻到大数据新闻——关于大数据新闻的前世今生从精确新闻到大数据新闻[J].青年记者(下),2014(12).
[8] 祝建华.从大数据到数据新闻.新媒体与社会.第四届新媒体与社会发展全球论坛暨中美新媒体与社会发展双边研讨会[Z].
[9] 陈力丹.新闻理论十讲[M].上海:复旦大学出版社,2008:112.