□文│张志安 曹艳辉
随着互联网、物联网、传感器、云计算等信息技术的发展,人类进入数字化生存时代,个人的表达行为、搜索行为、交易行为、移动行为等都被数字化记录和存储,构成海量、多样、变动、真实的大数据。2012 年格雷布林克在《纽约时报》的一篇专栏中宣称,“大数据时代”已经来临。自此,大数据迅速升温成全球性话题,甚至上升到各国发展的国家战略层面。哈佛大学教授加里·金更是预言,大数据是一场“革命”,它将改变社会各个领域的发展方式和进程,“无论学术界、商界还是政府,所有领域都将开始这种进程”。
大数据资源和技术能否带来新的研究范式,给“理论贫困,内卷化严重”(李金铨语)的新闻传播研究提供理论与方法上的创新?在实务层面,大数据将如何影响新闻生产、广告营销等实践,是否会给处于焦虑转型期的新闻业带来新的发展机遇?倚重数据挖掘的认知思维和实务操作是否会引发新的法律伦理风险?针对这些问题,我们以“大数据”(big data)作为检索关键词,对 2011-2016年间发表在新闻传播学领域 SSCI、CSSCI 期刊及少数专业期刊上的相关研究成果进行回顾,评述大数据语境下的新闻传播学研究热点并进行反思,以期为大数据时代的新闻传播研究创新提供一些启示。
帕克指出,“大数据方法和资源变得日益重要,是因为它能提供其他方法无法获得的数据和洞察”。[1]理论驱动的大数据实证研究是指运用大规模数据和大数据方法所进行的实证研究,其目的是为了理论检验或理论修正,而非对大数据进行解释、背书、批判,或对大数据在新闻传播实务中的运用进行点评、预测。相关研究集中发表在新闻传播类 SSCI 期刊上,研究对象涵盖传播主体、传播内容、传播过程、传播效果等范畴,涉及政治传播、健康传播、风险传播、跨文化传播、组织传播等研究议题,而国内期刊上鲜有相关研究。
互联网的兴起正在重构人们的连接、表达与交流方式,也激发了研究者对公共领域、民主协商的想象与争议。许多学者在探讨,网络新媒体是在复兴自由讨论的“公共领域”,还是在强化同质化联结的“回音壁”(Echo Chamber)效应?网络传播究竟是去中心化,还是再中心化?针对这些争议性问题,一些学者突破以往基于有限样本或单个事件的研究范式,尝试利用推特、论坛等平台上的大数据对传播主体及关系网络进行研究。
政治同质化问题非常重要,关系到网络媒体是支持公共领域的形成还是助长党派的群体极化,但以往研究聚焦于个案研究。科莱奥尼等人[2]根据美国推特用户分享的内容来识别其政治立场,然后创新性地根据民主党用户(n=782,371)、共和党用户(n=72,302)、民主党官方账号(n=108)、共和党官方账号(n=130)之间的社交关系网络分析(每一个节点代表一个推特用户,连线代表推特用户之间的粉丝关系)来计算推特用户的政治同质化(指推特用户的社交关系网络中,与之具有相同政治立场的推特用户所占的比例)程度。研究发现,民主党人的社交关系网络呈现出更高的政治同质化现象,共和党人对共和党官方账号的关注程度高于民主党人。而在具有互粉关系的网络中,推特用户的政治同质化程度更高。由此,研究者建议应该考虑政治文化、用户行为对网络政治同质化的影响。该研究突破了以往个案研究的局限,呈现了主流社交媒体平台上的政治同质化全景、解释了影响政治同质化现象的重要因素,这对中国网民的同质化研究同样具有启示作用。
另有一些研究表明,互联网确实改变了传播主体的权力结构,但占中心位置的传播者不一定导致实质性话语垄断,这对精确测量网络意见领袖和辩证看待网络传播中的权力结构具有借鉴意义。例如,弗里龙和卡普夫[3]以 2012 年美国总统竞选电视辩论有关的 190 万条推文作为研究对象,将评论人分为传统政治精英(政客、主流媒体及记者)、桥接型精英(娱乐明星、运动员及其他名人)、非精英(戏谑账号和普通账号)三大类。通过对评论人之间的转发关系进行网络分析后,发现非传统政治精英在网络中处于中心位置,尤其是针对罗姆尼的评论,非精英账户的评论远比政治精英受欢迎。另外,格雷厄姆和赖特[4]分析了一个论坛的发帖主体,发现该论坛有 2052 名高级发帖者(superposters),仅占发帖者人数的 0.4% ,却贡献了 47%的帖子(n=25,000,000)。但进一步对其中 25 名高级发帖者的发帖内容(n=40,044)进行质化分析后发现,大部分帖子并没有阻止其他用户发帖或攻击别人。
社交媒体日益成为公开表达、舆论演变的重要场域。社交媒体上的自我表达或内容生产呈现哪些规律?社交媒体平台的政治传播遵循什么逻辑?如何通过社交媒体大数据获知公众对风险议题的情绪态度?一些研究者试图通过对大规模的社交媒体文本数据分析来回答这些问题。
已有研究发现,社交媒体上的自我呈现、内容生产受文化因素、发布终端等因素影响,这些研究不仅突破了以往小样本调研和实验法的局限性,而且使文化、表情、情绪等抽象或难以测量的概念得以精准量化。例如,帕克等人[5]基于“传播中的文化差异理论”和“面部表情的心理学研究”提出研究假设,然后通过推特大数据比较了不同文化群体在表情符号使用中的差异。该研究采集了 2006~2009 年间 78 个国家 5400 多万推特用户发表的 17 亿多条推文,研究证明来自个体主义文化的用户更喜欢使用水平型的表情符号(如 :)或:-))来表达情绪,而来自集体主义文化的用户更喜欢使用垂直型的表情符号(如 ^_^ 或 ^.^)。默西等人[6]的研究显示,社交媒体上的内容生产与使用行为具有相关性。他们以 2.35 亿条推文作为研究样本,运用社会心理学理论比较了不同平台上推文的语言风格差异,研究表明通过移动终端发布的推文在语言风格上更以自我为中心、消极情绪的词汇使用比例更高,但在语言的性别类型和公共性方面没有显著的差异。
已有研究还发现,社交媒体上的政治评论遵循混合媒介系统(a hybrid media system)模式。容赫尔从时间和内容两个维度比较了 2009 年德国联邦大选期间推特上的政治评论和传统新闻媒体的政治报道,研究发现 :推特用户对政党的评论与传统媒体报道遵循不同的时间动态,但对政客的评论与传统媒体报道呈现相似时间动态 ;推特上的政治评论内容时而像传统新闻媒体的报道那样,突出个性化、竞争性等新闻价值取向,时而遵循网络表达逻辑,如突出非传统党派的动员、质疑和讽刺政客等。[7]该研究的创新之处是将大数据量化研究和小样本质化研究相结合,从时间和内容两个维度呈现了传统媒体和社交媒体上政治评论生产的差异性。
在风险传播研究方面,Kim(金)等学者认为有必要通过推特用户的情感表达来衡量公众对争议性风险议题的态度。他们对 2010 年 10 月~ 2013年 9 月 3 年间与核能有关的 2900 多万条推文进行分析。研究表明,2011 年日本福岛核事故发生后,带有外部信息链接(如网络新闻)的推文数量远远超过不带链接的推文数量 ;而计算机辅助的语义分析结果显示,对核能的悲观情绪一直是公众舆论的主基调。[8]该研究的主要贡献有两点 :一是宏观呈现了公众在社交媒体上的信息分享特征,二是通过社交媒体文本的情感分析来测量公众的情绪态度。
在新的传媒生态下,研究者总是在试图回答“传统新闻媒体是否仍然能够显著影响公众舆论”“社交媒体平台的公共对话是否具有设置媒体议程的潜力”“受众反映是否可以通过更有效的方式测量与评估”等问题。[9]近年来,一些学者开始利用大数据来检验政治和健康传播领域的传播效果。
“议程设置”一直是传播学效果研究中的经典理论,诸多研究已对不同议题、不同媒体、不同受众的议程设置效果进行检验,但受制于自我报告数据所导致的一致性偏差。而用户在社交媒体上的表达行为反映了公众真实的议题关注,由此一些学者借助网络大数据对政治传播中的议程设置动态和效果进行研究。例如,纽曼等学者通过对 2012 年美国社交媒体和传统媒体中 29 个政治议题文本的时间序列分析后发现,议程设置是一个多元、复杂的互动过程,而非传统媒体与社交媒体之间的单向流动。该研究采集了 1 亿活跃推特用户、1.6 亿活跃博客用户、30 万论坛用户的社交媒体数据和在线报刊、广播电视上的传统媒体数据。[10]同样,瓦戈等学者利用 2012 年美国总统竞选期间的推特大数据检验了议程融合(agenda melding)和网络议程设置(Network Agenda Setting)理论,该研究发现“垂直型”媒体中的议题网络能更好地预测奥巴马支持者关注的议题网络,“水平型”媒体中的议题网络能更好地预测罗姆尼支持者关注的议题网络。[11]这些研究不仅避免了自我报告数据的缺陷,还通过议题之间的社会关系网络分析丰富了议程设置的测量维度。
在健康传播领域,美国疾病控制与预防中心在2012 年发起一场名为“来自戒烟者的忠告”的全国性控烟运动,广告宣传几乎覆盖美国所有的媒体。尽管一些证据表明控烟运动能够改变目标对象的态度和行为,但恐惧诉求的说服效果却一直存在争议。针对这一争议,埃梅里等学者以怀特提出的“扩展平行过程模型”(Extended Parallel Process Model)作为理论框架,以推特用户在自然、真实情境中发表的与该运动有关的非重复推文作为研究对象。该研究发现高达 87% (167,867) 的文本显示接受恐惧诉求信息,7% (14,281) 的文本表明拒绝信息,仅有 6% (11,521) 的文本忽视恐惧信息。[12]由此可见,恐惧诉求在戒烟宣传中确实具有显著的说服效果,对理论的检验和传播实践都具有指导意义。
从已有的大数据实证研究来看,研究者主要的数据来源是推特、YouTube、脸书等社交媒体,绝大部分研究都使用了推特这一开放性社交平台的数据。与以往的研究范式不同,研究者不再通过问卷调查、访谈等方式获取调查对象的“自我报告”数据,[13]而是以精练的“关键词”和编程算法来建立数据集 ;原有的抽样逻辑被颠覆,研究者关注的焦点从“代表性的小样本”转向“选择性的全样本”;而最为显著的变化莫过于数据规模的激增和数据类型的变化,尽管学界对“大数据”的量级并未达成共识,但已有研究中样本规模多则上亿,少则数万,且多为非结构化的文本、链接、表情符号等。正因为数据采集方式的改变、抽样方式的颠覆和数据分析难度的大幅度提升,研究者的思维与方法也在改变。一些学者甚至认为大数据将改变我们对“研究”的认知。[14]
舍恩伯格在其所著的《大数据时代》一书中明确指出大数据颠覆了人类传统的思维方式,具体包括 :总体样本取代随机样本、对不精确的容忍度增加、相关关系取代因果关系。他的观点被许多学者奉为圭臬,鲜有学者深究其背后的商业逻辑和认知误区。
例如,喻国明[15]在《大数据方法 :新闻传播理论与实践的范式创新》中指出 :“新闻传播的理论与实践正在经受大数据思维的改变……大数据思维只关注‘相关性’,而不再关注‘因果’关系……对大数据的研究,发生了从‘随机样本’到‘总体’的研究范式改变,对其研究的重点正从‘理论’向‘算法’与‘规则’转换……‘理论’的指导价值正在下降。”重相关、轻因果的大数据思维也体现在实证研究中,如一些研究结果显示,不同终端上发布的推文在语言风格上存在差异[16]、不同文化地理位置发布的推文在表情符号的使用上存在差异等。[17]事实上,这些研究只是验证了相关性,因为缺乏对其他重要变量的控制而不能证明因果关系。还有一些学者认为,利用大数据研究传播现象首先关注相关关系,主要用于商业预测,如网民的搜索量和电影票房之间并无因果逻辑关系,只存在相关关系。但这种思维范式的转变导致基于大数据的传播学研究“重数据轻理论、重相关轻因果、重挖掘轻阐释、重软件轻开发。[18]
用相关关系取代因果关系,主要是基于时间成本考虑的商业逻辑,另一方面也得益于多维度的海量数据能够广泛建立各种相关性分析。必须认识到学术研究与商业预测的价值追求不同,搜索量与票房之间的相关性对于商业预测来说已经很有意义,但对学术研究来说还缺少理论深度。当然,相关性常常隐含因果关系,如“搜索量”可以理解为“关注度高”,关注度与购票行为之间存在因果关系。尤其是具有准确预测力的相关性,更有可能隐藏某些深层次的因果关系。此外,一些学者质疑大数据样本的代表性,指出大数据的“全样本”不等同于人口普查中的“总体”,其代表性和可信度存在严重问题。[19]笔者认为,大数据虽不是传统意义上的“总体”,但数据的代表性和可信度并非不可解决的问题。首先,不是所有的研究都需要对社会全体公众进行分析,很多研究只需要采集某一事件、某一话题、某一平台的全部数据进行分析 ;其次,随着网络普及率和使用程度的提升,互联网大数据的现实意义和理论价值将不断提升 ;再者,大数据的样本规模大,一定比例的个体信息噪音不会影响总体结果,且通过数据抓取关键词的精准设置、算法优化及数据清洗,可以大大提高信效度。此外,多维度的信息匹配可以增加精确性。
庞大的数据规模和非结构化的数据类型已经远远超过人工分析能力,传统的统计分析工具和人工编码方式显得捉襟见肘。而过去 10 年里,计算科学和工程学已经发展出一系列算法来自动处理大规模数据,这些方法正在被本学科的大数据实证研究所吸纳。[20]正如帕克所言,大数据运动通常和大规模社会网络分析、自动化的数据挖掘、可视化的数据集呈现、计算机辅助内容分析相联系。[21]笔者将根据国内外大数据实证研究和大数据方法探讨的相关文献,梳理新闻传播研究领域常用的大数据分析方法。
第一类是基于词典的文本分析工具(Dictionary-Based Text Analysis),是当前社会科学研究领域中最为流行、便捷的计算机辅助内容分析方法,可以根据词典中关键词所属类别自动对文本内容进行编码。[22]国外常用的分析工具有 LIWC(语言查询和词汇统计)、WordStat(词汇统计)、IAT(内隐联想测验)、SentiStrength(情感倾向分析)、General Inquirer(通用查询)、 Opinion Finder(意见发觉者)、GPOMS(Google-Profile of MoodStates 谷歌情绪记录画像)等,可用于在线文本的议题分析、情感分析、语言风格分析等。例如,康威等学者采用WordStat 对推文中的传播议题进行内容编码;[23]默西等学者借助 IAT 对推文的语言风格进行自动编码 ;[24]由彭尼贝克教授开发的LIWC 可以对文本中的认知、情绪等 64 项基础指标进行编码,且有中文版 C-LIWC。词典、词表是该类分析工具的核心,研究者经常根据具体的分析文本进行更新,有时还根据研究目的创建新的词典。例如,Guo(郭氏)等人对美国总统竞选期间提及“奥巴马”或“罗姆尼”的推文议题进行编码时,首先根据已有研究成果和部分推文的人工内容编码确立 16 个议题,接着由编码员精练设定每个议题的关键词清单,然后根据关键词清单来识别每一条推文是否包括一些或所有的议题,最后分别计算提及“奥巴马”和“罗姆尼”的议题比例。[25]
第二类是机器学习(machine learning),包括无监督的机器学习和有监督的机器学习,是基于数据经验来识别提取数据类型、做出决策的算法。从本质上说,无监督的机器学习算法是试图识别数据中“隐藏的结构”,最常用的工具是 “潜在话题分析算法”(LDA)。有学者通过实证研究的方式,比较了基于词典的分析工具和 LDA 无监督机器学习两种计算机辅助内容分析方法的信效度,其研究发现后者的信效度更高。[26]有监督的机器学习能在监督训练过程中判别分类正确与否,常见的操作流程是 :先由人工编码一定规模的样本作为机器学习的范例,对人工编码结果进行信效度检验后再训练机器学习模型对文本进行自动分类。例如,一些研究者在训练算法对推特文本进行情感分析时,先让10个训练有素的编码员对 248 条推文样本进行人工编码,分为乐观、悲观、中立三类,检验信效度后再监督机器准确分类。[27]也有的是根据数据库中的大量样本作为机器学习范例,比如科莱奥尼等人选用了 59,757 条政治新闻标题和 166,337 条非政治新闻标题作为机器学习判别推特内容政治性的范例。[28]
第三类是复杂社会网络分析,常用的分析工具有 Ucinet、Gephi、Pejak。复杂性主要表现为结构复杂、节点数目巨大、节点和链接会随着时间变化而产生或消失。就分析工具本身而言,Ucinet 是目前社会网络分析中使用最广的软件,但其上限只能处理 3 万多个数据点,而 Gephi、Pajek 的数据处理能力能达到百万级;Gephi 的可视化效果最好,Pejak 便于输出统计图表。在大数据实证研究中,社会网络分析常用于传播者之间的关系、传播议题之间的关系分析。譬如,有研究基于推特上的民主党用户、共和党用户、民主党官方账号、共和党官方账号之间的社交关系网络分析,以此计算不同党派推特用户的政治同质化程度。[29]瓦戈等学者在研究网络议程设置时,对推特上每天同时出现的议题进行网络分析。[30]笔者认为,复杂社会网络分析还可以清晰勾勒网络传播图谱和识别网络意见领袖,在新闻传播领域的大数据实证研究中将越发受到重视。
从本质上说,大数据分析工具的使用是为了将非结构的大数据转化为结构化的小数据。在大数据实证研究中,一些研究者先通过机器学习等方式获得结构化编码数据后,再使用时间序列分析、t 检验等传统社会科学统计方法进行分析。此外,网络大数据同样包含了新闻传播研究所需要的大量结构化数据,如网页访问量、微博转发量、微博评论量、微信阅读量、点赞量、粉丝数等。这些数据的统计相对简单,但也可作为受众需求和传播效果分析的重要指标,可以借助传统的 spss、excel 等统计分析软件即可。
一般而言,学术研究包括理论研究、应用研究和历史研究三个方面。在大数据语境下,新闻传播实践会发生哪些变化?一些研究者以实务为导向,探讨了大数据对新闻生产、广告营销的影响。
受大数据思潮影响,国内外学者都高度重视和普遍看好数据新闻的发展趋势和前景。正如刘义昆、彭兰等学者指出,数据新闻是新闻界在大数据时代应对时代变迁的重要举措,是新闻业未来的发展趋势,大数据技术正在对今天的新闻业形成冲击,主要体现在大数据技术将渗透到新闻生产的核心环节、重树新闻质量标杆、提升受众反馈等。[31][32]从发表情况来看,张帆和吴俊对 2011 -2015 年英美大数据新闻研究的 29 篇文献进行梳理,其研究发现国外学者的研究议题集中在“新闻生产流程、报道内容、数据素养和伦理道德” 四个方面。[33]国内学者除了引介和评述国外相关研究成果外,还对大数据时代的数据新闻生产、数据新闻案例、可视化传播路径以及大数据与新闻理念创新等进行研究。
许多学者认为,大数据将重构新闻生产流程与传播形态。国内学者指出,大数据技术将渗透到新闻生产的核心环节,包括新闻线索的发现、信息采集、对新闻稿件的筛选等。[34]国外学者对数据新闻生产流程的研究主要集中在数据采集、数据处理和数据可视化三个方面,数据的主要来源有政府机构、非政府机构、社交媒体等,但也受到数据保护法的诸多限制。[35]从新闻形态来看,数据新闻改变了以文字为中心的传统新闻叙事方式,数据新闻的可视化呈现日益受到业界重视。刘义昆归纳了数据新闻可视化呈现的主要方式,包括信息图、动态地图、静态地图、曲线图或图表、HTML5(超文本标记语言)等,指出目前国内新闻媒体使用最多的是静态信息图,而国外数据新闻报道相对更多使用交互性动态图表形式。[36]
对于数据新闻的报道理念,学者们既有共识,也存在分歧。一般认为,数据驱动的调查性报道将重塑新闻报道标杆。如彭兰指出,“与记者在某一个视野有限的观察点上对事物进行的观察与分析不同的是,有效加工的大规模数据可以揭示更大范围内的或更接近事实的情状,从而也为报道的深入提供了基础”。[37]钱进和周俊认为,“数据新闻与调查性新闻报道有着一定的相似,即强调通过对数据(对后者来说是事实)的分析来挖掘现象背后意义,这恰恰承载着新闻业在社会化媒体时代重塑其权威的期望”。[38]王斌也指出,数据驱动的调查性新闻给媒体带来工作层面的一个跃迁,即从关注社会表层现实到发掘社会深层现实,这在一定程度提高了媒体对社会现象的把握能力、改进了客观性的具体践行方式。[39]
但学界对大数据新闻的“预测性”却有着不同的见解。不少学者对大数据预测性新闻寄予厚望,认为“数据正变得越来越重要,这并不是因为数据的量大,而是我们拥有了工具和能力去分析数据,找出模式、结构并揭示趋势”。[40]有学者认为,目前媒体报道中关于某一事物走向的判断主要来自于个别专家的分析,这种方法的局限性显而易见,如果媒体能广泛借助大数据技术来进行重大趋势的预测与分析,其预测的准确程度及新闻的有用性可能得到有效提升。[41]但有些学者批判性地指出不要迷信数据权威和防范数据陷阱。如左艳红强调,大可不必将大数据过于神化,大数据质量、新闻从业者的数据分析能力及价值判断力等都会制约新闻内容生产,对数据产生误读。[42]罗弦梳理了网络新闻生产中大数据运用的各类乱象,包括数据保护、数据残缺与数据污染等,这些都会制约数据新闻的公信力。[43]
另一个争议点是数据新闻的“叙事性”。王强指出,数据新闻正在僭越新闻的叙事价值,新闻生产正面临着叙事危机。[44]丁柏铨同样认为,数据新闻业并不擅长讲生动的和有意味的故事,数据新闻在能显示新闻价值的地方常常捉襟见肘,表现不了事实的复杂内涵,如各种力量之间的暗中博弈或幕后交易。[45]常江等学者对央视“据说”系列报道的研究发现,“尽管大数据技术在总体上提升了电视新闻的可观赏性并直接带来了收视率的提升,但数据呈现并未成为有机的新闻叙事元素”。[46]但有些学者却认为,数据新闻虽缺少生动有趣的细节,但在中观、宏观叙事上具有独特的优势,可以弥补传统新闻宏观叙事的不足。[47]
大数据正在从数据和技术层面重构新的营销体系,[48]广告投放方式及产业链变革乃重要组成部分。大数据驱动的精准广告投放主要通过目标消费者的精准定位、消费需求的精准挖掘、广告投放的精准可控、广告效果的精准评估 4 个方面来实现。[49]广告的精准投放依赖于精准的受众分析。大数据的出现为我们把握新媒体时代消费者属性提供了一个全新的视角,分析结果具有预测性、评价性(受众反馈与评价)和可视化等。[50]以海量、非结构化为特征的用户及其行为轨迹的数据,成为新媒体场域中拥有巨大广告价值的特殊“资本”。[51]基于大数据的精准广告不仅驱动广告走向“精准”“可预测性”及“个性化”的新阶段,而且还将从产业基础、产业链条、产业业态、运作模式等维度重构未来广告产业。例如数据和技术成为广告业的核心要素,大量技术背景的广告需求方平台公司(DSP,Demand-Side Platform)、 广 告 供 应 方 平 台 公司(SSP,Supply-Side Platform)、数据管理公司已经成为广告产业的新型市场参与主体。[52]
基于大数据的受众研究还将服务于媒体的内容布局和盈利模式。杨迪雅、刘旸以美国视频网站网飞(Netflix)为例,发现该网站记录观众从登录到结束的全部观影过程,包括每一次点击、播放、暂停次数、观看时间等多维大数据,分析结果可应用于排行榜单、指导购片、挑选剧集的演员和导演等。一个经典案例是网飞通过大数据分析预先发现喜欢观看 1990 版《纸牌屋》的影迷们同时喜欢看导演大卫·芬奇(David Fincher)与奥斯卡影帝凯文·斯派恩(Kevin Spacey)的作品,因此新版纸牌屋邀请了二位加盟,播出后果然大获成功。[53]
综上所述,大数据正在从广告传播、受众分析、内容布局、盈利模式等维度建构全新的精准营销体系。但也有一些学者对此提出质疑。例如,富尔戈尼在《大数据 :数字广告的朋友,还是敌人》一文中指出,实时大数据是一把“双刃剑”,为消费者、零售商和市场营销人员提供了有效率的信息、新的能力和从未有过的机会,但倾向于培养短期决策的心态,从长期来看会损害品牌资产。[54]
不少对大数据进行批判性思考的学者都喜欢引用克兰兹贝格的观点,即“技术既不是好的,也不是坏的,更不是中立的……技术发展对社会生态的影响常常超越技术设备和实践本身”。[55]在众多研究者憧憬和探索大数据应用的美好前景时,一些学者批判性地审视大数据可能引发的法律伦理风险,追问“大数据的使用是在帮助我们创造更好的工具、服务和公共产品,还是迎来新一波的侵犯隐私和侵入营销浪潮?或者说是用于追踪抗议和压制言论的手段?大数据会提升对社会现象认知和传播文化的研究,还是会限制对真相的认知或改变我们对研究的理解?大数据预测权威是赋予个体更多自主选择权力,还是在干预个体自主性和社会现实?”等问题。[56][57]
田新玲和黄芝晓学者指出,“大数据时代,公共数据开放作为一种自由、平等、开放、协作的人类开源精神,却在公共云端侵害了个人数据隐私权”。[58]尼尔从数据的采集、存储、分享、使用四个方面,详细分析了大数据对隐私、安全和消费者权益的消极影响。[59]
滥用大数据侵犯个人隐私的主体众多。这种情况在商业领域更为滥用,谷歌、亚马逊、脸书,中国的百度、阿里、腾讯等企业主导着全球的数据,在大数据精准营销、即刻分析、智能决策模式下,用户的行为心理、兴趣爱好等内心领域被一一窥见。[60]邱林川发现,中国的数据挖掘公司不需要像西方同行那样聘请律师就可以获取大量数据,像百度这样的公司在大数据抓取中扮演重要角色,他们将用户的资料、活动和 UGC(用户生产内容)内容转化为公司资产,尽管部分数据开放给了公众,但真正的目的为了实现个性化的广告推送和精准营销。[61]
法律维权难度大。为保护个人数据隐私和信息安全,不少国家与地区颁布了“个人数据保护法”,将隐私权的边界从“私密领域”扩展到“信息自主”“信息隐私”,并提出“被遗忘权”的概念。[62]但在实践中,哪些信息属于个人隐私、哪些信息可以公开、如何公开等问题颇具争议,缺乏相应的道德标杆和精细化的法律准则,且大数据环境下搜索和滥用个人信息的主体众多,渠道隐蔽,导致举证难度极大,即便举证成功,也很难保证胜算和评估损失。[63]例如,杨秀的研究发现,《中国互联网定向广告用户信息保护行业框架标准》虽将身份关联信息作为隐私权保护的重点对象,但在文件中使用了“合理”“适当”“有效”等诸多表述模糊的词语,且沿用了“告知—同意”这一国际上普遍的做法,难以落实用户对个人信息的决定权。[64]
大数据引发了乌托邦与反乌托邦的话语:一方面被视为强大的工具,具有解决社会弊病的潜能,诸如癌症研究、恐怖主义和气候变化等;另一方面,大数据又被视为令人不安的“独裁者”,诸如侵犯隐私、减少公民自由、增加国家和公司的控制能力等。[65]大数据对公民自由、社会公正的干预,主要体现在不同主体的数据获取能力差异,大数据正在建构新的数据鸿沟和社会监控体系。邱林川指出,到目前为止,大数据只是增加了有钱人和有权人获取数据的能力,大数据私有化、商业化的伦理问题与资本主义的原始积累并无二致。斯诺登之类的事件表明,无论是民主国家还是非民主国家,政府总是以最快速、最便捷、最有策略的方式掌握数据,用于监控和社会控制,而互联网用户则不断丧失自己对线上活动的控制权。[66]
另外,“国内外新闻与传播前沿问题跟踪研究”课题组引介了 2014 年以来欧美学刊中关于大数据研究的 7 篇反思性文章,这些研究反思了大数据监控的模式、后果和风险,指出我们将处在一个监控无所不在的“传感器社会”,应该反思权力、监视、隐私、控制、社会分类等问题,有文章同样提及了棱镜事件美国政府对民众数据的大规模监视。[67]
近年来,大数据俨然成为社会各界追捧的热点议题,业界、学界、政界共建“大数据变革神话”。在新闻传播研究领域,理论驱动的大数据实证研究、数据驱动的研究范式创新、实务导向的大数据应用研究以及大数据引发的伦理风险研究成为本学科新的研究热点,但总的来说还处于未成熟的初期阶段。
已有的大数据实证研究为新闻传播领域的研究范式创新提供了可供借鉴的范例和想象的空间。这些研究创新性地运用网络大数据,不仅突破了传统数据采集方式和抽样方法的局限性,丰富了政治传播、健康传播、跨文化传播、风险传播、组织传播方面的研究成果,更重要的是引入了计算机辅助内容分析、复杂社会网络分析等大数据方法,拓展了传播主体关系网络、传播内容和公众舆论、传播信息流、传播效果等领域的研究路径,这对本学科的研究范式创新起到了示范性作用。但这些大数据实证研究也存在局限:一是分析变量单一,缺少控制变量 ;二是数据抓取的精准性和代表性、计算机辅助内容分析的信效度检验还有待进一步提升 ;三是虽有理论对话,但多用于检验和修正已有的经典理论,在理论创新方面仍显不足。因此,未来的大数据实证研究应进一步重视数据的代表性和纯净性、优化计算机辅助分析的词典和算法,以及充分发挥大数据方法在传播关系研究和传播过程信息流研究中的优势。
大数据实证研究鲜有发表在国内期刊上,国内的大数据研究热潮目前还是“虚热”状态,还处在为大数据背书和想象大数据应用的初期阶段。为何国内学者少有应用大数据来创新研究路径?最大的困难在于大数据方法的掌握和运用,一是如何从海量的网络数据中抽取有价值的传播信息,二是如何对大规模的非结构化大数据进行统计分析。由此,本文综述了学界有关大数据思维的探讨,并详细归纳了目前社会科学研究中常用的大数据方法。在笔者看来,“用相关性取代因果关系”是商业逻辑对学术研究价值取向的误导,网络大数据虽非传统意义上的总体,但处理得当依然具有很高的学术研究价值。从已有的实证研究来看,常用的大数据研究方法可以归为三大类 :一是基于词典的文本分析,如 LIWC(语言查询和词汇统计)、WordStat(词汇统计)、IAT(内隐联想测验)等;二是机器学习,包括无监督的机器学习和有监督的机器学习 ;三是社会网络分析,常用的工具有Ucinet、Gephi、Pejak。
实务层面,学者们深刻意识到大数据资源和技术将重构新闻生产、营销体系,尤其重视大数据时代数据新闻、精准营销的发展。许多学者认为数据新闻是新闻界在大数据时代应对时代变迁的重要举措,大数据技术将重构新闻生产流程和重塑深度报道标杆,但学界对大数据新闻的“预测性”和“叙事性”却存在不同的见解。在大数据与精准营销的研究中,学者们认为大数据正在从受众分析、广告投放、内容布局、盈利模式等维度建构新的精准营销体系,但也有国外学者对大数据的商业应用逻辑提出质疑,警示基于大数据的实时精准营销倾向于培养短期决策心态,长期来看会损害品牌资产。从已有的应用研究来看,学者们建构了许多大数据应用的神话,但普遍缺少实证材料,未来应该进一步实地考察新闻媒体、广告公司、视频网站等机构是如何采纳大数据技术,以及新闻传播从业者人才如何适应大数据时代的变革。
和所有新传播技术的兴起一样,大数据同样引发了乌托邦和反乌托邦的话语修辞,一方面被视为创新研究范式、重构新闻生产和营销传播体系的强大工具,另一方面也引起一些学者对大数据运用可能引发的法律伦理问题进行批判与反思。由此,已有研究在“变革”与“反思”的双重语境下展开,憧憬“变革”的话语占据主导地位,“重构”“变革”“激荡”“革命”“改变”“范式创新”等词汇高频率出现在论文标题中,而有关大数据的反思性研究国内外都比较少。从已有研究来看,学者们主要担忧大数据应用侵犯个人隐私和信息安全、干预公民自由和社会公平、数据残缺污染导致认知陷阱等。如何规避和化解大数据运用的伦理风险,特别是如何平衡数据开放与个人隐私、数据权威与数据陷阱、数据鸿沟与社会公平、数据服务与个体自主、数据预测与社会现实等悖论关系将是未来的研究重点之一。
注释 :
[1][21]Parks, M.R.Big Data in CommunicationResearch: Its Contents and Discontents[J].Journal ofCommunication, 2014(64)
[2][28][29]Colleoni,E.,Rozza A., & Arvidsson, A.Echo Chamber or Public Sphere? Predicting PoliticalOrientation and Measuring Political Homophily in TwitterUsing Big Data[J].Journal of Communication,2014 (64)
[3]Freelon,D & Karpf,D. Of big birds and bayonets:hybrid Twitter interactivity in the 2012[J].Presidentialdebates,Information, Communication & Society, 2015(18)
[4]Graham,T & Wright,S. Discursive Equality and EverydayTalk Online: The Impact of “Super participants”[J].Journal of Computer-Mediated Communication, 2014(19)
[5][17]Park,J.,Baek,Y.M, & Cha,M. Cross-CulturalComparison of Nonverbal Cues in Emoticons on Twitter:Evidence from Big Data Analysis[J].Journal ofCommunication, 2014(64)
[6][16][24] Murthy,D., Bowman,S., Gross,A., & McGarry,M.Do We Tweet Differently From Our Mobile Devices? A Studyof Language Differences on Mobile and Web-Based TwitterPlatforms[J].Journal of Communication, 2015 (65)
[7]Jungherr,A.The Logic of Political Coverage onTwitter:Temporal Dynamics and Content[J].Journal ofCommunication,2014(64)
[8][27]Kim,J.,Brossard,D.,Scheufele,D.A., &Xenos,M.“Shared”Information in the Age of Big Data:Exploring Sentiment Expression Related to NuclearEnergy on Twitter[J].Journalism & Mass CommunicationQuarterly,2016(2)
[9][20][22][25][26]Guo,L., Vargo,C.J., Pan,Z., Ding,W.,&Ishwar,P. Big Social Data Analytics in Journalism andMass Communication: Comparing Dictionary-Based TextAnalysis and Unsupervised Topic Modeling[J].Journalism &Mass Communication Quarterly,2016,93(2)
[10][13]Neuman,W.R.,Guggenheim,L.,Jang,S.M., & Bae,S.Y.The Dynamics of Public Attention: Agenda-Setting TheoryMeets Big Data[J].Journal of Communication,2014(64)
[11][30]Vargo,C.L.,Guo, L.,McCombs,M., & Shaw,D.L.Network Issue Agendas on Twitter During the 2012 U.S.Presidential Election[J].Journal of Communication,2014(64)
[12]Emery,S.L.,Szczypka, G.,Abril,E.P., Kim,Y., &Vera,L.Are You Scared Yet? Evaluating Fear AppealMessages in Tweets About the Tips Campaign[J].Journal ofCommunication,2014(64)
[14][56][65]boyd d and Crawford K (2012) Critical questions forBig Data:provocations for a cultural,technological, andscholarly phenomenon[J].Information, Communication &Society,2015(5),20
[15]喻国明.大数据方法:新闻传播理论与实践的范式创新[J].新闻与写作,2014(12)
[18][19]苏林森,易伟芳.大数据技术对传播研究方法的影响与挑战[J].现代传播,2014(11)
[23]Conway,B.A., Kenski,K., & Wang, D. The Rise ofTwitter in the Political Campaign: Searching forIntermedia Agenda-Setting Effects in the PresidentialPrimary[J].Journal of Computer-Mediated Communication,2015(20)
[31][36]刘义昆.大数据时代的数据新闻生产:现状、影响与反思[J].现代传播,2014(11)
[32][34][37][41]彭兰.“大数据”时代:新闻业面临的新震荡[J].编辑之友,2013(1)
[33][35]张帆,吴俊.2011-2015:大数据背景下英美数据新闻研究述评[J].国际新闻界,2016(1)
[38]钱进,周俊.从出现到扩散:社会实践视角下的数据新闻[J].新闻记者,2015(2)
[39]王斌.大数据与新闻理念创新——以全球首届“数据新闻奖”为例[J].编辑之友,2013(6)
[40]方洁,颜冬.全球视野下的“数据新闻”:理念与实践[J].国际新闻界,2013(6)
[42]左艳红.大数据对新闻内容生产的局限[J].编辑之友,2014(8)
[43]罗弦.网络新闻生产中大数据运用的伦理问题及编辑对策[J].科技与出版,2015(1)
[44]王强.“数据驱动”与“叙述驱动”:数据新闻生产的双重动力[J].编辑之友,2015(3)
[45]丁柏铨.数据新闻:价值与局限[J].编辑之友,2014(7)
[46]常江,文家宝,刘诗瑶.电视数据新闻报道的探索与尝试——以中央电视台《晚间新闻》“据”说系列报道为例[J].新闻记者,2014(5)
[47]郎劲松,杨海.数据新闻:大数据时代新闻可视化传播的创新路径[J].现代传播,2014(3)
[48]黄升民,刘珊.“大数据”背景下营销体系的解构与重构[J].现代传播,2012(11)
[49][51]倪宁,金韶.大数据时代的精准广告及其传播策略——基于场域理论视角[J].现代传播,2014(2)
[50]聂磊.新媒体环境下大数据驱动的受众分析与传播策略[J].新闻大学,2014(2)
[52]鞠宏磊,黄琦翔,王宇婷.大数据精准广告的产业重构效应研究[J].新闻与传播研究,2015(8)
[53]杨迪雅,刘旸.以美国Netflix为例看大数据时代视频网站内容布局[J].现代传播,2013(12)
[54]Fulgoni G.Big Data:Friend or Foe of DigitalAdvertising?Five Ways Marketers Should Use DigitalBig Data to Their Advantage[J].Journal of AdvertisingResearch, 2013, 53(4)
[55]Kranzberg,M.Technology and history: kranzberg’slaws[J].Technology and Culture, 1986,27(3)
[57][61][66] Qiu,J.L.Reflections on Big Data:“Justbecause it is accessible does not make it ethical”Media[J].Culture & Society, 2015, 37(7)
[58][60]田新玲,黄芝晓.“公共数据开放”与“个人隐私保护”的悖论[J].新闻大学,2014(6)
[59]Nir, K. Big data’s impact on privacy, security andconsumer welfare[J].Telecommunications Policy,2014,38(11):1134-1145
[62]周丽娜.大数据背景下的网络隐私法律保护:搜索引擎、社交媒体与被遗忘权[J].国际新闻界,2015(8)
[63]刘小霞,陈秋月.大数据时代的网络搜索与个人信息保护[J].现代传播,2014(5)
[64]杨秀.大数据时代定向广告中的个人信息保护——《中国互联网定向广告用户信息保护行业框架标准》分析[J].国际新闻界,2015(5)
[67]“国内外新闻与传播前沿问题跟踪研究”课题组.大数据实践与硏究:批判性反思与研究推动[J].新闻与传播研究,2015(8)