常佳梦 上海交通大学媒体与传播学院
大数据时代来临,数据成为宝贵的财富,社会科学也开始使用复杂计算工具进行研究,从而诞生了计算社会学(Social computing research)。
直至19世纪末期,社会科学才作为独立学科被承认,当时的社会科学与自然科学相对独立,然而在人类进入后工业化时期,即20世纪70年代后,信息革命来临,自然科学和社会科学开始融合,每一门科学在意识到独立性之外更意识到与其他学科的关联性。1994年,第一次提出了“社会计算机”这个观念,而 Schuler则提出了“社会计算可以是一种利用软件为媒介进行社会化交流的任意一种程序。”中国孟小峰等人把社会计算界定为“运用系统科学、人工智能、数据挖掘等科学的计算技术,把社会科学和计算技术有机地融合在一起,从而更深刻地认识社会,改造社会,解决政治、经济、文化等领域复杂性社会问题的一种理论和方法论体系”。计算传播学(Computational communication research)为计算社会学的一个分支。二十年前,提起大众媒体,电视和报纸还是绝对的主角;而在二十年后的今天,社交媒体却俨然成了大众媒介中最值得注目的对象。随着互联网不断发展,社会化媒体诞生,层出不穷的新技术与大数据时代背景耦合,传播学进入了新时代,计算传播学便是这样一个智能时代下的新兴学科。借用王成军的定义:计算传播(Computational communication)是指数据驱动的、借助于可计算方法所进行的传播过程,而分析计算传播现象的研究领域就是计算传播学。
计算传播据王成军考证,计算传播起源较早,在20世纪90年代就已经有应用。20世纪90年代,网飞公司以寄出的影片光碟作为经营方式,在此业务中,该公司使用计算传播方法分析真实用户数据来确定和调整仓库的位置,从而使得公司获得更高的经济效益。
目前,计算传播的应用领域十分广泛,对现代人的日常生活产生了深远的影响。例如在互联网社交应用上分析品牌、话题等的影响力;YouTube、哔哩哔哩等流媒体按用户偏好推送视频内容;分析社交媒体用户情绪、位置、行为等进行用户画像;计算数据以优化搜索引擎等。计算传播为普通人赋能,丰富公众日常生活,也提供了有利的数据工具,提高大众话语权,同时也为科研人员提供了新的研究视角。但除此以外,计算传播也催生出新型社会问题,例如信息茧房、大数据隐私泄露、大数据杀熟、群体去抑制化、算法剥削等等,对大众而言是一个不容小觑的隐患,计算传播的伦理与法律有待社会进一步重视与规范。
在计算机通信领域,应用大量的数据和数据的分析与处理技术是其基础。大数据是指规模庞大,超过了传统软件和硬件的处理能力,需要依靠新的技术和模式来及时、高效地进行处理;大数据技术指的是对海量、异构、动态数据进行采集、清洗、存储、分析、挖掘等处理,并从中快速高效地提取有价值的信息。
郝龙与李凤翔梳理之后将计算传播学所用到的数据大致分为3类:第一,网络中通过人机互动所产生的数据,即为用户生成内容(UCG,User Generated Content),如微博、豆瓣、小红书等社交媒体平台中的用户发文数据,或者评论、点赞与位置签到等数据;第二,传感器所采集的物联网数据,如频射识别(RFID)和GPS定位的数据等;第三,对既有资料数据化或者对传统数据进行关联整合处理,如纸质书电子化后的数据、政府大数据等。
数字足迹、关系数据、文本数据和空间位置则是4种在计算传播学中被应用最多的数据。
数字足迹(Digital Footprint,或Digital Traces)又称数字踪迹、数字痕迹、电子路径、电子浏览信息等。某美国政客在2012年竞选时便使用该数据进行分析,从而制定宣传手段。
关系数据主要被应用对在社交媒体研究中。社会交往的数据化带来大量关系数据,使得研究者可以更加精准地研究复杂的社交行为。如国外学者Lu与Brelsford利用日本地震与海啸时期的Twitter数据研究极端事件下信息互动模式变化所引发的在线网络结构演化过程;汉森等人通过分析推特中的情感因素对信息传递的影响,结果显示,当新闻引起的消极情绪越强烈时,转发的可能性就越大,而非新闻信息则恰恰相反;国内学者黄荣贵以“中国版 Twitter”微博为例,对新浪微博14个相关的账号和超过5万条博客进行了实证分析,结果显示,社区互动方式与他们所关心的话题有明显的关联。
文本数据是大数据中占比最大的数据,本质上是一种非结构化数据。不同于数字足迹等结构化数据,文本数据蕴含的信息丰富,但分析与使用难度较大。文本数据中,谷歌图书语料库(Google Book Corpus)最具代表性。谷歌图书语料库是当前最大型的文本数据库之一,截至2015年底已收录英、法、德等多语言书籍2500多万册。
空间位置信息主要来源于各个硬件端所安装的传感器,在移动互联网占据主流的今天,智能手机成为空间位置信息的最重要来源之一。2013年,Palmer等人发起了名为“人类流动计划”(The Human Mobility Project)的研究项目。在这一国际项目中,研究者通过将一个 APP装到世界各地志愿者的手机上来获取实时 GPS和信号塔数据,进而推断人口状况,并探测人群的时空分布、种族分布,乃至生活质量等。2014年,一个跨国合作研究团队使用手机基站数据进行了葡萄牙部分地区和法国实时人口密度地图的绘制。
计算传播学目前已有较为成熟的研究方法,包括自动化内容分析(Automated Content Analysis)、情感分析(Sentiment Analysis)、社会网络分析(Social network analysis)等。
内容分析是一种从文字(或其它有意义的东西)中进行可重复的、有效的推理方法。自动内容分析是一种将算法和内容分析相结合的产品,目前已有的有监控的机器(SML)和语义网络分析(SNA)能够更好地完成自动化的内容分析。以韩刚等为例,运用语义网分析技术,对超过一百万条 Twitter的推文进行了分析,掌握了社会和社会网络中的健康传播趋势,并为卫生和卫生宣传提供了有效的对策;金斯伯格等使用了45个与流感相关的关键字,以衡量民众对流感的重视程度。根据这些关键字,他们对美国流感疫情的流行做出了精确的预测。目前,自动化内容分析是计算传播内容研究方面被应用最广的研究方法之一。
情感分析,也就是观点挖掘,是目前计算机通信领域最为活跃的一个研究方向。在此基础上,一些学者利用词典和机器学习的算法,发展了一种新的情绪分析方法,并在Facebook上开发了一个用于搜索学生情绪的极性(正面、中性和负面)状态和情绪的改变,其准确率高达83.27%。国外的一些学者利用机器学习来进行主题识别,并将现有的语义挖掘技术(hashtagify)和 sensebot等工具相结合,描绘了Twitter和传统媒体中“棱镜门”事件的语义网;张伦等人运用语义模型和情绪分析方法,对网络信息结构扩散度的特征、测量指标和影响因素进行了研究。
社会网络是复杂网络(Complex Network)的一种,社会网络分析是计算传播一个较新颖的、前景广阔的研究领域。Kwak等人的研究利用社会网络分析方法,发现信息在社会化媒体的扩散是广度优先而非深度优先,即依赖单一信息源无法有效地在社交媒体上传播新闻信息;韩运荣和高顺杰利用社会网络分析分析微博中的社会关系,通过分析不同个体节点、不同社交网络与无限社会之间的联系,从而达到“信息利益”与“控制利益”的目的;李彪运用社交网络分析的方法,建立了“哑铃”传播的双核型传播模式,认为,网络新闻传播结构与普通的信息传播结构相比,在传播效率、传播层次和结构扁平上有明显的差别。
社会网络是当前的一个研究热点。网络分析是一种独特的研究方法,它被称为“社交网络”。社交网络的研究与研究是一个紧密联系的过程。社会化网站的分析将是一个更好的工具,它包含了大量的技术来搜集和分析这些信息。梳理好社交网络的研究思路与理论,对解决现实中的问题具有重要意义。因此,社交网络的分析有时候很复杂,并不紧密,其侧向延伸的宽幅较大,而垂直方向上的分支较多,因此,在不同的地方,研究者的研究课题、方法及结果也不尽相同。
物联网、云计算、社交网络飞速发展,数据量激增,传统的传播学研究在解决一些新问题时显得有些吃力,而在计算传播则开始展露其独有的优势。
第一,数据收集优势。网络时代丰富的数字足迹使得对个体行为的研究有了第一手资料,对比自我报告式的问卷,数字足迹客观、细致,更加可信。另外,数字足迹大多为结构化数据,方便进行各种研究分析,且大多包含时间信息,可以进行历时研究,追踪动态过程。再者,比起传统问卷方式,利用计算机技术对数据进行智能化挖掘,可以获得更全面、更多、更大规模的数据,比如使用 API和计算机语言,就可以方便地获得 TB的完整数据。
第二,数据分析处理优势。智能化大数据分析方法是传统的劳动密集型分析方法所不能及的。采用计算机语言等数据采集技术,可以大大加快数据处理的速度。开发和利用各种算法,使得对全数据的分析成为可能,发现各因素间微弱的连接,找到发展的链路。
第三,自下而上的归纳优势。受传统研究方法的制约,无法收集和处理全数据,大多数研究只能使用演绎逻辑推论出结果,使用代表性样本代表全体。在算力、算法大幅提升的今天,计算传播学从给观察出发,计算与总结模型和趋势,进而提出假设并验证,属于归纳逻辑,可以更好地适应事物快速更迭的社会背景。
第四,非介入方式的优越性。传统的影响分析方法主要采用控制性试验方法,这是判定结果的最好方法。而互联网就是一个很好的实验平台。由于干预方法会破坏样品的原始环境,所以学术界对其真实性和可信度存在着争论。而对于整体数据的分析,则是突破了以往数据采样不完整所造成的桎梏,而智能技术则可以记录观众的日常生活,并将其作为一种实时、细致的记录,从而实现无创的观察。
第五,数据显示出的优势。在资料分析与应用中,图表与计算同样重要。与传统的数据分析方法相比,大数据技术将复杂的大数据以可视的形式呈现出来,以图形、动画的形式呈现出来,并通过可视化的方法,协助使用者了解、了解资料,如资讯地图。