不平行的空间:用户生成内容大数据质量探析*

2021-01-07 02:56
图书馆 2021年3期
关键词:用户研究

陈 峥

(1.湖北开放大学 武汉 430074; 2.武汉大学社会学院 武汉 430072)

1 引言

随着互联网时代的到来,人类的生产、生活等行为活动越来越网络化,互联网/移动互联网上每时每刻都在生成相关的数据(指存在于计算机系统中的信息资料),社会科学家很快就认识到了这些数据的价值。2009年,大卫·拉泽尔等15位学者撰文指出,当前被广泛使用的电子邮件、移动通信、信用卡、电子购物清单、网络诊疗记录、社交软件等已经为我们积累了大量长时间、连续性、大规模的人类行为与互动数据。基于这种前所未有的广度、深度和尺度的数据收集与分析,将为拓展、深化甚至革新对个体行为、群体交往、组织结构乃至整个社会运行规律的认识开辟一条新路径[1]。

互联网/移动互联网中的信息内容可分为专业生产内容(PGC,Professional Generated Content)和用户生成内容(UGC,User Generated Content)。Web2.0时代的信息交互技术,使互联网用户既是信息的受众,也能方便地成为信息的生产者、发布者与传播者。每一个用户不仅可以在博客、微博、微信、论坛/BBS、分享网络、好友社交网络等平台上生成自己的内容,也可以对其他用户发布的内容进行点赞、评论、转发。由此,互联网上几乎时刻都在产生新的用户生成内容,形成来源复杂、形态多样、规模庞大且持续高速增长的UGC大数据。早在2010年,UGC即已占据整个在线内容的50.7%[2]。

UGC大数据的产生和积累令社会科学家极为振奋,因为这种大规模的个人行为互动数据是前互联网时代难以获取甚至无法获取的研究资料。以往,专业生产内容相对容易获得,但社会科学研究最重要的对象是芸芸众生,研究者必须了解普通人的思想观念、行为倾向、情感心理等方面的状态。为了达到这一目的,社会科学研究者一直在探索和完善社会调查、社会测量的方法。然而长期以来,社会科学研究仍只能以观察、访谈、问卷调查等方法作为获取普通人信息的主要手段。这些方法存在诸多不足,例如实施较为困难、成本往往较高,因而导致获取的数据一般规模较小,并且时效性差。正因如此,来源于广大群众的UGC大数据成为计算社会科学关注的新型资料,社会科学各领域学者纷纷尝试运用UGC大数据发现知识、探索规律。

将任何数据运用于研究都必须先考察其质量。在社会科学研究意义上,衡量数据质量的首要标准,就是看它们是否真实、准确地反映了社会事实(与计算机科学意义上的数据质量有所不同)。截至目前,基于UGC大数据的社会科学研究已有不少,但其数据质量问题似乎并未得到足够的重视,至今少有人进行细致深入的研究。但是,UGC大数据是用户的行为、心理、观念在网络上的完美映射吗?显然,这个问题对能否得到正确的研究结论具有决定性的影响。下文将就这一重要问题展开探讨。

2 UGC数据质量的不均衡性及其形成原因

传统的数据资料获取方法存在固有缺陷,对社会科学实证研究能力形成严重制约。长期以来,社会科学家都在寻找克服缺陷的办法。正因如此,当包括UGC在内的网络大数据出现后,很多学者首先是将其与传统数据进行比较,进而发现它避免了传统数据的一些缺陷,这种优势主要表现在样本量大、时效性强、无研究者介入干扰、对象的无反应性。UGC大数据的这四个特点,正是计算社会科学对其极感兴趣的最重要原因。但是,由此认为UGC大数据一定能够真实、客观、准确地反映社会事实与人们的行为、思想观念和心理状态,能够完美地适应各种社会科学研究的需要,却是过于轻率了。这是因为,克服了传统数据的局限并不意味着不会有新的局限。排除了主试方干扰、受试方干扰,并不足以保证生成的就一定是真实的、自然状态的数据。

互联网的信息生态是极为复杂的,UGC记录了海量的人类行为与互动,但其中有大量既非真实亦非自然的内容。事实上,大量虚假、错误、片面、未经证实、相互矛盾的信息每时每刻都在生成,UGC的实际状态是过载、无序、优劣混杂、追溯困难,在数据质量上呈现极度的不均衡性。对于对精确性要求较高的社会科学研究来说,UGC大数据的总体数据质量,远未达到可以放心使用的程度。以下从主体多元化、媒介市场化与政治化及其他因素对此展开分析。

2.1 主体多元化:UGC的内容真伪混杂

UGC大数据源自人类行为的网络化,互联网规模庞大的用户群体在人格特质、文化素养、知识结构、心理状态等诸多方面的异质性,决定了其内容生产动机的千差万别和内容生产能力的巨大差距。同时,UGC数据生产者与PGC数据生产者不同,一般既无须对质量负任何责任,也无须承担因质量低劣而引起的后果,这决定了很多用户内容生成的随意性很强。用户的异质性与无责任性一方面使UGC的内容包罗万象,另一方面也必然导致其质量良莠不齐。即便是以知识分享为旗帜,以创建人类历史上规模最大的百科全书为口号的维基百科以及百度百科等网络平台,其很多词条内容的质量也令人不敢恭维。例如,安德卡分析了2010年1月6日的2 958 303篇维基百科的快照,发现至少有8.52%的文章存在标记错误,其中以引用标注出现的错误为最多,很多文章被注明了引用却实际上没有任何引用来源或参考[3]。这还只是主要通过机器算法检测出来的错误,如果请具有领域知识的专家来检验词条,会发现错误更多。互联网上每时每刻都有错误、虚假、片面的信息生成为数据,并且由于互联网具有突破时空限制的强大传播能力,这些信息可能会有极广的传播范围和极快的传播速度。例如,从百科获取知识信息的用户,有可能继续在互联网分享一些错误信息,或依据其生成新的内容,这意味着错误信息量还可能持续增加。换言之,错误的信息内容一经生成,就会不断扩散,很可能呈覆水难收之势。

除了错误、虚假、片面的信息之外,UGC还是谣言的渊薮。互联网的虚拟性与隐匿性,固然有助于用户的自然表达,且可为用户的传播活动提供安全保障,但也被造谣者当作保护伞。一直以来,社交媒介平台上的各种谣言泛滥成灾。例如,新浪微博曾被冠以“史上最佳谣言机器”的“美名”[4]。据中山大学发布的《2016微信年度谣言分析报告》,2016年微信中传播最为广泛的五大热门谣言,阅读量均超过2 000万次,并被多个公众号转发[5]。一些谣言被缺乏甄别能力的用户转发扩散,在庞大的网络空间中难以被及时堵截和消除。并且,一些已经由权威机构辟谣过的谣言,经过一段时期后又死灰复燃,其内容在互联网上反复生成。所谓“造谣动动嘴,辟谣跑断腿”“辟谣的脚步追不上造谣的翅膀”,即是对这种乱象的生动描述[6]。

社交媒介的兴起催生了“后真相时代”。“后真相”指“诉诸情感及个人信念,较客观事实更能影响民意”,该词入选2016年牛津词典年度词汇[7]。罗什·沃索吉等人的研究展示了“后真相时代”的表征,他们力图探究推特平台中虚假与真实新闻传播趋势的异同,为此收集、分析了从2006年推特创立之初至2017年,由300万用户发布且被浏览、转发450万次的12.6万条新闻。结果显示,虚假新闻无论是在传播广度、深度还是速度上均显著优于真实新闻。为保证结论的可靠性,他们先运用社交媒介机器人侦测算法将自动化的社交媒介账户进行识别并移除,而后再将这些机器账户产生的流量加入分析进程,发现机器账户散布虚假与真实新闻的速率一致,表明该结论依然成立。由此,他们强调,民众的确更喜欢传播虚假新闻[8]。此外,本杰明·多尔、默罕默德·法兹与托比亚斯·弗雷德里希的研究亦佐证了虚假信息传播能力之强大。他们通过在代表社交网络的拓扑结构与若干传统的网络拓扑结构的曲线图上,分别模拟一个自然的谣言传播过程,发现谣言在前者中的传播速度远快于后者。例如在推特中,一条始于一个随机节点的谣言仅经8个回合的传播便波及4 500万名用户,“速度是惊人的”[9]。

由上可见,信息生产与传播主体的极端多元化及其异质性与无责任性,导致UGC内容真伪混杂,整体质量难以保证。

2.2 媒介市场化:利益驱动的数据造假

UGC创造了有利可图的媒介市场,其商业价值已被充分认识和利用。特里·多尔蒂等指出,互动型媒介环境为将现今多元化的媒介市场变现提供可能性,这种可能性是通过提供能够让普通受众的声音在信息与广告的漩涡中凸显的方式来实现的。在互联网世界中,这种有利可图的媒介市场愈发由UGC而非发行商所驱动。早在2007年,这种新兴市场即吸引了6 900万用户,并且产生了4.5亿美元的广告收入[10]。伴随UGC大数据的商业价值而来的,是网络媒介的市场化现象。各种互动式平台上广泛存在受经济利益驱使的故意造假行为,大量的商业水军在网络上兴风作浪。例如,近年来,影视剧口碑和点击量倒挂的情况屡见不鲜。有些剧作观众评价较高,业内人士也予以肯定,但收视率和网络平台点击量惨淡;相反,有些剧集格调较低,内容拖沓冗长,观众普遍给予差评,但点击量却节节攀升[11]。这种现象的背后隐藏着一条完整的流量造假产业链。影视剧播放量的攀升会让其所属制片公司名利双收;视频网站也会因为剧作播放量大、关注度高,赢得更多与其他制片公司合作的机会,并吸引更多的广告赞助商。故此,竞相刷流量成为影视剧圈内惯例,流量公司亦大行其道[11]。这些专门刷流量的公司会提供诸如“腾讯5元1万点击量”之类的服务[12]。低廉的价格造就了惊人的假流量,如《楚乔传》2017年内的播放量竟被刷到457.9亿,被调侃“全球人口不足一部剧点击量”[12]。这种通过购买而得的点击量实际上是对用户观看行为的伪造。再如,中国最大的电商平台淘宝活跃着一批“职业差评师”,他们通过购买商品、收货之后故意给卖家差评的方式,敲诈勒索卖家。某“差评师”的群里甚至喊出“十条差评撸垮一个店”[13]的口号。将用户评价用作牟利工具,这种行为不仅误导了消费者,而且污染了数据。这些数据不是互联网用户真实行为的记录,而是出于利益驱动进行造假的产物,对研究者来说也无疑是陷阱。但发现这些假数据,并在研究中予以彻底剔除,往往是相当困难的。

2.3 媒介政治化:UGC中的信息伪造与操纵

作为一种传播能力强大的新媒介,互联网与传统媒介一样存在媒介政治化现象。互联网的发展让公民参与社会政治生活的模式产生了变化,相较于以往在社会政治生活中较为被动的地位,当今“任何人可以随时在公开的站点上发表自己对有关事务的意见和建议”,公民政治参与的渠道愈发畅通[14]69。然而,政治参与渠道的畅通也为伪造与诱导民意提供了机会,朴槿惠组建网络水军、俄罗斯被疑干预美国大选两起事件,都堪称典型案例。

据报道,韩国国家情报院在一份报告中承认,曾在选举前组建了30组“网络水军”,成员包括国家情报院官员和来自民间的网络高手,专门负责发帖实施“心理战”,以帮助朴槿惠赢得选举。2012年1月1日至12月19日,“网络水军”利用716个推特账户,通过发帖、回帖、分享等方式生成帖子数量达到27万多条。这些人在网络上发帖,专门负责抹黑朴槿惠的竞选对手。文在寅就是受害者之一,他最终以48.02%比51.55%的微弱劣势败北[15]。

至今仍处在争议漩涡之中的俄罗斯干预美国大选事件更为错综复杂。2016年6月始,多家美国媒体相继爆料称,俄罗斯在网络上运用多种手段支持特朗普。2016年7月,在对一家名为“互联网研究机构”的神秘的俄罗斯在线宣传组织进行长期追踪之后,《纽约客》作者阿德里安·陈撰文指出:“为造成草根运动方兴未艾之假象,该机构在各社交媒介平台中运营大量马甲账号……从去年夏天到年末,我发现该机构名下的一些推特账号已然开始置顶右翼新闻媒介,并将自己描述成愈发喜爱特朗普的保守派选民……有理由相信,如此支持特朗普的行为,是该机构力图通过协助特朗普问鼎白宫,达成搅乱美国社会之目的的尝试。”[16]除涉嫌利用虚假社交媒介账号为特朗普造势之外,俄罗斯还被指责散布虚假的、经宣传手法修饰的新闻。《华盛顿邮报》2017年1月5日的报道显示,时任美国国家情报总监的詹姆斯·克拉珀当日在向国会作证时强调“俄罗斯炮制假新闻并将之发布于社交媒介,对此我们不应该忽视”。同时,希拉里·克林顿的竞选伙伴参议员蒂姆·凯恩表示他是一些假新闻的对象,尽管主流媒介均未采信这些新闻,但“其中一条新闻被分享了80万次”[17]。虽然上述事件至今仍未被坐实,并且这些手段在多大程度上影响了选民的投票意向,其与特朗普问鼎白宫是否具有相关性也尚未有定论,但具有讽刺意味的是,新闻聚合网站Buzzfeed强调“借助媒介进行宣传攻势绝非全新的策略,也非局限于俄罗斯,包括美国在内的若干国家,早已运用这一策略企图操控他国民意”[18]。

以上案例表明,某些人会出于政治目的而借用普通用户的身份伪造大量的UGC数据;借助于互联网,这种伪造还可能是跨国界的。某些国家已经将互联网作为插手他国政局的重要工具,当前,在出于政治目的的暗地操纵下,互联网上虚假民意的声音越来越大,与网民的自然表达混在一起,真伪难辨[19]。

2.4 其他影响因素

除了用户因素、媒介市场化因素、媒介政治化因素外,还有一些因素也会影响UGC的数据质量,例如用户线上与线下的不一致性、垃圾数据问题等。

用户是以独立的“隐形人”身份在虚拟空间中生产内容,这既可能让其不受现实世界的道德与法律规范的制约,从而放纵自己的行为[14]70,也能较容易地将自身形象“完美化”。很多人在虚拟世界里的言论、行为与其在现实世界中的言论、行为存在不同程度的差异,有些人的差异还很大。一个腼腆的宅男可能在网上是凶悍的“暴民”,文体明星则一般是雇用专人打理其社交媒介账号,在网络上展现的往往是他们或其公关策划公司认为“应该展现的形象”,互联网记录的显然不是他们的平常状态。UGC中还包含着大量的垃圾数据,如恶意灌水等行为产生的数据。这些垃圾数据一般体量较大,对话题提取、意见提取等研究无疑会构成不同程度的干扰,有些情况下甚至会导致研究失败。正如奈斯比特所言:“失去控制和无组织的信息在信息社会并不构成资源,相反,它会成为信息工作者的敌人。”[20]

3 UGC数据质量检测识别技术的局限

鉴于UGC数据质量的良莠不齐,凭借检测识别技术提高数据质量就显得尤为重要。UGC大数据包括文本、图片、音频、视频等多种类型,目前用于社会科学研究的主要是文本型数据。当前的内容检测识别方式主要有人工检测、自动测量两类,前者即人工抽样检测,后者包括基于统计的自动检测与基于机器学习的自动检测。然而,各种检测识别技术都是针对文本型数据且皆有其短板,尚无力应对互联网信息生态的复杂性,亦难以适应UGC大数据的多态性、动态性特点;对图片、音频、视频等数据进行检测识别的技术难度更大,这些数据在社会科学研究中的价值发挥还很有限。下文将就基于人工研判的识别、基于统计的自动测量、基于机器学习的自动检测技术等三个方面的应用与局限性展开分析。

3.1 基于人工研判的识别

3.1.1 标志列表匹配

虚假错误信息自有其信息源,一些域名即以散布假消息为人熟知。由此,为提醒互联网用户信息源的可靠性,相关研究人员开发了若干标志列表,将惯常发布错误或片面信息的域名做出标记[21]。比如,数据服务平台卡哥(Kaggle)中名为“关于假新闻的真相”的数据集。该数据集包括通过webhose.io的应用程序接口爬取的244个网站的元数据,并且还在持续扩大之中。同时,Kaggle专门开发了名为“BS Detector”的网络浏览器插件,安装此插件的用户点击进入上述列表中的网站时,即会得到“可疑信息来源”的提示[22]。此外,名为“开源”(open sources)的数据服务平台中包含一个由相关领域专家精挑细选的1 001个域名的数据集[23]。这种通过标志列表匹配的方法有很明显的局限性,此种方式并不能甄别某篇文章内容的真伪,而是基于一个假设,即所有来自可疑信息源的信息皆是可疑的,但事实上社交媒体用户发布信息的真实性并不必然与特定网站相关联。

3.1.2 事实核查网站

事实核查网站是致力于识别在网络上传播的虚假信息及骗局的网站。这些网站会雇用职业记者、志愿者去核查用户在网页与社交媒体中分享的文章内容的真实性,尤其会关注那些热点文章[24]。一旦文章内容的真伪得到确认,网站会公布其发现以及与之相关联的信息,比如文章的网址等。根据杜克记者实验室的统计,截至2019年10月,其收录的活跃的事实核查网站已达210家[25]。较有代表性的事实核查网站如PolitiFact.com、HoaxSlayer.com等。前者主要关注美国政治新闻,该网站的员工会检视国会议员、白宫职员、游说团体与利益集团的言论,并在“真假度量仪”(Truth-O-Meter)分级为真实、大部分真实、一半真实、大部分错误、谎言。后者旨在协助用户识破各种网络骗局,并为他们提供网络安全知识[26]。此外,法国新闻社于2018年组建了面向外部的国际化的事实核查团队,与其他国家、地区的核查者、编辑展开合作,并将发现公之于众,目前此合作项目已遍及20余个国家和地区[27]。

虽然事实核查网站的准确度很高,但面对互联网高速增长的海量信息,靠人工调查与研判,只能是面向一些特定类别的、相对重要的信息,无法对海量的优劣混杂的UGC大数据进行较为全面的清查。

3.2 基于统计的自动测量

基于统计的自动测量是对文本进行统计特征抽取,通过回归分析、机器学习等技术手段对数据质量进行评测。在通过特定的算法进行识别后,可以过滤掉劣质数据,但统计算法能够达到的识别精度往往不尽如人意。常见的算法有信息源评估、声誉评估、用户反馈评价等。信息源评估是根据生产者的社会身份来判断其所提供内容的质量,如“.gov”表示政府组织,“.edu”表示学校,“.com”表示企业等,它假定社会身份越有权威性的用户提供的内容质量越高。声誉评估是根据个人在网络的知名度、美誉度来判断其所提供内容的质量,它假定越有声望的用户生产的内容越具有真实性。用户反馈评价是基于互联网众筹模式的测评,它假定用户评价越高的内容质量越高。显然,这些假定都只有概率意义上的正确性,基于这些假定设计的算法虽然有助于数据质量的评测和提高,但显然都存在缺陷,无法起到根本性的作用。例如用户反馈评价在有些时候是失效的,因为测评者的主观性及随意性会影响测评效果,并且用户好评也可能是水军刷出来的。

在社会科学研究中,研究者必然会面对从不同数据源获取的不一致甚至矛盾对立的数据,绝大多数情况下都是通过设计一定的算法对数据进行诊断,去伪存真。这种基于统计方法的检测识别技术在某些时候是有效的。但必须看到,它形成正确判断的前提是真实信息的量大于错误信息的量;对于运用加权算法的统计分析而言,权威性高的数据源一般不能出错。然而在很多情况下,这两点其实是难以保证的。

3.3 基于机器学习的自动检测

3.3.1 基于在线社会网络分析的识别方式

随着社交媒体平台成为虚假信息的温床,有学者开始运用社交媒体数据以在线社会网络分析的方式识别可疑用户。有研究团队使用推特数据进行了相应尝试。他们基于一个标志列表,该表包含常发布虚假信息的域名,并通过推特应用程序接口获取两类数据:一是包含标志列表中网址的推文,二是不包含相应网址的推文。对于后者,他们按照时间顺序以“一小时会话”为单位,将这些推文分组并使用基于会话的模型对其依次进行处理。之后,每一段会话会被“锐推”(即推文转发)可视化工具Retweet Graph Generator分析,每一个“锐推”图形G=(V, E)包括节点u,v(u,v∈V),描述了用户之间的联结与网络边缘((u, v)∈E),且表明了用户u与用户v之间由推文转发产生的互动。然后研究团队使用基于德格鲁特模型的用户概率模型计算用户的虚假指数,即某用户发布虚假信息的可能性。德格鲁特模型为确定某特定团体能否就某一问题达成共识提供了简单的方案。在此模型中,假设每个个体通过将自己与朋友的见解进行中和的方式形成自己的最终意见[28]。基于此,每位用户ui会被指派一个虚假指数的初始值Pi(0)=0。然后,假定A为“锐推”图形G的邻接矩阵,若用户u转发了用户v的推文,则A(u,v)=1;研究团队通过调转A的边缘创造一个跃迁矩阵T,并使A值为1,意即每位用户转发若干用户的推文,后者中每位用户对前者的影响程度相同。矩阵T包括了每一节点根据假新闻的分享行为给予另一节点的权重。如此,发布可疑推文的用户Pi(0)=1,未发布者Pi(0)=0。最后,他们运用更新规则提取新指数的公式,即p(t)=T.p(t-1)。总之,如果某特定用户发布或者转发了包含标志列表中网址的推文,其虚假指数值即会上升。

由上可见,这种方式首先是基于一个假设,即在某在线社会网络的子网络中,有一些用户发布过包含了标志列表中网址的推文,与之距离愈近的用户,其发布虚假信息的可能性愈大;其次,此方式仍然是基于专业知识的标志列表;最后,此方式也无法对推文内容进行分析。该方式最大的缺陷在于,如果含有标志列表中网址的推文是辟谣的内容,则此方法极易形成误判。

3.3.2 语言学模型与深度神经网络算法识别

为实现对新闻内容真伪的自动监测,有研究团队开发了语言学模型。其要义是提取新闻标题与正文的语言学特征,并将其导入一个被训练用以识别文章内容真实性的深度神经网络。该模型可分解为三个步骤:

第一步是数据获取。研究团队选择名为假新闻语料库的数据集。此数据集包括从开源数据服务平台提供的1 001个域名中爬取得到的超过900万篇新闻,它是为以识别假新闻为目的的深度学习算法的训练而设的。每篇新闻都被贴上某种标签,被分为12类,包括“假新闻”“极端偏激”“阴谋论”“仇恨新闻”“可靠的”等[23]。根据研究目的,他们选用“假新闻”与“可靠的”两类,前者的定义为捏造信息、散布欺骗性内容或严重歪曲真实新闻报道的来源,后者的定义为以符合新闻业传统和道德惯例的方式传播新闻和信息的来源。两者的数据集分别包括100万、200万篇文章。

第二步是语言学特征遴选。研究团队将语言学特征归为三类:第一,文体特征,即每篇文章正文与标题的句法及文本类型;第二,复杂性特征,即每篇文章正文与标题的可读性与词汇量等;第三,心理特征,即比照描述某种心理特质的专业词典,判定每篇文章正文与标题的情感倾向。按此标准,从数据集中文章的正文与标题提取的、可用数值表示的特征共计534个。为消弭特征过多对模型训练的负面影响,研究者先将缺失值比例较高、仅具有单一值以及高度相关的特征删除,再运用梯度决策提升树计算特征的重要性指数以排除零与低重要性的特征,由此剔除了134个特征;对于剩余的特征亦仅保留重要性指数排名前20者,比如正文行数、正文中平均每句话有多少个停止词、标题中大写字母的比例等。这些语言学特征将通过Javascript特征提取库被导入深度神经网络模型。

第三步运用深度神经网络模型进行分析。首先进行的是数据预处理,根据输入规格,通过离散化或者独热编码,将定类数据转化为数值。其结果是每个数据条目即代表数值特征的一个矢量。接着,将数据通过输入层导入模型,输入层之后是批归一化层。批归一化层的功能在于保证输入数据具备零均值与单位方差,以使神经网络处于更佳的运转状态。然后,经归一化的数据将进入稠密层,或称全连接层。这是一个共计5层的瓶颈结构,相应包含512、256、128、64、32个神经元。该层的作用在于分类,即决定数据属于何种类型。最后,在模型的分类层中,将每类一个神经元与归一化指数函数一起用来生成概率对Preal与Pfake,即表示文章内容是真实或虚假的相应可能性[29]。

这种基于深度神经网络算法的识别技术可能在精确度上有所提高,但并非像人工一样是基于对内容的理解,而是只有概率意义上的准确性。此外,深度神经网络是一个黑箱系统,其判断机理是“不可知的”,这也决定了在某些时候其可靠性值得怀疑。

4 案例:UGC中难以消除的错误信息

由于检测识别技术存在明显的局限性,UGC大数据中信息内容失实(信息内容与社会事实不符)、用户行为失实(数据并非用户行为的真实记录)、用户心理失实(数据未能反映用户的真实心理)等问题难以消除,下文以几个最为典型的案例进行说明。

4.1 信息内容失实

网传美国未来学家阿尔文·托夫勒在《第三次浪潮》中写道:“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据’才是第三次浪潮的华彩乐章。”实际上《第三次浪潮》中并无此语,阿尔文·托夫勒与此相近的言论为“计算机能够记忆、联系、筛选‘广大数据’(vast masses of data),它将帮助我们以更为深刻的水平去认识很多问题。”[30]

运用慧科新闻搜索研究数据库,以“大数据+第三次浪潮+华彩乐章”为组合关键词进行搜索,可以发现从2014年10月至2019年10月,在1 000多种平面媒体和3 000余种网络媒体中,共有2 247篇文章引用了这句话,分布于报纸、网站、论坛、博客之中,文章数分别为38、2050、135、23,其中不乏知名门户网站乃至权威媒体;此外,还可见于学术论文(引用时均未标明页码)。

这句凭空杜撰之语在互联网上广为流传,而阿尔文·托夫勒的原话却在网络信息空间中难觅踪影。在慧科新闻搜索研究数据库中用多种关键词组合进行搜索,结果均为0;甚至直接采用百度进行网页搜索,也难觅其踪。对于这种虚假错误信息,基于统计方法与基于机器学习方法的检测识别技术完全无能为力,必须由具有领域知识的人来判别,而靠专家来保证海量UGC大数据的质量显然是不切实际的。值得注意的是,2018年已有学者在学术论文中给出了正确的引文[31],但影响甚微。

4.2 用户行为失实

用户行为失实最典型的例子是“刷单”。“刷单”指商家通过伪造资金往来或物流记录,制造虚假销量,从而实现促销目的的行为[32]。这种对用户购买行为的伪造源于经济利益的驱使。2018年,阿里巴巴就监控到2 800多个炒信平台,包括刷单QQ群2 384个,空包交易平台290个,刷单交易平台237个[33]。各电商平台、相关政府部门对“刷单”行为的打击力度持续加强,如阿里巴巴建立覆盖全链路的大数据实时风控与稽查系统[34];2019年6—11月,市场监管总局、发展改革委、工业和信息化部等8部门联合开展2019网络市场监管专项行动[35]。在这种情况下,“刷单”现象仍然普遍存在。不仅网店商家刷,也有电商平台授意供应商和员工“自刷”[35],只是手段因时而异且更为隐秘。例如,阿里巴巴的生态产业链条上滋生了大量的“刷单蚂蚁”,他们组织严密,培训严格,了解阿里打击刷单技术体系的漏洞,这让他们能够“上有政策、下有对策”,刷出的销量和评价能够以假乱真[35]。可见,这是平台与刷单者的技术博弈,至少在当前还难以清除“刷单”对数据造成的污染。

4.3 用户心理失实

前述特朗普“通俄门”事件是UGC大数据中用户心理失实的典型例证。利用社交媒介平台伪造民意,进而影响用户思想、改变用户初衷的问题,在美国引发广泛关注。为此,美国参议院情报委员会多次举行听证会。在2018年9月5日进行的听证会上,脸书首席运营官雪莉·桑德伯格承认对于问题的发现与应对过于迟缓,但坚持认为脸书已经在甄别、封杀可疑用户方面取得相当进展,称脸书“每天阻止成百上千万次注册虚假账号的尝试”;推特CEO杰克·多西亦直言对问题的棘手程度准备不足、相关技术亦不完善,但已经做到“每天阻止超过50万个可疑账户登录推特”[36]。除此之外,两者并未就如何改进现状透露更多细节。而本应参会的谷歌却未如期前往,有媒介分析称谷歌此举意在回避那些可能让其紧张尴尬的问题[37]。这表明拥有强大资源的互联网巨头虽然付出了努力,但其现有技术手段尚不足以对UGC数据伪造、操控民意的内容进行有效鉴别与剔除。

此外,用户在社交媒体上着力构建完美“人设”,从而导致在网络中的“言”与现实生活中的“行”不一致,即“前台后台效应”。近年来,经营“人设”成为明星自我推销、攫取流量的手段。然而,不少明星的后台行为一旦被曝光,其在前台经营的“人设”便瞬间崩塌。同时,“人设”经营愈发大众化。一些用户在社交媒体平台上谨慎经营自己的“人设”,比如,为秀文化底蕴,还没有真正读完一本书就先晒出三五句评论,或精心挑选“适合发朋友圈的句子”[38]。“人设”与真实生活有时存在巨大落差,只是刻意表演出来的“精神颜值”[38]。

可见,无论是对民意的伪造或操控,还是用户刻意打造的网络形象,都是虚假心理状态的体现,这些对社会科学研究而言无疑是干扰项。对此,互联网巨头尚不具备令人满意的去伪存真的技术手段。

5 UGC数据质量问题的对策

由上述分析可见,将UGC大数据运用于社会科学研究,在很多时候都会面对各种真实性值得怀疑的数据,因此不能拿来即用,必须以合适的方式检验数据的质量,判断可能存在的误差,并采用适当的策略,将研究结论的误差控制在可以接受的范围内。根据当前的数据状态与技术水平,在研究中可采用的策略如下。

5.1 数据质量的预判

UGC大数据种类很多,基于UGC大数据的社会科学研究也有不同的指向和特点。当研究者决定采用某些UGC数据时,就需要凭借自己的知识和经验,对数据的真实性、准确性做出初步判断。有些数据所受污染较小,或虽有一定程度的污染但对研究结论的影响不大,例如,通过对用户在网上言论的情绪分析,来研究人类情绪是否和季节、天气有较强的相关性,以验证心理学的相关假设。而有些数据则可能存在很严重的质量问题,例如在2016年美国大选期间,假新闻和民意伪造泛滥成灾,此时用UGC数据来分析民众投票倾向,其研究结论就会大受质疑。例如,2016年包括微软必应在内的基于大数据对美国大选投票结果的预测几乎“全军覆没”。对数据质量进行预判的主要思路是分析所选择的UGC数据是否存在媒介市场化、媒介政治化、生产者动机等因素的影响,影响程度如何。

5.2 数据质量的抽样检验

UGC大数据体量庞大,不可能进行总体的质量检验,但可采用随机抽样的方法,从中抽取一定数量的样本,由具备丰富领域知识经验的研究人员对样本进行人工检验,并依据检验结果推断其总体质量,进而判断研究结论大致的误差范围(置信区间)。需要特别指出的是,这种检测与计算机技术意义下的数据质量检验,两种数据质量的含义是完全不一样的。前者针对信息内容的真实性、准确性;后者指在大数据预处理环节进行的数据清洗、去重等技术性操作,其目的是保证获取的数据集与源数据的一致性。当前基于UGC的研究,大多缺失抽样检验环节。计算社会科学研究者必须正视现实,不能将受到严重污染的数据用于研究,除非能够消除这些污染。

5.3 与传统研究相结合

大数据分析最显著的优势在于研究的精细化以及对事物相关性的发现能力。UGC大数据尤其在对普通人群的心理、观念、行为的研究中具有重要价值,但缺陷是数据质量往往难以保证。因此我们可以将大数据分析与传统研究相结合,实现优势互补。研究者基于UGC大数据进行探索性研究,以发现事物的多样性及事物之间的相关性,但并不轻易将其作为可靠结论,而是在此基础上提出研究假设,然后设计严谨的研究框架,用传统方法对假设进行进一步验证。

5.4 多种UGC数据的交叉验证

对同一问题的研究,在条件允许的情况下,可采用多种数据源,如搜索数据可采用百度、搜狐、360等,社交媒体数据可采用微博、微信等;然后比较基于不同数据源的研究结论的一致性程度,看一项研究是否能够得出跨平台的结论。

以上只是对UGC数据质量问题的初步思考与尝试,其应对策略还需要计算社会科学学者不断探索与改进。

6 结论

随着数字化生活时代的到来,互联网/移动互联网上产生了海量的用户生成内容。这种大规模的个人行为互动数据是以往难以甚至无法获取的研究资料,它蕴藏着广大网络用户的思想观念、行为倾向、情感心理等社会事实信息,具有重大的社会科学价值。但要将UGC大数据运用于社会科学研究,必须首先考察其质量。从UGC大数据生产者的异质性、生产动机的差异性、内容检测识别技术等影响因素进行分析,可以发现网络信息与社会现实是两个不平行的空间,数据质量呈现极度的不均衡性。认为UGC大数据能够真实、客观、准确地反映社会事实与人们的行为、思想观念和心理状态,能够完美地适应各种社会科学研究的需要,笼统地给大数据冠以真实性、准确性特征是轻率的。UGC的发布和传播基本处于无控制或极弱控制状态,这既是UGC的最大优势,也导致了UGC数据的缺陷。各网络平台对缺乏信息审核评价机制的弊端早有所知,也采取了很多措施对数据质量进行控制,但效果有限。同时,当前基于人工研判的识别、基于统计的自动测量、基于机器学习的自动检测技术主要是针对文本型数据且皆有其局限性,尚无力应对互联网信息生态的复杂性,亦难以适应UGC大数据的多态性、动态性特点,因此从原始数据中提取出高质量数据往往是很困难的。

对计算社会科学而言,数据质量是研究质量的基础,也是UGC大数据价值发挥的关键。致力于计算社会科学的学者一定要清醒认识到,包括UGC在内的大数据并不是万能的。UGC大数据存在的一些缺陷,凭借当前的数据处理技术尚无法解决,这也是高水平的研究和高质量的成果并不多见的重要原因之一。在当前条件下,计算社会科学以UGC为研究资料,必然会面对各种真实性、准确性值得怀疑的数据。将UGC大数据运用于社会科学研究,必须根据具体情况对数据质量进行审慎的分析和判断。但分析UGC大数据的质量缺陷,绝不是为了将其“弃之如敝屣”,而是为了探索提高数据质量的方法和途径,使之更好地发挥价值。在技术方面,通过发展人工智能技术来提高数据的检测识别精度应该是主要方向;在具体研究方面,需要通过数据质量预判与抽样检验,采用与传统研究相结合、多种UGC数据交叉验证等策略予以应对,并不断探索与改进适合UGC大数据运用的研究方法。

(来稿时间:2020年8月)

猜你喜欢
用户研究
FMS与YBT相关性的实证研究
2020年国内翻译研究述评
辽代千人邑研究述论
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
新版C-NCAP侧面碰撞假人损伤研究
关注用户
关注用户
关注用户
Camera360:拍出5亿用户