黄淼,黄佩
(北京邮电大学 数字媒体与设计艺术学院,北京 100876)
互联网传播带来了信息的飞沫化、传者的去中心化、公众生活的社交媒体化,颠覆了健康传播“知、信、行”的经典范式[1]。健康信息的获知不再是单向的、一对众的,而时常产生在基于共同话题兴趣的交流中,天涯论坛、豆瓣小组、百度贴吧、微博话题、微信群组以及知乎等平台支持着开放的知识分享。健康信息的可信度不再依托于传者权威,而往往积累于已被采信的数量和质量,评论倾向、点赞数、星标等级等指标形成了众筹式的信用标准。在此背景下,健康谣言频现似乎成为互联网时代难以回避的问题。
健康谣言频现也与网络空间的规制局限有关。首先,在合法性判定的规制标准上,我国政府对时政类信息的生产和发布主体都有严格的资质审查,而出于对言论自由和文化多元的尊重和保护,非时政类信息的生产和发布资质较少受限,健康信息即属于后者。其次,在真实性核查的技术难度上,健康谣言牵涉到较多专业知识,其中更有科研领域尚未定论的问题,而科研中常见的“不确定性”结论恰是谣言传播的驱动因素之一[2]。再次,健康谣言通常不会含有明确的涉事主体,而时政类和社会类谣言的受害主体会主动维权,所以,健康谣言的违规成本较低。最后,我国正处于社会转型期,风险议题频频成为舆论热点[3],风险社会的现实映射到网络空间之中,使后者成为谣言传播的“沃土”。
微信公众号“谣言过滤器”自2016年7月开始发布《朋友圈十大谣言》报告。与该平台合作的第三方辟谣机构分为两类:健康类和社会事件类,可见健康谣言治理已经成为社会普遍关注的公共问题。今日头条算数中心2018年11月公布的数据亦显示,健康谣言文章数量在谣言库中所占比重最高。截至2018年底,今日头条谣言库有2万条谣言数据,话题分布于健康、民生、娱乐、科技、收藏、历史和军事等领域。其中,健康类谣言占比(35.5%)最高。同时,在今日头条客户端中的各类资讯订阅数中,健康话题也名列前茅,反映出此类信息需求量较大。
对微信和今日头条两个平台中谣言内容进行初步分析后,发现健康谣言通常呈现为科普文章,看似具有科学性的叙述掩盖着错误的知识关联。那么,这些错误的知识关联通常如何表现?笔者结合今日头条算数中心发布的《健康类辟谣资讯新趋势报告》和微信公众号“谣言过滤器”2017至2019年发布的“朋友圈十大谣言”,归纳了健康谣言中常见的五类虚假知识关联(如表1所示)。
表1 健康谣言的五类虚假知识关联
如表1所示,构成健康谣言的虚假知识关联可分为五种类型:歪曲常态事实、偷换概念、捏造联系、忽略剂量和虚构因果。其中,歪曲常态事实的案例最多,可根据效果将其分为积极型和消极型,这类谣言主要通过引起读者的惊骇达到二次传播的目的。但过度夸张也可能引起更多质疑。相较而言,后四类谣言的虚假知识关联更为隐蔽,其判别需要更多科学知识。由此可见,对于涉及背景知识的谣言识别,知识关联比文本特征更重要。基于此,笔者将主要探索如何找到健康谣言中的知识关联。
在新闻传播学领域,针对谣言内容的研究主要关注文字、情绪、叙事结构等文本特征。谣言常带有煽动和夸张的措辞方式[4],常采用劝服式行文结构[5],谣言的情绪倾向多为负面[6],尤其体现为恐惧和愤怒的情绪[7]。这些研究发现的文本特征可以作为识别谣言的理论参考,但若要应用于识别技术,存在三个缺陷:其一,既然谣言的目的是欺骗,其作者就有充分动机刻意模仿真实信息,极力掩盖措辞、行文和情绪中的“谣言式特征”;其二,文本特征只能表明“虚假”是如何呈现的,却不能揭示“虚假”是如何形成的;其三,健康谣言多呈现为科普文章,以往研究基于社交媒体个人言论、新闻文本或其他文体发现的文本特征不一定适用。
针对谣言传播过程的研究提供了认识其内容特征的另一种视角。有学者发现,谣言的形成与传播经常同时发生,新的信息点不断添加进来,“信息拼图”逐渐形成,信息点及其之间的关联构成谣言的说服力,决定谣言的传播效果[8]。信息构成是比文本呈现更深层、更稳定的内容特征,其应用于谣言识别的关键在于找到从信息到内容的映射关系。有学者通过分析微信中食品安全类谣言的词频特征得出结论——“导致”“产生”“作用”等具有诱导涵义的动词频率较高,目的就在于引起读者的忧虑,实现二次传播[9]。但该研究只分析了词频特征,只解决了信息到内容如何映射的问题,缺乏对不同信息之间关联的思考。
在计算机领域,基于内容特征的网络谣言识别方法包括两类:基于内容分类的机器学习和基于内容对比的检测方法[10]。第一类方法把谣言内容看作机器学习分类问题,从已标记的训练数据中训练预测函数,即谣言识别算法。训练数据包含多元特征,既可以是显性的语法特征,也可以是隐形的语义特征。这类方法需要大规模的训练数据,只适用于历史数据分析。但该方法可以整合多元特征,结果的精确度较高。第二类方法是选择已判定的谣言和非谣言,从语法、语义和情感等角度进行对比。这类方法可以根据小规模数据提供时效性强、特征简单的判别,但结果的精确度不高,通常作为其他识别方式的辅助工具。对于健康谣言来说,如果历史数据充分,就可以先采用基于内容分类的机器学习方法训练识别函数,再使用基于内容对比的方法进行新数据的事实监测。即便如此,仍然只能识别已有谣言话题,而无法识别由新的信息关联构成的新生谣言。
通过对新闻传播学和计算机科学这两个领域相关研究的回溯,本文的研究问题进一步明确:其一,如何找到从信息到信息拼图的关联;其二,如何借助现有计算机技术建构新生谣言的识别机制。
通过对今日头条谣言库的全样本数据进行高频词提取和话题聚类,发现“减肥”相关词在健康谣言中出现频率最高且最易形成话题,所以,笔者选择减肥谣言作为知识关联特征的具体分析对象。
今日头条算数中心根据用户阅读与搜索行为数据总结出最易产生谣言的“十大知识点”:减肥、高血压、糖尿病、腰间盘突出、戒烟、鼻炎、养生、穴位养生、痛风、甲沟炎。这10个知识点所对应的关键词在谣言库中的词频排序如表2所示。词频最高的“减肥”的相关词包括减肥法、减肥茶、减肥药、减肥操、减肥液、减肥粥、减肥汤、香蕉减肥法、中药减肥、减肥丸、减肥手术。以上词汇多为具有减肥功能的产品,反映出谣言生成多伴以商业营销目的,印证了以往对微信谣言的分析结论。
表2 “最易产生谣言的十大知识点”对应关键词的词频排序 次
数据来源:“最易产生谣言的十大知识点”出自2018年今日头条算数中心发布的《健康类辟谣资讯新趋势报告》,词频统计由今日头条算数中心提供。
“减肥”话题的重要性在基于“隐形狄利克雷分布”的话题聚类中进一步得证。今日头条算数中心进行了类别数量由少到多的4次聚类(128类、256类、516类和1 024类),“十大知识点”对应关键词中只有“减肥” 可以在4次聚类过程中都形成词团,且在1 024类中形成了两个词团。由此可见,“减肥”是健康谣言中较易形成话题的关键词。此外,在今日头条客户端可订阅的健康资讯范围内,“减肥”是订阅数位居第三的话题。而排在前两位的“养生”和“健身”,也是“减肥”词团中的相关词。
本文采用社会网络可视化工具Gephi对“减肥”高频词团在今日头条谣言库中的相似矩阵和共现矩阵进行可视化处理。社会网络可视化是融合社会网络分析和可视化这两个不同学科知识的研究领域,它通过网络形式呈现被分析数据的内在关联,辅助研究人员发现存在于网络关系中的特征和规律[11]。这个工具可以用直观图形表示数据集的整体特征和群聚情况,适合于揭示谣言词团内部的知识关联。“减肥”高频词团是在“隐形狄利克雷分布”的话题聚类形成的5个话题聚类词团的基础上建立的。为获得不重复且可解释的“减肥”相关词词团,7位研究人员对5个词团进行去重和筛选,将7份结果合并后得到由63个高频词构成的词团。该词团在今日头条谣言库全样本数据中的相似矩阵和共现矩阵通过Word2Vec工具获得。在将相似矩阵和共现矩阵导入社会网络可视化工具Gephi之前,删除共现度和相似度较低词汇,保留56个相关词。
由Word2Vec获得的相似矩阵和共现矩阵可以代表两类不同的知识关联特征。相似矩阵表示高频词团在谣言库中两两词汇之间的相似程度,共现矩阵表示高频词团在谣言库中两两词汇在一定窗口距离内共同出现的频率。例如,与“减肥”相似度最高的是“瘦身”(0.893),共现频率最高的是“吃”(2 052);与“营养”相似度最高的是“蛋白质”(0.818),共现频率最高的也是“吃”(2 008)。相似关系已被普遍应用于谣言识别,而共现关系多应用于知识管理领域,用以呈现较多知识点之间网络状的复杂关联。例如,文献的共引和被引关系、学术话题的知识图谱等[12]。由此推知,共现关系比相似关系更有助于呈现映射在词汇关系上的知识关联。
为了进一步探究共现与相似的差异,笔者使用了社会网络可视化工具Gephi的两种不同算法——介数中心度和模块化,可视化呈现效果如图1和图2所示。
在社会网络分析中,介数中心度(betweenness centrality)是指某个节点被其他节点以最短路径通过的数量与图中最短路径总数之比,该数值可用于描述节点在网络信息流动中的重要性[13]。因此,该数值越高,某节点控制其他节点间联系的效力越强。图1中颜色的深浅代表节点的介数中心度高低,对比左右图可见,共现关系可显示出的节点控制力分为5层,而相似关系只有两层,所以,共现关系可以更有效地发现词团网络中的常用搭配。
在社会网络分析中,模块化算法是根据图的连接关系对节点做归类[13],可用于发现话题词团内部更细分的社区(或称“小世界”)。基于相同解析度,共现关系可形成5个词团,相似关系可形成3个词团。词团聚类可以映射知识关联,所以,共现关系比相似关系更易形成具有解释力的话题聚类,有助于形成更完备的知识标签。
综上所述,使用社会网络分析工具Gephi对“减肥”高频词团两种关系矩阵进行可视化呈现,发现共现关系比相似关系更有助于发现知识类谣言的常用搭配和主要话题。这一发现可以部分回答在前文提出的第一个问题——如何找到从信息到信息拼图的关联,在共现网络中发现的常用搭配和主要话题可以映射减肥谣言的关键知识,以及知识之间的关联。下面将探讨第二个问题——如何借助现有计算机技术建构新生谣言的识别机制。
如前所述,现有谣言识别技术面临一个难题:基于分类机器的方法可以面向多维特征,结果具有较高精确度,但需要大规模数据,只能用作谣言爆发期之后的历史数据分析;基于内容对比的方法可以用少量数据作出高效分析,但特征维度较少,结果的精确度有限[14]。实际上,计算机领域学者已经意识到当下关于谣言实时识别的研究较少,但需求紧迫[15]。
依据对谣言的知识关联的分析,结合对当下信息分发技术的考察,笔者认为,新生谣言的识别需要结合知识图谱和标签两种技术——知识图谱可应对网络空间中知识关联繁复和更新快速的挑战,标签则可提高知识数据的调取和更新效率。在新生谣言识别过程中,这两种技术相辅相成(如图3所示)。
知识图谱是表示知识发展进程与关联结构的网络体系,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。其本质是语义网络(semantic network),即一种用于存储知识的数据结构。在这个网络中,每个节点代表实体(人名、地名、机构名、概念等),而每个节点之间的连线则代表实体间的关系。借助知识图谱技术,可以建构具有复杂内部关联的知识体系,为新生谣言提供比对知识点的依据。
首先,相比于基于学科分类的传统知识分类和储存方式,知识图谱有助于突出不同专业知识点之间的联系,可基于任一知识点形成网络状、无限延伸、多个维度的知识关联,更能适应互联网空间中大量散在、快速更新的知识数据环境。
其次,知识图谱适合于从非结构化数据中转化出结构化数据的应用场景。例如,从海量文本和图片中抽取结构化知识[16]。建构知识图谱包括三个步骤:第一步知识提取,是从特定的文本结构中提取出实体、关系、属性等知识要素及其间关联关系;第二步知识表示,是以深度学习为基础的“分布式表示”,将大规模散在的知识点以合理方式关联起来;第三步知识加工,包括消歧(根据同一规范对不同来源的知识进行整合),以及推理(根据已有知识挖掘隐含知识关联)。概言之,知识图谱可以反映海量知识点之间多维的知识关联,为虚假信息识别提供更全面的比对依据。
标签属于数据库技术,实际上是针对特定文本或话题的关键词标识技术。在目前广为采用的个性化信息推荐机制中,用户标签和内容标签的恰当匹配是基础步骤。在新生谣言识别中,标签技术的优势在知识储存和调取阶段都可得到发挥。在知识储存阶段,传统学科分类基于由大到小的主题细分,而标签技术支持多维度、多层次的主题区分。相较于层层嵌套的主题细分,基于标签技术的主题区分可以更高效地响应热点话题带来的新类型。在知识调取阶段,人类因循学科分类由大到小进行主题搜寻,而高速运算的程序可依据标签进行遍历式搜寻。相较于层层向下的主题搜寻,基于标签技术的遍历式搜寻可以囊括具有潜在关联的知识点。简言之,标签技术可以灵活增减话题标签,还可以充分利用知识图谱所涵盖的潜在知识关联。
本文从健康谣言频现于网络空间的现实问题入手,一方面整合今日头条算数中心总结的健康谣言“套路”和微信公众号“谣言过滤器”判定的年度十大健康谣言案例,另一方面在新闻传播学和计算机科学中寻找谣言识别的理论思路,从对实践的观察中提出问题,在理论成果中寻找解决思路。在分析问题的过程中,采用社会网络分析工具Gephi对今日头条谣言库的减肥谣言高频词团进行可视化处理,发现了共现关系比相似关系更有助于发现知识类谣言的常用搭配和关键话题,回应了开篇提出的第一个研究问题。最后,从规范性研究的角度,提出结合知识图谱和标签两项技术建构新生谣言的识别机制,回应了开篇提出的第二个研究问题。