基于社交媒体的网络虚假信息发布者特征实证分析

2022-06-22 08:23:52莫祖英贺雅文刘燕权
郑州航空工业管理学院学报 2022年3期
关键词:发布者词频群体

莫祖英,贺雅文,刘燕权

(1.郑州航空工业管理学院 信息管理学院,河南 郑州 450046;2.美国南康涅狄格州立大学 信息与图书馆学系,纽黑文 06515)

1 引 言

世界卫生组织(WHO)针对新冠疫情在全球蔓延不仅发出了COVID-19的健康风险信号,而且将围绕这一主题传播的大量虚假信息标记为“信息病”(infodemic)。其中包括新冠病毒的虚假疗法,如用盐水漱口、吃牛至(一种中药,为唇形科植物牛至Origanum vulgare L.的全草,具有解表、理气、清暑、利湿等功效)、喝漂白剂等;还有一些误导性信息助长了虚假信息的传播,如食用“蝙蝠汤”造成了病毒感染,或者故意设计病毒等。这些虚假信息在造成民众恐慌的同时,也给政府采取有效预防措施带来了干扰。为此,世卫组织在其网站上开设了一个专门用于揭露虚假信息的区域——Coronavirus disease (COVID-19) advice for the public: Myth busters,以向民众提供可靠的信息。

社交媒体和网络站点因缺乏传统的质量控制和“守门”机制,成为虚假信息传播和共享的主要平台。有研究表明[1],在社交媒体中,虚假信息传播力度远远超过正规信息源的信息。那么,在新冠疫情暴发和大量虚假信息广泛传播的情况下,探究发布与传播这些虚假信息的人是否具有一定的群体特征及发布与转发是否存在一定的目的性具有重要的现实意义。本文以Twitter社交媒体平台为例,选取其中一个广泛传播的COVID-19虚假信息主题,分析发布者的群体特征,找出多项共性规律,以更好地识别虚假信息及其发布者。本研究中,虚假信息是指包括谣言、恶作剧、传说、阴谋论,以及其他误导性或不正确的(有意或无意)共享或发布的内容。

2 文献综述

近年来,人体健康方面的虚假信息在社交媒体上的传播呈明显上升趋势。新冠疫情出现后,社交媒体中针对新冠病毒的虚假信息也在不断增多。在国外的相关研究中,Cristina M Pulido等[2]调查了在COVID-19暴发前后两天在Twitter上传播的推文类型,分析了1000条推文的内容。分析结果显示,与基于科学的证据或事实检查(fact-checking)的推文相比,虚假信息的推文数量更多,但转发次数较少,而基于科学的证据和事实检验的推文比单纯的事实推文获得了更多的参与。Oberiri Destiny Apuk等[3]采用“使用和满足框架(the Uses and Gratification framework)”方法研究了COVID-19的假新闻,使用6个变量(利他主义、娱乐、社交、打发时间、信息共享、信息寻求)测量虚假信息在传播中的影响。Shalini Talwar等[4]通过定性分析,提出了识别与共享假新闻相关的六种行为表现形式,并采用蜂窝框架和第三人称效应假说,提出了假设这些行为之间相关性的研究模型,以年龄和性别为控制变量,并利用通过用户调查获得的两个数据集来测试该模型。

在国内相关研究中,邢鹏飞等[5]选取官方媒体信息、微博热搜信息和平台推送信息三种网络信息类型,通过文本分析和扎根理论,研究了重大疫情防控中网络舆情的形成机制。李月琳等[6]以微信朋友圈转发的健康信息为研究对象,选取样本并将其分为真、伪健康信息,通过信息特征分析,构建了伪健康信息特征列表,发现真伪健康信息的转发行为受转发者的性别、职业的影响。魏德志等[7]采用博弈论分析方法,以微信虚假信息为研究对象,构建微信用户、微信运营商、政府监管部门三方演化博弈模型,并仿真模拟虚假信息的传播演化过程。王树义等[8]对微博中虚假信息的扩散过程进行分析与建模,利用仿真软件NetLogo建立了微博虚假信息扩散模型MFISM。

总之,国内外相关研究主要集中在虚假信息特征分析及用户参与、虚假信息共享行为分析、虚假信息在社交媒体上的传播扩散研究等方面,多采用心理学和网络科学领域的研究方法。心理学方法用于分析虚假信息和谣言的个人认知反应,网络科学领域则关注虚假信息传播的社会机制和模式,而对虚假信息发布者的群体特征研究不多。本文将以社交媒体中的新冠疫情虚假信息为研究对象,分析信息发布者的群体偏好,为更好地识别与管理虚假信息传播提供建议与对策。

3 研究设计

3.1 数据收集

在网络社交媒体中,由于Twitter是典型的应用平台,且用户规模庞大,遍布世界各地,因此选择Twitter进行虚假信息分析具有一定的代表性。

在主题选择方面,根据NewsGuard发布的关于COVID-19的特殊报告“Trail of Deceit: The Most Popular COVID-19 Myths and How They Emerged”,选择一个主题进行调研。NewsGuard是一家新闻评估平台,致力于由独立记者团队来评级和打分,让读者了解他们的新闻来自哪里、是否可信。随着新冠疫情的蔓延,NewsGuard团队一直在跟踪、评级和标记网站,以传递由新冠病毒错误信息追踪中心(Coronavirus Misinformation Tracking Center)发布的关于该病毒的信息。该中心列出了越来越多的发布有关COVID-19虚假声明的网站,包括虚假和错误的治疗方法、有关疾病起源的阴谋论等。它提供的“Trail of Deceit: The Most Popular COVID-19 Myths and How They Emerged”列举了22个广泛传播的COVID-19虚假传说(MYTH),并追踪每条信息如何出现并在互联网上传播。本文选取了其中一个“MYTH: The COVID-19 virus contains “HIV-like insertions,” suggesting it was engineered”,即“COVID-19病毒包含‘HIV样插入物’,表明它是经过设计的”。选取这一主题,分析发布与传播这一信息的群体特征。

以此主题为关键词,在Twitter中搜索相关内容的推文并进行抓取。数据分布时间从最早出现相关推文(2020年2月5日)开始,截止时间是2020年6月17日,共获取721条数据。抓取的数据字段主要有推文发布者、发布时间、推文文本内容、附加信息(图片、链接等),其中针对推文发布者进一步抓取了它的发布者简介,主要包括发布者的个人描述、所在地、个人主页、出生日期、加入时间、Following和Followers数量6个方面。这些数据主要用于分析其发布者群体特征,以更好地了解在突发公共卫生事件的背景下,不同用户对相关疫情虚假信息的反应与态度,从而促进社交媒体平台更好地进行用户管理和内容管理。

3.2 数据处理

根据抓取的数据,首先对发布者的个人信息(包括观点信仰、兴趣爱好等)进行关键词提取,以分析发布者的个人偏好。将发布者个人描述的文本信息转化成若干个关键词的形式,便于统计和分析发布者群体特征及其偏好。经过项目组讨论,确定关键词提取的基本原则,即去除虚词、副词、形容词及个人主观情绪的语词,只提取有实际意义的名词,尤其是表示职业、爱好、信仰以及人物或事件等词作为关键词。根据这一原则,采用人工方式分别进行内容分析与关键词提取。操作者均是具有专业知识的项目参与者。由于人工操作具有一定的主观性,因此在实际操作之前,首先对抓取的原始数据进行预处理,一方面帮助其准确了解关键词提取的基本原则,同时通过实际操作可帮助操作者熟练掌握关键词提取的方法和技巧。

其次,根据推文内容进行分组。这些推文虽然都与选取的主题相关,但文本内容表现出的态度不同,如反对、支持、怀疑等。数据分组过程由两名研究人员分别独立完成,各自判断推文内容所属的态度类型;结束后将分组结果进行对比,不一致的推文分组后再由项目组共同讨论决定。通过不断的分析与讨论,最终将数据分为五组,分别是:虚假信息发布者(即支持并传播虚假信息)、虚假信息揭露者(即揭示虚假信息)、虚假信息怀疑者(对虚假信息持怀疑态度)、无明确态度者、同一链接的密集转发者。前四组是根据文本态度进行的划分,最后一组则是处理数据时发现的一个特殊现象,即“Evidence That SARS-CoV-2, the Virus Strain That Causes COVID-19 Illness, Was Engineered?”这一链接的密集转发。该链接共转发了204次,其中2020年5月5日—2020年5月7日三天内转发次数达198次,故将其单独列出作为一个分组,以分析转发者特征及其转发目的。推文分组分布及其示例如表1所示。

表1 不同态度的分组分布及其示例

由表1中分组可知,A组“虚假信息发布者”的数量最多(32.6%),占比近三分之一;其次是E组“同一链接的密集转发”(28.3%),占比超过总数的四分之一;“虚假信息揭露者”(15.4%)和“无明确态度”(14.8%)占比较低,“虚假信息怀疑者”(8.9%)最低。从分组态度上看,“虚假信息发布者”占绝对优势,超过了“虚假信息揭露者”和“无明确态度”的占比之和。“虚假信息怀疑者”一组中,更多偏向于强调“COVID-19病毒是经过设计的”这一谣言。因此,在关于“The COVID-19 virus contains “HIV-like insertions”, suggesting it was engineered”这一虚假信息的发布与传播中,更多的社交媒体用户在传播虚假信息,而非揭露事实。

由E组“同一链接的密集转发”数据可知,新冠疫情下还存在一些有目的性的相关信息传播与转发。E组这一链接的内容主要包括三个相关专业论文的链接,分别为“氯喹是SARS冠状病毒感染和传播的有效抑制剂”“2019年新型冠状病毒的基因组表征和流行病学:对病毒起源和受体结合的影响”“SARS-CoV-2穗状糖蛋白的结构、功能和抗原性”。由于文章具有较强的专业性,我们邀请了耶鲁医学院专业人员进行解读,发现其内容主要介绍了病毒抑制、病毒起源和病毒结构及感染过程等方面,但不能得出“病毒是设计的”这一结论。但这一链接的标题“是否设计了SARS-CoV-2(引起COVID-19疾病的病毒株)的病毒?”很吸引眼球,会给公众传达“找到了SARS-CoV-2病毒设计的证据”这一误导性信息,但其内容并无实质性结论,且由于文章专业性极强,普通读者难以理解,很可能是被其标题所迷惑。

4 数据分析

4.1 “虚假信息发布者”群体特征既分散又集中,表现出政治军事和国家情感偏好

在A组“虚假信息发布者”推文中,共有235个发布者,其中51个发布者没有个人描述信息,占比21.7%;对其余发布者个人描述信息进行关键词提取,共获得关键词400个。对这些关键词进行词频统计,发现只出现1次的关键词有163个,占比40.75%,而最高频次的关键词“D.T”词频达到37,热度很高,故总体上体现出既分散又集中的趋势。

纵观A组态度发布者的所有关键词,频次为1的关键词有163个,频次为2的关键词有27个,我们将其界定为低频词,共占比54.25%,超过总词汇的一半;而频次大于5的高频词占比32.75%,近三分之一,进一步体现了总体关键词既分散又集中的特征。

除去低频词,频次≥3的关键词如表2所示。

表2 A组发布者中词频≥3的关键词

由表2可知,这些关键词中,D.T、Politics、Veteran(老兵)、PRESIDENT、Constitution(al)(宪法)、War、Military(军事)、Army等与国家政治军事有关,United States、Patriots(爱国者)、Christ/Christian(基督)、America(n)、Libert、spirit、soul、Liberal等体现了个人信仰与国家感情,Science、Truth、News、Health、Trad、Animals、data、Global、Virus等则为日常词汇的不同方面,musician、Engineer、writer、Firefighter、Mom、NRA Member(NATIONAL RIFLE ASSOCIATION, 全国步枪协会)等则与职业身份相关。上述关键词反映发布者信息偏好的四个主要方面。

从以上分析可知,A组发布者信息特征总体上较为分散,只出现1—2次的关键词占比超过一半以上。其余关键词又相对集中,主要体现在四个方面,其热度从高到低依次为国家政治军事、个人信仰与国家感情、日常词汇、职业身份词汇。这说明“虚假信息发布者”对国家政治与军事较为关注,有着强烈的国家感情与个人信仰追求。本研究主题“The COVID-19 virus contains “HIV-like insertions”, suggesting it was engineered”相关推文,主要与医学科学研究相关,但A组发布者群体特征中没有体现医学、科学研究等相关背景,故发布者对相关虚假信息辨别能力不高,这也解释了他们发布或传播虚假信息的原因。

4.2 “虚假信息揭露者”群体特征较为分散,表现出科学研究和医学类偏好

在B组“虚假信息揭露者”推文中,共有111个发布者,其中17个发布者没有描述信息,占比15.3%;对其余发布者描述信息进行关键词提取,共获得关键词211个。对这些关键词进行词频统计,发现只出现1次的关键词有96个,占比45.5%,频次为2的关键词有24个,占比22.75%,故低频关键词(频次≤2)总占比为68.25%,比例较高;而最高频次关键词为“science”,频次为9,热度较低,故总体上关键词呈现出较为分散的分布状态。

统计词频≥3的关键词,如表3所示。由表中数据可知,频次较高的词主要有science、COVID、research、Vote等,主要与科学研究、新冠病毒相关,但它们的频次都不太高,集中趋势不明显。

表3 B组发布者中词频≥3的关键词

由于B组关键词总体上比较分散,故对频次≥2的关键词进行分类,如表4所示。由表中数据可知,B组关键词主要集中在科学研究类、医学类、身份类方面,这说明“虚假信息揭露者”对科学研究、医学类关注较多,而身份信息进一步证明了其个人发布信息的可信性。这一特征较好地解释了他们为什么能够揭露虚假信息的传播。

表4 B组关键词分类分析

4.3 “虚假信息怀疑者”群体特征极为分散,未形成特定偏好

在C组“虚假信息怀疑者”推文中,共有64个发布者,其中16个发布者没有描述信息,占比25%,对其余发布者描述信息进行关键词提取,共获得关键词99个。对这些关键词进行词频统计,发现只出现1次的关键词有69个,占比69.7%,已超过总数的三分之二,其余关键词(频次≥2)分布如表5所示。词频较高的有D.T、America(n)、Patriot等,但总体上这些词频都不高,处于绝对的分散状态。

表5 C组发布者中词频≥2的关键词

从词频为1的关键词来看,有很多不常见且奇怪的语词,如Paleoanthropology(古人类学)、nightmare beyond redemption(救赎的噩梦)、multiregionalism apes(多区域猿)、purple and white anthro fox(紫色和白色的人类狐狸)、Malignant narcissistic personality(恶性自恋型人格)、Maternal tribes(产妇部落)、Pluralist(多元论者)、determinist universe(确定性宇宙)、Nuclear Weapons Program(核武器计划)等,这类词较多,非常用词汇。总体来看其个人描述信息比较虚幻,完全脱离现实世界,真实性不高。总之,C组“虚假信息怀疑者”的描述信息各种各样,处于绝对分散的状态,未形成一定的群体特征。

4.4 “无明确态度者”群体特征较为分散,表现出政治军事和医学类偏好

在D组“无明确态度者”推文中,共有107个发布者,其中22个没有描述信息,占比20.56%。对其余发布者描述信息进行关键词提取,共获得关键词186个。对这些关键词进行词频统计,发现只出现1次的关键词有102个,占比54.84%,超过一半以上。其余关键词(频次≥2)分布如表6所示。词频最高的关键词为D.T,这一特征较为集中。总之,D组发布者特征关键词处于较为分散的状态,集中趋势除D.T外,其他不明显。

表6 D组发布者中词频≥2的关键词

对所有关键词进行聚类分析,按照不同类别包含的关键词数量,从高到低依次为:

1)政治军事类关键词(29个):D.T、national security、politics、Patriot、Democrat、Army、Democracy、next election等。

2)身份类关键词(27个):Architect、Engineer、Entrepreneur、musician、Veteran(退伍军人)、Anthropologist(人类学家)、Canadians、Patent holder、Cofounder、Marine Infantry(海军步兵)、Senior correspondent(高级通讯员)、haircutter(理发师)、food activists、Marketeer(营销人员)、artist、Author、air traffic controllers(空中交通管制员)、motivational speaker等。

3)个人信仰与个性特征类(18个):Malignant narcissistic personality、humanist、liberal、atheist(无神论者)、mental instability、Academic、Socialist、Catholic(天主教徒)、Urbanism(城市主义)、 Christian等。

4)医学类(14):Biology、Biochem、Biotech(生物技术)、transgenicos(转基因)、laboratory and clinical settings(实验室和临床设置)、Oncology Translational Research(肿瘤转化研究)、Immunology(免疫学)、virology(病毒学)等。

从这一结果可以看出,“无明确态度者”对政治军事和医学关注较多,其他方面比较分散,难以集中;且在信息描述中包含较多的身份特征、信仰与个性特征,信息更具可信度。

4.5 “同一链接的密集转发者”群体特征集中趋势较强,表现出强烈的政治军事和个人信仰偏好

在E组“同一链接的密集转发者”推文中,共有204个发布者,其中34个没有描述信息,占比16.67%。对其余发布者描述信息进行关键词提取,共获得关键词333个。对这些关键词进行词频统计,发现只出现1次的关键词有86个,占比25.83%,约为四分之一,说明总体分散性较低。其余关键词(频次≥2)分布如表7所示。

表7 E组发布者中词频≥2的关键词

由表7数据可知,D.T、Patriot的词频分别高达65、38,是以上所有发布者描述信息中词频最高的两个词;其次为Truth、Veteran、Constitution、christian、American等词,体现了关键词分布中较强的集中趋势。从这些高频词可以看出,D.T、Patriot、Veteran、Constitution、Soldier、Republic等均与国家政治军事有关,而christian、American则表示个人身份与信仰,它们反映了“同一链接的密集转发者”群体的主要关注点。

对频次≥2的关键词进行聚类统计,按照数量从高到低排列,依次为:

1)政治军事类(157个):D.T、Patriot、Veteran、Constitution、Soldier、Republic、Military、Voter、TROOP、Warrior(战士)、ObamaGate、Army、Political、democrat、Navy等。

2)个人信仰类(49个):Truth、christian、Nationalist、Freedom、God、Liberty、Globalist(全球主义者)、Jesus、Justice等。

3)日常词汇(36个):Fake News、WORLDWIDE、swamp(沼泽)、humanity、Computer、Twilight(暮光)、Wrestling(摔跤)、flag of the USA、Cabal(阴谋)、light、USA、Evil、twitter、spiritual、United States、watering hole等。

4)身份类(15个):American、Specialist、Engineer、Thinker等。

由此可知,“同一链接的密集转发者”群体主要发布政治军事类内容信息,有较强的个人信仰色彩,未发现与医学、科学研究等相关的描述词汇。

5 对比分析与总结

在对以上五组信息发布者进行分析的基础上,对其关键词分布进行综合对比。如表8所示。

表8 各组发布者关键词分布对比

在各组关键词分布中,单频次关键词反映了其总体分布的分散程度,而高频词反映了其集中趋势。值得注意的是,单频次关键词占比和高频词的频数均与关键词总数有关。通常关键词总数越多,其频数相对越高,而关键词总数越少则频数越低。典型的例子就是C组“虚假信息怀疑者”,由于其发布者人数(64)和关键词总数(99)都比较低,其单频次关键词占比很高(69.7%),高频词少且频次低,这也解释了C组关键词呈绝对分散状态的一个重要原因。

(1)发布虚假信息或有目的的转发群体,其关键词集中趋势较强,且具有明显的政治军事、国家感情和个人信仰方面偏好。对比A组“虚假信息发布者”与E组“同一链接的密集转发者”,A组关键词总数比E组数量多,但其单频次关键词占比(40.75%)却比E组(25.83%)高很多,这说明E组关键词的集中趋势比A组高得多。从高频词来看,两组高频词均体现了明显的政治色彩,且E组体现了更强的集中趋势。通常来说,关键词分布越集中,其发布者及其推文的虚假可能性越高。这一结果进一步验证了E组“同一链接的密集转发者”的虚假性和目的性,且两组均有明显的政治目的。

(2)揭露虚假信息或无态度群体关键词分布较为分散,揭露虚假信息者群体具有明显的医学、科学研究背景。对比B组“虚假信息揭露者”与D组“无明确态度者”,从关键词总数与单频次关键词占比来看,两组关键词分布都比较分散,其中D组更为分散。从高频词看,B组表示医学科学研究的词较多,而D组词则更多体现了政治偏好,但词频都不高,总之,两组关键词分布都较为分散,B组医学研究背景特征更为明显。由于本研究主题“The COVID-19 virus contains HIV-like insertions, suggesting it was engineered”与医学相关,显然B组发布者更具可信性,这也解释了他们揭露与发布真实信息的原因。

总之,在发布者群体偏好特征方面,具有专业背景的用户群体(即医学和科学研究特征)更具辨识能力,不易受到虚假信息的影响,且积极揭露虚假信息。而虚假信息发布者或有目的地转发(A组和E组)两个群体的关键词集中趋势较强,都不具有医学专业背景,而表现出明显的政治军事、国家感情和个人信仰偏好。这一结论与Krishna对疫苗虚假信息研究的结论相似。Krishna A.[9]对疫苗虚假信息的积极传播者的研究发现,那些知识不足和厌恶疫苗的人比其他人表现出更高的活动水平。Aquino et al.[10]研究识别出了anti-vaxxer(反对接种疫苗的人)和支持阴谋理论的在线社区成员是错误信息的来源或传播者,并且讨论倾向于围绕引起负面情绪(恐惧、愤怒、悲伤)的言辞和个人争论展开。

通过以上分析可知,为减少虚假信息的发布与传播,可从以下三个方面加强:一是提升用户的专业知识能力,从而提高虚假信息辨识度。针对COVID-19新冠疫情,可通过科普、教育、宣传等手段,使公众更多地了解应对COVID-19的科学知识,对相关信息不轻信、不盲从。二是注重用户理性分析能力的培养。面对各种网络信息,用户应理性对待,通过了解官方正规信息,以验证信息的真假,从而尽可能地减少感性认知和情感因素对信息真伪性的判断。三是注重用户的信息素养培养,尤其是在批判性思维方面。已有研究表明,在虚假信息判断与识别中,个人信息素养是主要影响因素。高校、图书馆等机构应担负起培养公众信息素养的重要职责,提高公众对虚假信息的辨识能力。

猜你喜欢
发布者词频群体
基于词频分析法的社区公园归属感营建要素研究
园林科技(2021年3期)2022-01-19 03:17:48
新加坡新法规引争议
通过自然感染获得群体免疫有多可怕
科学大众(2020年10期)2020-07-24 09:14:12
“群体失语”需要警惕——“为官不言”也是腐败
当代陕西(2019年6期)2019-04-17 05:04:02
基于NDN的高效发布/订阅系统设计与实现
广告发布者的著作权审查义务问题研究
知识产权(2016年4期)2016-12-01 06:58:07
加权映射匹配方法的站内搜索引擎设计
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
图书馆论坛(2014年8期)2014-03-11 18:47:59