虚假新闻检测技术的应用

2021-04-24 14:27

网络安全技术与应用 2021年4期

（四川大学网络空间安全学院四川 610065）

虚假新闻不是一个刚刚新出现的问题，虚假新闻现象已经存在了很长一段时间。早在1835 年，《纽约太阳报》发表了一系列文章，描述了在月球上发现生命，被称为“月球大骗局”[1]。然而，“虚假新闻”一词时至今日都没有公认的定义。因此，综合比较了现有一些被广泛使用的假新闻定义，从中选择如下定义：虚假新闻是指有意图的并且被证实是假的新闻文章[2]。但由于人们天生就不擅长区分真新闻和假新闻，传统的虚假新闻主要是利用人们心理的弱点来攻击他们，有两个心理学概念可以解释这一现象。

（1）朴素实在论（Naive Realism）：人们认为他们对现实的感知是正确的，而不同意其感知的人则被认为是不理性的或有偏见的[3]；

（2）确认偏差（Confirmation Bias）：人们更愿意接受符合他们世界观价值观的事[4]。

据《2019 年虚假新闻研究报告》[5]显示：随着传媒环境的急剧变迁，社交媒体平台成为人们获取新闻信息最主要的渠道。从报纸到广播、电视，现在是网络新闻和社交媒体，虚假新闻的媒体生态环境已经发生了变化，并且面临着更加复杂的情况。社交媒体对于新闻传播来说是一把双刃剑。一方面，社交媒体以其易获取、信息传播迅速、廉价等特点，使得人们可以通过社交媒体快速获得并传播新闻。另一方面，社交媒体摒弃了传统的新闻标准，没有固定格式和写作风格，海量无规则的信息数据都增加了虚假新闻监管难度。此外，由于社交媒体中的回壁音效应和恶意账号（比如社交机器人）泛滥，缺乏可靠的第三方对新闻进行筛选和核查，使得虚假新闻在社交媒体中的传播速度明显快于传统媒体，这些都为“虚假新闻”的广泛传播创造了“有利”条件。毫无疑问的是，假新闻的广泛传播会对个人和社会产生极其负面的影响。因此，现阶段社交媒体上的虚假新闻检测成了一项备受关注的新兴研究。

1 虚假新闻检测技术的分类

传统虚假新闻检测主要依靠新闻内容特征，而在社交媒体中，因为其与之前不同的新闻产生、分享、传播的方式，所以在虚假新闻检测阶段，需要增加额外的社会语境信息作为辅助信息，来帮助检测虚假新闻。现阶段根据虚假新闻检测所需要的不同特征，将虚假新闻检测技术主要分为三个类：基于内容特征的虚假新闻检测技术、基于社会语境特征的虚假新闻检测技术和基于内容和社会语境特征的虚假新闻检测技术。

1.1 基于内容特征的虚假新闻检测技术

基于内容特征的虚假新闻检测技术研究的特征包括新闻来源、新闻标题、新闻正文、新闻中包含的图像或视频等新闻的元信息。基于社会语境特征的虚假新闻检测技术研究的特征主要分为2 个方向：基于语言特征和基于视觉特征。通过对元信息的属性分析，提取其中新闻正文写作风格、新闻中图像信息、新闻中视频信息等特征进行虚假新闻检测。

1.2 基于社会语境特征的虚假新闻检测技术

基于社会语境特征的虚假新闻检测技术研究的特征主要分为三个方向：用户、帖子和网络。基于用户的虚假新闻检测技术主要利用基于用户档案信息（用户档案信息包括注册年龄、关注者/粉丝数量、用户发表的推文数量等信息）来捕获用户的个人信息和特征，用于虚假新闻检测；基于帖子的虚假新闻检测技术主要利用人们发表的帖子来判断用户对虚假新闻的观点或立场，来推断新闻文章的真实性；基于网络的虚假新闻检测技术主要根据相关帖子在社交网络中的关联关系，提取其中的网络特征来检测虚假新闻，预测新闻可信度（基本假设是新闻的可信度与相关社交媒体帖子的可信度高度相关）

1.3 基于内容和社会语境特征的虚假新闻检测技术

基于内容和社会语境特征的虚假新闻检测技术综合了基于内容特征的虚假新闻检测技术和基于社会语境特征的虚假新闻检测技术两类方法，将新闻的元信息和社交网络中的上下文社会语境信息等多种特征进行提取与融合，来检测虚假新闻。

2 代表性数据集

虚假新闻检测作为一个分类问题，数据标注质量对分类器的训练起着很重要的作用，但数据标注工作往往需要耗费大量的时间和金钱。因此，现有研究基本上都是基于已有的数据集进行展开的，下面对现有的代表性数据集及其使用场景进行简单介绍。

2.1 BuzzFeedNews

BuzzFeedNews 数据集包含了2016 年美国大选前一周（9 月19日至23 日、9 月26 日至27 日）9 家新闻机构在Facebook 上发布的完整新闻文章。每一篇文章和相关文章都经过了5 名BuzzFeed 记者逐条核实。数据集内包含作者、标题、正文等属性信息，适用于基于内容特征的虚假新闻检测算法。

2.2 LIAR

LIAR[6]数据集通过API 从事实核查网站PolitiFact 收集并整理，它包括了12836 个带有真假标记的新闻信息，这些信息来自不同的语境场景，其中包括新闻发布、电视或电台采访、竞选演讲等。新闻标签包含6 个类别：pants-fire、false、barely-true、half-true、mostly true 和true。数据集内包含文本内容、陈述人、语境、标签等信息，适用基于内容特征的虚假新闻检测算法。

2.3 FakeNewsNet

FakeNewsNet 数据集[7]通过从GossipCop 和PolitiFact 收集在Twitter 上分享的文章的新闻内容（来源、标题、正文等元信息）和背景信息（用户档案、关注者、粉丝等信息）。数据集内包含标注真假新闻标签的新闻内容和相关的社会语境特征，适用基于内容特征和社会语境特征结合的虚假新闻检测算法。

2.4 CREDBANK

CREDBANK 这是一个大规模的众包数据集，从2015 年10 月开始，覆盖96 天，大约有6000 万条推文。所有的推文都由30 个评论员进行可信度评估。该数据集包含新闻内容和人工标注的真假新闻标签，适用基于内容特征的虚假新闻检测算法。

3 评价指标

虚假新闻检测问题视为一个分类问题，用来预测一篇新闻文章是否为假新闻。使用的分类方法，包括传统的机器学习算法（比如逻辑回归算法、支持向量机和随机森林等算法）、深度学习（包括卷积和递归神经网络）和其他模型（矩阵分解和贝叶斯推理等模型）。为了评估假新闻检测算法的性能，介绍了4 个基本概念（真阳性、真阴性、假阴性、假阳性）和4 个评价指标（精确率、召回率、F1、准确率如公式（1）、（2）、（3）、（4）所示），这些指标可以帮助从不同的角度评估算法分类器的性能。

（1）真阳性（True Positive，TP）：当被预测的假新闻实际上被标注为假新闻时；

（2）真阴性（True Negative，TN）：当被预测的真新闻实际上被标注为真新闻时；

（3）假阴性（False Negative，FN）：当被预测的真新闻实际上被标注为假新闻时；

（4）假阳性（False Positive，FP）：当被预测的假新闻实际上被标注为真新闻时。

在虚假新闻检测具体问题中，准确率衡量的是预测假新闻和真实假新闻之间的相似度；召回率衡量的是虚假新闻检测分类器的敏感性；F1 衡量的是虚假新闻检测分类器的预测性能；精确率衡量的是所有检测到的被标注为假新闻的假新闻的比例。

4 结束语

随着社交媒体平台的快速发展，越来越多的人从社交媒体中获得新闻，社交媒体也被用来传播假新闻，这对个人用户和社会产生了的负面影响。在本文中，通过虚假新闻定义、虚假新闻检测算法分类、代表性数据集和评价指标概述虚假新闻相关技术研究，面对现实生活中更加复杂的挑战，虚假新闻检测技术研究还值得继续探索。