张敏
(陕西艺术职业学院,影视传媒学院,陕西, 西安 710054)
社交媒体是一个能够分享用户生成的内容、信息、想法和表达方式的平台,访问容易,成本低廉,传播速度快。如今,它已成为最容易、最及时、最优秀的新闻消费来源。由于社会化媒体上没有管理机构[1],它使得低质量的新闻,甚至是假新闻传播得比真实新闻要快。与传统的新闻来源相比,带有图像和视频的新闻吸引了读者的注意力,成为一条更强有力的故事线。无论是互联网还是科技的合作,都在各个方面降低了难度,但另外,社交媒体也给错误信息带来了根源。人的内在倾向导致了人们更容易相信虚假信息,这就造成了虚假新闻。本文设计了一个高效的神经网络来检测假新闻,该方法使用三维张量向量传递输入数据。在这个张量中,新闻和用户之间的互动被吸引,并与用户社区信息连接在一起。这种三维张量可以被认为是知识数据,并在处理多关系数据时在网络中使用[2-3]。随后,使用张量分解的方法,基于新闻内容和社会背景特征进行分析,最终对新闻的真假进行了判断。
计数矩阵描述新闻文章的文本内容,用N表示,维数为n×v,其中n是新闻文章的总数,v是词汇表中的单词数。
参与矩阵用U表示,维数为n×u,其中n是新闻文章的总数,u是社交媒体上的用户数。
利用clauset-newman-moore算法从用户网络中提取重要的关系,这是一种有效的计算方法[4]。由C表示的用户社区矩阵,其维数为u×c,其中u是给定社交网络中的用户数,c是已识别社区数。
张量的形成如式(1)[5]所示:
Tijk=Uij×Cjk
(1)
其中,i代表矩阵U、C的第i行,j、k分别代表矩阵U、C的第j和k列。
矩阵化操作将张量重新排序为矩阵[3]。一个i型张量T可以表示为T∈RI1×I2×…×Ii。张量T的i型矩阵化可由式(2)得到,
(2)
矩阵X1是张量的模1矩阵化,其维数为n×(u×c)。
耦合矩阵张量分解(CMTF)如文献[5-7]所示。这种技术解决了优化目标,目标如式(3)所述,
(3)
式中,T是新闻、用户和社区信息的张量,T1、T2、T3表示对矩阵T1、T2和T3的Kruskal运算,矩阵N是新闻内容矩阵,N1和N2是N的非负矩阵分解(NMF)[8]。重写式(3),如式(4)所示:
(4)
可以利用分量f1和f2的计算梯度来解决优化问题。梯度的计算用式(5)~式(7)表示:
(5)
(6)
(7)
其中,
Z=T1,T2,T3
(8)
Z1=T1(T3⊙T2)T
(9)
Z2=T2(T3⊙T1)T
(10)
Z3=T3(T2⊙T1)T
(11)
T-i=TI⊙…Ti+1⊙Ti-1⊙…⊙T1
(12)
式中,符号⊙表示Khatri Rao积[9],Xi是张量T的i型矩阵化。最终的梯度矩阵是由关于因子矩阵的向量化偏导数串联而成的,如式(13):
(13)
人工神经网络(ANN):为分类任务设计了一个人工神经网络。在这个网络中,使用了4个隐藏层,它们具有不同数量的过滤器和丢失值,提出的系统采用内容和上下文特征相结合的方法,将测试样本分为2类:假类和真类。
深度混合神经网络(DeepNet):设计了一种具有7个隐层和LSTM层的深度混合神经网络。为了更好地提取特征,设计了具有不同核尺寸卷积层的神经网络,提出的模型在2个数据集上都提供了最新的结果。
特征提取:从BuzzFeed新闻网站中,获取数据集,经过clauset-newman-moore算法在提出的数据集中得到的社区数是81。在提出的模型中,利用这些社团形成了一个张量。从表1可以看出,数据集中的新闻文章数是182篇,用户总数是15 257。将所有的输入矩阵作为分类特征进行降维。可以在表1观察输入向量的整体维数。
表1 使用BuzzFeed的特征尺寸
特征提取:Fakeddit是一个新的数据集,由来自不同分类的假新闻,大约80万个例子组成。以该数据集为例,经过clauset-newman-moore算法得到的社区数是122。在提出的模型中,利用这些社团形成了一个张量,新闻文章总数1 063 106篇,用户总数358 504人。表2给出了作为分类任务输入特征的所有矩阵的维数。
表2 使用Fakeddit的特征尺寸
人工神经网络(ANN):实现了一个具有4个密集隐层的ANN,分别设计了512、256、128和64个隐层节点。这里使用了弱ReLU作为激活函数,对隐藏层设置为a=0.001,对于输出层使用Softmax。在这些系统中,输入权重从正态分布初始化,使用Adam作为优化器对设计的神经网络进行了20个阶段的优化。这里采用了Dropout作为正则化方法,从而避免过拟合。
深度混合神经网络(DeepNet):设计了一个包含7个隐藏层的DeepNet,其隐藏节点个数分别为1 024、512、256、128、64、32和2。在这个系统中,采用ReLU作为激活函数,a=0.01,用Softmax函数作为最终输出层。在该网络中,输入权重由规则模式初始化,并利用Adam作为优化算法对设计的DeepNet进行缩放。然后使用了一个Dropout作为正则化方法是用来绕过过拟合。
本文提出DeepNet的体系结构:图1显示了Deep神经网络的分层体系结构。在提出的架构中,第一层是一个嵌入层,它接受长度为32的1 000字索引向量的输入,然后是一个卷积层,它执行基于矩阵乘法的操作。第一个卷积层由内核大小为3组成,然后是最大池;第二个卷积层由内核大小为4组成,然后是最大池;第三个卷积层包含内核大小为5,然后是最大池。架构中的下一层是LSTM层,用于处理顺序数据的性质。然后考虑了提出的神经网络中的7个密集层。第一个密集层有1 024个节点,其衰减值为0.25;第二个隐藏层有512个节点,其“Dropout”值为0.25;第三个隐藏层有256个节点和0.25的衰减值,依此类推。使用ReLU(校正线性单元)作为激活函数。ReLU的公式可以定义为
图1 提出的模型
σ=max(0,z)
(14)
由于Adam实现简单,计算高效,对内存需求少,参数的更新不受梯度的伸缩变换影响,并且适用于梯度稀疏或梯度存在很大噪声的问题,因此在提出的网络中,将Adam作为优化器。
下面介绍了检测假新闻的有效分类方法。
(1) 将新闻内容和社会语境特征与人工神经网络相结合:将新闻内容和社会语境特征相结合,利用人工神经网络进行分类,并将结果与现有的基准进行比较。
(2) 新闻内容与社会语境+深网:结合新闻内容与社会语境的特征,采用深网进行更准确的结果分析,并将结果与现有方法进行了比较。
Fakeddit: Fakeddit 来自假新闻+Reddit。每个示例都由2路、3路和5路特征化类进行标记。
BuzzFeed:使用提出的方法对FakeNews-Net数据集中的BuzzFeed数据集进行了实验。在数据集中,存在以下信息。
包含真假新闻:包括新闻ID、标题、文本、URL、作者、来源等属性的新闻文章。
包含新闻用户参与:在数据集中,它指定一个数字,用于描述用户在社交媒体上共享新闻文章的次数。
包含用户连接:定义用户网络。
FakeNews-Net数据集的简要描述见表3。
表3 FakeNews-Net数据集说明
BuzzFeed和Fakeddit的分类结果列于表4和表5。
表5 Fakeddit分类结果
为了验证提出的模型的性能,使用了精确度、召回率、F1-分数和准确度作为评价参数。表4显示,通过使用Deep-Net作为提出的分类模型,将新闻内容与基于社会背景的特征进行整合,可以得到更准确的结果。给出了简单神经网络和交叉熵损失曲线的精度,并给出训练样本和用于分析的时期数。提出的模型中(DeepNet),精度和交叉熵损失与训练样本已经存在。为了验证新闻内容组合(包括图2所示的新闻文章的社会背景)的分类性能,对年代数做了相同的对比(图3)。从曲线上可以看出,该模型对基于内容和上下文的数据具有较高的准确率,达到95.20%。
图3 基于内容和上下文特征的DeepNet的准确度和交叉熵损失
表4 使用BuzzFeed的分类结果
图2 利用基于内容和上下文的特征相结合的ANN的准确度和交叉熵损失
建议的方法胜过现有的假新闻检测基准,因为它检查了内容属性的组合以及用户与特定新闻文章的通信。使用了2个真实世界的假新闻数据集:BuzzFeed和Fakeddit。在这种方法中,新闻文章的社会关系被用作从表示新闻用户参与度和用户连接的张量中提取的隐藏特征。在此基础上,提出了一种耦合矩阵张量因子分解方法来捕获新闻用户组内部的相关关系。它提供了具有社会联系的新闻文章的整体表现,有助于提高假新闻检测的性能。
本文介绍了提出的深层神经网络的分类性能。在提出的模型中既使用了新闻文章的内容,也使用了基于社会背景的特征。一种耦合张量因子分解,用于获得新闻文章的基本表示,使用真实世界的假新闻数据集验证了提出的模型的性能。分类结果表明,提出的方法具有较高的F1分数,并且将内容和上下文特征相结合可以得到更准确的分类结果。