基于朴素贝叶斯模型的虚假新闻过滤算法研究

2020-06-27 14:01罗毅夫
大经贸 2020年4期
关键词:机器学习

【摘 要】 社交媒体是一个高度开放和自由的互联网信息传播平台。随着信息媒体数量的增加,随着自媒体的出现,每个人都可以在微信微博等平台上发布和接收信息。由于信息量巨大,准入和访问机制低,给信息交流带来了极大的便利,同时也出现了大量的谣言。虚假新闻的负面效应极大地影响了国家和社会的和谐稳定和个人日常生活。因此,如何自动有效地识别谣言成为相关领域的研究热点。针对日常中的假新闻问题,提出一种自动识别虚假新闻的办法,该方法利用计算词向量相关度,结合朴素贝叶斯模型。实验结果显示,该模型在45548个数据集上,能够有效识别虚假新闻,验证所提出的方法的可行性和有效性。

【关键词】 谣言识别,机器学习,朴素贝叶斯

前 言

自从移动互联网2.0时代的到来,中国网民数量开始极具增长,据统计,中国网民数量如今已突破八亿。互联网给人们带来便利的同时,也带了信息爆炸。拿新网微博来说,截至2015年,微博日活跃用户达2.2亿人,每天能够产生1亿条微博。移动互联网在给公众带来信息便利的同时,也充斥着大量谣言。如今年新冠肺炎疫情中,网络流传由于全球疫情,大米进口量会受到抑制,所以大米会涨价,导致大批民众开始囤积大米,有的甚至囤了一年也吃不完的大米,最后还需要官方辟谣。

为了抑制谣言,学术界和相关部门都都开展过研究,例如微博由经验丰富的专家组成的辟谣团,每天24小时对微博实时监控,及时删除谣言微博,同时还采取了谣言众包的模式,每个用户都是谣言监督员,都有权力对谣言微博进行举报,但是由于个人知识有限性,普通大众可能也无法对于一些专业性问题进行辨别,同时,通过专家辟谣的方式,时效性慢,往往辟谣速度远低于谣言传播速度,而且人工判断需要耗费大量的资源。同时,随着自然语言处理的发展,学术界提出了一些解决方案。

相关技术介绍

1.机器学习

谣言识别可以看作是分类问题,而在机器学习中,处理分类问题的经典方法有,支持向量机,朴素贝叶斯,决策树,逻辑回归,集成学习方法等,这些模型均属于监督学习,监督学习基于先验知识。其中,样本特征为X={x1,x2,x3....xn},表示样本集的n个特征,而通过机器学习模型学习特征,然后通过条件概率分布P(Y|X)或决策函数Y=f(x)来对新的样本进行预测或者分类,分类或预测结果就是模型的输出。

2.TF-IDF词频计算

TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文件频率),根据官方文档解释,是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,即一个词语在一篇文章中出现次数越多,但是在所有文章中出现次数越少,越能够代表该文章含义。词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。其中,n代表该词语在该篇文章中出现的次数,n代表语料库所有词语数。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

3.朴素贝叶斯

贝叶斯原理是英国数学家托马斯·贝叶斯提出的,贝叶斯提出逆向概率概念,尝试解答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。朴素贝叶斯,它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的,这个假设现实生活中能够满足的场景不多,但是这项技术对于绝大部分的复杂问题仍然非常有效。在朴素贝叶斯原理中,有三个重要的概念,即先验概率,条件概率,后验概率。假设有两个分类C1,C2。其中每個类别有属性A1,A2,A3。我们的目的是在知道一个类别的特征属性的情况下,如何判别它的类别。对待预测样本进行预测,朴素贝叶斯模型计算过程简单速度快。对于多分类问题也同样很有效,复杂度也不会有大程度上升。在分布独立这个假设成立的情况下,贝叶斯分类器效果会略胜于逻辑回归,同时模型需要的样本量更少。即使在现在这种分类器层出不穷的年代,在文本分类场景中,朴素贝叶斯依旧坚挺地占据着一席之地。同时在文本数据中,分布独立这个假设基本是成立的。而垃圾文本过滤(比如垃圾邮件识别)和情感分析(微博上的褒贬情绪)用朴素贝叶斯也通常能取得很好的效果。主要使用的类型有高斯分布型,多项式型,伯努利型。在本文中,对比了三种类型,选择精度最高的多项式分布型来进行分类预测,多项式型用于离散值模型里。比如文本分类问题里面我们提到过,我们不光看词语是否在文本中出现,也得看出现的次数。

实验

1.数据获取

本文通过网络爬虫,其中主要使用python中的requests和pyquery工具包,其中requests是一种构造网页请求的工具,通过requests我们可以对网站进行模拟登录,并且获取到网页内容,在该文中主要是获取该页中的新闻文本。由于网页结构复杂,我们获取到包含新闻内容的网站源码后,还需要用pyquery对网站中的众多标签进行清洗,由于爬取的网站可能是ajax结构,所以我们还需要使用json方法来对新闻进行解析,由于爬虫工作不是本文的主要工作,所以在此不做过多赘述。我们通过爬虫采集了国内知名新闻网站同时也是谣言较多的门户网站某头条,一共收集48464篇新闻报道,其中虚假新闻23503条,真实新闻21418条。

2.实验步骤

1)数据读取

使用python中的pandas工具包,将存储真假新闻的csv文件读取,为了方便后面处理,我们新增一栏作为存储清洗后的数据,命名为‘Article,并且将真假新闻数据集合并成一个数据集,区分方式为事先标注好的True和Fake,Fake代表虚假新闻。组合成一个数据集后,我们将每一个样本随机打乱。

2)数据清洗

剛刚我们在数据集中新建了一列命名为‘Article,第二步我们遍历每一个数据集,通过分词工具jieba,将每一篇文章进行分词处理,并使用停用词库,去掉停用词,去停用词目的是由于中文中很多的助词比如“的”,“啊”等等,实际上这些词语对于文章的理解是不起作用的,而且这些词语在文章中频率高,所以我们需要将它们清洗掉。在做了以上两步后,我们将剩下的词语存入‘Article列。接下来我们就需要将处理好的词向量化,在机器学习中,大部分的运算都是矩阵运算,因此需要将机器无法理解的中文转化为词向量。

3)特征提取和向量化

用CountVectorizer创建词袋,再去拟合刚刚清理完成的文本数据后,使用TfidfTransformer函数拟合得到特征向量是534*533矩阵,将此举证作为下一步朴素贝叶斯模型的输入。

4)模型拟合及实验结果

这里我们只用sk-learn工具包中的MultinomialNB函数,拟合特征向量。利用先验概率,条件概率,来计算未知类别的概率,最后得出分类结果。这就是朴素贝叶斯的算法原理,。在本文中,我们设置训练集与测试集比例为7:3,然后朴素贝叶斯分类拟合,通过结果报告看出得到的最终结果为:召回率为0.98,精度为0.96,F1值达到0.97,接近于1,F1值是召回率和精度的调和值,越接近于1说明模型分类效果越好。

结 语

社交媒体给消息传播提供了一个良好的平台,但同时也面临着谣言泛滥的问题,利用自然语言处理技术的发展,找到一种基于机器的谣言识别对于互联网媒体发展是非常重要的,同时也能够净化网络环境,对于学术研究和商业发展都具有应用价值。本文分析了基于机器学习的朴素贝叶斯分类模型,实现了一个自动谣言检测系统,结果证明基于大样本数据集下,实验结果证明本文提出的方法与特征的可行性和有效性。但是由于朴素贝叶斯模型本身具有一定局限性,即朴素贝叶斯有分布独立的假设前提,而现实生活中这些预测器很难是完全独立的。由于自然语言的特殊性,词与词之间往往具有关联性,不能完全将其认作两个完全独立的变量,因此该模型在谣言分类问题上还是具有先天不足,接下来的工作方向我认为应该结合更适用自然语言处理的卷积卷积神经网络,它的输出就依赖于当前的输入和之前的记忆,也就是考虑了上下词之间的关联性,可能会得到更好的分类结果。

【参考文献】

[1] 周志华.《机器学习》

[2] 李航.《统计学习方法》

[3] 顾亦然,夏玲玲.在线社交网络谣言的传播与抑制[J].物理学报,2012,61(23):238701.

作者简介:罗毅夫,1994.09,男,汉,四川省南充市,硕士在读,云南财经大学,机器学习,推荐算法。

猜你喜欢
机器学习
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究