王民昆,王浩,苏博
(1.国家电网公司西南分部,成都610041;2.成都信息工程大学,成都610225)
网络舆情的定义为在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为舆情主体的民众对国家管理者产生和持有的社会政治态度。由于现目前信息化的普及,社交媒体提要、新闻博客、在线报纸等网络信息的大量涌现。网络舆情可以在突破空间和时间和的限制下进行高速传播,进而传播到世界各地,使其具有广泛的传播性。这样的广泛传播的民众意见即会被视为互联网的公众意见。如果我们能够动态地发现社会网络中的热点网络舆论,在高速地向那些寻求者提供有用的信息的同时,并且实时地监测这一热点网络舆论的趋势,就会对现实社会我的安全产生影响公众舆论。如果一些具有非真实性的网络舆情未被检测出来,就会对民众带来极大的负面态度以及情绪,以及在认识上和意愿上表现出多重不良影响,这就会给社交网络的安全安全带来严重的威胁[1]。因此,及时掌握网络舆情,正确认识其舆情动向十分重要。这也极大地推动了网络舆论检测的研究。
例如2013年4月23日,一个被盗的名为美联社的Twitter帐户四处报道白宫发生两起爆炸事件并且巴拉克·奥巴马受伤的假新闻。虽然美联社和白宫在几分钟后向民众保证该报告不真实,但是由于辟谣的滞后性,等到官方辟谣的时候,数百万用户的快速妄想导致由作者引起的严重的社会恐慌,直接导致股市损失1365亿美元,这是一起虚假信息的网络舆情,展示出社交媒体对虚假信息的脆弱性。突出了网络舆情监测准确性的实用价值,而且网络舆情的实时监测对早期防范谣言传播具有重要意义,有助于将谣言传播的负面影响降到最低。
以前对网络舆论的研究主要是从心理学或社会学的角度,研究网络信息中其对政府或社会的影响,并分析其活动的模式观点。但是如果缺少了计算机等工学方面对其活动的量化分析,无法为互联网管理部门的决策提供更可信的结果[2]。在当今的社会网络舆论的监测中,不仅可以提取文本信息,还能从网络中提取出文本的情感。与传统的文本文档相比,网页包含有已被证明在提取情感方面是有用的额外的信息,如URL、HTML标签等。近年来,工业界对网络舆情都进行了大量研究,。例如Liu等人分析了微内容下的网络舆论,他们将微内容定义为信息本体和信息状态的组合,分析了微内容的信息特征,观点收敛和演化特征。分析出由于微观内容的融合便利性,易爆炸性和社会性等特性,造成热点的形成是网络舆论的主要原因[3]。叶平豪等人利用共词分析和可视化方法,在前沿研究文献的热点上利用对知识图谱的知识,进行了许多规模分析和社会网络分析[4]。刘志明等人利用用户的影响力和用户的积极性,构建了舆论领导者的指标体系,并运用层次分析法对指标的权重进行了分析,明意见领袖是与主题相关的,只有少数用户可以成为不同主题的意见领袖[5]。黄伟等人将本体和语义计算的相关技术引入网络群体事件的主题发现研究中,并进行实证研究,实验结果表明该方法可以有效地获取主题信息,有助于网络群体事件的主题发现[6]。陈翔等人分析了基于CBR的网络舆情辅助决策系统的工作流程,并提出了基于CBR的网络舆情辅助决策系统的框架并分析了辅助决策系统的关键要素[7]。而郑奎等人针对网络舆情研究在公共安全中的需求,运用中文分词技术在应急管理领域,提出了一种基于ICTCLAS的网络舆情热点信息自动检测方法,并通过实例验证了该方法的可靠性与实用性[8]。
网络舆情的监测研究问题可以定义如下:对于一个给定的关于特定网络信息的文本,当前系统的任务是判断该信息它是否是舆情。这个问题可以定义为一个二分类问题,通过输入推文,将该推文分类为舆情信息与正常信息。
图1为本文提出的基于深度学习的网络舆情研究的结构与流程,如图1所示,整个模型由基于Word2Vec算法中的CBOW模型的但词向量化处理,与基于LSTM算法的输出预测来判断舆情构成,大致的处理流程如下:
(1)将要使用的数据集进行去重,删除特殊符号,去除表情等去噪声操作,然后再将文本通过分词工具,将句子分为一系列的词语{word(1),word(2),…,word(i)}。
(2)再通过使用Word2Vec中的CBOW模型,将经过分词后的词语向量化,将词语序列变为向量序列。并计算出该模型中的各个词的权重。并计算一个总的权重。
(3)将向量序列的词语输入RNN的深度学习算法的LSTM模型中,然后将最后一个时间步骤上预测类作为输出向量。然后输出的标签结果判定该网络信息为舆论信息还是正常信息。
图1 舆论监测模型
Word2Vec算法:Word2Vec算法是Google公司推出的一个自然语言处理工具,它能够将一个一个的单词转化为向量,这样就让词与词之间形成定量的去度量他们之间的关系,从而达到挖掘词语之间的联系。本文就使用Word2Vec中的CBOW神经网络模型来训练以得到合适的词向量。
(1)输入层:因为上下文单词采用的One-Hot编码来记录词向量,V为词库的单词个数,C为上下文的单词个数。假设上下文的单词个数C=i,那么模型的输入就是i个单词由One-Hot编码的词向量。
(2)开始初始化权重矩阵WV×N,使用输入的One-Hot编码词向量乘上该矩阵,所得到向量w1,w2,…,wc,维数为N。不过这里的维数N根据任务根据自己需要设置。
(3)然后将所得的权重向量w1,w2,…,wc相加,求得平均数作为隐藏层的向量h。
(4)上述操作结束后,就可以初始化另一权重矩阵W’MxV,将隐藏层向量h乘上W’MxV,再通过激活函数的处理得到向量y,维数为V,向量y中每一个数据代表每个单词的概率分布。
(5)向量y中概率最大的概率分布的单词输出为预测出的中间词,与真标签的One-Hot编码的词向量相互比较,他们之间的误差越小越好,然后再根据误差来更新两个权重矩阵以达到权重更新。
CBOW在训练前需要先定义好交叉熵代价函数,权重更新采用梯度下降算法。模型训练完毕后,在输入层的每个单词和输入层的向量矩阵W相乘得到的数据也就是词向量,因为在One-Hot编码的词向量中为1元素,只有一个,剩下的都为0,所以会出现矩阵W乘上第i个词向量得到矩阵的第i行,有了该矩阵就可以丢弃模型训练的过程,直接通过查表而得到单词的词向量。
图2 CBOW模型原理
LSTM是深度学习中一种特定的RNN形式。LSTM的优势在于增加遗忘门限,输入门限与输出门限,从而让自己具有变化的循环权重,这就会在有参数固定的情况下,即使在不同时刻,积分尺度依然可以随之动态改变,这就解决了梯度膨胀或者梯度消失等问题。根据LSTM网络的结构,每个LSTM单元的计算公式如下所示,其中Ft表示遗忘门限,It表示输入门限,Ct表示前一时刻cell状态、Ct表示cell状态(这里就是循环发生的地方),Ot表示输出门限,Ht表示当前单元的输出,Ht-1表示前一时刻单元的输出。
(1)LIAR数据集[9]是用于伪造新闻检测的最新基准数据集。该数据集由PolitiFact收集了12,836个现实世界的短信息,来自包括辩论、竞选、Facebook、Twit⁃ter、访谈、广告等各种场合。每个语句都标有真实性的大小。有关主题的信息、派对、背景和演讲者也在内在此数据集中。
(2)Vlachos是第一个研究的人PolitiFact数据[10],但LIAR数据集的数量级更大更全面。但是,请注意该原始LIAR数据集不包括编辑的理由或版权证明问题,用户将需要获取理由/证据分别使用API。
本文用到的数据集即为上述两个数据集的混合,整个数据集上应用了10倍的交叉验证,并对数据集中缺失的信息进行了填充,以便在不同的场合下信息,而保持特征向量的统一,以便后续分析及处理。
为了模拟出现实生活中的网络舆情的爆发,我们进行了5倍的交叉验证。在每次运行中,我们使用四分之三的数据集来训练我们的模型以及基线分类器。然后使用剩余的四分之一的数据集来评估这些分类器在精度、召回和F1方面的性能。此外,为了确保训练结果的稳定性,并对分类进行更稳健的估计。对于我们的深度学习模型,我们对每个模型配置重复了5倍交叉验证的每一次运行五次。
基线分类器:本文不仅通过对比K-means、SVM与朴素贝叶斯等几种传统的机器学习方法,还对比了在网络舆情方面先进的监测技术。DTR:一种基于决策规则的识别趋势谣言的排序方法,它搜索有争议的事实索赔的查询短语和聚类,并对聚类结果进行排序关于统计特征的SED。SVM-RBF:基于SVM的Twitter信息可信度模型,该模型具有RBF内核的模型,使用了基于帖子总体统计的手工制作的特性。
表1分别有准确度、F1值、召回率的平均分数,数字越大,代表模型效果越好,分别在同样的数据集对比了不同基线模型得出的分数。
表1 不同方法各个评价值
实验结果表明,在所有基线分类器中,DTC在较其他传统机器学习在准确率方面表现较好,而条件随机字段(SVM-RBF)在精确度方面表现较好。这和使用该方法的论文结果一致。从表1可以看出,我们提出的方法明显在精度、F1值等评价指标下得出的数据都优于本数据集上的同时训练的所有基线,它实现了高召回率,能更好地实现网络舆情的监测,更加实现实时监测效果。
我们提出了一种基于CBOW词向量化,LSTM的深度学习算法的新方法来监测网络舆情,使用了liar这种包含各个场景的信息,并且在数据集里面还包含标签,链接等额外信息用于辅助判断舆情的发展。在模型训练的每个时间步骤中,LSTM的上时间段的输出被用作下一时间段的输入,具有时效性,能看清舆情的发展受时间影响的大小。
这项研究还表明在深度学习训练的模型中,RNN和CNN往往都需要更大的数据集,虽然本文训练较其他方法有较好的效果,但是效果并没有达到理想状态。在某些情况下,需要更多层的神经网络来有效地训练它们的模型,从而提高模型性能的鲁棒性。