基于联合模型的网络舆情事件检测方法

2021-03-11 06:03阮树骅陈兴蜀王海舟王文贤蒋术语

信息安全研究 2021年3期

冯科阮树骅, 陈兴蜀, 王海舟, 王文贤蒋术语

1(四川大学网络空间安全学院成都 610065)2(四川大学网络空间安全研究院成都 610065)

(2676516772@qq.com)

当今社会，网络媒体实时发布着各类大大小小的热点事件，特别如军事外交、武装冲突、暴恐事件、突发公共安全事件等国内外事件频繁发生，这给国家安全和社会稳定带来极大的冲击与挑战.国内外学者持续对相关主题下的大量事件进行挖掘分析，以发现不同类型事件的内在模式与发展规律.美国国防部成立专门小组研究极端组织“伊斯兰国(ISIS)”制造的历史恐怖事件，分析挖掘其活动规律，预测相关事件活动，以便能够及时作出相关防护行动[1].然而，面对大量、冗余且混杂数据中的事件信息，如何实现这类特定事件的自动化识别，并进一步抽取以获得大量精细、机器可处理的精准结构化事件数据具有重要实践意义.本文致力于网络舆情事件检测，也称网络舆情事件发现或事件识别，检测给定新闻文本中所包含的网络舆情重大事件实例信息，在事件抽取、自动摘要等领域有着重要的运用.

1 相关工作

事件检测是事件抽取任务的基础，通常的事件检测可以通过识别一个句子文本中是否存在能够表征事件发生的词语，并且判定这个词语所触发的事件所属类别.事件检测从研究方法上大体分2种，即基于模式匹配和基于机器学习的事件检测.基于机器学习的事件检测方法又可分为基于传统机器学习的浅层语义特征学习和基于深度神经网络的深层语义学习.

基于模式匹配的方法是利用定义好的匹配模板和匹配算法，在一段文本中识别出符合预定义模式的事件.Chinatsu等人[2]利用语法和词法来构造事件模式.Yangarber[3]提出一种基于人工构造的种子模板，并以此为基础迭代学习新的模板.Karin等人[4]使用了概念识别器来检测事件.Hung等人[5]使用了语法词模式匹配事件和标注语义角色.一般来说，基于模式匹配的方法需要针对不同的特定需求制定相应的规则和模板，可移植性差，所以该方法更适合于特定领域.

基于传统机器学习的事件检测大多采用统计特征的方法：如Grishman等人[6]和Ahn[7]在传统词法和句法特征(如词性、依存关系等)基础上使用最大熵模型来识别事件.Ji等人[8]和Liao等人[9]加入跨句子和跨文档的辅助特征来提升检测效果.Hong等人[10]利用跨实体推理来获取更多辅助特征.Li等人[11]基于特征建立了一个包含事件检测与事件要素识别的联合模型.然而，基于传统机器学习方法的特征工程都比较繁琐，不容易扩展应用到其他领域与语言中；基于传统机器学习的方法所学习到的是浅层语义特征，丢失的深层语义特征有待挖掘.

随着深度学习在自然语言处理方面的运用开启，深度神经网络方法在事件检测领域研究逐渐深入.Chen等人[12]率先提出动态多池化卷积神经网络DMCNN模型，解决一个句子存在多个事件的问题.Nguyen等人[13]发现双向循环神经网络模型具有更好的处理效果.Feng等人[14]进一步探索到双向长短期记忆网络Bi-LSTM和卷积神经网络CNN的混合模型，使得能够在获取序列信息的同时，也充分利用到短语块信息.Liu等人[15]引入注意力机制，利用事件元素信息来辅助事件检测.陈兴蜀等人[16]将递归神经网络运用到中文事件检测中.Lin等人[17]参考Chen等人[12]提出的DMCNN网络结构，并将字与词混合表示为NPNs模型.Ding等人[18]提出了TLNN模型，主要使用外部知识库How Net，lattice LSTM框架，将所有信息动态合并，以增强字与词的所有语义信息.Xu等人[19]将语义、句法依存等综合特征信息融入到向量中，再输入到Bi-LSTM中捕获句子信息.

基于深度神经网络学习的方法在事件检测研究中取得了一定的成果，但是由于中文复杂语言的特性，事件类型和子类型识别效果有待进一步提升.本文将深度神经网络的事件发现和分类的层级扩展到句子级别，同时，将深度神经网络事件发现和分类模型与网络舆情事件专家知识模式库的模式匹配相融合，通过联合模型降低网络舆情重大事件检测的漏判和误判，提升网络舆情事件类型和子类型的识别效果，实现重大网络舆情事件的检测.

2 模型设计

本文事件检测的目标为检测出新闻报道中所涉及的网络舆情事件并判别其所属的事件类别，联合模型架构及处理流程如图1所示:

图1 网络舆情事件检测联合模型图

首先对新闻文本进行分句、分词等数据预处理，获取基于深度神经网络的事件句检测模型(event sentence detection model, ESDM)的输入数据；然后由事件句检测模型ESDM学习生成候选事件集；在此基础上，通过事件类型判别模型(event type discrimination model, ETDM)和网络舆情事件专家知识模式库(expert knowledge base, EKB)进行联合分类，得出网络舆情事件所属类别，包括该事件的类型和子类型.其中，ETDM模型学习预测网络舆情事件所属类型， EKB通过模式匹配学习获得网络舆情事件所属子类型，最后，融合联结事件类型与事件子类型形成事件类别，得到最终的网络舆情事件检测结果.

联合模型中的EKB模块通过专家模式干预环节，接受联合模型输出结果的反馈调节，能够动态修正已有的网络舆情事件模式，同时可以动态扩充网络舆情事件新模式.

2.1 基于深度学习的事件句检测模型ESDM

基于深度学习的事件句检测模型ESDM，通过学习文本深层语义特征获取文本中的事件句，生成联合模型共享的候选事件集.ESDM构建方法和流程如下:

1) 对数据集中的文本进行分句、分词和去除停用词等数据预处理.分句是将文本根据“.”“？”和“！”等标点符号进行切分；分词是将每个句子切分为由词组成的词序列；去除停用词是将句子中常用的类似于“的”“不然”之类的停用词过滤掉.

2) 对进行分句、分词等预处理后的文本进行Word2Vec词向量的训练.每个句子用长度为50的词序列表示，每个词用训练出来的200维词向量表示，由此获得200×50的句子词序列特征向量，作为ESDM模型的输入特征向量.

3) 编码训练集、验证集的目标向量.目标向量采用one-hot编码表示，句子标签含义如表1所示:

表1 句子标签含义

4) 构建ESDM模型.ESDM架构如图2所示，输入层Input由200×50的句子词序列特征向量构成；隐藏层由CNN和Bi-GRU构成，由4个CNN构成的ensemble网络深度提取输入词序列向量的特征，并通过Bi-GRU学习全局上下文语义特征信息；输出层为全连接前馈式神经网络，通过随机失活Dropout层防止模型过拟合，采用Softmax分类器输出句子分类结果.

图2 事件句检测模型ESDM

(1)

(2)

(3)

输出层Flatten首先将所有yt转化到一维空间F(∑yt)，经过非线性变换得到句子概率分布Ps，根据概率分布使用Softmax函数对句子是否是事件句进行预测T，如式(4)所示.从而获得候选事件句集.

T(s)=Softmax(Ps).

(4)

2.2 基于深度学习的事件类型判别模型ETDM

本文定义的网络舆情事件类型有：“政治”“经济”“军事”“涉恐涉暴”“网络安全”“重大灾情”，以及不属于上述六大类型的第7种网络舆情事件新类型“其他”，如表2中的“事件类型”所示.各大网络舆情事件类型下又细分为多种子类型，如表2中的“事件子类型”的部分示例所示，事件子类型合计超过30种，并动态增减.网络舆情事件类别由事件类型和事件子类型共同定义，并最终通过联合模型判定.

构建基于深度学习的事件类型判别模型ETDM，当用户输入一个事件句时，该模型将会判断并输出该事件句所属的事件类型.由于ETDM模型架构与ESDM一致，构建方法和流程也与ESDM类似，此处不再赘述.

在事件类型判别任务中，ETDM模型的输出目标向量是长度为7的one-hot向量.7代表上述七大类网络舆情事件类型，注意“其他”类型表示该事件句不属于已知的网络舆情事件类型.对应的事件类型标签如表2中ID所示.

表2 网络舆情事件类别

候选事件句S的事件类型目标向量为[t0,t1,…ti…,t6]，其中ti的设置方式如式(5)所示：

(5)

2.3 网络舆情事件专家知识模式库EKB

事件子类型细分杂多，如果采用深度学习进行训练，将面临个别数据样本缺少、样本标注困难、样本分布不均衡、模型泛化性能差、准确度低等问题.本文在事件类型判别模型ETDM判别的事件类型基础上，联合网络舆情事件专家知识模式库EKB，能够针对事件更加细粒度的分类问题——事件子类型——进行事件类别的识别.

2.3.1 数据预处理

在专家进行网络舆情事件模式抽象之前，首先需要对相关的新闻报道进行预处理，提取出关键词集，供专家模式干预参考.首先，按照前述定义的网络舆情事件类型，将采集到的新闻报道进行分类，并清洗无关、不完整、冗余等糙杂数据.然后基于TextRank算法对各类网络舆情事件的新闻集提取事件相关关键词，构造关键词集.TextRank算法利用文本序列局部词汇之间的共现关系获取关键词序列，从而获取关键词集.主要思路和方法流程如下:

首先，将给定的新闻事件文档D分割为n个独立完整句子，即D={S1,S2,…,Si,…,Sn}.对于事件句Si∈D，进行语义特征提取预处理，如分词、词性标注、过滤停用词，保留与触发事件相关的动词、名词和与名词构成偏正短语的形容词，即Si={wi,1,wi,2,…,wi,j,…,wi,m}，其中wi,j∈Si.

其次，构建候选事件关键词图G=(A,C)，A表示事件关键词节点集，由候选关键词组成，C表示采用共现关系(Co-occurrence)构造的节点之间的关系边集.2个节点之间是否存在边由它们对应的词汇在长度为k的窗口中是否共现决定.

TR(Ai)=(1-d)+

(6)

根据式(6)迭代计算各节点的权重，直至收敛.其中d是阻尼系数，为G中点Ai到任意点Aj的概率；wji为Ai与Aj边的权重；In(Ai)为指向点Ai的点集合，k为窗口大小.

最后，对已收敛的节点权重进行倒排序，从而获得最重要的前m个单词集，构造为关键词集.同时，将关键词集中的关键词在新闻事件文档D中进行标记，若形成相邻词组，则组合成多词关键词，添加到关键词集.例如，事件句“台湾地区11日举行领导人选举投票，得票第一的民进党候选人蔡英文当选连任台湾地区领导人”“台湾地区”“领导人”均属于候选关键词，则组合成“台湾地区领导人”加入关键词序列.

2.3.2 网络舆情事件专家知识模式提取

事件类型通常由“动词”和“名词”所表征，所以模式关注包含“动词”和“名词”的关键词.如网络安全中网络攻击事件：“植入…病毒”“植入…恶意代码”“实施…网络攻击”等.定义网络舆情事件元模式如式(7)所示，其中，“动词”V为动词关键词；“名词”N为名词关键词，也可由形容词Adj和名词N构成的相邻词组.

E(S)=(〈V〉,〈N|Adj-N〉).

(7)

专家对提取出的每类网络舆情事件的关键词集进行清洗，剔除无用与错误的关键词，并进一步将每类网络舆情事件的关键词集细化成事件子类型相关的关键词子集.然后，对基于专家知识筛选出的各类网络舆情事件的关键词集和关键词子集，根据网络舆情事件元模式自动提取形成各类事件类型、子类型的事件触发模式，得到可以远程监督触发事件类型和子类型的专家知识模式库.专家交互式地模式干预确保形成事件模式的准确性与新颖性.

联合模型将深度学习模型与专家知识模式库检测结果进行融合，形成联合的反馈信息，再次经专家模式干预，获取网络舆情事件新模式，并对EKB信息进行动态反馈调整，动态修正和扩充EKB.

3 实验

3.1 实验语料

本文实验的数据来源于各大主流新闻媒体上公开发布的与朝鲜和台湾相关的新闻数据.经过初步筛选获得1 306条原数据，然后邀请专业人员对网络舆情事件类别(包括事件类型和子类型)进行标注.对比校正每类事件类别数据，均衡数据类别的分布，确认1 000条原始数据集，并以8∶1∶1的比例按相同分布划分为训练集、验证集和测试集.

3.2 实验参数与评估方法

为了验证方法的有效性进行了对比实验.模型构建设置的相关参数有：词典大小为800万中文词汇，输入词向量维度200维，句子长度设置为50；神经网络Dropout比率为0.3，学习率为0.001，每批次样本数为32，迭代次数为500；将整个数据集重复实验5次.

为评估本文方法在事件检测方面的识别效果，选择准确率P(precision)、召回率R(recall)以及调和值F1(F1-score)作为模型识别效果的评价指标，3类评估指标的定义和分析如下：

1)Precision表示被判定为正例的样本中有多少是真正例，反映了模型判定结果的准确率，表达了网络舆情事件被分类为某特定类别的事件被误判的情况，准确率越高误判越低.

(8)

2)Recall表示正例样本中有多少被预测为正例，反映了模型对正例样本的识别能力，表达了网络舆情事件被正确识别并被正确分类的情况，召回率越高漏判越低.

(9)

3)F1表示Precision和Recall的调和平均值，综合表达了模型对网络舆情事件识别的能力.

(10)

3.3 实验结果与分析

实验结果如表3所示，其中EKB代表基于网络舆情事件专家知识模式库的匹配模型，ESDM代表基于深度学习的事件句检测模型，ETDM代表基于深度学习的事件类型判别模型.由实验结果可以看出，联合模型在准确率、召回率和F1上都得到了大幅度的提升：相比于单独的CNN和Bi-GRU模型， ESDM在事件识别上提升了约1%～2%的准确率，ETDM在事件分类上提升了约2%～4%的准确率；再联合EKB，事件识别提升约3%～4%的准确率，事件分类再次提升了约7%的准确率.

表3 实验对比结果 %

实验结果分析：深度学习模型能够明显表达深层语义特征，但误判率高；网络舆情事件专家知识模式库具有较高的准确率，但面对庞杂的新闻文本存在较大的事件漏检情况，并且对检测隐性的事件句和事件类型效果不明显；而联合模型一方面，通过深度学习的事件发现和判别模型能够识别深层隐性事件的特性，保证新闻事件不被漏检；另一方面，通过网络舆情事件专家知识模式库准确获取各类网络舆情事件模式，保证非网络舆情事件不被误判.因此，联合模型获得了较好的网络舆情事件检测效果.

4 结束语

为了检测网络舆情中的重大事件，本文提出一种将深度神经网络学习和网络舆情事件专家知识模式库模式匹配相融合的事件检测方法.从联合模型的整体架构上，将网络舆情事件发现与分类的复杂问题，分解到基于深度学习的事件句检测模型ESDM、事件类型判别模型ETDM和网络舆情事件专家知识模式库EKB的3个模型中，分步又联合的有针对性地处理.深度神经网络捕获深层语义特征，网络舆情事件模式库准确表征事件模式，有效解决了特定领域细粒度事件检测能力弱的问题.模型在语料集上经多方面性能实验对比，证明了联合模型的有效性，取得了不错的网络舆情事件的识别效果.下一步将扩充实验语料，继续对深度学习在中文事件检测方面的应用进行探究[20-21]，获取网络舆情特定领域事件深层特征，并运用于事件抽取等任务领域.