张 敏,刘胜全,刘 艳,魏浩皓
(1.新疆大学信息科学与工程学院,新疆 乌鲁木齐 830046;2.新疆大学软件学院,新疆 乌鲁木齐 830091)
大数据时代的来临,社会舆情信息也凸显出海量、瞬刻、全息、价值低密、虚实莫辨的大数据特征,当前数据来源越来越复杂,同时不同的数据处理和存储方式使得这些海量信息在不同层次上产生了异构.对于一些社会热点事件,往往会激发网民的集体参与感,并通过新闻、微博、微信、论坛等不同类型的网络平台来表达对相关社会事件的群体性情绪、意愿、态度和意见.因此,这些多源异构表达自由的舆情信息在网民间快速地相互传播和影响,这促使政府对舆情的监控以及引导变得极其重要,同时也促进了舆情本体构建相关技术的发展.
关系抽取作为信息提取和自然语言处理的核心任务,其目标是预测句子中概念间的关系.非分类关系又称为非层级关系,反映了概念间的某些语义关系,其类型多种多样,同时也是自然语言处理领域一项重要的语义处理任务.概念间非分类关系的抽取对本体的构建和语义的理解起着重要作用,概念间非分类关系的准确抽取有助于本体的构建,同时推动知识图谱的发展.
目前的信息抽取主要集中在概念抽取、关系抽取、事件抽取等任务上,非分类关系抽取研究主要是解决文本中概念间关系的非分类问题,虽然非分类关系作为分类关系的补充,但因其种类繁多,状态空间巨大,因此这也为非分类关系抽取任务带来了一定的难度.尽管已经有相关研究工作来提取非分类关系,这些方法忽略了句法和语义信息,使得提取的非分类关系准确率不高.
舆情本体中非分类关系的获取一直是本体构建的难点,在一个句子中,包含的相关动词是最能表达句子状态的词汇,适当的动词可以很好地表示概念对之间的非分类关系.对于非分类关系,本文主要关注基于动词的非分类关系,因此提出结合词性信息和注意力机制的双向长短时记忆网络,来解决舆情本体概念间非分类关系抽取问题,将富含上下文语义信息的词向量作为神经网络的输入,对句子进行编码,为了消除噪音数据带来的影响,在特征向量上构建基于词级别和基于句子级别的注意力机制,对重要特征赋予较高权重[1],通过词汇和句子信息相结合以标记非分类关系,最终完成舆情本体概念间的非分类关系抽取.
关系抽取作为自然语言处理重要的子任务而受到广泛关注.何宇等[2]引入句法分析模型获取句法特征,使用支持向量机(SVM)在某专利公司的中文新能源汽车领域语料上抽取关系实例;董丽丽等[3]使用改进的候选关系标签标志方法VF*ICF选择具有领域的相关动词,最后使用对数似然比评估抽取的非分类关系.传统方法手工依赖性较高,导致额外的传播错误且增加计算成本.而随着深度学习[4]的提出,关系抽取的研究有了进一步的进展.
近年来,深度学习发展迅猛,在国内外都引起了广泛的关注.因此,众多学者尝试将深度学习应用于自然语言处理任务中.如:循环神经网络(RNN)、卷积神经网络(CNN)、基于图神经网络等[5-7];引入注意力机制和基于张量的递归神经网络模型[8]、对抗训练的正则化方法[9]、卷积GRU模型[10];基于单词注意和以实体为中心的远程监督模型等[11-12].基于深度学习的方法在自然语言处理任务中都取得了比以往研究更好的实验效果,这些可自动的学习简单的特征,能够发现更多隐含的信息,但仍存在不足.
目前的研究是在结构简单的英文文本上进行关系抽取,对于舆情文本的关系抽取针对性不强.张晓斌等[13]提出基于CNN和双向LSTM融合的实体关系抽取方法,充分考虑长距离词之间的依赖性,保留了词序等特征;苏锦钿等[14]将词性和自注意力机制相结合,提出面向句子情感分类方法;高成亮等[15]使用结合词性信息的基于注意力机制的双向LSTM模型解决文本分类任务.CNN考虑了连续词之间的相关性而忽略了非连续词之间的相关性,LSTM虽然考虑了长距离词的相关性,但提取特征不够充分,同时核心词表现弱,对于舆情信息而言,语料中包含大量语义信息,不同词语对于整个句子的语义信息影响大小不同,对所有词一视同仁,影响关系预测的结果.
现阶段对舆情信息关系抽取的研究不够深入,尤其是对非分类关系的研究更是不足.词性通常作为一种辅助特征,用于特征选择,而在以往的关系方法中,忽略了词性之间的依赖关系.因此,针对目前大多数非分类关系抽取方法忽略词性和部分局部特征的问题,本文提出结合词性信息和注意力机制的BiLSTM模型(简称本文模型).通过结合词性信息和词注意力机制关注句子中相关动词的语义特征,能够从语法的角度进一步丰富句子中词的信息,同时引入句子层注意力机制,计算包含相同概念的句子和预测关系的相关性,结合BiLSTM模型充分利用整个句子的序列信息,提取句子中2个概念之间的动词作为非分类关系标签,完成舆情本体概念间非分类关系的抽取.
本文研究概念对抽取合适的动词表示非分类关系,非分类关系的抽取分为2个步骤,即非分类关系的识别和非分类关系的抽取.非分类关系的识别是指识别出有关系的概念对;非分类关系的标注是指为识别出的有关系概念对抽取合适的动词,其中动词作为非分类关系类型名称,对于舆情信息进行非分类关系的识别和非分类关系的标注,在一定程度上忽视了句法信息和语义信息,导致在非分类关系的识别阶段容易抽取出没有关系的概念对,在非分类关系的标注阶段,容易造成概念对标注的动词不合理.
问题的输入是网络舆情文本信息,已经过预处理得到了包含概念及非分类关系标签的句子,输出是非分类关系的语义表示.
定义语义关系,语义关系可以用一个三元组(ei,rij,ej)来描述,其中ei,ej表示句子中包含的概念对,rij∈y表示关系的语义标签,y是所有标签的集合.
舆情信息中包含的非分类关系可能是无向的,例如从文本信息中发现A和B的朋友关系,在另一些文本中概念对之间的关系是有向的,例如,2018年8月1号,长征四号乙运载火箭在太原发射中心发射成功,其中,太原发射中心与运载火箭是“施力者-受力者”关系.因此,随着网络信息的发展,非分类关系可能是主动的(如访问关系)或是被动的(被访问关系).这里主要考虑主动的非分类关系.
例如非分类关系类型预测的例子.1879年爱迪生在实验室创造了第一批白炽灯.
主动的关系表示:(爱迪生,创造,白炽灯).
被动的关系表示:(白炽灯,被创造,爱迪生).
针对问题输入的文本信息,目标是预测出这个句子包含的非分类关系类型,最终通过最大概率分类器预测最大非分类关系类型的置信度.
本文将舆情本体概念间非分类关系抽取问题转化为根据舆情信息定义概念间非分类关系,在已知概念对的情况下,舆情语料中的概念间非分类关系抽取模型如图1所示.
图1 结合注意力机制的BiLSTM非分类关系抽取模型
为使模型更好地描述舆情文本的内部结构信息,通过词嵌入技术(Word2vec)将手工标注得到的舆情文本输入到模型中.将句子中每个词语和词性标签映射到向量空间中,用以生成能够表示词语语义和词性含义的向量表示,并采用BiLSTM网络对词向量进行编码获取句子的高维语义信息.通过计算上下文词语与概念对的相关性,建立词注意力机制来充分捕捉句子上下文关键词语的语义信息.并结合词性信息获取关键词的重要特征,同时通过计算句子与关系的相关程度来建立句子层注意力机制,减少错误标签带来的噪音问题.对提取的语义信息进行加权求和以及非线性映射和归一化处理,实现信息流的整合,提高舆情本体非分类关系抽取的效率,并用Softmax实现非分类关系抽取任务.用H代表模型的隐含层,且由BiLSTM构成;w和s分别表示舆情文本中的词组和简短句子.
本文结合注意力机制BiLSTM模型,完成舆情本体概念间非分类关系的抽取,利用注意力机制为不同特征分配注意力权重,最后通过分类器获取非分类关系抽取结果.其中进行舆情本体概念间非分类抽取的结合注意力机制的BiLSTM网络结构如图2所示.
该结构包含5个部分:(1)输入层将句子输入到该模型中;(2)嵌入层将每一个词映射成低维向量;(3) LSTM层利用双向的长短时记忆网络获取句子的高级特征;(4)注意力层产生权重向量,关注句子中相关动词的语义特征,将由LSTM得到的词级特征合并到句子级特征向量;(5)输出层经过注意力机制得到的特征向量将用于非分类关系抽取,从而得到最终的非分类关系结果.
图2 非分类关系结合注意力机制的BiLSTM网络结构
给定T个字组成的句子S={x1,x2,…,xT},使用word2vec将每一个字xi转换为实数向量ei.首先,对于句子S中的每一个字,将其转换成嵌入矩阵Wword∈Rdw|V|,其中:V是固定大小的词汇表;dw是字嵌入的大小,是用户要选择的超参数;矩阵Wword是要学习的参数,然后,通过使用矩阵向量将字xi转换为字嵌入向量ei,公式为
ei=Wwordvi.
(1)
其中vi是一个大小为|V|的向量,其值在ei的位置为1,其他位置均为0.然后,将该句子作为实值向量embs={e1,e2,…,eT}送入下一层.
长短时记忆网络(LSTM)是一种特殊的循环神经网络,由S.Hochreiter等[16]于1997年提出,主要用于解决梯度消失问题以及针对一般的循环神经网络存在的长期依赖问题而专门设计出来的(如图3 所示).LSTM神经网络模型包含3个门:输入门it,遗忘门ft以及输出门ot.
图3 LSTM网络结构
公式为:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);
(2)
it=σ(Wxixt+Whiht-1+Wcict-1+bi);
(3)
(4)
(5)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo).
(6)
最终该单元的输出,计算公式为
ht=ot*tanh(ct).
(7)
式中:Wx(f,i,c,o)∈Rd×d,Wh(f,i,c,o)∈Rd×d,Wc(f,i,c,o)∈Rd×d表示LSTM的权重矩阵;b(f,i,c,o)表示偏置项;ct和ht分别表示在t时刻的LSTM的记忆表示和隐含层状态表示.因此,当前状态单元ct通过加权和生成,它使用以前的状态单元,也使用当前时刻单元产生的信息.
循环神经网络[17]在序列学习问题中获得广泛应用,并且成果显著.然而由于常见的梯度消失和梯度爆炸问题,循环神经网络通常难以训练.对于一个输入序列,在一个时间节点t,LSTM网络只包含t以前的信息,却不包含t以后的,但访问过去和未来的上下文信息都是有益的,因此,本文使用双向LSTM网络,其思想是提出一个训练序列向前和向后2个循环网络,其具有相同的结构但权重参数不同,将2个序列相加得到最终通过双向LSTM网络的最后结果.
本文为了学习文本中包含的词语之间、词性之间的依赖特征,通过结合注意力机制的双向LSTM的文本表示模型处理文本数据(如图1所示).该网络包含向前和向后上下文的2个子网络,同时向前和向后隐含层之间没有信息流,这使得网络展开图是非循环的.第ith个字的输出表示为
(8)
注意力模型最近几年在深度学习各个领域被广泛使用,并取得了不错的进展.因此,本文使用注意力机制[18],给不同的特征赋予不同的权重,学习不同局部特征的重要性,摒弃一些噪音数据,以此来提高非分类关系抽取结果的高效性和准确性.
2.4.1 词注意力机制
在非分类关系抽取任务中,对于语义信息并不是所有词语都有相同的重要性,不同的概念对上下文词语的重要程度也是不同.尤其是概念对之间的动词至关重要,因此,使用词语层注意力机制来充分捕捉重要的语义信息.
设由BiLSTM层产生的输出向量组成的矩阵H=[h1,h2,…,hT]和概念表示〈he1,he2〉,其中T是句子长度,通过一个待训练的权重参数w生成对每一个hi的注意力权重.用句子r表示由输出向量的加权和构成,计算公式为
(9)
μi=tanh(Wwt+Wwthe1+Wwthe2+bwt).
(10)
其中:Wwt为词语相关性权重矩阵,bwt为偏置.通过Softmax函数将计算的评分结果μ1,μ2,…,μT进行归一化,从而得到权重值αi,计算公式为
(11)
最后,采用最大池化策略,得到句子的显著特征.其句子表示为
S=maxpool(r).
(12)
2.4.2 句子注意力机制
为了减少错误标注带来的噪音问题,采用句子层注意力机制的多实例学习[19],计算包含相同概念的所有句子和预测关系的相关性,与关系向量相关性高的句子赋予更高的权重,从而降低噪音句子对关系预测的影响.
设S={s1,s2,…,sk}是包含相同概念k个句子组成的句子集,为了表示所有句子与预测关系的相关程度,将句子向量表示为S中所有句子向量的加权和,公式表示为
(13)
βi=Softmax(siAer).
(14)
其中A是随机初始化加权对角矩阵,er为关系r的向量表示.
结合词性信息和注意力机制的BiLSTM模型用于动态捕获与非分类关系抽取任务相关句子信息,并生成上下文表示,将词性向量和其他特征结合,充分利用整个句子的序列信息,获取舆情文本的语义特征,完成舆情本体概念间非分类关系的抽取.
(15)
(16)
(17)
其中:ti∈Rm为使用one-hot表示的真实值;yi∈Rm为使用Softmax函数估计每个关系类别的概率;m为关系类别的数量;λ为L2正则化超参数,同时,将L2正则化和dropout相结合来缓解隐藏单元过拟合问题.
实验中选取百度、新浪等中文网页信息作为语料来源.利用网络爬虫技术下载舆情文本,对其进行去重、去噪等一系列处理,筛选出包含实体和关系的新闻报道文本,作为实验语料.该实验共生成了11 227条样本数据,其中8 560条用作训练集,共包含27种非分类关系,如图4所示,2 667条用作测试集,每条语句中的概念和概念间的非分类关系均已标记,数据结构如表1所示.
图4 非分类关系类别及数量
表1 数据集样本示例
不合理的超参数设置会影响舆情本体概念间非分类关系抽取的结果.超参数设置如表2所示.
表2 超参数设置
2012年,G.E.Hinton[20]提出了Dropout策略.在深度学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象.为了防止过拟合,在正向传播过程中,Dropout策略通过从网络中随机省略特征检测器的共同作用阻止隐藏单元的自适应性,来提高神经网络的性能.
因此,在该网络结构中,Dropout策略主要用于嵌入层、LSTM编码层,在保持输入输出神经元不变的情况下,随机丢弃隐含层部分神经元.同时在梯度下降后,使用L2正则化进一步减小过拟合问题.模型使用sigmoid作为激活函数,隐含层节点数取200,采用Softmax作为分类器.为防止模型计算过程中出现过拟合现象,利用L2正则化方法对网络参数进行约束,系数取0.001,训练过程中引入Dropout策略,丢码率取0.3,数据批处理量取128,训练轮数取100.
本文采用准确率(P)、召回率(R)及衡量模型整体性能(F1值)[21]等3种重要指标评测非分类关系实验结果,P反应模型的准确程度,R反应模型的完备性,F1值是P和R的调和平均.
3.4.1 对特征的有效性验证
实验中使用多个特征进行特征表示,如PF(位置特征)、POS(词性特征),为了研究每个特征对本文模型的贡献,依次加入不同的特征对模型的性能进行比较,结果如表3和4所示.
表3 以词向量RV作为比较基线添加其他特征对于训练模型的影响效果 %
表4 以词向量WV作为比较基线添加其他特征对于训练模型的影响效果 %
表3以通用词向量(RV)作为比较的基线(RV:百度百科通用领域300维词向量).依次添加其他特征.其中位置特征使F1值提高了3.86%.词性包含了潜在的语义信息,使F1值提高了3.97%.相比于位置特征,实验结果表明影响不明显,但也有所提高.
表4使用词训练模型预先训练好的舆情信息词向量(WV)以代替随机向量.相较于使用通用词向量,F1值提高了7.03%.加入特征实验F1值均有所提高.实验结果同样验证了多个特征对于捕获句子中的词与目标实体的关系信息起着重要作用.
3.4.2 与同类实验对比
为了验证结合注意力机制的BiLSTM神经网络模型在舆情本体概念间非分类关系抽取的效果,使用3.1节的实验数据和3.2节的参数进行实验,各模型在测试集上的P,R和F1值如表5所示.
表5 模型性能对比 %
由表5可以得出以下结论:
(1) BiLSTM与RNN对比.使用词向量和词性向量作为非分类关系特征的输入,BiLSTM神经网络模型的效果优于循环神经网络模型.RNN能够处理短距离依赖,对于长距离依赖存在局限性,同时当序列较长时,RNN易产生梯度消失问题.与RNN相比,BiLSTM模型P,R以及F1值分别提高了3.15%,4.71%,3.97%.说明BiLSTM有了记忆模块,缓解了长距离依赖问题,能够充分利用整个句子的序列信息,获取更多的上下文语义知识,使提取到的文本特征更有效,从而使得BiLSTM模型的实验结果均高于RNN神经网络模型.
(2) 本文模型和BiLSTM对比.使用词向量和词性向量作为非分类关系特征的输入,本文模型的效果优于BiLSTM神经网络模型.与BiLSTM相比,P,R以及F1值分别提高了4.77%,6.95%,5.875%.本文模型结合了词性信息和词、句子注意力机制的优点,利用词注意力机制捕获训练句子中关键动词的语义信息,通过句子注意力利用包含相同概念句子间的相关性,减少错误标注带来的噪音问题.由此说明,本文模型选择性地关注句子中重要信息,提高了非分类关系抽取的准确率.从而证实了该方法的有效性.
(3) 基于双向GRU+CATT+SATT模型[22].该模型采纳了只使用字向量作为文本的输入特征,用双向GRU进行训练,并加入基于字级别和基于句子级别的注意力机制,完成中文文本中人物关系的抽取任务.
(4) BGRU+2ATT模型[23].模型采纳了使用字向量作为文本的输入特征,用双向GRU进行训练,在字符级和实例级两个层面中引入了注意力机制,完成中文文本中人物关系的抽取任务.
本文模型的P,R和F1随迭代次数变化曲线 见图5.由图5可知,每训练一定次数,在测试集上验证数据,并统计P,R和F1值在训练过程中的变化.当epoch值在0~30之间,P,R和F1以及train_acc值上升速率特别快,由于在训练数据上随着训练次数的增加,模型初始权重不断更新,训练集上的准确率不断增加,模型学习到的知识越多,使得模型在测试集上的准确率不断提高.当epoch值为100时,结合注意力机制的BiLSTM神经网络模型的train_acc值收敛趋于稳定,训练数据进行训练的准确率达到稳定,同时测试数据的P,R和F1的值收敛趋于稳定,达到了测试过程中的最优结果.由图5可知,虽然P,R和F1值有一定的波动,但波动不大,最后均收敛趋于稳定.
本文模型的P,R和F1随训练准确率变化曲线见图6.从图6中可以看出,开始阶段train_acc值很低,说明模型学习到的知识少,使得测试集的结果P,R和F1值很低.随着模型不断优化,训练准确率的提高,测试集P和R也逐渐增加,最后收敛趋于稳定,当训练P达到92.24%时,测试集的P和R取得最优,分别为 64.19% 和64.74%.
图5 P,R和F1随迭代次数变化曲线
舆情本体概念间非分类关系的抽取研究有助于推动依赖于本体相关技术的发展,现有的研究多在英文等公开的语料集上进行关系抽取,对于舆情本体的非分类关系研究较少,且现有的舆情语料数据集更少.本文提出结合词性信息和注意力机制的双向长短时记忆网络来抽取舆情本体概念间的非分类关系,通过注意力机制动态地学习不同隐式特征信息在文本分类任务中的贡献程度,分类函数预测非分类关系类别标签.
通过与传统RNN模型、BiLSTM模型进行对比实验,说明本文模型缓解了长距离依赖问题,同时充分利用词和句子注意力机制的优点,结合词性信息和词注意力机制捕获训练句子中关键词语的语义信息,增强包含相同概念句子间的相关性,减少错误标注带来的噪声问题,进而提取了更有效的文本特征,提高了非分类关系抽取的准确性.虽然实验效果有进一步的提高,但仍然存在不足之处.手工标注的数据集太少且存在标注错误,同时一个包含多个逗号的长句子,存在多种非分类关系如何正确界定问题.接下来将在增加语料的同时可以引入强化学习方法,对模型做进一步的优化,来提高非分类关系抽取的准确性,同时如何将具有相同含义的动词聚类形成一种新的非分类关系类型也是下一步的研究任务.