基于深度学习的中文微博评价对象抽取方法

2018-08-17 03:01:10璞,陈,陈超,王
计算机工程与设计 2018年8期
关键词:双向注意力对象

张 璞,陈 韬+,陈 超,王 永

(1.重庆邮电大学 计算机科学与技术学院,重庆 400065;2.重庆邮电大学 经济管理学院,重庆 400065)

0 引 言

评价对象抽取是情感分析中的一项重要研究任务[1,2],已有研究大多采用基于传统机器学习的方法和基于规则的方法。前一类方法通常利用条件随机场等序列标注模型来进行评价对象抽取[3],需要依赖于人工标注数据,标注代价很高[4]。后一类方法则主要通过对文本进行解析,归纳总结出一系列规则和模板来识别和抽取评价对象[5]。

深度学习方法是机器学习中一种多层的表征学习方法[6],近几年开始应用于自然语言处理领域[7],通过深层次的学习,可以获得浅层学习无法获取的特征,有助于帮助许多任务的开展。Ozan Irsoy等[8]通过建立双向循环神经网络模型,计算词语在不同标签上的分布概率得到情感文本中的评价对象。Arzoo Katiyar等[9]通过构建双向长短时记忆网络(BiLSTM)对评价对象和搭配关系进行抽取,取得了较好的结果。此外,研究者们还将递归神经网络及循环神经网络等模型也用于微博评价对象抽取研究中[10,11]。

微博评价对象抽取研究大多在英文微博上进行,在中文微博上的研究还比较少。本文提出了一种基于深度学习的中文微博评价对象抽取方法,通过利用双向长短时记忆网络来建立模型,并利用注意力机制来将注意力集中于更具价值的信息上,最后结合条件随机场模型寻找最优标注路径。实验验证了本文方法的有效性。

1 相关介绍

1.1 循环神经网络

深度学习是一种新兴的机器学习方法,通过建立神经网络来分析和使用不同种类的数据,广泛应用于各类领域。随着深度学习方法在自然语言领域的快速发展,许多深度学习模型被应用于评价对象抽取任务中。循环神经网络(recurrent neural networks,RNN)是一种可用于处理序列数据的深度学习模型,网络结构由输入层、输出层、隐含层组成。在处理数据时,序列中当前单元的输出值与历史单元的输出有关系,它会对历史信息进行记忆并应用于当前的输出计算中。长短时记忆网络(long short term memory,LSTM)是一种特殊的循环神经网络,它缓解了普通循环神经网络处理序列数据时的梯度消失和长期依赖等问题。LSTM通过被称作为“门”的结构来去除或者增加信息到当前单元。LSTM单元中有输入门、遗忘门、输出门,如图1所示。进入单元的信息中,只有符合要求的信息才会留下,不符的信息则通过遗忘门被遗忘。

图1 LSTM单元结构

在序列标注任务中,仅仅使用历史信息去计算当前单元的输出值的效果是有限的。双向长短时记忆网络承继双向循环神经网络模型的思想,对每一个训练序列向前和向后设计两个LSTM。这个结构提供给输出层输入序列中每一个元素的过去和未来的上下文信息。正向LSTM捕获了上文的特征信息,而反向LSTM捕获了下文的特征信息,这样相对单向LSTM来说能够捕获更多的特征信息,对于许多序列标注任务是非常重要的。

1.2 条件随机场

条件随机场(condition random field,CRF)是一种条件概率分布模型,在一组随机变量输入给定的情况下,该模型能输出另一组随机变量的条件概率分布。在自然语言处理的许多领域,如序列标注、词性标注、中文分词、命名实体识别等都有比较好的应用效果。

CRF中的关键问题主要涉及到特征函数的选择、参数估计、模型推断3方面。不同特征函数的选择对模型性能的影响较大;CRF在训练过程中常使用极大似然估计(MLE)方法估计和优化参数;在模型推断方面,常使用前向后向法或者维特比(Viterbi)算法来进行推断。郝志峰等[12]提出了一种基于条件随机场模型进行评价对象识别的方法。该方法综合考虑了微博文本内容的句法依赖关系进行统计建模,通过向常见的条件随机场模型中添加全局变量节点的方法,识别并提取文本中的显性情感对象和隐形情感对象。

1.3 注意力机制

注意力机制(attention mechanism)是深度学习中的研究热点,其核心思想是根据内容的关键程度选择性地分配注意力。注意力机制通过计算注意力概率分布,可以使得文本中关键内容对于整体的影响更明显,对于已有的深度学习模型具有很好的增强效果。自Mnih等[13]在RNN模型上使用了注意力机制后,注意力机制的应用变得广泛起来了,在序列学习任务上具有较大的提升作用。Zhou等[14]提出了一种基于注意力机制的跨语言情感分类模型。该模型通过构建双向长短时记忆网络模型,并从单词级别和句子级别来利用注意力机制,实现源语言和目标语言的跨语言情感分类,取得了良好的效果。

2 评价对象抽取模型

本文提出了一种基于双向长短时记忆网络,融合了条件随机场和注意力机制的评价对象抽取方法,其模型结构如图2所示。

图2 本文方法的模型结构

2.1 模型结构

模型共分为五层,分别是输入层、BiLSTM层、注意力机制处理层、CRF层、输出层,下面将详细叙述每层的设计。

输入层:输入层的主要作用是将文本处理成模型可接受输入的形式,即进行词嵌入(word embedding)处理,将文本中的单词向量化。Word2Vec是一种可以进行高效率词嵌入学习的工具,其中包括Skip-Gram和CBOW两种模型。本文使用Skip-Gram模型处理数据,将数据向量化之后输入到BiLSTM层。

BiLSTM层:BiLSTM层构建双向的LSTM层,其中,正向LSTM可以获得上文的特征信息,反向LSTM可以获得下文的特征信息。输入层输入的向量xt经过LSTM单元的过程中,在时刻t时会按式(1)~式(6)计算输入门、输出门、遗忘门3个门的值和整个单元的状态值(输出向量)

it=σWiht-1+Uixt+bi

(1)

ft=σWfht-1+Ufxt+bf

(2)

(3)

(4)

ot=σWoht-1+Uoxt+bo

(5)

ht=ot⊙tanhct

(6)

(7)

注意力机制处理层:该层通过计算注意力概率分布,可以突出关键内容对于整体的贡献,增强标签序列的表述能力。经过BiLSTM层处理的输入集合可表示为H={h1,h2,…hi,hj…,hn},hi代表输入集合中第i个元素的向量值。输入集合的注意力分配概率权重值可由式(8)、式(9)获得

(8)

(9)

(10)

CRF层:CRF层对于输入的语句向量序列进行建模,通过动态规划进行计算得到的最优路径进行标注。令X={x1,x2,…,xn}表示输入到CRF层的向量序列,Y={y1,y2,…,yn}则表示对应于输入序列每个元素的标注结果序列,令Y(X)表示输入序列所有可能形成的序列,例如句子的长度为n,用于标注的标签有B-target、I-target、B-expression、I-expression、O等5个,则Y(X)的大小为5n。链式CRF计算的就是输入序列在所有可能形成的标注序列Y(X)上的概率分布,在训练阶段,每个标注序列的分数可由式(11)得到

(11)

其中,n表示输入序列的大小,Tyi-1,yi表示位置i-1的标签到位置i的标签的状态转移得分,φi,yi表示位置i标注为标签yi得分。

通过指数函数和归一化处理可将分数转化为概率,即概率分布,如式(12)所示

(12)

训练时由于训练数据都是已标注的,根据先验知识,用极大似然估计方法来优化模型参数,对数似然函数如式(13)

lθ=∑tlogpy|x;θ

(13)

θ为优化的模型参数。

测试时通过维特比算法可以动态规划地寻找最优路径,通过式(14)可获得

ymax=arg maxpy|x|y∈YX

(14)

输出层:输出层将根据最优标注路径输出序列的标签,用于结果分析。

2.2 模型运行过程

模型首先需要按批次将经过预处理的数据输入,将数据做向量化处理;通过BiLSTM层处理输入的向量化数据,按式(1)~式(6)计算单向隐藏层状态,按式(7)更新双向状态;然后按式(8)~式(10)来添加注意力处理机制,计算数据的注意力分配概率分布;最后通过CRF层对输入序列按式(11)~式(14)进行序列标注;循环上述训练过程结束后,得到训练模型。

3 实验结果

3.1 实验数据

本文实验使用的数据集为手工标注的2377条新浪微博文本,其中涉及热点新闻、国家政策、热播电影等话题。实验结果使用准确率、召回率、F1值作为评价标准。

3.2 对比实验

CRF:由于CRF在情感评论对象抽取任务中应用广泛,本文选用CRF作为对比方法。

LSTM:LSTM作为一种适合处理序列数据的深度学习模型,本文选用LSTM作为对比方法。

BiLSTM:作为LSTM的改进模型,为了验证双向LSTM模型的提升作用,本文将其选为对比方法。

BiLSTM-CRF:该方法在BiLSTM模型的基础上加入了CRF层,为了验证传统机器学习模型与深度学习模型融合后的效果,本文将其选为对比方法。

3.3 实验流程

3.3.1 数据预处理

数据预处理过程主要包括中文分词、去除文本中的停用词、无用字符(例如“#”“@”)等,并通过人工去除少数只有表情符号、图片或超链接的一些无效微博。除手工标注数据集外,本文还通过微博API接口额外获取了30多万条微博文本作为无标注数据集,经过预处理之后,在数据集上使用Word2Vec中的Skip-gram模型进行词向量的预学习。学习过程中采用默认的参数设置。

3.3.2 模型参数设置

训练阶段,通过选用一部分数据作为验证集,在验证集上进行调参,最终选用的模型参数见表1。

表1 模型参数

表1中,state size表示LSTM单元的初始状态大小,epoch size表示训练集全部进行训练的次数,dropout值用于防止过拟合现象的出现,批次尺寸表示的是训练时每次从训练集中取的样本数量。

3.3.3 实验步骤

CRF方法的实验步骤如下:

(1)确定标注集为{B-TAR,M-TAR,E-TAR,B-EXP,M-EXP,E-EXP,O},采取字标注方式。

(2)将数据进行预处理,调整数据格式转换成CRF模型所需要的输入格式。

(3)确定模型的特征模板,并根据特征模板得到特征函数,对训练集进行学习得到模型文件。使用训练生成的模型文件对测试语料进行标注,产生识别结果,计算实验结果。所使用特征模板见表2。

表2 CRF特征模板

基于深度学习方法的实验步骤如下:

(1)在对评测样例数据全面分析的基础上,确定标注集合为{B-TAR,M-TAR,E-TAR,B-EXP,M-EXP,E-EXP,O},采取字标注方式。

(2)调整数据格式转换成模型所需要的输入格式,并生成实验的训练语料和测试语料。

(3)通过初始化参数、建立神经网络结构,设置激活函数、辅以dropout方法防止过拟合等步骤建立模型,将训练集输入到构建的模型当中进行循环学习,优化参数得到相应的模型文件。

(4)使用生成的模型文件对测试集进行标注,产生标注结果,统计实验结果。

3.4 实验结果及分析

本文统计各模型标注结果的准确率、召回率、F1值,最终实验结果见表3。

下面将根据对比实验的设置,逐一分析表3的实验结果。

3.4.1 传统方法与深度学习方法的对比

从表3可以看出CRF方法的实验结果中准确率和召回率均比较低,分别只有58.6%和40%,原因是CRF考虑的是局部特征,一旦要求抽取的对象较为复杂,前后跨度较大时便会有所不足,会导致评价对象抽取不完整,从而影响性能。相对而言LSTM模型在准确率和召回率均优于CRF,分别为62.5%和45.4%,主要因为LSTM学习能力更强,LSTM能够获得到有效的上下文信息,所以能够抽取出更加完整的情感对象,获得的结果更好。

表3 实验结果

3.4.2 LSTM和双向LSTM的对比

从表3可以看出双向LSTM的准确率和召回率两方面均略优于单向LSTM,分别为63.1%和46.6%。单向LSTM只能利用文本中的历史信息计算当前单元的状态,双向LSTM模型通过实现两个方向相反的LSTM结构,相对而言能获取更多的上下文特征信息,所以在准确率和召回率方面均有所提高。

3.4.3 单类模型和融合模型的对比

从表3可以看出融合了CRF模型和BiLSTM模型的BiLSTM-CRF模型相比单一模型而言在F1值上获得了更好的性能。这说明该模型能有效结合CRF模型和BiLSTM模型处理序列数据的优势。

3.5 本文方法与其它方法的对比

从表3中可以看出本文模型相比于其它方法而言获得了最好结果,这说明了本文方法的有效性。相比BiLSTM-CRF模型而言,在F1值上获得了1.1%的提升,这说明了本文模型中采用注意力机制的有效性。这是因为普通的LSTM模型虽然能够有效地利用上下文信息,但是随着序列的不断增长,仍然存在长程记忆问题,而本文模型融合了注意力机制,通过提高长序列中关键词语的重要性,有效的缓解信息丢失问题,能够抽取出长序列中不易抽取出的对象,从而提升性能。

4 结束语

本文提出了一种深度学习模型来进行微博评价对象抽取方法,首先构建双向长短时记忆网络将评价对象抽取任务转化为序列标注任务,同时结合注意力机制,计算注意力分配概率分布,最后利用CRF模型对输入序列寻找最优标注路径,实验结果表明了本文方法的有效性。

在下一步的工作中,考虑到卷积神经网络(convolutio-nal neural network,CNN)在自然语言处理中的广泛应用,将继续研究如何将其结合到本文提出的模型当中,进一步提升性能。

猜你喜欢
双向注意力对象
神秘来电
睿士(2023年2期)2023-03-02 02:01:09
双向度的成长与自我实现
出版人(2022年11期)2022-11-15 04:30:18
让注意力“飞”回来
攻略对象的心思好难猜
意林(2018年3期)2018-03-02 15:17:24
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
基于熵的快速扫描法的FNEA初始对象的生成方法
A Beautiful Way Of Looking At Things
一种软开关的交错并联Buck/Boost双向DC/DC变换器
区间对象族的可镇定性分析
一种工作频率可变的双向DC-DC变换器
电源技术(2015年9期)2015-06-05 09:36:07