李 翔,刘承伟,朱晓旭
(苏州大学 计算机科学与技术学院,江苏 苏州 215006)
反问句作为汉语一种极具表现力的表达方式,具有巨大的艺术表现张力和极其灵活的表现形式。反问句通常以疑问的形式表达肯定或否定的情感,在现代汉语中常常作为一种修辞方式。人们表达情感时通过使用反问句来加强语气的渲染和强调,从而表达出强度更大、更为具体的情感。李翔[1]等人利用面向新闻评论的汉语反问句语料库根据句子中是否含有反问标记[2]将反问句分为显式反问句和隐式反问句。在例1中,“难道”一词属于较为典型的反问标记,它的出现增加了整个句子的反诘度,可以很容易地识别出例1为反问句。例2中并没有可以作为判断依据的反问标记,其利用三个疑问句表达说话人内心对国家队的失望,属于“无疑而问”的反问句。
例1: 我不是足球迷,也没看比赛(没心情看),为什么韩国人就行?难道韩国就不是黄种人?
例2: 就这水平还叫国家队?国家队就踢成这样?你们脸呢?!
反问句中反问标记的作用在于其能够影响周围词语甚至整个句子的反诘度,因此,语言学研究者们在研究反问句时多是以显式反问句为主,从显式词语、特有句式结构等角度入手,总结了许多具有代表性的反问句标记[2-4]。与显式反问句相比,隐式反问句的研究还处于探索阶段。一方面,隐式反问句在句法结构上与一般疑问句没有明显区别,可供研究者研究的语言特征较少,另一方面,隐式反问句由于不含反问标记,在表达上更为复杂,对其进行判断时需要借助相关的语用推理、上下文信息等,这也就导致隐式反问句的语料十分匮乏。
反问句往往可以表达出更细粒度的情感,对其进行正确的识别,可以改善情感分析的结果。同样,情感分析也可以促进反问句的识别,特别是对于缺乏明显特征的隐式反问句。例如,例2在句式上虽与疑问句并无不同,但通过上下文可以知道说话人是以疑问句的形式表达负面情感,其目的并不是提问,因此例2是无须回答的反问句。
针对隐式反问句识别研究所面临的挑战,本文首先扩充了隐式反问句的语料,接着提出了融合情感分析的隐式反问句识别模型(Implicit Rhetorical Question Recognition Model Combined with Sentiment Analysis, IRQR)。IRQR模型首先利用疑问词、副词、语气词等可以成为表达强烈反诘语气载体的特点引入词性特征以丰富句子的语义信息,并捕捉句子内部的情感变化以确定不同上下文信息的权重,再辅以情感分析技术识别隐式反问句,最后引入标签正则化与稀疏正则化,进一步提高模型性能。本文的贡献总结如下:
(1) 利用李翔等人[1]提出的半自动反问句语料收集方法扩充汉语反问句语料库,语料库规模达到10 000余句,其中隐式反问句5 556句(1)https://github.com/li-xiang1116/IRQR;
(2) 本文提出融合情感分析的隐式反问句识别模型IRQR。该模型深度挖掘了句子的语义信息、情感信息以及上下文信息,并利用这些信息对隐式反问句进行识别;
(3) 借助汉语反问句语料库进行了大量实验,实验结果证明了IRQR模型在识别隐式反问句中的有效性。
本文组织结构如下: 第1节介绍关于反问句研究的相关工作;第2节详细阐述融合情感分析的隐式反问句识别模型;第3节介绍反问句识别实验;第4节为总结并展望未来工作。
在语言学领域,语言学家们分别从不同的角度对反问句进行了研究。刘钦荣[5]认为在深层语义结构中,由于反问句中不存在未知的语义成分,反问句不表达疑问而表达判断。朱俊雄[6]根据反问句的否定指向,讨论了构成反问句的是非问、特指问和选择问三种疑问句形式。从反问句的交际作用角度出发,刘松江[7]认为反问句带有十分浓厚的感情色彩,说话人通过使用反问句来宣泄自己的情感。殷树林[3]探究了反问句与疑问句在句法结构上的异同,总结了17类反问句特有的句法结构。王敏[8]从语用学角度出发,提出了分辨一句话是否为反问句的关键是语境的观点。于天昱[4]考察了反问句在对话中的位置和结构,认为反问句在使用上较为灵活,而且多数反问句的出现都伴随着用于表达情绪的语气词出现。相比之下,陈海庆等人[9]的研究更具针对性,其从多模态的角度分析庭审语境下反问句的语用功能,并对庭审中常用的反问句进行归纳和总结。
在反问句识别算法方面,无论是在英文领域还是在中文领域,反问句识别的相关研究都还比较少。在英文领域,Bhattasali等人[10]将N-gram语言模型和上下文信息作为反问句特征,利用SVM和贝叶斯分类器进行反问句识别,实验结果显示,SVM分类器的效果最优,F1值提升10%,达到了53.71%。Ranganath等人[11]利用语言学特性为用户动机进行建模,挖掘用户所表达的隐式信息,识别社交媒体中的反问,并使用Twitter上发布的推文评估模型。Oraby等人[12]则在前人工作的基础上,构建了一个基于Debate Forums和Twitter的英文反问句数据集,并利用SVM进行反问句识别实验,F1值达到了76%。同时,Oraby等人[12]还对反问句的用途(讽刺与非讽刺)进行研究,将反问特征与上下文特征作为SVM的输入特征,对反问句的用途进行分类,在Twitter数据集上达到了83%的F1值。
在中文领域,文治等人[13]将反问标记作为识别反问句的重要特征,设计了一种融合句式结构的卷积神经网络反问句识别方法,该方法的F1值为86.7%。李旸等人[14]则在文治等人[13]研究的基础上,提出了基于注意力机制Bi-LSTM的反问句语言特征自动抽取模型AutoF,同时设计了一种基于语言特征自动获取的反问句识别方法,达到90.7%的精确率。李翔等人[1]利用半监督学习和主动学习,提出半自动的反问句语料收集方法,构建了面向新闻评论的汉语反问句语料库,并在反问句识别实验中引入了位置特征与句法路径特征,取得了92.15%的F1值。本文的工作则主要是针对隐式反问句,以填补这一方面研究的空白。在前人工作的基础上,本文进一步扩充了隐式反问句语料,将句子的词性特征、情感变化特征、上下文特征进行融合以强化句子的语言特征表示,同时以情感分析任务作为辅助任务,利用GRU(Gated Recurrent Unit, GRU)[15]神经网络模型对隐式反问句进行识别。
本文提出了一种融合情感分析的隐式反问句识别模型IRQR,模型的总体架构如图1所示。IRQR模型主要包含以下几层。
图1 模型结构图
(1)语义特征层(Semantic layer)该层将句子S中每个词语{w1,w2,…,wn}的词性{pos1,pos2,…,posn}作为衡量词语在句子中权重的标准,利用注意力机制更准确地获取句子的语义特征。
(2)情感分析层(Sentiment layer)在反问句中,意图表达的情感与其字面意思相反。语料中反问句多表达负面情绪,非反问句则以中性情感为主,因此模型中引入情感分析任务来辅助反问句识别任务。在这一层中,本文利用情感词典(2)http://114.215.64.60: 8094/site2/index.php/zh抽取到的情感词{Senw1,Senw2,…,Senwk}作为主要的输入特征。
(3)上下文特征层(Context layer)为最大限度获得数据的上下文信息,本文先对语料进行分句得到{Context1,Context2,…,Contextm},考虑到不同上下文信息对反问句的判断的作用不同,模型对每个Context所引起的情感变化进行捕捉,并利用情感变化的程度体现各Context的贡献。
(4)正则化层(Regularization layer)本文引入标签正则化与稀疏规则化来约束注意权重分配,以帮助学习更好的句子表示形式。下面将针对模型进行详细说明。
由于GRU网络可以捕获远间隔依赖关系的特性,本文将其作为本层的编码器。首先,将句子S={w1,w2,…,wn}以及词性Pos={pos1,pos2,…,posn}经过嵌入层(Embedding layer)之后分别输入到GRU网络中,得到句子S、词性Pos的隐藏层表示hw={hw1,hw2,…,hwn},hp={hp1,hp2,…,hpn},词向量维度设置为d0,隐藏单元维度设置为d1,hw∈Rn×d1,hp∈Rn×d1。
(1)
(4)
与其他句型不同,反问句作为表达情感的载体,往往能够表达出更为具体、强烈的情感,不同句子所表达的情感与其使用的句型有一定的联系。反问句表达的情感往往与其字面意思相反。语料中,反问句多表达负面情绪,非反问句则以中性情感为主。本文认为,模型在学习过程中如能有效地识别句子所表达的情感,将有助于提升反问句识别的性能。因此,在这一层中,本文将情感分析作为模型学习的目标,得到的情感特征则为隐式反问句的识别提供情感信息。
首先,句子S经过映射后获得相应的矩阵表示,接着将句子的矩阵表示输入到GRU网络中学习情感的句子表示hsen,具体计算可参考式(4)。值得注意的是,情感分析层的GRU网络与语义特征层的GRU网络并不共享隐藏单元。
在情感分析任务的研究过程中,研究者已经证明文本中的情感词能够从某种程度上体现作者想要表达的情感,因此本文将情感词作为主要的情感特征。根据卷积神经网络(Convolutional Neural Network, CNN)[16]网络能够有效捕捉局部特征的特点,本文将抽取出的情感词{Senw1,Senw2,…,Senwk}经过映射后输入到CNN网络中,利用t个不同大小的卷积核对其进行卷积,再经过池化、激活、拼接等操作最终得到新的特征hw,如式(5)~式(7)所示。
最后,为加强这些情感词对情感分析的影响,本文将情感的句子表示hsen与基于情感词的情感特征hw相融合,得到新的情感特征Senf,计算如式(8)所示。
Senf=hsen+hw
(8)
隐式反问句的特点在于其没有明显的反问特征,识别的过程中高度依赖语境,因此模型要尽可能地获取句子的上下文信息以帮助隐式反问句的识别。对于上下文文本{Context1,Context2,…,Contextm},模型首先借助GRU网络获得Contexti的句子表示hconi,计算方式可参考式(4)。反问句往往能够带来较为明显的情感波动,如果模型能够捕捉到上下文文本之间的情感变化就可以判断出不同上下文对任务的重要性。首先,模型要获得Contexti的情感极性,如式(9)所示。
psi=Softmax(Wcon*hconi+bcon)
(9)
其中,Wcon,bcon∈Rc×2d1,c为情感类别。对于Contexti与Contextj之间的情感变化,本文采用式(10)、式(11)计算。
Δi,ij=DKL(psi||psj)
(10)
(11)
其中,DKL表示对称KL散度,p(l),q(l)为情感标签分布。
接着利用情感偏移Δi,ij来确定每个Context在文本中的权重,其注意力权重计算如式(12)所示。
αs=Softmax(tanh([Δ1,12,…,Δ1..m-1,1…m]))
(12)
得到Context的权重之后,根据式(13)计算最终的上下文特征。
Conf=∑αsihconi
(13)
Lin等人[17]在多方面情感分析任务中引入正则化限制模型中的注意力分布。类似地,本文在这一层将标签正则化和稀疏正则化分别作用于任务标签集的概率分布和上下文权重以提高模型的性能。
如果模型对某一样本是否为隐式反问句的预测概率为58%,那么本文认为模型的鲁棒性较差,对该样本并不是十分“确定”,模型仍然有可以学习的空间。本文在模型输出端得到的任务标签集的概率分布p上引入标签正则化Rl来体现这种“不确定”,并将Rl定义如式(14)所示。
(14)
稀疏正则化Rs主要针对的是每个Context的注意力权重αs。每个Context对句子的作用不尽相同,如果能够将注意力权重的分布限制在更有意义的Context上,就可以获得对任务更有意义的上下文信息,因此,要尽可能地使αs变得稀疏。稀疏正则化Rs在实现上与Rl类似,这里不再赘述。
隐式反问句预测将情感特征Senf以及上下文特征Conf拼接在一起,并进行最大池化操作,再与语义特征Semf相融合,得到最终的句子表示,计算如式(15)~式(17)所示。
最后将H输入Softmax中,判断是否属于隐式反问句。计算如式(18)所示,其中,Wrq∈Rl×2d1,brq∈Rl。
Yrq=Softmax(Wrq*H+brq)
(18)
情感分析预测将Senf输入Softmax,判断句子情感类别。计算如式(19)所示,其中,Wsa∈Rc×2d1,bsa∈Rc。
Ysa=Softmax(Wsa×Senf+bsa)
(19)
两个任务在训练过程中均采用交叉熵损失函数,隐式反问句识别任务的Loss记作Lrq,情感分析任务的Loss记作Lsa,模型整体Loss如式(20)所示。本文共同为两个任务训练我们的模型,通过最小化损失函数来训练模型中的参数。
(20)
其中,λ表示用于调整从正则化损失到总损失影响的超参数。
本节首先介绍隐式反问句识别实验的数据来源,然后给出实验设置,其中包括衡量性能的指标、使用工具、实验参数的设置等,接着介绍用于与本文提出的模型相对比的基准系统,最后给出模型在语料库上的实验结果与分析。
本文实验数据采用李翔等人[1]构建的面向新闻评论的汉语反问句语料库,并在此基础上,根据其提出的基于半监督学习和主动学习的半自动反问句语料收集方法,利用新闻评论数据对语料库进行扩充,最终获得反问句10 500句,其中隐式反问句占比52.92%。语料库相关数据统计如表1所示。
表1 语料库相关数据统计
实验过程中,所有数据均经过去噪、去重和分词等预处理操作,使用HanLP(3)https://github.com/hankcs/HanLP对文本词性进行标注,利用腾讯AI开放平台(4)https://ai.qq.com/为文本标注情感标签。本文将数据集的80%作为训练集,10%作为验证集,10%作为测试集,采用精确率(Precision)、召回率(Recall)和F1值(F1-measure)作为实验结果的评价指标,并且所有实验均进行十倍交叉验证,取平均值作为实验结果。
为对比不同模型的隐式反问句识别性能,本文选取表2中的模型作为基准系统并获得实验结果。
表2 各个模型的实验性能比较 (单位: %)
(1)ATT_LSTM[18]: 通过词向量表将句子转换成相应的矩阵表示,再输入到Bi-LSTM[19]网络中,然后利用注意力机制生成句子的加权表示,最后输入到Softmax函数中进行隐式反问句识别。
(2)GRU[15]: GRU是RNN网络效果较好的一种变体,和LSTM[19]网络一样,也是为了解决长期记忆和反向传播中的梯度等问题而提出来的,但GRU模型中只引入两个门: 分别是更新门和重置门,因此其结构比LSTM网络更为简单。
(3)Transformer[20]: Transformer摒弃了RNN的递归结构,采用自注意力(Self-Attention)机制,克服了RNN训练速度缓慢的缺点,使得模型可以并行化训练,而且能够拥有全局信息。模型超参数设置: 隐藏状态维度为1 024,迭代次数为30,注意力头为5,学习率为5e-4。
(4)SPD_GRU[1]: SPD_GRU利用反问句语料库,以句子的语义特征作为基本特征,将位置特征、句法路径特征与其相融合,共同作为句子表示,并输入至神经网络模型进行反问句识别。本文以GRU网络为基础,将该方法应用于单独的隐式反问句识别。
(5)Sarcasm_Task[21]: Sarcasm_Task建立了情感分析任务与讽刺识别任务之间的关联性,提出一种基于多任务学习的情感分析与讽刺识别模型。该模型中情感分析模块与讽刺识别相互辅助,证明了基于多任务学习的方法明显优于独立情感和讽刺分类器,同时证明了情感分析任务与讽刺识别任务是相关的。
(6)Sarcasm_BERT[22]: Sarcasm_BERT是一种新型的分层BERT[23]模型。模型首先从句子中提取局部特征,接着使用卷积模块总结上下文中的所有句子。然后,将上下文传递给递归层,以从输入中提取时间特征。最后对时间特征与输入的句子表示进行卷积,以检测句子是否具有讽刺意味。
从表2可以看出,本文提出的IRQR模型在性能上都要优于基准模型。Sarcasm_BERT模型利用Bert模型强大的语义表示能力对句子进行编码,并利用卷积模块、递归模块提取句子特征,使得F1值达到了88.25%。与Sarcasm_BERT模型相比,IRQR模型则是针对隐式反问句特点搭建,取得了更好的效果,在精确率上提高了2.12%,召回率提高了1.17%,F1值提高了1.61%。
从实验结果上来看,只使用LSTM、GRU、Transformer网络来对隐式反问句进行识别并不能取得十分理想的效果,这是因为神经网络模型往往很难挖掘深层次的语言特征,对于像隐式反问句这种较为复杂的修辞手法,单一的神经网络模型只能学习简单的句子表示,因此对于隐式反问句的识别仍然需要借助有效的语言特征。
SPD_GRU、Sarcasm_Task、IRQR模型均以GRU网络为基础,但从F1值来看,Sarcasm_Task的实验性能较差,只达到了86.49。Sarcasm_Task模型与IRQR模型都利用情感分析任务辅助隐式反问句识别任务,但Sarcasm_Task模型只能获取句子的情感特征,忽略了上下文信息对隐式反问句识别的重要性。SPD_GRU模型通过句法路径特征以及位置特征来获取有效的上下文信息,但SPD_GRU模型在提取句法路径特征与位置特征时以句子中动词为核心,这样就导致其获取的上下文信息只围绕核心动词,无法获得完整的语境。本文提出的模型则较为充分地利用了每一个Context的语义特征,并通过捕捉其情感变化确定其权重,这样使得模型拥有了充分的上下文信息来识别隐式反问句。
为了研究模型中不同部分对实验结果的影响,本文对IRQR模型进行了以下消融研究: ①IRQR-C: IRQR模型去掉上下文特征层; ②IRQR-S: IRQR模型去掉情感分析层; ③IRQR-R: IRQR模型去掉正则化层; ④IRQR-CS: 上下文特征层中不捕捉句子内部情感变化而直接利用上下文特征; ⑤IRQR-CP: IRQR模型上下文特征层不捕捉句子内部情感变化且语义特征层不引入词性特征; ⑥IRQR-P: 语义特征层不引入词性特征。消融实验结果如表3所示。
表3 IRQR模型消融实验结果
从消融实验的结果可以看出,即使IRQR模型去掉某一部分,其识别隐式反问句的结果也要优于基准系统中的Sarcasm_BERT模型,F1值的波动幅度小于1,这表明本文提出的IRQR模型具有较好的鲁棒性。
当IRQR模型去掉上下文特征层时,即模型IRQR-C,实验效果下降最为明显,精确率下降1.04%,召回率下降0.79%,F1值下降0.96%,充分说明上下文特征层的重要性,而如何提取上下文信息也是能否正确识别隐式反问句的关键。如果去掉模型的情感分析层,即不再使用情感分析任务辅助隐式反问句识别任务,精确率下降显著,这证明了情感分析任务与反问句识别任务之间的关联性。利用反问句与非反问句表达不同情感这一点,能够对识别隐式反问句起到促进作用。正则化层对实验结果的影响主要体现在召回率上,去掉正则化层的IRQR,召回率下降0.75%。
如果保留上下文特征层但不捕捉句子内部情感变化(IRQR-CS),实验结果与IRQR-C相比有所上升,但其精确率与IRQR模型相比仍下降0.22%,因此,捕捉句子内部的情感变化可以获取更有效的上下文特征。本文将词性特征作为隐式反问句的语言特征,并用词性特征来帮助模型获取更深层次的语义特征,实验结果表明在不使用词性特征的情况下,模型的性能有所下降。
为了研究IRQR模型的不足,本文选取3个错误案例进行分析。
例3: 球员是不是他选的?战术是不是他定的?训练是不是他带的?临场是不是他指挥的?那输球了不怪他?
例3是由连续的选择问句构成的反问句,形式上与一般疑问句相同,句子内部没有明显情感变化。对于这样的句子,模型很难为其调整上下文信息的注意力权重,也就无法将注意力集重到分句“那输球了不怪他?”。
例4: 至少最后三个球都是门前有效解围啊,前面国足明明还在战斗,后面就有这些妖魔鬼怪在那里挖墙脚,真让人寒心!此外,大家要明白,剪辑的镜头是可以有诱导性的。把失误剪辑来毁人,把成功剪辑来推销,当大家没有判断力?
模型虽然对评论文本进行分句处理以减少冗余的语境信息对任务的影响,但当上下文信息过长而反问描述较为简短时,模型仍会忽略反问描述对句子的影响,造成误判。此外,例3与例4都属于事实型的文本描述,对于这一类反问句的识别往往需要一定的逻辑判断,虽然已经为模型提供了语义特征、情感特征以及上下文特征,但要想正确识别这类反问句,模型仍需要获得关联性较强的信息。
例5: 说的很对!从第一场就这样认为。其他多数人就像没头的苍蝇,瞎踢,踢到哪里算哪里。可惜了蒿俊闵的努力!
模型利用词性来确定每个词语的注意力权重,然而由于词语词义的多样性,模型对于不常出现的词语词义并不能很好地理解与学习,只将注意力集中到了隐式反问句中经常出现的词语上,导致分类错误。例5中的“哪里”虽然属于疑问代词,但并不表示疑问,而是泛指任何场所。
针对反问句研究的现状,本文提出了隐式反问句识别任务。本文首先扩充了面向新闻评论的汉语反问句语料库,语料库规模达到了10 000余句,接着本文提出了融合情感分析的隐式反问句识别模型IRQR。模型利用词性特征丰富句子的语义信息,捕捉句子内部的情感变化以确定不同上下文信息的权重,并借助情感分析任务识别隐式反问句,同时引入标签正则化与稀疏正则化增强模型鲁棒性。实验结果表明,本文提出的IRQR模型在隐式反问句识别任务上取得了良好的性能。
在对模型进行错误分析时,本文发现模型虽然可有效捕捉上下文信息,但对于需要借助逻辑事理进行语用推理才能理解的上下文信息,模型仍无法有效地挖掘。未来的工作中,本文将针对发现的问题展开进一步的研究。