基于S-LSTM模型利用‘槽值门’机制的说话人意图识别

2019-05-30 00:06王子岳邵曦
南京信息工程大学学报 2019年6期

王子 岳邵曦

摘要 对说话人意图的识别极大地推进了自然语言理解任务的发展.之前的工作大多采用Bi-LSTM即双向LSTM模型进行词汇特征与词汇之间语义关系的提取,但这并不能很好地使句子整体和构成句子的词汇个体之间的信息进行交流.而S-LSTM(Sentence-state LSTM)模型,即句子状态LSTM模型可以很好地将自然语言中句子整体与词汇个体的信息相结合,以便于我们挖掘与利用意图检测与槽值填充之间的关系成立联合模型来更好地理解应答系统中蕴含的语义.因此,本文引入了‘槽值门机制解决S-LSTM应用于意图检测与槽填充的联合任务时最新迭代时刻的句子状态信息没有得到充分利用的问题.最终的实验结果在ATIS数据集和Snips数据集上均取得了优于目前最先进算法的结果.

关键词 意图识别;槽填充;S-LSTM;槽值门

中图分类号TP391

文献标志码A

0 引言

在自然语言的问答系统中,SLU(Spoken Language Understanding)是必不可少的一环,它指引着后续对话的内容.SLU的目的是形成一个语义框架,以获取用户话语或查询的语义,它通常包括两个任务:意图检测(intention detection)[1]以及槽填充(slot filling)[2].

在问答系统,尤其是任务型问答系统中,当用户提出要求时,系统首先需要分辨出用户想要做什么,这便是意图检测的目的.意图检测任务可以被看作是一种分类任务,把一句话按照它包含的语义分到不同的意图类别中.之后,系统需要分辨出完成用户要求所必须的要素,例如当用户需要预定机票时,系统需要分辨出所要预定的航班的行程以及具体的时间,这就是槽填充任务所要解决的问题.槽填充任务可以被看作是一种序列标记任务[3],它将单词的嵌入表示映射为与之对应的输出向量,据此为每一个单词打上不同的标签,这个标签取决于当前单词是否包含上述完成用户要求的要素以及是哪一种要素.

学者们常常将意图检测和槽填充单独考虑,而没有将两者间的联系进行探究.但随着研究的推进,人们发现同时实现意图检测和槽填充的联合模型往往能够取得更好的效果,这一现象预示着说话人的意图与槽值之间的相关性对意图识别结果的提升有着至关重要的效用.但这些工作都没有清晰地建模意图与槽值之间的关系,而S-LSTM[4]模型为这种建模提供了可能,它很好地將句子中每个单词的信息与句子整体的信息进行融合.但将S-LSTM模型同时运用在槽填充和意图检测任务时,能够最详尽且最清晰地呈现句子所蕴含时序语义信息的句子状态信息并没有得到充分利用,这造成了严重的资源浪费也对结果的准确性造成了影响.为了解决这一问题,本文开创性地引入了‘槽值门机制,在进行槽填充任务时,将最新迭代时刻的句子状态信息作为监督信息加以运用.论文的结构如下所述:第1节介绍了前人在意图识别领域所做的工作,第2及第3节分别介绍了S-LSTM模型以及‘槽值门机制,第4节介绍了我们提出的模型,第5节讨论了我们具体的实验设置以及最终的实验结果,第6节是结论.

1 相关工作

在单独解决槽填充任务时,人们会选择条件随机场(CRF)[5]以及循环神经网络(RNN)[6]的方法.而在单独处理意图检测任务时,人们尝试过类似于支持向量机(SVM)[7]以及Adaboost[8]的各种各样的分类器.

在面对意图检测和槽填充的联合任务时,学者们为了利用它们之间的关系做出了很多努力.从2014年Guo等[9]利用语义分析树构造了路径特征来对槽位与意图进行识别到2016年Hakkani-Tür等[10]构造多域联合的语义框架,人们试着通过对两者之间的关系进行增强从而得到较好的结果.同样是在2016年,注意力机制[11]也被用来构造联合模型[12].这一模型通过意图检测任务和槽填充任务之间文本向量的共享实现了信息交互的意图从而取得了很好的效果.2018年,‘槽值门(slot-gate)机制作为控制两种任务之间信息结合的方式被引入了模型[13].

2 S-LSTM

2.1 结构介绍

S-LSTM模型全称是Sentence-state LSTM,也即是句子状态LSTM,它在对每一句话进行嵌入的时候,不仅仅聚焦于单词层面的嵌入,还会训练出一种句子嵌入来对句子的整体状态进行表示,其具体结构如图所1示.

由于S-LSTM将句子作为一个整体进行循环,使每一个单词与句子整体状态不断得到更新,而不是类似于Bi-LSTM[14]仅仅在单词序列上按照固定的顺序进行循环,S-LSTM可以比Bi-LSTM更好地探究整体(句子)与部分(单词)的关系,并且在句子较长时训练迭代的次数也会相对较少.参考文献中的实验结果也证明,S-LSTM在多种任务上对信息的提取效果好于Bi-LSTM.因此我们考虑将S-LSTM作为一种特征提取器运用于意图检测与槽填充的联合任务中.

2.2 存在的问题

在将S-LSTM运用于意图检测与槽填充的联合任务中时,最直接的想法是将S-LSTM输出的每一个单词状态作为输入,输入到分类器当中从而得到最后的结果.但由于每一个时刻的单词隐藏状态都仅受上一个时刻句子状态的影响,与当前句子状态没有直接的监督关系,而最新时刻的句子隐藏状态蕴含着最为准确以及详尽的句子语义信息,直接进行分类就无法利用最新迭代时刻的句子信息,这样会造成资源的浪费,且通过我们的实验表明这样做对最终的结果造成了一定的影响.为了充分利用最新迭代时刻的句子状态,我们想到运用‘槽值门机制使最新迭代时刻的句子状态对单词状态产生监督.

3 ‘槽值门机制

‘槽值门(slot-gate)机制[13]在2018年被提出,作者将由Bi-LSTM[14]提取出的每个单词的隐藏状态和Bi-LSTM中最后一个单元的隐藏状态分别经过槽值自注意力(slot self-attention)机制和意图自注意力(intent self-attention)机制之后得到的结果输入到‘槽值门中,用意图分类的结果监督槽值的填充.而在我们的模型中,‘槽值门的输入为单词的状态表示和句子整体的状态表示.本文中所使用的‘槽值门结构如图2所示.

其中,cti 代表t时刻第i个单词的隐藏状态,ctg 代表t时刻句子的整体状态,W和V为可以训练的模型参数,输出g为对应的权值.在实际运用的过程中,不论是单词还是句子的状态都选用固定长度的向量来表示,因此两者之间可以进行直接相加,且不需要做矩阵乘法来达到改变维度的目的.通过W矩阵将句子状态变换到与单词状态相同的向量空间,之后通过tanh函数作为激活函数,将较小的差距放大使其更加明显.然后通过V进一步改变向量空间之后求和得出最终的输出权值.

4 模型介绍

在提出‘槽值门的参考文献[13]中,作者采用了Bi-LSTM的方式提取句子中的信息,包括句子整体状态和单词状态.而S-LSTM可以在速度不变慢的前提下更好地提取上述两种信息,且门机制可以很好地将最新时刻的句子状态加以利用.因此本文将S-LSTM与‘槽值门机制结合起来,用当前时刻的句子状态(可以在某种程度上被理解为句子的意图)监督槽填充的过程,并将槽填充与意图检测任务在同一系统中接受训练.

对每一句输入的语句首先经过S-LSTM的特征提取,得到此时刻每个单词的表示cti 与此时刻句子整体状态表示ctg,在此基础上,完成槽填充任务和意图检测任务.

4.1 槽填充

在得到cti 与ctg 之后,将其输入到‘槽值门机制中,计算出此单词在此句子状态下的权重.最后的输出如下式所示:

权值g代表此时刻句子状态对此单词状态的监督.为了保证原本单词状态中来自单词之间和之前时刻句子状态的信息不会被过度修改,我们在接受监督的单词信息之外加上了原本的单词信息.n为可以调整的超参数,当迭代次数较多时,因为单词状态已经较好地掌握了句子的整体状态,所以可以将n设置得比较大,赋予原单词状态较大的权重,同理当迭代次数较少时,可以将n设置得较小.

4.2 意图检测

过去的许多研究表明仅仅使用最终的句子隐藏状态所得到的效果比不上通过注意力机制(attention)将每一个单词的隐藏状态进行加权求和之后分类的结果,因此我们在意图检测中引入注意力机制.我们采用加性注意力机制[16],t时刻进行分类判别的句子整体状态gt为

5 实验

5.1 數据集

ATIS[17](Airline Travel Information Systems)数据集,是一个英文数据集,它被广泛应用于SLU的研究中.数据集中记录了人们在预定机票时所作的表述,其中训练集中包含了4 478条语句,测试集中包含了893条语句,验证集中包含了500条语句.在训练集中包含了120种不同种类的槽标签和21种不同的意图种类.

为了更全面地验证模型的能力,本文还引入另外一个由Snips2017年收集的消费意图引擎[18](custom-intent-engines)的NLU数据集.其中训练集包括了13 084条语句,测试集中包括了700条语句,验证集包含700条语句.此数据集中每一种意图的语句数量基本相同,且包括了72种不同的槽标签以及7种不同的意图种类.两种数据集的具体情况如表1所示.

相较于单独领域的ATIS数据集,Snips数据集涉及了更多的领域,且意图更为多样.例如:Snips数据集中的意图从“播放音乐”到“查询天气”,每种意图之间差别很大,而ATIS数据集中,所有的意图都始终围绕着机票信息.这也就导致ATIS数据集由于始终关注机票这一话题,所以涉及的单词重复率很高.由于所涉及话题较为多样,Snips数据集所涉及的单词量较多.

同时,ATIS数据集的训练样本极不均衡,训练样本中询问航班信息及预定机票的样本超过了50%,而询问最低票价的样本仅出现了一次.而Snips数据集的训练样本较为均衡,不同类别样本数量差异较小.

5.2 设置

经过多次实验,我们将S-LSTM的迭代次数设定为6次,单词窗口长度设定为2,句子状态数为1个,由于迭代次数较多,n设置为2,每一批数据的大小(batch-size)为30条,为了防止过拟合,将‘dropout[19]值设置为0.5.同时,为了防止梯度爆炸,需要引入梯度裁剪[20](gradient client),将每一批数据裁剪为3批各10条数据.在实际实验的过程中引入预训练词向量数据集GloVe[21]中300维的嵌入,将所有内部隐藏状态的维度设定为300维.所有的梯度下降均采用Adam调整器来实现.

5.3 实验结果及分析

对于意图检测的结果,本实验选择使用准确率作为衡量,而对于槽值填充的结果,本实验选择使用F1值进行衡量,它将精确率和召回率视为同等重要.

本实验选取基于注意力机制的循环神经网络模型和‘槽值门模型作为此次实验的参照对象.并且,本实验也将没有经过任何处理的S-LSTM输出直接进行槽填充任务的结果与叠加槽值门之后的模型(没有使用CRF)进行了比较,具体数据如表2所示.

由此可见,在结合‘槽值门之后,模型的效果得到了提升.经过CRF处理之后,本实验的模型在Snips数据集上不论是槽值填充还是意图检测均取得了极大的进步,而在ATIS数据集上也达到并超越了目前最先进算法的结果.

之所以在ATIS数据集上取得的提升没有Snips数据集上大,我们认为可能是因为以下两点原因:

1)ATIS数据集中的话题集中性较高,基本都是围绕着机票这一主题展开,这方便了模型对其整体信息的学习与把握,同样也难以体现出S-LSTM对整体和个体信息交流的优势.

2)ATIS数据集中由于训练样本的不均衡,导致模型比较容易学会样本较多的分类,而对于出现次数较少的样本模型难以学习透彻,无法具有很好的泛化能力,这就导致对ATIS数据集的学习可以较为容易地达到一个较高水平,但想要继续突破较为困难.

6 結论

本文将S-LSTM模型应用到意图检测和槽填充的联合任务上,用以替代Bi-LSTM作为信息的提取工具,并引入‘槽值门机制,将最新时刻句子整体状态信息加以利用,从而进一步提升模型表现.最终得到了优于目前最先进算法的表现,这既证明了S-LSTM可以更好地提取句子中的信息也预示着对意图和槽值之间关系的建模与进一步挖掘会为意图检测和槽填充的联合任务的进步提供动力.在未来的工作中,可以考虑使用图神经网络(Graph Nerual Network)[22]以便更为明确地对句子中信息进行建模与应用.

参考文献

References

[1]Brenes D J,Gayo-Avello D,Pérez-Gonzlez K.Survey and evaluation of query intent detection methods[C]∥Proceedings of the 2009 Workshop on Web Search Click Data,2009:1-7

[2]Tur G,De Mori R.Spoken language understanding:systems for extracting semantic information from speech[M].Chichester,UK:John Wiley & Sons,2011

[3]Gupta A,Hewitt J,Kirchhoff K.Simple,fast,accurate intent classification and slot labeling[J].arXiv Preprint,2019,arXiv:1903.08268

[4]Zhang Y,Liu Q,Song L F.Sentence-state LSTM for text representation[C]∥Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers),2018:317-327

[5]Gorin A L,Parker B A,Sachs R M,et al.How may I help you?[C]∥Proceedings of Workshop on Interactive Voice Technology for Telecommunications Applications,DOI:10.1109/ivtta.1996.552741

[6]Yao K S,Peng B L,Zhang Y,et al.Spoken language understanding using long short-term memory neural networks[C]∥IEEE Spoken Language Technology Workshop (SLT),2014:189-194

[7]Sarikaya R,Hinton G E,Ramabhadran B.Deep belief nets for natural language call-routing[C]∥2011 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2011,DOI:10.1109/ICASSP.2011.5947649

[8]Schapire R E,Singer Y.BoosTexter:a boosting-based system for text categorization[J].Machine learning,2000,39(2/3):135-168

[9]Guo D,Tur G,Yih W T,et al.Joint semantic utterance classification and slot filling with recursive neural networks[C]∥2014 IEEE Spoken Language Technology Workshop (SLT),2014,DOI:10.1109/SLT.2014.7078634

[10]Hakkani-Tür D,Tur G,Celikyilmaz A,et al.Multi-domain joint semantic frame parsing using bi-directional RNN-LSTM[C]∥Interspeech 2016,ISCA,2016:715-719

[11]Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[J].arXiv Preprint,2014,arXiv:1409.0473

[12]Liu B,Lane I.Attention-based recurrent neural network models for joint intent detection and slot filling[J].arXiv,2016,arXiv:1609.01454

[13]Goo C W,Gao G,Hsu Y K,et al.Slot-gated modeling for joint slot filling and intent prediction[C]∥Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2018,2:753-757

[14]Schuster M,Paliwal K K.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681

[15]Ma X Z,Hovy E.End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[J].arXiv Preprint,2016,arXiv:1603.01354

[16]Zhang X D,Wang H F.A joint model of intent determination and slot filling for spoken language understanding[C]∥Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence,2016:2993-2999

[17]Tur G,Hakkani-Tur D,Heck L.What is left to be understood in ATIS?[C]∥2010 IEEE Spoken Language Technology Workshop,2010,DOI:10.1109/SLT.2010.5700816

[18]Coucke A,Saade A,Ball A,et al.Snips voice platform:an embedded spoken language understanding system for private-by-design voice interfaces[J].arXiv Preprint,2018,arXiv:1805.10190

[19]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958

[20]Pascanu R,Mikolov T,Bengio Y.On the difficulty of training recurrent neural networks[C]∥International Conference on Machine Learning,2013:1310-1318

[21]Pennington J,Socher R,Manning C.Glove:global vectors for word representation[C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP),2014:1532-1543

[22]Zhou J,Cui G Q,Zhang Z Y,et al.Graph neural networks:a review of methods and applications[J].arXiv Preprint,2018,arXiv:1812.08434

Abstract The recognition of the speakers intention has greatly promoted the development of natural language understanding.In previous studies,the bidirectional long short-term memory (Bi-LSTM) model has been mostly employed in natural language processing to extract the features of words and the relationships between them.However,Bi-LSTM cannot establish a well-enough relation between the information contained in a sentence and its individual vocabulary.Another previously proposed model,i.e.,the S-LSTM (Sentence-state LSTM) model,can establish a relation between sentence information and its individual words.This,in turn,facilitates the establishment of the relationship between intention detection and slot filling,for the purpose of proposing a joint model to better understand the semantics contained in the question-answer system.Therefore,in this paper,slot-gate mechanism is introduced to solve the waste of the latest iteration sentence state when S-LSTM is applied to the joint task of intention detection and slot filling.The experimental results based on ATIS and Snips datasets confirm that

the proposed mechanism  is superior to other state-of-the-art approaches.

Key words intention detection;slot filling;S-LSTM;slot-gate