客户来电意图识别研究

2021-04-29 09:30徐俊利徐洋航谭乃瑜

中文信息学报 2021年3期

赵宁,徐俊利,徐洋航,薛超,谭乃瑜

(1.中移在线服务有限公司人工智能与大数据应用中心，河南郑州 450001；2.北京理工大学计算机学院，北京 100081)

0 引言

随着计算机信息抽取技术的发展，如何从海量数据中挖掘有价值的信息成为人们关注的重点问题。尤其是在移动客服领域，如何利用机器学习、深度学习等技术从大量的客户来电内容中自动挖掘客户来电的意图信息，对于提高服务质量、减少人工分析代价具有重要意义。现有的语音搜索[1]、自动问答[2]等领域的意图识别研究已取得较好成果，但是这些研究大都是针对特定的简单场景进行意图识别，且具有领域独特性，并不能直接应用于移动客服领域的意图识别研究。目前针对移动客服领域的意图识别研究很少，Xu等[3]基于移动客服领域的投诉工单数据，构建了移动客服领域投诉工单分类语料库，为投诉工单分类研究提供了统一资源。徐俊利等[4]基于移动客服领域的投诉工单，结合K-means算法确定营销工单分类标签数，构建了营销活动工单分类语料，并在自己构建的语料基础上，采用深度学习模型进行投诉工单的分类研究，F1值最高达67.70%。然而这些研究都是基于不包含语音转写错误的规范工单文本数据，图1是不含语音转写错误的规范文本样例示意图，尚没有针对包含语音转写错误的不规范文本的客户来电内容进行意图分析的相关研究，图2是包含语音转写错误的不规范文本样例。

图1 不含语音转写错误的规范文本样例

图2 包含语音转写错误的不规范文本示例

客户来电意图识别是指识别出客户来电内容所属的问题标签类别，移动客服领域的客户来电意图标签共有45种，例如“业务资费”。图3是客户来电意图识别分类的一个样例，从图3可以看出，“我想问一下现在那个流量包的话有什么资费呀”是客户来电内容，“业务资费”是客户来电意图识别结果，表示客户咨询的是业务资费方面的信息。

图3 客户来电意图识别分类样例示意图

现有客户来电意图分析大都采用人工统计分析方法，尚没有采用机器学习等自动分类统计分析的方法，人工分析方式费时费力且准确率低。客户来电意图识别是典型的多分类问题，目前对于分类问题，主要有基于规则和基于机器学习两种方法。基于规则的方法是利用专家知识和上下文信息，人工制定规则进行意图识别，这种方法简单准确，但是可移植性和扩展性较差。基于机器学习的方法将意图识别看成一个分类任务，根据上下文语境设计特征，学习输入序列的浅层语义信息，达到识别客户来电意图的目的，该方法比基于规则的方法更具灵活性，常用的机器学习分类模型有K近邻(K-nearest neighbors，KNN)[5]、朴素贝叶斯(naive bayes，NB)[6]、支持向量机(support vector machine，SVM)[7]等。基于机器学习的方法虽提升了召回率，但是需要根据领域知识和经验，人工设计特征，并且特征表示均采用独热(one-hot)的高维稀疏表示方法，难以捕捉深层次的语义信息。

随着深度学习技术的发展，深度学习模型在各种自然语言处理任务中得到应用。深度学习模型不需要繁琐的特征工程设计，能够利用多层神经网络自动构建和学习数据的深层次抽象特征表示，有效挖掘输入序列的深层语义信息，在语义信息的表达上，深度学习模型比传统机器学习方法更具优势。代表性的深度学习模型有卷积神经网络(convolution neural network，CNN)模型[8]和长短期记忆神经网络(long short term memory networks，LSTM)模型[9]。CNN模型能以连续的n个词作为基本单位建立句子表示，从而捕捉到序列最明显的特征，在多分类任务中比其他深度学习模型更具优势。LSTM模型通过独特的“门”机制控制输入序列信息的记忆和更新，从而自动挖掘文本内容的深层语义信息。CNN和LSTM模型虽能够学习到词语或句子间的语义信息，但是特征提取能力稍弱，且无法考虑到不同词语对句子影响程度不一致的问题。近年来，研究人员通过预训练深度神经网络作为语言模型，然后针对特定任务采用微调的方式取得了很好的效果。2018年Devlin等[10]提出了来自 Transformer 的双向编码器表示(bidirectional encoder representations from transformers，BERT)模型。BERT模型采用语义表示能力更强的双向Transformers网络结构作为特征提取器，本质上是学习自然语言处理领域最底层的语言表示模型，通过海量语料，联合调节所有层中的左右上下文来预训练深度双向表示，从而得到序列当前最全面的局部和全局特征表示，并应用于各种分类任务中。

为学习更好的客户来电内容语义表示，挖掘更深层的语义信息，提高意图识别的准确性，减少人工分析代价，本文基于移动客服领域的客户来电内容，分别采用基于传统机器学习、基于单/多深度学习模型的方法(多深度学习模型是指基于CNN和BiLSTM模型的多种组合方式模型)、基于BERT和深度学习模型组合的方法进行客户来电意图识别分类研究。

本文的创新之处在于: ①采用基于机器学习方法、基于单/多深度学习模型的方法、基于BERT和深度学习模型组合的方法自动识别客户来电意图，减少人工分析代价。②创新性地将BERT和深度学习模型组合的方法应用于移动客服领域的客户来电意图识别，有效提升了客户来电意图分类效果，准确率、召回率和F1值最高分别达到89.52%、83.31%和86.30%。

本文组织结构如下: 第1节阐述了相关理论，分别从CNN、LSTM、BERT三个方面进行介绍；第2节介绍客户来电意图识别方法；第3节是客户来电意图识别实验分析；第4节是结论与展望。

1 相关理论

卷积神经网络(CNN)最早由Hubel和Wiesel在研究猫视觉皮层细胞时提出[11]。CNN采用多隐层堆叠、每一层对上一层的输出进行处理的机制，将初始的“低层”特征表示转化成“高层”的特征表示来学习输入序列的深层语义信息。CNN在语音识别、图像分析等领域得到广泛应用。图4是CNN示意图，CNN模型的实现过程如下: 输入信号与三个滤波器及偏置进行卷积，在C1层产生三个特征映射图，然后对特征映射图中每组的四个像素进行求和、加权值和偏置，通过一个激活函数Sigmoid得到三个S2层的特征映射图。再对这些映射图进行滤波，得到C3层。这个层级结构再和S2一样产生S4。最终将得到的向量输入到隐层，在输出层得到目标输出。

图4 CNN示意图

LSTM是Hochreiter和Schmidhube在1997年为解决递归神经网络(recurrent neural network，RNN)的梯度弥散或消失的问题[12]而提出的。LSTM记忆单元能够在学习过程中记住序列的历史信息，捕获整个序列的语义信息。信息的记忆和更新是由输入门、遗忘门和输出门来完成的。单向LSTM模型可以学习序列的历史信息，但是不能学习序列的未来信息。为充分利用历史信息和未来信息，更全面地挖掘序列的深层语义信息，生成更好的序列语义表示，人们提出了双向LSTM(bi-directional long Short term memory，BiLSTM)[13]。BiLSTM使用两个独立的隐层单元双向处理序列，以达到挖掘序列历史和未来深层语义信息的目的。最后，两个隐层的结果通过拼接方式被输入到同一个输出层。图5是BiLSTM神经网络结构，图中方块代表LSTM记忆单元，圆圈代表输入序列。

图5 BiLSTM神经网络结构

(1)

其中，W表示权重矩阵，by表示偏置。

BERT模型的全称是bidirectional encoder representations from transformers，BERT预训练语言模型是通过海量语料学习得到的，其本质上是通过上下文计算字的向量表示，能够表征字的多义性，增强了句子的语义表示能力。图6是BERT和Transformer编码单元结构示意图。为了融合字左右两侧的上下文信息，BERT采用双向Transformer[14]作为特征提取器；该模型提出了“Masked语言模型”和“下一个句子预测”两个任务，分别捕捉词级别和句子级别的语义表示，并进行联合训练。“Masked语言模型”采用遮住句子里某些词语，让编码器预测这个词语的原始词汇的方式来训练深度双向语言表示向量。

图6 BERT和Transformer编码单元结构示意图

BERT模型使用双向Transformer编码结构，Transformer采用自注意力机制对文本进行建模，如式(2)所示。

(2)

其中Q,K,V表示输入字向量矩阵，dk表示输入向量维度。首先，计算句子中每个词对于这句话中所有词的相互关系，通过词语间的相互关系反映不同词之间的关联性及重要程度；然后，利用这些相互关系调整每个词的重要性(权重)，学习得到新的语义表征，该表征不仅包含词本身，还包含了词之间的关联关系。相对于单纯的词向量，Transformer能够学习到更加全局的语义表达。此外，Transformer还采用“多头”模式来增大注意力单元的“表示子空间”，提高模型专注于不同位置的能力，如式(3)、式(4)所示。

针对自注意力机制不能抽取时序特征的问题，Transformer采用了位置嵌入的方式来添加时序特征，如式(5)、式(6)所示。

PE(pos,2i)=sin(pos/10 0002i/dmodel)

(5)

PE(pos,2i+i)=cos(pos/10 0002i/dmodel)

(6)

此外，Transformer编码单元采用残差网络和层归一化的方式来解决深度学习中的退化问题，如式(7)、式(8)所示，从而达到利用词的上下文信息获得更好语义表征的目的。

2 客户来电意图识别研究

本文的客户来电意图识别研究包括基于传统机器学习方法的客户来电意图识别、基于单/多深度学习模型的客户来电意图识别、基于BERT和深度学习模型组合的客户来电意图识别三个部分。图7是客户来电意图识别框架，具体实现过程如下: 首先，对训练语料、测试语料进行分词、去停用词、训练词向量等预处理；然后，分别基于传统机器学习方法、基于单/多深度学习模型方法、基于BERT和深度学习模型组合方法训练客户来电意图识别模型；最后，输入测试数据，基于训练好的客户来电意图识别模型，输出客户来电意图识别结果。

2.1 基于传统机器学习方法的客户来电意图识别

KNN是一种简单有效的分类方法，该算法通过测量不同特征之间的距离来对测试数据进行分类。NB是一种基于概率论的分类方法，其基本思想是: 给定一个待测试样例，基于后验概率最大化来判断测试样例所属的类别，即找出最大的条件概率对应的类别。SVM的基本思想是: 以充分高的置信度对训练的数据进行正确划分，学习得到最优的分类超平面(即几何间隔最大)。SVM中常使用的核函数有线性核函数、多项式核函数、高斯核函数等。KNN、NB、SVM能够有效学习输入数据的词法特征，如词频-逆文档频率(term frequency-inverse document frequency，TF-IDF)，并对测试数据进行分类。

基于传统机器学习方法的客户来电意图识别过程包括预处理、特征提取、训练意图识别分类模型和输出测试结果四个过程。在预处理阶段，分别对训练数据、测试数据进行分词、去停用词、去标点符号等预处理；在特征提取阶段，分别提取词频(term frequency，TF)、逆文档频率(inverse document frequency，IDF)特征，并将TF和IDF相乘，得到TF-IDF特征。在训练意图识别分类模型阶段，使用KNN、NB、SVM分类模型，基于TF-IDF特征，分别训练基于KNN、基于NB、基于SVM的客户来电意图识别模型；在输出测试结果阶段，分别基于KNN、基于NB、基于SVM的客户来电意图识别模型，输出测试数据的意图识别结果。

2.2 基于单/多深度学习模型的客户来电意图识别

2.2.1 基于单深度学习模型的客户来电意图识别

基于传统机器学习模型的客户来电意图识别需要人工设计特征，并且特征表示均采用one-hot的高维稀疏表示方法，仅能捕捉到客户来电内容的浅层语义信息。深度学习模型由于无需特征工程设计，能够通过多层神经网络自动构建数据的深层抽象特征表示，达到挖掘深层语义信息的优势，因而得到广泛应用。本文分别利用CNN、LSTM和BiLSTM三种模型，进行基于单深度学习模型的客户来电意图识别研究。

基于单深度学习模型的客户来电意图识别包括基于CNN、基于LSTM、基于BiLSTM的客户来电意图识别三个部分。具体过程如下: 首先，给定输入序列x={x0,x1,…,xt-1xt,…xn}，将输入词序列转换成低维、连续实值的表示形式，词序列中每个词xi的词向量为xw∈Rd1，d1表示词向量的维度，拼接每个词的词向量表示得到基于词向量的输入序列表示。然后，将得到的输入序列表示分别输入到CNN、LSTM、BiLSTM模型中，训练得到基于CNN、基于LSTM、基于BiLSTM的客户来电意图识别；最后，输入测试数据，基于训练好的客户来电意图识别分类模型，输出客户来电意图识别效果。

2.2.2 基于多深度学习模型组合的客户来电意图识别

CNN模型能够学习到局部区域最明显的特征，LSTM模型使用门机制能够自动学习输入序列的深层语义信息，BiLSTM能够学习历史信息和未来信息，得到输入序列更好的语义表示。不同深度学习模型的分类结果不同，为综合利用不同深度学习模型的优势，进一步提高客户来电意图识别效果，本文采用深度学习模型3种组合方法，探究了CNN和BiLSTM模型多种组合方式的客户来电意图识别(简称基于多深度学习模型组合的客户来电意图识别)，构建基于多深度学习模型组合的客户来电意图识别系统，如图8所示。

图8 基于多深度学习模型组合的客户来电意图识别系统

本文设计的基于多深度学习模型组合的客户来电意图识别系统包括: 基于CNN的语义表示客户来电意图识别系统(CNN+BiLSTM)、基于BiLSTM的语义表示客户来电意图识别系统(BiLSTM+CNN)、基于CNN和BiLSTM语义表示拼接的客户来电意图识别系统(CNN_BiLSTM)。

(1)CNN+BiLSTM: 如图8(a)所示，首先，输入客户来电内容，基于预训练好的词向量，得到输入序列的词向量表示。然后，利用CNN模型学习输入序列的语义信息，经过卷积和最大池化操作得到基于CNN的语义表示。最后，将得到的语义表示，输入到BiLSTM模型中，经过Softmax分类后，得到客户来电意图识别结果。

(2)BiLSTM+CNN: 如图8(b)所示，BiLSTM+CNN模型和CNN+BiLSTM原理类似，唯一不同的是: BiLSTM+CNN是利用BiLSTM模型获得基于BiLSTM的语义表示，然后将得到的语义表示输入到CNN中。

(3)CNN_BiLSTM: 如图8(c)所示，首先将输入客户来电内容映射到向量空间，得到词向量表示形式的输入序列；然后分别输入到CNN和BiLSTM两个模型中进行学习，得到基于CNN的语义表示和基于BiLSTM的语义表示；最后将两个语义表示拼接，得到语义向量表示，并将其作为特征进行Softmax分类，最终得到意图识别结果。

2.3 基于BERT和深度学习模型组合的客户来电意图识别

BERT模型能够捕捉到该词前面和后面单词的信息，从而获取上下文的语义，在大规模语料上能够得到较好的句子语义表示，但是训练时间代价较大；而深度学习模型通过自动构建句子的语义特征挖掘句子内部的深层语义信息，训练速度较快。为了综合利用BERT和深度学习模型的优势，本文采用层次深入递进的方法构建基于BERT的客户来电意图识别模型，通过三组实验对比，说明BERT和深度学习模型的组合比单独BERT模型的意图识别效果好。具体过程如下: 首先，基于BERT模型进行客户意图识别研究，验证单独BERT模型的效果；然后，分别构建BERT和单深度学习模型中最好的模型(BiLSTM)的组合模型(BERT+BiLSTM)、BERT和多深度学习模型中最好模型(CNN_BiLSTM)的组合模型(BERT+CNN_BiLSTM)进行客户来电意图识别。BERT在大规模语料中获得的句子语义表示效果较好，因此本文首先采用BERT模型获得句子的语义表示，然后将获得的语义表示分别输入到BiLSTM模型、基于 CNN 和BiLSTM 语义表示拼接(简称: CNN_BiLSTM)模型中，训练客户来电意图分类模型，最后进行客户来电意图识别研究的实验分析，基于BERT和深度学习模型组合的客户来电意图识别系统框架示意图如图9所示。首先，输入客户来电内容，对客户来电语料进行预处理，得到BERT模型的输入序列表示形式；然后基于BERT模型，学习得到基于BERT的语义表示；最后，分别将获得的语义表示，输入到BERT模型、BiLSTM和CNN_BiLSTM，构建基于BERT的意图识别(BERT)、基于BERT+BiLSTM的意图识别(BERT+BiLSTM)、基于BERT+CNN_BiLSTM的意图识别系统(BERT+CNN_BiLSTM)。三种模型的意图识别方法如下:

图9 BERT和深度学习模型组合示意图

(1)BERT: 首先，构建BERT模型的输入序列表示，问题标签和句子通过“Tab”键分开，对于每个单词，BERT分别对单词位置信息、对词向量、对句子整体进行编码，并将这三种向量结果进行拼接，构建BERT的输入序列表示；然后，BERT模型使用Transformer的编码单元训练双向特征，得到包含词语间相关性等信息的深层语义表示；最后，将深层语义表示结果输入到BERT分类模型中，得到意图识别结果。

(2)BERT+BiLSTM: 首先，同BERT模型的方法，得到相关信息的深层语义表示；然后，将深层语义表示输入到BiLSTM模型中，训练基于BERT+BiLSTM的意图识别分类模型；最后，基于训练好的BERT+BiLSTM模型，输入测试数据，得到基于BERT+BiLSTM的意图识别结果。

(3)BERT+CNN_BiLSTM: 首先，同BERT模型的方法，得到相关信息的深层语义表示；然后，分别将该语义表示输入到CNN、BiLSTM模型中，训练基于BERT+CNN_BiLSTM的意图识别分类模型；最后，基于训练好的BERT+CNN_BiLSTM模型，输入测试数据，得到基于BERT+CNN_BiLSTM的意图识别结果。

3 客户来电意图识别实验分析

本文在移动客服领域的客户来电语料上进行意图识别(即识别出客户来电内容中所投诉的问题标签类别)实验，表1是客户来电语料统计信息表，可以看出:

表1 客户来电语料统计信息表

(1)移动客服领域的客户来电语料共有标注数据243 772句，每条标注数据包括客户来电内容和问题标签类别，其中来电内容和问题标签之间用制表符“Tab”键隔开。本语料训练集有195 017句，有问题标签句子有24 484句，占比12.55%；测试集有48 755句，有问题标签句子数有5 997句，占比12.30%。

(2)句子平均词数和有问题标签句子平均词数均在22～24之间，说明移动客服领域的客户来电内容普遍较短，具有领域独特性。

我们首先使用包含语音转写错误信息的客户来电数据进行实验，对转写错误的文本进行如下预处理: ①针对语音转写错误问题进行了简单的纠正，例如: 将“信号转网”修正为“携号转网”、将“国学常”修正为“国学堂”等。②将语音转文字后的文本转化成句向量表征，形成统一的标准化数据向量格式输入到模型中，挖掘客户来电意图信息。③对于不含问题的句子，本文统一归为一类处理，标记为“other”类。④由于语料中涉及一句话多个标签，因此我们将多标签问题转化为单标签处理(即一句话保证只有一个问题标签)。具体处理如下: 对于多标签的句子，如图10所示，我们采用分别复制的方法保证每个句子只有一个问题标签类别，多标签句子处理后的结果如图11所示。

图10 多标签句子示例图

图11 多标签句子转换为单标签后示例图

(11)

其中，TP表示正确识别问题标签的数量，FP表示被错误识别问题标签的数量，FN表示模型没有识别出的问题标签数量。

3.1 基于传统机器学习方法的客户来电意图识别实验分析

表2是基于传统机器学习方法的客户来电意图实验结果。

表2 基于传统机器学习方法实验结果(%)

从表2可以看出：

(1)KNN、NB和SVM模型，意图识别结果均达到了可接受的水平，其中，KNN模型的意图识别效果最优，F1值达到81.95%。说明基于传统机器学习方法能够捕捉到客户来电内容的浅层语义信息，对于意图识别是有效的。

(2)三种模型的效果较接近，说明相同的特征，不同的模型分类效果差异不大，性能最大差异仅有0.43%。

3.2 基于单/多深度学习模型的客户来电意图识别实验分析

3.2.1 基于单深度学习模型的客户来电意图识别实验分析

基于单深度学习模型的客户来电意图识别实验结果如表3所示。

表3 基于单深度学习模型实验结果(%)

从表3可以看出:

(1)CNN模型的意图识别效果最好，F1值达到85.06%，分别比LSTM、BiLSTM模型高3.11%、2.65%。这可能是因为客户来电的句子较短，而CNN模型能够捕捉到局部区域最明显的特征，在学习短序列语义信息方面较具优势。

(2)BiLSTM比LSTM模型的F1值高0.46%，这主要是因为BiLSTM能够学习输入序列的历史信息和未来信息，而LSTM只能捕捉到前向序列的历史信息。

(3)通过表2和表3可以看出，单深度学习模型的意图识别效果均等于或高于传统机器学习模型的识别效果。说明基于单深度学习模型的方法能够挖掘客户来电内容的深层语义信息，效果较佳。例如“哦那我在那个客户端上为啥查到了是总共二百四十分钟通话呀因为您查的是您套餐里边的查的没有查询到它赠送您的免费资源”。传统机器学习最好的KNN模型分类的问题标签为“账户信息”，而单深度学习模型的CNN分类结果为“营销活动信息”，说明单深度学习模型能够捕捉到句子最明显的深层语义特点为“赠送您的免费资源”，从而得到正确的结果，而传统机器学习模型仅能够捕捉离散的浅层的语义信息，导致分类错误。

3.2.2 基于多深度学习模型组合的客户来电意图识别实验分析

表4是基于多深度学习模型组合的客户来电意图识别实验结果。

表4 基于多深度学习模型组合实验结果(%)

根据表4可以得出如下结论:

(1)BiLSTM+CNN模型性能最差，F1值仅为82.36%，比CNN+BiLSTM、CNN_BiLSTM模型结果分别低2.34%、3.20%。说明先基于CNN模型得到的输入序列隐层表示比先基于LSTM模型学习的隐层表示质量高。

(2)CNN_BiLSTM模型F1值比CNN+BiLSTM模型高0.86%，这可能是因为CNN模型适合局部特征学习，而LSTM模型能够捕捉整个序列的语义信息，采用CNN和BiLSTM模型语义表示拼接的方法能够综合利用两个模型的优势，所以效果比两种模型纵向组合的方法好。

(3)从表2、表3和表4可以看出，多深度学习模型组合实验结果最高F1值达到85.56%，比最高的传统机器学习模型、最高的单深度学习模型结果分别高3.61%、0.50%。说明相对于传统机器学习模型和单深度学习模型，多深度学习模型组合的方法在客户来电意图识别方面效果最好。例如“我这个副卡就在我这个现在我打电话这个手机里装着嘞现在这个我这个副卡也没有信号”，CNN模型没有学习到任何信息，判别为“other”，而多深度学习组合最好模型CNN_BiLSTM却能捕捉到“副卡使用问题”这一深层语义信息，进而判别为“业务使用问题”，说明CNN_BiLSTM模型的组合能够弥补单深度学习模型的不足，提高了分类效果。

3.3 基于BERT和深度学习模型组合的客户来电意图识别实验分析

表5是基于BERT和深度学习模型组合的实验结果，可以看出:

表5 基于BERT和深度学习模型组合实验结果(%)

(1)BERT、BERT+BiLSTM和BERT+CNN_BiLSTM三种模型均取得较好的结果，F1值最高达到86.30%。说明BERT模型能够融合输入序列词语间相关性等深层语义信息，获得更强的语义表征，其中BERT+CNN_BiLSTM在客户来电意图识别中效果最好，这可能是因为: 将BERT、CNN和BiLSTM三种模型进行组合，能够综合利用三种模型的优势，学习到更强的语义表示。

(2)BERT+BiLSTM模型比BERT、BERT+CNN_BiLSTM模型F1值分别低1.01%、1.27%。可能是因为: ①客户来电内容较短，而BiLSTM学习长序列的全局特征，如果直接将BERT模型学习的语义表示输入到BiLSTM模型中，可能出现语义信息损失,导致性能下降。②CNN模型能够捕捉局部语义特征，将BERT、CNN和BiLSTM三种模型融合，可以学习到全局和局部的有效特征，从而提高意图识别结果。

(3)从表4和表5可以看出，BERT+CNN_BiLSTM模型F1值比CNN_BiLSTM高0.74%。说明融入自注意力机制和时序特征的BERT模型，比CNN_BiLSTM模型在意图识别方面效果更好。例如“你帮我你帮我查一下我这个手机套餐是多多高嘞”，CNN_BiLSTM模型分类结果为“账户信息”，而BERT+CNN_BiLSTM能够获得更好的语义表示，从而能够准确定位客户的来电意图是问手机套餐资费问题，所以分类结果为“业务资费”，说明通过联合调节所有层中的上下文来预先训练深度双向表示的BERT模型获得的句子语义表示效果更佳。

(4)从表3和表5可以看出，单BERT模型比CNN、LSTM、BiLSTM模型F1值分别高0.98%、4.09%、3.63%；说明相对于CNN、LSTM和BiLSTM模型，BERT模型学习的语义表征能力更强。

4 结论与展望

识别移动客服领域客户来电意图对于客服人员进行投诉分析具有重要意义。为减少人工分析代价，提高意图识别效果，本文基于移动客服领域客户来电内容，分别从基于传统机器学习模型、基于单/多深度学习模型、基于BERT和深度学习模型组合三个方面，进行移动客服领域的客户来电意图识别研究实验，实验结果中F1值最高达到86.30%，表明本文提出的客户来电意图识别方法是有效的，不仅能够自动对客户来电内容进行分类，减少人工分析代价，而且能够有效提高意图识别效果。

本文虽取得了较好的效果，但是BERT和深度学习模型组合方法较简单，所以未来的重点工作是借鉴多模型融合思想，继续探索BERT和深度学习模型的组合方法，进一步提升客户来电意图识别效果。