基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型

2023-03-06 11:46李俊峰黄秀彬刘娟董蓓王建波

微型电脑应用 2023年1期

李俊峰，黄秀彬，刘娟，董蓓，王建波

(1.国家电网有限公司，市场营销部，北京 100000；2.国家电网有限公司客户服务中心，天津 300304；3.国网信通产业集团北京中电普华信息技术有限公司，北京 100085)

0 引言

由于短文本缺乏上下文本信息对语言环境的制约，且汉语语义、语音多样化，同一个文本的发音不同，表达的意思也不同。因此，文本的语义歧义成为常态，影响智能客服与用户间的交互，降低服务质量，带来经济损失。为了解决以上问题，文献[1]通过智能体agent不断与周围环境进行交互和学习，对短文本数据内容进行训练；文献[2]将Logistic映射产生的序列作为扩频通信的扩频码，提出了标签可完全识别的重复帧算法，RFID多阅读器防碰撞算法，完成短文本分类和分析，具有较高的文本分析能力。

这些方法在一定程度上减少了短文本内容的特征提取过程，提高了文本内容的核心偏差，降低了模型分类的准确率。对此，本文提出的基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型，在保证智能客服高效分析能力的基础上，提高对本文主题提取的精确度，实现提高服务质量的目的。

1 智能客服NLP短文本分类模型架构

智能客服NLP短文本分类模型架构是短文本分类模型功能运行的基础，为客服NLP短文本分析提供文本训练数据。为了达到本文设计的目的，智能客服NLP短文本分类模型由构造词嵌入层、多头自注意层、输出层以及卷积层，架构结构示意图如图1所示。

图1 智能客服NLP短文本分类模型架构结构示意图

1.1 构造词嵌入层

智能客服NLP短文本分类模型中，构造词嵌入层的任务是按照可变词汇的基本构造方法，对智能客服接收到的短文本信息数据进行处理，分析短文本中每个词汇的多重含义，为卷积层提取短文本内容的核心主题奠定数据基础。文本的映射处理包括分析多报头注意层输出的短文本转换矩阵，获取关系矩阵和字节向量特征矩阵，然后对矩阵进行权重优化训练，优化公式如式(1)：

(1)

其中，AWQ表示文字的关系矩阵,AWK表示字节向量矩阵,SDA(Q、K、V)表示短本文格式转换矩阵,dK表示权重优化系数[3-4]。

1.2 多头自注意层

多头自注意层的任务是对该模型首次得到的文本特征进行划分。在提取过程中，为了简化构造词嵌入层的工作，我们将根据短文本的内容，利用文本的自注意计算，合理地进行语义增强层，自注意力计算式如下：

(2)

其中，m表示短文本信息的真实文本特征标签，t表示文本转换编码，θ表示短文本信息分类的估计概率，k表示短文本目标分类的个数，γ表示短文本分类的正则超函数，log(yi)表示短文本训练目标的损失函数[5-8]。

最后，将优化处理后的多头自注意力短文本信息序列重新切割，得到短文本序列的多个分向量。

1.3 输出层

输出层的任务是输出其他层次的分类结果，获得客服接收到的短文本信息。因此，在模型一个周期的计算过程中,需要调用2次输出输入层，分别表示短文本分类的开始和结束[9-11]。为了保证短文本信息数据的完整性，将短文本变量的输入或输出与头向量和尾向量混合。当模型获得文本变量时，它将自动解析头部和尾部变量，不会改变原始短文本信息的含义。具体输出层的解析结构如图2所示。

图2 短文本分类特征向量简图

为了保证数据信息的精度，输入输出层在输入过程中会自动地将文本信息和文字特征向量相互融合，输入词组分类器，进行归一处理，完成最终的工作。归一函数如式(3)：

(3)

1.4 卷积层

卷积层的任务是为NLP短文本分类模型提供捕获短文本内容核心主题特征。卷积层的工作是分析待分类短文本词之间的依赖关系，从而降低提取短文本主题特征的难度，设短本文主题特征间的依赖关系提取公式为

(4)

卷积层将输出的短本文信息特征直接输送到池化层，进行短文本信息的其他处理。

2 基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型

2.1 自适应多叉树防碰撞算法

自适应多叉树防碰撞算法的目的是防止文本阅读器与文本的特征标签在进行文本分类时出现碰撞，一旦碰撞文本分类模型就会崩溃，所有的数据信息失去意义。自适应多叉树防碰撞算法的优点是调用的执行命令少，降低分类模型的自身负载[14-15]。自适应多叉树防碰撞算法的工作流程如图3所示。

图3 自适应多叉树防碰撞算法的工作流程图

2.2 算法的通信方式

短文本分类模型的通信方式要保证通信量，无效通信量过大会导致分类模型运行效率低，出现通信信道堵塞的状态，为了防止智能客服NLP短文本分类模型在计算训练过程中出现无效字节的情况，本文统一制定智能客服NLP短文本模型内数据通信的模式为曼彻斯特编码。此编码模式的编码遵守逻辑1和逻辑0的准则，当数据上传时，对外封装逻辑1编码；当数据处理时，利用下降编码0进行解码，再进行本文的运算[15]。解码双循环控制单元如图4所示。

图4 编码双向控制循环单元结构图

数据在解码和编码过程中，一旦数据出现跳码或者空格时，都需要重新处理，否则通信无效。曼彻斯特编码通信模式在自适应多叉树防碰撞算法在出现本文标签碰撞时，通过向自适应算法重新传回文本的最高碰撞数据和最低碰撞数据即可，不需要其他冗余的碰撞数据，就可完成全部数据包的复盘，提高通信模式的通信效率。具体的短文本数据标签与阅读器通信编码的碰撞结构示意图如图5所示。

图5 短文本编码通信碰撞原理结构图

2.3 基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型

在以上论述的基础上，基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型的工作流程如下。

步骤一开启模型内架构工作的状态，获取需要处理的短文本数据，初始化所有数据，利用自适应多叉树防碰撞算法的堆栈向模型发送分析命令。

步骤二模型接收到短文本分类命令，按照架构层次的功能依次对文本进行序列处理，逐步输出文本序列之间的依赖关系、文本的特征，集成特征标签，同时，模型调用自适应多叉树防碰撞算法，实时监控短文本模型内所有的标签数据是否存在碰撞的趋势，一旦出现时隙碰撞、空闲碰撞和可读时隙时，立即调用自适应多叉树防碰撞算法进行制约。

步骤三调用多头自注意层功能，对智能客服NLP短文本分类模型架构输出的短文本序列特征进行有效划分和解析，完成短文本的分类。对于文本分类的整个工作周期，自适应防碰撞算法保持监控状态，保证模型的正常运行。

具体基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型如图6所示。

图6 分类模型的工作流程

3 实验分析

通过以上分析，完成了基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型的设计，为了检验此模型对于短文本分类的工作效率和精确度，进行对比实验。

选择文献[1]方法(传统方法1)和文献[2]方法(传统方法2)辅助完成实验测试。在实验前需要搭建一个处理器为Windows 10的操作系统，并且配置Internet 17高容错的处理器以及Pycharm的文字编译平台。

将3个模型导入待完成测试的计算机，然后随机采集某商家客服与用户之间的交互短文本信息作为测试的样本，形成短文本样本，进行实验测试后,对3个模型输出的短文本分类结果进行分析，具体的分析数据汇总如表1和图7所示。

表1 实验结果

图7 实验测试分类精度结果

综合以上实验结果可知，本文方法的最终输出准确率和分类精度、召回率、反应效率都高于其他2个传统方法，表示本文方法的工作效率较高。因为本文方法在输入了所有短文本信息字节后，每个周期的调用字节为64字节，学习速率为we5e-5，其同步进行，可以保证模型的分类效率；利用自适应多叉树防碰撞算法提高短文本分类模型对于文本内词组和句子语义做捕获分析，保证召回率；采用多头自注意机制完成短文本内容主题特征的提取，保证方法的准确率和分类精度。

4 总结

本文提出了一种基于自适应多叉树防碰撞算法的智能客服NLP短文本分类模型，由构造词嵌入层、多头自注意层、输出层以及卷积层构成，依据自适应多叉树防碰撞算法的工作原理和内容，重新传回文本的最高碰撞数据和最低碰撞数据，对于短文本数据信息具有较高的分析力，可以在保证准确率和分类精度、召回率、反应效率的基础上，解决目前客服交互存在的问题，保证客服的服务质量。