基于BM25、文本Embeddings与交叉编码器的民航客服知识库检索研究

2023-05-06 18:51:30郑少帅翁境鸿蒋小洋
无线互联科技 2023年24期
关键词:知识库客服段落

郑少帅 翁境鸿 蒋小洋

摘要:随着民航经济的发展和人民生活水平的提高,旅客出行的服务要求越来越高,而当前传统的民航客服知识库检索普遍存在检索准确率以及效率低的问题,已经不能满足旅客的服务需求。文章通过结合Best Match 25算法、文本Embeddings和交叉编码器对知识库进行检索,高效检索出符合座席意图的答案,进而提升民航客服知识库查找效率,缩短座席通话查询时长,提升旅客服务体验,助力实现民航客服数字化、智能化转型。

关键词:民航客服;Best Match 25算法;文本Embeddings;交叉编码器;座席意图

中图分类号:TP3  文献标志码:A

0 引言

随着民航经济与人工智能技术的不断发展,目前传统的民航客服系统已经不能满足民航业务的需要。其中,知识库作为连通知识加工输出和知识应用的枢纽,可用于改变传统的知识获取方式,防止座席因在线问答时需要翻阅通告而浪费时间。而目前民航客服知识库没有很好地承担起作为知识中心的作用,知识查找难、知识搜索效率低,并且当前民航客服知识库算法匹配得到的结果往往不是座席想要的答案,需要再花费大量时间寻找想要的答案,影响旅客问题回复的及时率,用户体验感较差,这也说明当前的知识库搜索功能已经不能满足座席对知识的应用需求。因此,民航客服知识库亟须通过更精准的算法提高座席的检索准确率,进而高效帮助旅客解决问题。

针对传统的民航客服知识库检索普遍存在准确率不高、座席意图识别能力差等问题,本文提出一种结合Best Match 25算法[1]、文本Embeddings[2]和交叉编码器(Cross-Encoders)[3]的民航客服知识库检索模型。实验结果表明,该模型的检索准确率以及平均耗时都优于其他模型,有效缩短座席通话查询时长,进而提升民航客服智能化服务水平及用户体验,助力实现民航客服数字化转型。

1 算法介绍

1.1 BM25算法

BM25 是基于概率检索模型[4]提出的算法,可以用来评价文档与搜索词之间的关系。其中,BM是Best Match的缩写,25代表已经进行到第25次迭代。

BM25的一般公式:

Score(Q,d)=∑niWiR(qi,d)

其中,Q为Query;qi为Query中的分词Q;d为文档;W为切词权重;R为切词和文档的相关性。BM25的计算主要由几个部分组成。

(1)Query中每个分词的重要性;

(2)Query中每个分词和文档之间的相关性;

(3)Query中每个单词与Query的相关性 (只有当Query很长时才会使用)。

1.2 文本Embeddings

Word Embeddings技术是一种采用机器学习方法将单词映射到实数低维向量的技术。本文采用text2vec-base-chinese模型来生成文本的Embedding,利用CoSENT方法训练,基于nghuyong/ernie-3.0-base-zh用人工挑选后的中文STS数据集[5]训练得到,并在中文各NLI测试集评估中达到较好的效果。

1.3 交叉編码器(Cross-Encoders)

交叉编码器模型对于输入和候选标签之间的相似性评分函数没有任何假设。相反,输入和候选标签的连接作为新的输入传递给非线性函数,该函数根据其所需的任何依赖关系对它们的匹配进行评分。例如向交叉编码器中输入2个句子,模型会输出一个介于0到 1的值,表示这2个句子的相似性,输出值越大则表明这2个句子越接近。

2 算法优化

2.1 传统检索方式分析

2.1.1 BM25算法检索分析

BM25算法是目前信息索引领域中主流的计算搜索词与文档相似度得分的算法之一,被广泛地应用于搜索引擎、信息检索等领域,具有快速、可解释性强等优点[6]。

但是BM25算法也存在不足,该算法只是基于文本进行比较,如果存在大量同义词则无法得到一个满意的结果。由于民航业务复杂,客服对同一术语的叫法较多,容易出现使用同义词的场景,因此单独使用BM25算法并不能很好地满足民航客服这一场景。

2.1.2 文本Embeddings检索分析

文本Embeddings与传统的文本表示方法相比,能够提供更好的语义信息。同时Word Embeddings技术可以解决传统词向量维度过高的问题,并且解决了向量稀疏的问题,因此降低了模型的训练难度[7]。

文本Embeddings相比于BM25,还可以实现基于语义的相似度匹配,在实际的生产应用中有着更广阔的应用场景。文本Embeddings还可以基于开源模型进行微调,产生更适合细分行业的模型,进一步提升准确率。

但是由于在民航客服场景中,客服容易出现使用短文本来进行搜索,而短文本具有词少低频、特征稀疏和表述随意等特点,单纯地使用文本Embeddings来进行聚类的效果较差[8]。因此,单独使用文本Embeddings进行检索的正确率仍然无法满足需求。

2.1.3 交叉编码器检索分析

交叉编码器通过把文本相似度转化成一个分类问题,对要比较的2个句子进行拼接,将拼接好的句子传递给模型,由模型来判断要比较的2个句子的相关性。

交叉编码器的优点在于有较高的准确度。但是其最大的缺点是交叉编码器模型输出的结果只能反映输入文本对是否相似,无法针对每个输入生成独立的句子语义表示,因此无法将编码结果应用于其他下游任务。在实际的使用中,用户每输入一次问题,都需要把用户输入的问题与所有的知识库文档段落进行比较,效率非常低,因此单独使用交叉编码器无法应用于实际生产中。

2.2 组合优化

BM25算法的特点在于查询速度快,无法识别语义相近的词。而文本Embeddings可以查询语义相近的段落,但是在短文本的情况下准确度不足。交叉编码器的准确度最高,但是由于不产生句子嵌入,因此查询效率低。根据上面几种算法的特性,本文将上述3种算法组合并实现了一个知识库检索系统。该系统的核心思想在于利用BM25算法和文本Embeddings的高性能特点,从知识库文档段落中进行预筛选,缩小交叉编码器需要比较的段落数量,最后用交叉编码器高准确率的特点来进行检索,从而得到最终的检索结果。组合算法实现过程如图1所示。

2.2.1 BM25算法的使用

首先将准备好的知识库文档拆分成段落,将这些段落用Jieba库进行分词并生成实例。用户提问时,在分词后的知识库文档段落中搜索最接近的n个段落,搜索出来的n个段落作为下一步文本Embeddings的检索知识库。

2.2.2 文本Embeddings技术的使用

首先将准备好的知识库文档拆分成段落,将这些段落使用文本通过量化模型转化为向量,并将这些向量存储到Qdrant向量數据库中。用户提问时,先设定第一步BM25算法查询到的n个段落,再从Qdrant向量数据库中查询出n个段落对应的向量记作q。然后将用户输入的问题转化为向量,使用余弦相似度从q中查找出语义最接近的x个段落。将搜索出来的x个段落作为下一步交叉编码器的检索知识库。

2.2.3 交叉编码器的使用

此时经过上面2步的过滤,交叉编码器需要比较的段落已经大大减少,因此比较段落与用户提问所需的耗时也大幅度减少。在这一步,使用交叉编码器模型将用户输入的问题与第二步查询出来的x个段落一一比较,找到与用户输入的问题含义最接近的y个段落。最后查询出来的y个段落就是该知识库检索系统得到的最终结果。

本文提出的知识库检索系统,利用了BM25以及文本Embeddings耗时短的特点,大幅度减少了交叉编码器需要比较的段落数量。在保留了交叉编码器正确率高的特点的同时,又大幅度减少了其比较段落所需的耗时,让其在实际生产应用中更有落地空间。

3 实验

3.1 实验环境

为了证明第2节组合优化的有效性,本章节使用了BM25算法、文本Embeddings、交叉编码器以及3种检索方式组合使用进行比较分析。其中文本Embeddings使用的是text2vec-base-chinese模型,用于将用户输入的问题以及文本段落转化为向量。交叉编码器使用的是cross-encoder/mmarco-mMiniLMv2-L12-H384-v1模型,用于计算用户输入和文本段落之间的相似度得分。

本文实验数据来源于航司内部客服知识库的业务以及产品文档,将这些文档拆分为段落形式,作为实验的知识库数据。样本共包含1 000个段落,并且准备150个测试问题以及每个问题对应的正确答案,作为实验的用户输入数据。

3.2 评价指标

为了评估本系统检索相似段落的性能,本文采用了正确率以及平均耗时作为评价指标,定义为:

正确率=TP/N

平均耗时=TN/N

其中,TP为系统检索最相似的3个段落中包含正确答案的样本总数;TN为系统检索所有问题所消耗的总时长,s;N为测试问题样本总数量。

3.3 实验结果

每种检索方式分别依次输入准备好的150个问题,判断输出的结果是否包含正确答案,记录正确率以及查找答案所消耗的时间。结果如表1所示。

可以看出,本文提出的组合BM25算法、文本Embeddings与交叉编码器的民航客服知识库检索系统在回答的正确率上相较BM25算法、文本Embeddings这2种方式有了一个较大的提升,可以达到86.67%,并且在耗时方面也没有太多的额外开销。而与交叉编码器相比,虽然正确率下降了6%,但是在耗时方面,组合使用的方式只需0.74s,相比单独使用交叉编码器少了40.76s。

本文提出的检索系统充分利用了BM25算法和文本Embeddings的可预处理、耗时短的特点,尽可能地减小了交叉编码器需要比较的文本数量,并结合了交叉编码器准确率高的特点,在大幅度提升准确率的同时也减少了查找所需的时间。

4 结语

本文提出一种结合BM25算法、文本Embeddings和交叉编码器(Cross-Encoders)的知识库检索问答研究模型,并进行模拟实验与分析。针对3个不同的算法设置对照实验,将检索的准确率以及平均耗时作为指标进行评估。实验结果表明,本文的组合模型相比于单独的算法模型在结果上能短时间内取得较高的检索准确率,即在平均耗时为0.74s的情况下准确率可以高达86.67%,解决了传统民航客服知识库检索效率低、准确率低的问题,同时也证明研究方向是可取的。在下一步的研究工作中,将考虑对各个模型的算法参数进行调整以及优化。同时,尝试更多的相似度计算算法,并通过实验对比分析,研究出更高效、准确的知识库检索方法,不断提升旅客自助服务的品质,保障旅客的忠诚度以及用户黏性,推动民航客服实现“十四五”时期数字化转型[9]。

参考文献

[1]王贺,迟呈英,战学刚.基于BM25-RoBERTa的法律案例检索研究[J].电脑编程技巧与维护,2023(3):74-75,130.

[2]牛悦.自聚合短文本的主题模型优化问题研究[D].合肥:中国科学技术大学,2022.

[3]戚小莎,曾静,吉根林.双交叉注意力自编码器改进视频异常检测[J].南京师大学报(自然科学版),2023(1):110-119.

[4]张宇,袁野,王国仁.一个基于概率潜语义分析的多模态多媒体检索模型[J].小型微型计算机系统,2015(8):1665-1670.

[5]蘇锦钿,洪晓斌,余珊珊.基于多模型集成的语义文本相似性判断[J].华南理工大学学报(自然科学版),2022(4):1-9.

[6]李杰坷.基于深度学习的法律案例检索方法及应用[D].深圳:中国科学院大学,2022.

[7]张冲.基于Attention-Based LSTM模型的文本分类技术的研究[D].南京:南京大学,2016.

[8]崔壮壮.基于Word Embedding的短文本聚类算法研究及应用[D].哈尔滨:哈尔滨工业大学,2019.

[9]赵巍.“十四五”中国民航两大主题:复苏与发展[J].大飞机,2022(6):57-61.

(编辑 王雪芬编辑)

Research on civil aviation customer service knowledge base retrieval based on BM25,

text vector method and cross encoder

Zheng  Shaoshuai, Weng  Jinghong, Jiang Xiaoyang

(Xiamen Airlines Co., Ltd., Xiamen 361006, China)

Abstract: With the development of civil aviation economy and the improvement of peoples living standards, the service requirements for passenger travel are becoming higher and higher. However, the traditional civil aviation customer service knowledge base retrieval generally has low retrieval accuracy and efficiency, which can no longer meet the service needs of passengers. This article combines the Best Match 25 algorithm, text Embeddings, and Cross-Encoders to search the knowledge base, efficiently searching for answers that match the intentions of the seat, thereby improving the efficiency of civil aviation customer service knowledge base search, shortening the call query time of the seat, improving the passenger service experience, and laying a solid foundation for the digital and intelligent transformation of civil aviation customer services.

Key words: civil aviation customer services; Best Match 25; text Embeddings; Cross-Encoder; seat intention

猜你喜欢
知识库客服段落
【短文篇】
语音推销
心理小测试
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
夏天,爱情的第四段落
散文诗(2017年17期)2018-01-31 02:34:11
敬业的客服
高速公路信息系统维护知识库的建立和应用
弄清段落关系 按图索骥读文
读写算(下)(2016年11期)2016-05-04 03:44:07
基于Drupal发布学者知识库关联数据的研究
图书馆研究(2015年5期)2015-12-07 04:05:48
基于广东“一张网”对内客服模式的探讨