研究开发基于多人对话的学习型智能答疑机器人

2021-01-12 01:06朱哲人刘敏陈鹏
今日自动化 2021年11期
关键词:自然语言处理

朱哲人 刘敏 陈鹏

[摘    要]银行业是典型的知识密集领域,各部门因业务规则及系统的持续更新、各层级人员流动等因素产生了对业务答疑的知识复用需求。随着深度学习、机器学习在自然语言处理(NLP)、智能图像分析等领域的发展,邮储银行正研究开发一种基于多人对话的“U星”学习型智能答疑机器人。通过运用AI应用能力框架,引入“@”、“引用”等多人对话机制,实现了线上答疑流程创新,减少重复答疑并持续提高答疑准确性,结合智能交互、实时交互、图文交互,不断强化答疑能力,助力业务发展。

[关键词]多人对话;答疑;自然语言处理

[中图分类号]TP242.6 [文献标志码]A [文章编号]2095–6487(2021)11–0–02

Research and Develop a Learning Intelligent Answering

Robot Based on Multi-Person Dialogue

Zhu Zhe-ren, Liu Min, Chen Peng

[Abstract]The banking industry is a typical knowledge-intensive field. Due to factors such as the continuous updating of business rules and systems, and the flow of personnel at all levels, various departments have generated the need for knowledge reuse for business answering. With the development of deep learning and machine learning in natural language processing (NLP), intelligent image analysis and other fields, Postal Savings Bank is researching and developing a "U-star" learning intelligent answering robot based on multi-person dialogue. Through the use of the AI application capability framework and the introduction of multi-person dialogue mechanisms such as “@” and “quotation”, the innovation of online Q&A process is realized, repeated Q&A is reduced and the accuracy of Q&A is continuously improved, combined with intelligent interaction, real-time interaction, and image-text interaction, Continuously strengthen the ability to answer questions and help business development.

[Keywords]multi-person dialogue; question answering; natural language processing

1 將机器人引入多人对话答疑的背景

银行业是典型的知识密集领域,大型商业银行往往具有庞大的组织结构、复杂的系统功能以及丰富的业务产品种类。同时,各级机构人员时常进行岗位轮换,需要学习各项业务、产品或系统应用。随着行内各项业务规则及系统功能不断更新,银行业从业人员内部的知识共享、复用等需要知识服务的场景极为多见。根据调研反馈,为增强业务学习能力,邮储银行总行业务专家需要在即时通信软件建立各种沟通群,花费大量时间精力为各级分支机构提供答疑,沟通效率和效果亟待提升。

近年来,以深度学习为代表的新一代人工智能技术极大地推进了产业界技术革新,同时重塑了银行业的业务模式。深度学习、机器学习方法在自然语言处理、智能图像分析等领域取得了长足进步,进而也带动了信息技术的发展。

在此背景下,邮储银行正探索开发学习型智能答疑机器人“U星”,将模块化、原子化的NLP能力与结构化、流程化的银行业务相结合,通过即时通信软件以多人对话、问答的形式提供不同业务领域的知识服务。

2 “U星”机器人的应用方法

2.1 建群

在企业即时通信软件中(以邮E联为例),根据需要建立总分行专项业务沟通群,并将“U星”作为一个“虚拟人”植入群中。

2.2 拉人

将总行及各级分支行该业务条线的相关员工拉入群中,并将总行特定业务专家设为系统角色“老师”,其他群内成员默认为“学生”角色。

2.3 提问

当学生有问题需咨询时,可在群内@“U星”触发其回答具体问题,“U星”通过索引知识库及时解答。

2.4 训练

老师通过观察群聊,可监督“U星”答疑情况。如“U星”解答失败或解答错误,老师可通过群聊中的“引用”机制,对“U星”的解答进行补充或纠正。

2.5 迭代

通过日常工作中的反复问答,自动完善扩充语料库、知识库,对“U星”进行大量训练,使“U星”在持续迭代的过程中变得越来越智能。随着“U星”回答问题的准确性不断提升,老师可逐步减少答疑工作量,投入更多时间精力到更重要的工作中去。

3 技术实现要点

3.1 场景构建与知识维护

在设计完善“U星”的过程中,邀请了邮储银行总行业务专家及分行从业经验丰富的业务人员,按照条线板块、业务逻辑抽象服务场景。如设置个人储蓄、手机银行、公司业务等一级主题,并可针对公司业务等一级主题,设置国内保理、融资租赁、电子签章等二级主题。由于“U星”主要面向细分领域的答疑工作,其场景构建与高质量知识的积累、维护过程更为复杂。

在初始阶段,需根据应用场景与业务主题,确定聊天群的设置。本阶段知识库的主要内容为前期积累的问题库与业务文档。“U星”设计了易用的导航菜单,用于知识库的冷启动与预置答案推送。初步阶段,“答疑群”里的“学生”以提问形式为“U星”积累形式多样的问题及问句,“老师”则以回答、纠正问题的形式补全知识库。答疑群积累的语料由“老师”与“学生”相互协作,定期筛选、积累维护,将高质量问答补充至知识库中。

初始运行后,语料、知识的积累趋于完善,经过恰当训练的“U星”可被进一步推广到不同的多人对话场景中,针对不同的业务流程,完成可信答疑与知识服务。“U星”以“众包”形式,通过多人对话积累语料,完成知识积累、更新与维护的过程。

3.2 算法适配与模型开发

“U星”的开发主要针对细分领域的答疑场景。在对话过程中,可能涉及主题分类、意图识别、实体识别、问句匹配、答案检索、答案生成等多种复杂的自然语言处理任务。“U星”的设计与实现,需结合业务场景,选取恰当的自然语言处理模型,并进行适配、改良、调优。

在冷启动阶段,“U星”采用基于规则与模板的对话策略,通过关键字和主题词的提取、导航菜单等形式,为多人对话参与方提供准确但形式较为固定的答疑服务。

随着多人对话的持续进行,“U星”可积累丰富、形式多样的对话语料,这些语料可用于训练深度学习模型。在算法选择方面,“U星”核心算法将重点参考文本分类模型如TextCNN[1]、预训练语言模型如ERNIE[2]等形式,进行契合业务场景的算法设计与定制化开发,搭建自然语言处理产线,将模型拼装为服务。在模型结构方面,“U星”可采用问句匹配、文本相似度计算等形式,将学生的问题引导至标准答案。在此基础上,还可进一步设计开发编码器-解码器(Encoder-Decoder)结构[3]与文本生成方法[4],根据问句生成答案。

在模型开发与实现方面,“U星”拟与邮储银行在建“邮储大脑”机器学习平台对接,实现模型训练、验证与开发。“邮储大脑”定位为企业级的机器学习建模集成及人工智能能力输出平台,支持深度学习、机器学习建模。以平台为核心,输出语言语音、生物识别、智能图像、智能文本、知识图谱等能力。依托“邮储大脑”机器学习平台,“U星”可快速实现算法设计、模型训练与迭代。

3.3 服务编排与统一管理

在系统落地方面,“U星”拟采用微服务的设计理念与基本架构,结合具体的对话场景,将模型进行拼装与统一管理,并以服务的形式发布上线。

在探索開发阶段,“U星”主要采用vue+webpack 搭建vue项目以实现前端界面,同时采用Nodejs+WebSocket创建后台服务器功能。

在服务应用阶段,“U星”拟采用Docker容器技术将模型服务落地实现,依托“邮储大脑”机器学习平台,实现部署和服务管理。“U星”拟采用Kubernetes服务编排框架,在Docker技术的基础上,管理容器化的应用,实现高效部署实施、运行、服务输出。

3.4 知识图谱

知识图谱为“U星”的附加功能。在与“U星”配套的主题图谱、业务图谱、共性知识图谱的设计与实现方面,可依托邮储银行在建“邮储大脑知识图谱”系统,实现问句主题词映射、匹配与查询、基于知识库的问答及知识可视化等功能。

4 “U星”机器人的主要创新点

4.1 框架先进性

运用AI应用能力框架,将智能问答系统的能力,分为基础能力、业务积累及智能技术三部分。基础能力是指智能问答系统中,相对基础的通用自然语言处理能力;业务积累主要是指针对具体的问答领域,在业务上所需积累的经验,如业务流程的梳理、问题的细粒度分析,答案的置信度评价等;智能技术主要为面向复杂应用的技术,如问句匹配、知识图谱映射、文本生成、多轮对话等,这也是本项目的创新点。

4.2 技术创新性

该项目主要基于认知、自然语言处理的解决方案,设计开放域问答、意图识别、智能问答、知识积累、模型训练、知识可视化等功能模块,结合知识图谱和深度学习的技术优势,可实现对特定领域银行业务及产品问题的解答功能。在算法层面,“U星”拟采用基于深度学习的NLP技术。在服务落地实现层面,“U星”在探索开发阶段拟采用vue + webpack 搭建vue项目以实现前端界面,同时采用Nodejs+WebSocket创建后台服务器功能。在服务应用阶段,“U星”拟采用容器技术,依托“邮储大脑”机器学习平台进行模型开发与服务管理。

4.3 业务前瞻性

通过多人对话、学生向U星提问、老师回答校正、答案积累、自学习训练的全流程:①可在模型设计角度进行改良,汲取专业老师的经验和知识;②可为深度学习模型积累可观的学习样本,丰富不同形式的问题—答案集合。这种学生老师群体参与的“众包”模式,有望缓解深度学习模型训练所面临的数据瓶颈,弥合知识密集领域智能对话模型实施落地过程中,由数据到知识、由知识到业务服务的鸿沟。

5 结束语

邮储银行根据内部知识服务现状及业务答疑中的痛点问题,充分运用AI应用能力框架,采用NLP、知识图谱等创新技术,创造性地提出基于多人对话的学习型智能答疑机器人概念。“U星”可以分担答疑工作,普及新的业务知识,解决反复答疑、无法及时响应等现实问题。通过引入多人对话机制,可使业务人员在内部即时通信工具方便快捷地提问、补充和纠正“U星”的答复,让模型训练简单易行。下一步,邮储银行将继续研究、探索知识服务领域的创新设计,切实提高内部答疑服务体验,支撑邮储银行信息化建设再上新台阶。

参考文献

[1] Kim Y.Convolutional Neural Networks for Sentence Classification[C].In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP),2014.

[2] Sun Y,Wang S,Li Y,et al.ERNIE:Enhanced Representation through Knowledge Integration[J].2019(4):19.

[3] Cho,K.,Merrienboer,B.V.,Gulcehre,et al. Learning phrase representations using rnn encoder-decoder for statistical machine translation[C].In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP),2014.

[4] 徐聪,李擎,张德政,等.文本生成领域的深度强化学习研究进展[J].工程科学学报,2020,42(4):399-411.

猜你喜欢
自然语言处理
基于LSTM自动编码机的短文本聚类方法
自然语言处理与司法案例
国外基于知识库的问答系统相关研究进展及其启示
基于依存句法的实体关系抽取
基于组合分类算法的源代码注释质量评估方法
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析