智能问答机器人技术要点解析

2021-03-24 09:31金杰
科学与生活 2021年29期
关键词:人工智能

金杰

摘要: 近年来,人工智能技术出现了突飞猛进的发展,并广泛的应用到各行各业,部分行业已经规模实现机器替代人工,如呼叫中心。本文以某运营商呼叫中心人工智能问答机器人的实施为案例,介绍智能问答机器人的主要技术要点。

关键词:问答机器人 人工智能 人工替代

当前,人类正经历着由智能化与信息化为驱动,以高度灵活及人性化、数字化生产为特征的第四次工业革命[1],正如以蒸汽机的发明应用驱动的第一次工业革命,以电力的使用和流水线作业推动的第二次工业革命,以及半导体、计算机、互联网催生的第三次工业革命,人工智能技术将极大提高社会生产率的提升。

当前人工智能技术替代人类的工作已经逐渐成为现实,使千行百业发生深刻的变化,比如在机械制造行业工业制造机器人逐渐替代汽车工人,在社区服务业门禁人脸识别后自动放行逐渐替代门岗工作。笔者所处的运营商行业,也正经历着由问答机器人逐渐替代呼叫中心客服人员的技术变革过程。

1 智能问答机器人技术原理

智能问答机器人是人工智能技术的一种应用,在日常生活中,我们接到的很多电话营销,都是由机器自动完成,甚至已经达到了真假难辨的程度。人工智能技术基本的原理是机器通过不断尝试各种方法,来拟合原因与结果的计算过程,得到一个最优的解决方案。其本质是一个“输入——计算——输出”的过程,人工智能的核心是能够构建一个自动的过程,搜索到最优的计算方法,即机器能够实现自动学习。而要获得好的算法,还必须具备两个条件:一是有大量的数据提供计算的场景;二是有极大的算力使机器能够尽可能搜索到更多的算法。一种常见的说法:“人工智能=算据+算法+算力”。在大数据和云计算出现前,人工智能技术停滞不前,正是因为互联网的快速发展,推动了大数据和云计算的普及,进而导致了当前人工智能逐渐成为现实。

人工智能近些年得以长足发展,还有赖于“神经网络”的算法,深度神经网络是导致目前各种人工智能技术得以广泛应用的重要技术,是人工智能王冠上最夺目的明珠。“神经网络”是模拟人脑的一个计算过程。人类通过研究发现人脑由大约1011个神经细胞组成,神经细胞通过突触与其它神经细胞进行连接与信息传递,当突触接收到信号超过一定阈值,便激活相关的神经细胞,人脑中大约有1015个神经突触,这些神经细胞及其突触构成一个庞大的生物神经网络,驱动人类所有与意识及智能有关的活动。模仿这样一个生物神经网络,我们利用计算机构建了神经网络算法。常见的深度神经网络包括卷积神经网络CNN和循环神经网络RNN,其中CNN在图像处理方面广泛应用,RNN则在时序数据处理上有较强的优势,基于深度神经网络,结合各种场景,人类构建了数不清的算法。

在智能问答机器人中,我们用到的AI算法技术主要包括:

1)ASR:Automatic Speech Recognition,即自动化语音识别技术,通过该技术可将语音转化为文本。

2)TTS:Text To Speech,该技术将文本转化为语音。

3)NLP: Natural Language Processing自然语言处理是使用自然语言同计算机进行通讯的技术。因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU ,Natural Language Understanding),也称为计算语言学NLU[2]。

以上技術,均需要通过优秀的算法,经过大量样本的训练,才能形成规模化的可商业使用的模型。

2 问答机器人系统业务流程

在实际生产中,问答机器人模拟人类进行交互的功能,是人工智能的一系列算法的工程化应用。其主要工作流程如下:

1)用户说话:用户通过电话网络与机器进行对话,用户的声音通过电话线路传送到智能客服系统。

2)语音转文本:智能客服系统接收到语音数字信号,通过ASR算法,将语音信号转化为文本。

3)用户意图理解:通过NLU算法,对文本进行分析,猜测用户的意图,按可能性进行排序,取可能性最高的意图。

4)逻辑处理:通过意图理解,形成专家系统的输入参数,通过专家系统的规则库进行规则判断,得出输出的内容。并组装需要输出的文本内容。

5)TTS:将输出的文本内容使用TTS技术合成为声音。

6)回复:机器将声音信息通过电话线路传送到用户终端侧。

在实际业务流程中,可能存在单轮对话和多轮对话,单轮对话是一问一答,而多轮对话则需要关联业务的上下文,在NLU和专家系统处理的时候,需要考虑历史的对话内容,在这里就需要一个存储模块,存储历史通话。另外在专家系统中,也会考虑一些业务知识的引用,一般会考虑与企业的知识库打通。

以114查号咨询为例,流程如下:

3 技术弱点和解决方案

当前在人工智能问答系统中,影响最终实施效果的主要问题包括四个方面:

1)ASR技术对方言识别不够准确:中国地域广大,方言众多,特别是江浙地区及西南一些地区,ASR技术都无法很好的识别。原因是由于机器学习的算法需要大量的人工训练,投入的工作量比较大,使用人群较少的方言,训练成本过高。相信随着技术普及,产业的发展,这一块会越做越好。在实际工作中,我们可以根据需要,根据自己的业务特点,做一些小规模文本的针对性的AI训练,提高对固定文本的识别率。

2)TTS合成的语音较为生硬:目前市场上TTS产品差异巨大,良莠不齐。技术上通常分为两种类型,一种是基于参数合成,一种是拼接的语音合成。基于参数合成通常用户听起来会比较生硬,优势是比较通用;而拼接法由于语音样本丰富,效果较好,缺点是成本较高。因为语音的效果直接关系到客户的感知,选择好的TTS产品至关重要。

3)知识库不够丰富:NLU的过程通常和知识库是相关的,如果知识库内容很少,无法覆盖用户的所有意图,识别准确率过低,则无法实现业务的智能化,也无法实现人工替代。

4)用户直接转人工服务:有些用户判断是机器在处理问题,直接转人工。通常我们会使用更好的TTS,使用户难辨真假,同时在流程中尽量不告诉用户目前是机器在处理,从而降低用户直接转人工的几率。

总之智能问答机器人的首要目标是让用户觉得对面是人,而不是机器,即使其能够通过“图灵测试”,其次是提高机器处理业务的准确度和成功率,从而实现人工工作的规模化替代,降低企业的人工成本。

参考文献:

[1]杜传忠.第四次工业革命与要素生产率提升.[J].广东社会科学,2017,(5):5-13

[2]百度百科.2021.https://baike.baidu.com/item/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E7%90%86%E8%A7%A3/8465129

猜你喜欢
人工智能
人工智能6月大事件
我校新增“人工智能”本科专业
人工智能AI
人工智能之父
2019:人工智能
人工智能
人工智能与就业
数读人工智能
人工智能时代,就业何去何从
下一幕,人工智能!