智能语音识别技术在呼叫中心的应用研究

2022-07-02 12:23段瑞霞张海东
电脑知识与技术 2022年15期
关键词:语音识别

段瑞霞 张海东

摘要:利用语音识别、语义理解、声纹识别等技术,准确识别用户意图,可以实现语音转文字、智能质检、智能检索等功能,大大提升工作效率。该文基于呼叫中心的智能语音需求,研究如何搭建语音训练平台和语音识别系统,实现训练模型可复用、服务统一、优化流程角色、安全运行监控化,根据用户业务需求快速開展定制化模型开发,实现对传统呼叫中心的纯人工服务向人机协作的语音资源利用方式升级,最大化利用语音资源,减少人员投入,提升呼叫中心服务质量。

关键词:语音识别;训练平台;智能语音

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2022)15-0094-00

1 概述

1.1 现状及背景

传统呼叫中心完全由人工进行接听电话、处理工单,定期由专人进行电话录音检查,核查有问题录音,查找问题,每年业务量约20万电话,被抽检进行语音检查的不足2%。客服人员所需技术不强、人员工资较低、人员流动较大、经验无法有效传授,由此造成培训成本增高、不易管理。

智能机器人全天候工作取代30%的人工客服,智能质检不仅可以使用质检合格的语音不断进行学习提升准确性,而且可以形成知识库,实现由人工质检向机器质检过渡,帮助呼叫中心更高效提供服务。

当前大部分语音应用系统,根据不同业务的需求,各自构建阵地,虽然取得了部分成绩,但存在“烟囱式”开发,重复建设,成本高、不易集成,模型研发缺乏标准指导、参与角色众多,模型访问方式各异,调用关系错综复杂,缺乏编排优化、缺乏协同、效率有限,缺少统一的模型运行、监控平台、服务管理接口及更新、维护机制等问题[1]。

1.2 研究必要性

基于呼叫中心的业务,将智能语音识别技术和人工客服相结合,建设一套语音识别系统,采用人机协作模式,可以提供呼叫中心的服务质量和效率,提升用户体验。

建设语音识别系统必不可少的是语音模型训练,进行语音模型训练建议搭建一个语音识别训练平台。语音识别训练平台可实现人工智能的能力可复用化、服务统一化、流程角色优化、运行监控化和资源管控化,根据业务需求快速提供训练模型,实现用户需求。通过语音识别训练平台的深度学习和加载语音智能分析,提供对语音需求的迅速实现和灵活试错功能,完成由传统呼叫中心的纯人工服务向人机协作的语音资源利用方式升级,研究探索服务电话录音的精准感知、问题录音的主动发现;基于运行数据积累及数据价值与关联应用,完成智能质检工作的高效处理,科学预警预测,防患于未然,最大化利用语音资源,为呼叫中心带来新的工作模式,从而提升企业的人工智能创新能力。

1.3 研究目标

1)挖掘语音深度应用

融合当前业内成熟可用的语音识别技术,结合呼叫中心需求,利用语音资源结合语音分析算法实现对智能质检、智能会议等应用落地,形成一套智能语音应用解决方案,为其他智能语音项目建设与应用提供指导。

2)拓展传统客服业务能力

通过对原有客服系统、设备进行智能语音赋能,在传统客服工作上进行算法快速迭代,减少人工投入,提升工作效率和用户体验,提升企业的信息化应用水平。

1.4 研究内容

本文重点研究将人类的声音信号转化为文字或者指令的语音识别技术,搭建一套语音训练平台,进行相关语音训练,实现呼叫中心的相关语音可通过语音识别系统进行应用和配置。

2 系统架构

2.1 整体原则

系统最大限度地满足呼叫中心在人工智能语音识别方面的需求,充分结合现有成熟完善的技术,遵循以下四个原则。

1)标准化与一体化原则

严格遵循呼叫中心数据管理相关规范与标准,基于现呼叫中心业务系统整体架构,融合先进的语音识别技术,提供标准化应用接口,支撑智能会议应用、智能客服应用、智能调度应用等应用场景,与其他人工智能技术模块实现一体化设计原则。

2)可扩展性原则

采用通用开发平台,提供标准化数据接口供其他应用系统进行集成与二次开发;相关配套硬件配置支持平滑扩展;支持业务的灵活重组,提供二次开发与训练的开放接口。

3)兼顾实用性与先进性

充分考虑多种现有成熟的主流技术的综合,搭建语音识别训练平台,结合呼叫中心实际业务,找出应用效果显著的业务场景,实现业务模式升级和服务优化。

4)安全性原则

恶意软件的入侵、黑客攻击、个人隐私泄露等信息安全问题较为常见。随着大数据、人工智能等新一代信息技术的广泛应用,对信息安全提出了新的需求和挑战。我国政府高度重视信息安全,领导并规划了一系列信息化发展和信息安全的保障措施[2]。呼叫中心有大量客户数据、客户交互会话等敏感数据,系统安全性显得尤为重要。在建设中充分考虑信息的秘密性、完整性和可用性;在设备安全、网络安全、操作系统安全、数据库安全、行为安全等方面做好相关措施,确保系统长期稳定、安全、可靠、高效地运行,业务数据不会泄露[3]。

2.2  功能架构

总体功能架构包括四层,架构图见图1。

开放接口层:提供C++ SDK / App SDK / Java SDK / Restful等标准接口方式,实现与其他业务的集成。

终端接入:支持呼叫中心系统实时话务8K语音流、麦克风/鹅颈麦等硬件拾音设备实时16K语音流、录制语音流接入等多种终端接入。

边缘计算:语音分析服务器支持对语音进行智能分析,训练平台支持语音采集、标注、模型训练和优化等。

应用展示:基于语音技术的各种应用场景。

2.3  技术架构

总体技术架构包括五层,满足企业在技术先进性、安全性、可扩展等要求(如图2)。

1)基础支撑:支持GPU、CPU异构计算资源池统一部署。

2)素材集:实现呼叫中心语音库的建立,支持语音数据的导入/导出、素材标注、素材管理等。

3)模型训练:提供定制化开发多场景语音识别模型,并根据使用效果进行模型优化、模型评估。

4)模型管理:支持模型上传、模型下发、模型导出、文件上传/下载等业务功能层。

5)接口:将完成开发的语音模型进行API封装,通过API网关层对外提供服务,为上层各类业务应用提供统一服务入口;提供在线识别接口等,支持外部命令行接入、SDK工具集等,提升系统的扩展性能和服务管理能力[4]。

3  语音识别系统设计及应用

3.1  关键技术

1)全程建模技术

在人工智能发展中,模型是开发过程中的一个不可缺少的工具。结合呼叫中心的业务需求和技术现状,利用语音/声纹识别及个性化智能模型自主训练等建模技术,构建一系列有序的功能模型、信息模型、数据模型、控制模型和决策模型等。通过执行各个模型来验证其正确性并确定后续研究方向,通过全程建模技术实现将模型转到开发语言,减少翻译转换工作[5]。本文设计采用业界认可的统一建模语言进行软件从业务到设计的全程建模,通过建模保证整个项目的可视化[6]。

2)容器技术

容器技术将应用进行打包,对服务器部署位置没有限制,通过一行命令即可完成简单的服务部署;再次抽象操作系统的资源,可以快速将打包好的服务进行启动;将不同服务封装在对应的容器中,定制化编写脚本使所有容器按照业务需求进行相互协作,实现多业务组合;容器的标准化加快交付体验,允许对工作负载进行迁移,避免局限于单一平台的供应商[7]。

3)异构加速计算技术

由于需要针对大量的训练数据进行模型训练,采用异构分布式计算,基于 GPU+CPU异构计算平台进行优化,充分利用 GPU的高性能计算能力,提供高效的大数据在线/离线批处理、实时计算、交互式查询等功能。异构计算提供非凡的应用程序性能,将应用程序计算密集部分转移到 GPU,同时仍由CPU 运行其余程序代码[8]。

4)训练任务调度技术

训练集群存在多租户、多任务、多数据及多资源的复杂管理,使用训练任务调度的服务引擎,可以统一调度维持设备间IO通信、IP分配,合理协调分配训练资源,在任务释放资源时及时回收用于新任务的调用,实现有效提高资源利用率,降低系统非必要功耗[9]。

3.2  语音识别系统设计

语音识别系统包括语音识别前端、素材集和模型训练平台。

1)语音识别前端

语音识别前端界面,可以是输入录制音频文件进行语音识别,也可以是按下麦克风按钮说话或接入呼叫系统进行实时语音识别。

2)素材集

对不同业务领域的语音素材进行收集、管理,包括数据的导入导出、数据标注、数据管理等,实现素材数据的统一管理和开放共享。

3)模型训练平台

根据用户业务需求,定制化进行语音识别核心模型开发,如声学特征提取模型、声学模型、语言模型及语言处理等模型。根据用户实际使用情况,对模型识别速度、识别准确率等进行评估,针对准确性不满足要求、识别速度慢的模型反馈给模型训练平台进行模型优化与训练,提高识别准确率和速度。

3.3 语音识别系统应用

1)会议纪要智能语音转录

呼叫中心在会议中,通过语音识别将参会人员发言转录成文本,形成完整的会议记录,减少会议記录人的工作量。

2)智能语音机器人

呼叫中心面向用户提供智能语音交互服务,提供企业组织架构查询,工单查询,业务流程查询等智能服务,建立“自动应答+人机协作”的新模式,提升客户智能感知,减少人员投入。

3)智能座席

呼叫中心可以给客服专员和管理人员提供智能助手服务,可提供实时流程推荐、实时工程师联系方式推荐等服务,提高客服人员工作效率,缩短接听电话时间。

4)智能语音质检

通过多元化的自定义规则,对呼叫中心的录音或实时对话内容进行智能语音分析,帮助呼叫中心快速发现服务中的问题,提升服务质量,优化服务策略。

4  结束语

语音识别系统以呼叫中心业务需求为导向,依托智能语音技术,采用以GPU为核心的异构并行计算分布式架构,基于用户提供的真实语音数据,完成模型训练,进行大量业务应用,极大推动语音资源价值挖掘,赋能多样化业务应用,实现业务模式质的改变,助力呼叫中心业务运行的“安全、顺畅、有序”,最大化实现人力资源释放。

参考文献:

[1] 洪青阳,李琳.语音识别:原理与应用[M].北京:电子工业出版社,2020.

[2] 郭晶,丁西,张小龙.基于微服务微应用架构的新一代企业门户实现与应用[J].电力信息与通信技术,2021,19(2):94-98.

[3] 黄杰.信息系统安全[M].杭州:浙江大学出版社,2020.

[4] 李斌.企业信息安全建设与运维指南[M].北京:北京大学出版社,2021.

[5] 李晨晗,赵志峰.基于容器技术的数字版权管理[J].广播电视信息,2020(S1):26-28.

[6] 青润.软件工程之全程建模实现[M].北京:电子工业出版社,2004.

[7] 程宁,刘桂兰.Docker容器技术与应用[M].北京:人民邮电出版社,2020.

[8] [美] 胡文美(Wen-mei W.Hwu) 著,方娟,蔡旻,译.异构系统体系结构:原理、模型及应用[M].北京:机械工业出版社,2018.

[9] 李荪,曾然然,殷治纲.AI智能语音技术与产业创新实践[M].北京:人民邮电出版社,2021.

【通联编辑:闻翔军】

猜你喜欢
语音识别
空管陆空通话英语发音模板设计与应用
通话中的语音识别技术
面向移动终端的语音签到系统
农业物联网平台手机秘书功能分析与实现
基于LD3320的非特定人识别声控灯系统设计
航天三维可视化系统中语音控制技术的研究与应用
基于语音识别的万能遥控器的设计
基于语音技术的商务英语移动学习平台设计与实现
基于Android手机语音和Arduino控制板的机器人控制系统
支持向量机在语音识别中的应用