朱斌
【摘 要】随着计算机硬件技术的飞速发展,计算机性能在不断提高的同时功耗、体积在不断减小,通过多年的技术研究模式识别的算法也在不断走向精准,从而推动模式识别技术向实用化不断进展。语音识别技术是模式识别技术中的一个分支,而语音合成技术与语音识别技术一起会带给我们划时代的交互方式,本文针对智能语音技术中的语音识别和语音和成技术进行了介绍,并从应用角度进行了分析。
【关键词】智能语音技术;语音合成;语音识别;呼叫中心
一、智能语音技术简介
智能语音技术的研究工作大约开始于上世纪50年代。智能语音技术主要分为两个方面,一个是语音合成技术,一个是语音识别技术。目前国内比较著名的语音识别公司有科大讯飞等公司,国际上比较知名的公司有Google、微软、IBM、NUANCE等
(一)语音识别技术
语音识别技术从其本身来讲还有多个研究方向,如自动语音识别、声纹识别和语种识别等多个方面,以下我们分别进行简要介绍。
1.自动语音识别
自动语音识别(AutomaticSpeechRecognition简称"ASR")技术是一种将人的语音转换为文本的技术,它的目标是让计算机能够“听写”出不同人所说出的连续语音,实现“声音”到“文字”的转换。它是一个多学科交叉的领域,与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等学科紧密相连。
语音识别包括了语言模型训练、声学模型训练、特征提取和搜索等过程,特征提取的主要任务是从输入的语音信号中提取特征,用于声学模型的建模以及解码搜索过程,在提取特征前也要服务则对语音信号进行降噪处理,以提高系统鲁棒性。在大词汇量的连续语音识别中一般选用上下文相关的三音素声学模型,对于语音库难以覆盖三音素的情况可以采用状态聚类,绑定同类转台从而减少训练状态的总数目。目前统计语言模型已成为语言处理的主流技术,例如N-Gram语言模型、马尔可夫N元模型、指数模型和决策树模型。搜索算法中的解码器是自动语音识别系统的核心模块,其任务是对输入的语音信号,在由语句或单词序列构成的空间当中,按照一定的优化准则,并且根据声学和语言模型及词典生成一个用于搜索的状态空间,在该状态空间中检索到最优状态序列,即寻找能够以最大概率输出该信号的句子或者单词序列。搜索算法按照搜索策略分类的有帧同步Viterbi算法和帧异步堆栈算法,按空间扩展分类有静态扩展和动态扩展算法。
另外,其他的模式识别方法如基于人工神经网络对语音进行识别,其主要用来配合HMM以达到较高的性能。
2.声纹识别
人类语言的产生是语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官:舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的发声特征都有差异。个体的声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。声纹识别是一套利用人的个性语音特征对话语者进行区分的技术,它本身与说话内容无关,同时与语种也无关。
说话人识别过程包括了预处理、特征提取、分段聚类、识别分类和得分规整。预处理模块用于去掉音频流中的非语音成分,采用基于能量判断去除静音,基于模型分类去掉彩铃。特征提取有助于说话人分类的样本信息,主要技术采用Mel频率倒谱系数(MFCC)和其长时移动差分变换。分段聚类切分话单中不同说话人段落,并将同一个人的片段聚合到一起,主要采用层次聚类技术(每次寻找最近的段落聚合。识别分类模块通过学习注册人样本语音,对测试语音进行打分,主要技术包括高斯混合模型和支持向量机模型。得分规整模块用于缩小冒认者的得分方差,尽量和目标人拉开距离主要技术包括T-规整和Z-规整。
3.语种识别
语音的自动语言辨识技术(Language Identification, LID)就是计算机能够识别出语音段所属的语言的过程。它是从语音信号中自动提取信息的几个过程之一。
自动语言辨识同其他模式识别一样,主要包括三个方面:特征提取、模型建立和判决规则。特征提取用到的技术有倒谱特征提取和短时和长时差分变。分类器模型包括支持向量机分类(SVM)和人工神经网络分类(NN)。另外还涉及了有效语音检测(VAD)、谱规整和得分规整、线性鉴别分析(LDA)和信道因子分析(LFA)等鲁棒技术。当前很多系统都通过线性和非线性融合来提高系统的准确率。
(二)语音合成技术
语音合成技术最为常见的就是TTS(Text to Speech,文本语音转换)的应用,TTS最新的语音合成引擎(连接技术和合成算法的结合),其应用范围非常广,如文本的有声校对、语音应答系统、信息库查询系统、残疾人辅助发音系统等。
(三)应用分析
智能语音技术有相当广泛的应用场景,不但在传统呼叫中心有广泛应用,随着智能设备的不断发展,它也逐步向这些领域开始进军。
(四)人机交互
传统人机交互都采用专用输入设备,比如键盘、鼠标、手写板、显示器等,利用这些方式虽然可以满足信息输入和输出,实现基本人机交互,但是针对越来越多的智能设备的出现,传统的输入方式逐渐显得力不从心。
通过语音合成技术,可以将信息通过声音的方式与人进行交流,通过自动语音识别,不但可以完成文本输入工作,还可以进行设备控制,从而实现更为简便、有效的人机交互。人机交互可以应用于智能手机、智能家电、汽车控制、有声校对、语音应答系统、信息库查询系统、残疾人辅助发音等多个方面。
(五)身份确认
身份确认主要采用声纹识别技术,其主要应用场景是确认说话人是否为特定人。声纹识别技术已经逐渐走向实际应用,很多公司都根据这项技术应用到业务系统,比如AT&T应用声纹识别技术研制出的智慧卡(Smart Card),将其应用于自动提款机上;Nuance公司推出了Nuance Verifier,在电信网上实现文本激励的说话人识别,已经可靠应用于金融服务等系统。其他一些商用系统还包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX 公司的SpeakEZ等。
(六)身份辨认
身份辨认同样也主要采用声纹识别技术,其主要应用场景为对特定语音进行分析,确认其身份,这种应用可应用于公安司法以及军队和国防。如:对于各种电话勒索、绑架、电话人身攻击等案件,身份辨认可以在一段录音中查找出嫌疑人或缩小侦察范围;身份辨认可以发现电话交谈过程中是否有特定说话人出现,继而对交谈的内容进行跟踪,并可以对发出命令的人的身份进行确认(敌我指战员鉴别),目前此术在国外军事方面已有所应用。
二、存在问题
尽管智能语音技术在技术上已经获得突破性进展,然而在实际应用过程中语音识别技术仍然面临着一些难点,特别是针对语音识别技术:
(一)对环境依赖性较大,抗干扰能力较差
语音采集时,不可避免会混入环境噪声,同时由于采集设备的不同也会对采集结果造成影响,这些影响都会影响到最终识别结果。
(二)地方口音的差异造成影响
语音往往存在地域性,他不同于语种。比如北方与南方人同样讲普通话,差异还是非常明显,这些都对识别工作造成一定的影响。
(三)自然语言的随机性、多变性
针对于语音朗读,目前的语音识别技术已经有很好的效果,但是实际生活中,人们讲话都较为随意,同时伴随讲话时的情绪,这些都会对语音识别结果造成较大影响。
但我们相信,随着技术的不断发展,通过语音素材数据的不断积累,相信这些问题将会逐步被解决。
三、结束语
人与设备如何便捷交互,信息输入是否高效,一定程度上影响了整个工作过程的效率,智能语音技术为大家提供了一条新的道路,除去了人与设备之间的隔阂。效率和成本是每一个企业管理必须权衡的关键因素,虽然智能语音技术现在还有很多不足,但是从长远来看必将是应用发展的方向,会对人们的工作效率产生深远影响。