陈焕泽 中南大学软件学院
关键字:语音识别 声学模型 隐马尔科夫模型
智能语音技术,是一种完成人机通过语言进行类似于人与人之间交互的技术,其中的核心技术包括语音识别技术和语音合成技术。20世纪50年代,智能语音技术已经在语音识别领域开展了研究。而在人机交互中,语音识别这一环节也处于第一个环节,也是核心环节。
2.1. 语音识别的定义和原理
2.1.1. 定义
语音识别技术即将语音转化为有意义的文字内容的技术。
2.1.2. 基本实现原理
从原始语音信号中提取某次语音识别所要分析的信号后,利用特征处理将所提取的信号从时域转变为频域,从而为声学模型提供适当的输入向量,声学模型根据其本身模型所训练而得的参数,计算每一个输入向量在其该模型上的得分;而语言模型则根据语言学相关的知识,计算出各种不同文本序列搭配的可能性;最后由已有的数据字典,对文本序列进行解码操作,得到可能性最高的文本内容。
而该过程中,如何将每一帧中的音素对应于某个状态是个难题,这里利用概率论的知识,通过训练声学模型,得到相应的概率分布,在其中选择概率最高的,即所求帧对应的状态。
输入语音数据:o=o1...om
各种可能的文本序列组成的集合:W=w1,...,wk
语音识别:根据输入语音数据o以及各种可能的文本序列集合W中找到最可能的那个文本序列:
其中,声学模型负责获得P[o|w],语言模型负责获得P[w]。
3.1. 声学模型
3.1.1. 定义
给定语言学单元,计算输入语音匹配的可能性,进行对P[o|w]的概率估计;
3.1.2. 发展历史
表1:声学模型的发展
3.1.3. 各个主要声学模型优缺点比较
HMM-DNN声学模型
优点:
①前后各自扩充n帧,从而利用帧的上下文信息
②与HMM-GMM相比,可以学习深度非线性特征转换缺点:
无法利用历史信息来进行操作
HMM-LSTM声学模型
优点:
①是一个单向时序模型,具有长短时记忆能力
②更契合时序建模问题
③减轻了RNN的梯度消散和梯度爆炸的影响
缺点:
计算复杂度大幅增加,且由于递归链接的影响使得并行操作难度加大
HMM-BLSTM声学模型
优点:
相比HMM-LSTM,增添了反向时序信息,使模型的建模能力更强缺点:
①计算复杂度加大
②GPU的显存需求增大从而降低了并行度,最终导致模型训练变慢
③实际应用中的实时性问题
3.2. 语言模型
3.2.1. 定义
由声学模型提供的发音序列,计算各种不同文本序列搭配的可能性。
对于某一句话s:
其中wi是统计单元,可以是字、单词、短语等。
则句子s的概率可以表示为:
但若按此方法计算句子的概率存在两个缺陷:
②数据过于稀疏:在语料库中没有出现的多词对组合,由最大似然估计得到概率将为0.
4.1. 语音识别词错率的突破
2016年,Microsoft的语音识别技术在产业标准 Switchboard 语音识别基准测试中词错率已降低至5.9%,达到与专业速记员同等水平。而在2017年,词错率更是达到了惊人的5.1%。从90年代到2010年左右,由于上一代声学模型发展碰到瓶颈,语音识别的词错率实际上没有太大的变化。在2010年后,由于DNN的提出与深度网络的提出与研究,语音识别的词错率开始大幅减小。
4.2. 语音助手上的暗战
4.2.1 Apple Siri
2011年,在iPhone 4s的发布会上,以智能语音助手身份亮相的Apple Siri成为当时全场最大的亮点。但由于当时粗糙的技术,使得Siri反应慢,出错率高,不被大众看好。而如今,具备人工智能特性的Siri已经会说36个国家的21种语言。而在智能汽车方面,Siri目前已经整合进奥迪、宝马、克莱斯勒等全球9家知名汽车中。
4.2.2 Mircrosoft Cortana
2014年7月30日,微软在Windows Phone 8.1 Update中国区发布会上正式发布了中文版Cortana,其中文命名为“微软小娜”。
2016年12月,微软在旧金山宣布,开放Cortana,使其能够集成到智能音响、智能汽车、智能家电等硬件平台上。
2018年8月,亚马逊与微软双方各自完成了语音助手Alex和Cortana的整合。
4.2.3 百度小度
2015年9月,百度官方在百度世界大会发布了语音助手度秘。
2017年3月,百度官方在百度世界大会发布小度系统1.0(DuerOS1.0)。
在与第三方合作上,百度已经与中兴、小米、联想、索尼、网易游戏、比亚迪、特斯拉等企业建立了长久的合作关系。
借助云计算和大数据的发展,人工智能近年来发展迅猛。而在语音识别领域,研究者们也已经取得了不少成果,其背后潜在的巨大经济效益也吸引了各国互联网企业的注意,如今的语音识别技术虽然日趋成熟与完善,但仍然存在一定的难题,这就需要相关科研人员的努力。在计算机计算能力的进一步提升和5G通信普及的趋势下,未来智能语音识别技术将会有令人意想不到的表现。