任丽娜
(山西职业技术学院,山西太原,030006)
语音识别系统可接受人类并理解人的乐音,并根部语音指令执行命令,该技术基于声学、语言学、计算机、信息处理、人工智能等多项技术,广泛适用信息处理、通信、自动控制等诸多领域[1]。语音数字信号处理的关键是端点检测,端点从强噪语音信号识别出有效语音,噪音信号越复杂度识别难度也会增加。现有端点检测算法基于采集短时能量、连续时间、基频信息、过零率的语音特征参数分析,但在强噪音环境检测性能较差[2]。近年来,越来越多的学者采用改进型的信噪比计算的方法,极大提高了强噪音环境中的端点检测效果。
语音识别技术涉及声学、测量技术和信息处理等多个学科,检测端子从众多声音中识别目标人的语音特征信息,进行识别出是某人的语音[3]。基于人工智能领域的声音自动识别系统,比其他生物特征技术更具优势,基于声音的识别技术重复性好、操作简单,也不会涉及被识别者隐私,用户接受程度高,不同场合适用性好,生活中大部分物体都充当声音传递的媒介,且不受声波衍射作用和光照强度的影响。
但是,各地方言是识别系统准确性的一大障碍,识别系统基本采取标准普通话信号为基础,但方言各地差距较大,尤其是国内8种方言的发音差距特别大,语音识别系统准确度会大幅下降。随着移动无线互联网的推广,信道种类越来越多,尤其是移动电话、手机、无线发射器、移动网络系统,语音识别系统必须适应不同信道,不同信道差异较大,跨信道识别问题是语音信号识别的一个障碍[4]。背景噪音是影响语音识别系统的一大难题,背景噪音的频谱很容易和原始语音频谱重合,会将原始语音掩盖在噪音频谱范围内,导致识别系统不能准确分离出来原声音。音识识别就是模式识别,基本结构原理如图1所示,主要包括信号预处理、特征提取、特征匹配等基本功能模块,后处理模块作为输出部分直接面向用户。
图1 语音识别基本框图
发音器官主体为肺、喉、鼻和口,发生器官整体为形状复杂的管道,喉部、口和鼻子为声道,声道形状变化产生了发声的不同;声门产生语音的能量起到阀门和振动的双重作用,气流由肺部压力变化产生冲击,声带将冲击转化为不同频率振动,由声道响应转换成语音。不同的发音声道形状也相应变化,最终将不同的声音信息传递给周围环境。声带是人类发音系统的关键器官,声带是语音的激励源,声带振动形成基本声源,声带的开启和闭合形成气流脉冲,开启和闭合一次时间为一个基音周期,基音周期的倒数为基音频率,简称基频。声带发出基音决定声音频率,频率高则音调高,频率低则音调低,人类基音范围在70-350Hz,但人类的性别、年龄影响基音频率,整体趋势为年龄高频率偏低。语音发出后,声波以空气为载体进行传播,声波是振动方向和传播方向相同的一种纵波。声波是通过频率和振幅进行描述。声波频率决定了音高,声波振幅决定了响度,频率越高声音越高,振幅大则响度大,但是频率和振幅无直接联系。
分折处理前需要将语音信号从输入信号中分离,将语音转化成数字化信号经过放大器、增益控制、反混叠滤波,采样,A/D转换多个过程,预处理信号经过预加重、加窗、分帧处理。图2为语音信号处理简图。
图2 语音信号预处理简图
模型是对信号本质的数学描述,语音信号是非平稳随机信号,无法用确定性函数方程描述,因此必须分析多种语音识别数学模型,求解结果逼近实际值,因此要建立分类模型。目前可用模型有两种:高斯混合模型和隐马尔可夫模型。高斯混合模型的阶数必须足够大,才能全面体现特征空间的分布,采用的协方差矩阵类型为对角阵,高维特征空间计算量小,优势明显。模型初值初始条件不同,局部极值差距较大,模型初值必须修正均值。训练数据少或背景噪声过大时,方差幅度变小导致函数出现奇异性,只能通过方差限定提高计算精度。
隐马尔可夫模型有全连结和从左到右两种结构,从左到右的模型根据其结构特点有可以进一步细分。全连结模型允许由一个状态向其它任一状态转移,原理如图3所示。由左到右模型某一状态仅可向左/右侧状态转移。高斯混合模型和隐马尔可夫模型可适用不同场合的语音识别,但隐马尔可夫模型应用范围更大。
图3 全连接隐马尔模型示意图
利用两种模型建立不同说话人识别模型阶段,并在实验条件下测试不同因素对辨认率和确认率的影响,语音长短对特征参数提取影响很大,因此对多人进行录音后进行语音识别,检测结果如图4所示,辨认率和确认率都随着识别语音和训练语音时长增长而增加,但信息量达到一定量时,识别率缓慢增加。
图4 不同采集时间对识别率的影响
高斯混合模型采用单高斯密度函数线性的加权值调整实验表明,适当增加权值可增加结果的真实分布程度;改进卡尔曼滤波算法可以减少噪声的影响,提高抗干扰能力,提取说话人的特征准确度更高。
针对传统语音识别系统在噪音环境适应性差的问题,分析了人类语音特征和信号处理策略,研究高斯混合数学模型和隐马尔可夫数学模型在噪音环境中语音识别效果,适当增加采集时长,可有效提高语音的识别率,改进算法也可提高数学模型在噪音环境的准确度,对语音识别系统在信息化中应用具有很好的指导意义。