曾剑飞+何律君
摘要:文章针对语音信号端点检测与增强中分形理论的运用,从分形理论特征、实际内容以及实验几个方面展开了分析,目的在于总结最为合适的端点检测方法。
关键词:分形理论;语音信号端点检测;增强
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)02-0154-02
近几年,我国语音信号处理技术逐渐提升,尤其是低信噪比基础上的语音信号处理,已经在相关领域成为一个主要的研究课题。对于此,诸多专业人数已对其展开了研究,并且提出了一些带噪语音信号处理技术。在语音信号处理技术发展的影响下,非线性处理方式也得到重视,对带噪语音信号进行处理的过程中,语音信号、噪声信号模型参数主要是以相应的语音段、噪声段得到明确。所以在判断语音、非语音段方面,则成为语音处理系统中一个最为重要的问题,也就是所谓的带噪语音信号端点检测。
1 分形理论概述
针对分形理论,以往的理解都带有一定的不规则性,一般是对“因为整体通过某种形式相似的部分构成的一类形体”、“Harsdorff维数超过拓扑维数集合”进行表示[1]。但是,在某一角度来说,并没有专业学者对分形理论进行严格的定义,只是简单的提出了描述性的说法,即带有某些性质的集合,其中主要体现了以下几个特点:第一,分形具有自相似性;第二,分形结构的精细性:第三,分形维数大于其本身拓扑维数;第四,分形可以利用迭代递归形成。具体如下:
1.1 分形具有自相似性
所谓自相似性,即整体和部分,不管是形态、作用,还是信息,都体现了非常强的相似性。对分形对象集合尺寸进行合理的缩小或扩大,也不会对原结构造成改变。
1.2 标度带有不变性
标度具有不变性,这一点是分形集独有的特点,指不管怎么变形测量对象尺度如何改变,都不会使测量对象性质出现变化[2]。然而,需要将数学模型排除在外,针对带有实际分形集的测量对象,这种标度不变形只能够在一定范围内加以使用。通常来说,标度不变性适用空间被成为分形体无标度区间,相关人员需要根据研究对象所体现的实际性质,对判定无标度区间切实范围进行明确。
1.3 分形维数
形成分形维数主要是利用分形标度关系,获取实际的定量数值,这样一来能够将普通拓扑集维数是整数这一问题进行拓展,使维数有整数范围扩大到分数。同时,其中也体现了分形维数的其他特点,重点表现为以下几个方面:第一,分形维数与尺度之间无联系;第二,分析维数本身是相对量;第三,分析维数大小充分直接关系到空间中轮廓的不规则性、繁琐性,以及在空间内的满足程度。一般来说,维数越小,那么所体现的细节越少,其位数也就越大。
2 分形理论在语音信号处理中的运用
将分形理论运用于语音信号处理,主要分为三个部分,即语音分割、语音合成和端点检测。那么接下来就对这三个部分进行简要分析。
2.1 语音分割
因为人耳的听力在语音高频部分所体现的分辨率,一般会低于低频部分,但是清音段是语音高频非常关键的构成部分,在听觉角度分析,其实并不存在严重的影响,因此,相关人员需要在语音信号处理期间,定期对语音实施清浊音分割[3]。这二者之间本身体现了一定的不规则性,相关人员可以对分维值进行测量,以此对清音、浊音进行分割。
2.2 语音合成
在语音信号处理中,语音合成也是其中必不可少的内容之一,为未来的发展直接关系到语音编码。因为语音信号本身带有自相似性特点,其主要表现在其中某一结构特点处于不同时间、空间尺度中,带有相似性。尽管语音信号时域波形体现了分形的特点,但是却并非是完整的分形,通常只是在某一领域中出现分形特点。根据这一点,可以按照IFS 理论、拼贴定理对其进行研究与讨论,对语音信号进行划分,使其成为不重叠小区间序列,在这之后,便可以得到随意一帧IFS 三个参数,这样一来便可以对数据进行压缩。相关人员对语音进行合成期间,使用已经得到的 IFS 参数,将其重复迭代,直至收敛到 IFS吸引子为止,如此便可以获取需要的语音信号。
2.3 端点检测
所谓端点检测,即针对初始声音信息数据中所包含的纯粹语音段,对局部进行准确的定位,从而获取需要的语音单位起止点,这一点也是本文分析与讨论的要点。通常,所获取的语音单位并不局限于一点,既可以是词,也可以是音节和音素等。对端点进行检测时,因为其本身是语音信号处理这一工作的重点,所以需要保证其准确性,这也与最后语音特征的提取、可行性的体现有直接关系[4]。通过实际实践可知,其实两个相邻的音素分维值之间,带有好很大的差异性,分维轨迹也可能会出现突变的现象,针对这一点,相关人员也要按照这一特点,对相对门限值进行确定。若其中一帧语音分维值相比这一相对门限要低,那么便可获取这一帧起始语音和这一帧之前的语音,了解到这二者音素不同,这样一来便完成了语音音素分割,进而实现对端点的有效检测。
3 语音信号短时分形维数计算
分形维主要是对分形特点进行描述的参数,同时也是分形信号中十分关键的特征参数。通过分形方法的运用,能够使维数由整数扩张至分数,这也将传统拓扑维数是整数的限制打破。对于分形维的定义其实比较广泛,一般比较常见的主要有以下几种:计盒维数、关联位数、信息维数。本文主要以计盒维数为例展开计算。
对于计盒维数的定义,相关文献中对其进行了规定:n维欧式空间子集F的计盒维数DB,具体定义如下:
[DB=linδ→0lnNδ(F)ln(1/δ)],[log(Nδ(F))∝DBlog(1/δ)] (1)
在公式(1)中,[Nδ(F)]代表以邊长为[δ]的网格对F需要的最小正方形数量进行覆盖。实践过程中,一般可以利用多点直线拟合的方式对DB进行计算。公式如下:endprint
[DB=i=1MlogNδi(F)i=1Mlog(1/δi)-Mi=1M(logNδi(F)log(1/δi))i=1Mlog(1/δi)2-Mi=1M(log(1/δi))2] (2)
在公式(2)中,[δi]代表M变化的尺度,i=1,2,3,…,M。
对公式(2)进行分析,使尺度变化是[δi+1]-[δi]=[δ]([δi]=i[δ],i=1,2,3,…,M),将其带入到公式(2)中,从而获得公式(3):
[DB=MI=1MlogNδilogi-i=1MlogNδii=1MlogiI=1Mlogi2-MI=1M(logi)2] (3)
4 带噪语音信号端点检测
对带噪语音信号端点进行检测,可以先假设x(i)为带噪语音信号时间序列,s(i)、n(i)则是语音信号、加性白噪声时间序列,以此便可以得出信号模型,即
[x(i)=s(i)+n(i)] (4)
对语音端点进行检测主要是为了在数据x(i)的测量过程中,对语音段s(i)起止点进行判断[5]。因为语音段中,带噪语音信号x(i)体现了规则性和周期性的特点,换而言之,即语音段信号分形维维数与非语音段分形维二者相比较,前者比较小。所以,其实可以通过信号短时分形维数变化状况对语音信号端点进行检测。
在实际仿真实验中,主要使用的是之前完成录制的语音信号“你好”,采样频率为22050Hz,所有样本都是以16bit实现量化。在10~20ms期间,语音信号十分稳定,因为后期需要对计算量进行简化,所以将帧长控制在300点,所有相邻帧之间无重叠,共计100帧,且有分帧需求时主要以矩形窗为主。通过实际实验可知,录制好的“你好”语音波形中,已经被加性被噪声所污染的语音信号所体现的信噪比为0db,带噪语音信号分维值中,可以清楚地了解到,噪声段与语音段交界处的分维轨迹有突变点。正因为如此为带噪语音信号端点检测提供了便利。通过试验也可以了解到,噪声段分维值通常要大于语音段分维值。
5 以端点检测为前提的谱相减语音增强方式与仿真结论
5.1 以端点检测为前提的谱相减语音增强方式
在语音信号处理和识别系统中,语音增强是其中非常关键的构成部分,进行语音增强,主要是为了将语音质量进行提高,将语音汇总的噪声消除,使语音更加自然。谱相减法和改进型方式因为其本身的计算量比较小,在实际计算过程中比较容易实时实现,所以在语音增强工作中十分常见。但是使用当前所现有的谱相减法对语音信号进行处理的过程中,有时信号处理的效果十分不理想,特别是信噪比低的时候,效果更差。一旦傅立叶出现反变换,那么便会在个别频带处出现残留的噪声。为了将这一问题合理解决,需要总结之前工作的经验,并且综合考虑其他带噪语音信号端点检测方式,以此提出以端点检测为前提的谱相减语音增强算法。
对于语音段、噪声段交界处可以使用分形维进行检测,因此针对带噪语音信号便可以实现分段处理。
[|S(ejω)|γ=X(ejω)|γ-α|N(ejω)|γ,当|X(ejω)|γ-α|N(ejω)|γ>β|N(ejω)|λ时β|N(ejω)|γ,其他] (5)
在公式(5)中,[X(ejω)]、[S(ejω)]、[N(ejω)]是观测信号x(i)、s(i)、n(i)在FFT变换之后,从而获得的数据,α、β使经验数值。针对噪声段而言,为了能够将噪声有效抑制,需要取比较大的α值,将β=0。针对语音段而言,需要在保证语音不失真的基础上,尽最大可能抑制噪声,如此一来,便要取比较小的α值,相反β值要比较大。
5.2 仿真结论
此次方针,依然使用之前“你好”你好,是两个发音?
根據谱相减法原理流程处理带噪语音信号。选择适当尺寸的窗、α、β、γ,针对噪声谱要按照之前使用的端点检测法,对噪声段平均值进行检测。经过反复几次仿真试验可知,对语音段进行处理时,分别将α、β、γ数值设置为1.5、0.01、1,而窗函数则依然为直角窗,将每段噪声的长度设置为帧长度。
通过对仿真试验最终呈现的效果可知,带噪语音信号的RSNR是0,并且通过这一实验证明,端点检测法体现了非常好的效果,增强之后的语音信号在包络形状上,非常完整的维持了原来的语音信号特点,并且将信噪比提升。通过处理前后语音信号信噪比的对比分析可知,一旦带噪语音信号RSNR为-4db,那么所提出的所有方法依然适用于语音信号增强。
5.3 实验结论
在低信噪比环境之下,对语音信号端点进行检测,并且完成语音增强,是语音信号处理工作一直以来需要解决的问题之一。以往对这两点问题进行解决时,需要是以高信噪比为前提,进行语音信号端点检测以及增强,这种方式无法满足现如今所体现的技术需求。基于此,通过对传统检测方法的分析,在分形维、谱相减两种方法的基础上,提出了新的语音信号端点检测与增强方法,并且将此方法进行仿真实验,实验结果表明,这一方法的可行的,且实验过程中涉及的计算量也比较合理。所以实用价值比较高。然而这一方法在使用的过程中,需要端点检测保证非常高的准确性,一旦信噪比不足-5 dB,所体现的端点检测最终效果准确性可能降低,进而对增强之后的语音效果造成影响,关于这一问题还需要在日后的工作中继续深入研究。
6 结束语
综上所述,在语音信号端点检测及增强中运用分形理论,可以有效减少计算量,但是相应的也对准确性提出了要求,要体现良好的运用效果,依然需要深入分析。
参考文献:
[1] 刘永俊,张立飞,刘巍.面向噪声环境下医疗语音信号端点检测方法[J].常熟理工学院学报,2017,31(4):75-79+85.
[2] 赵益波,蒋祎,吴礼福,等.基于麦克风阵列自适应非线性滤波的语音信号端点检测方法[J].科技通报,2017,33(4):199-203.
[3] 陈泽伟,曾庆宁,谢先明, 等.基于自相关函数的语音端点检测方法[J/OL].计算机工程与用, 2017,03:1-6.
[4] 王明合,张二华,唐振民, 等.基于Fisher线性判别分析的语音信号端点检测方法[J].电子与信息学报,2015,37(6):1343-1349.
[5] 王建元,陈鹏,栾德福.基于SVD-HHT的低信噪环境语音信号端点检测[J].制造业自动化,2014,36(1):57-61.endprint