张戌宝
听力损失患者有两种基本症状:①听音的响度动态范围缩小;②听音的频率范围变窄。十余年来,助听器已能将声音响度动态范围控制到患者听力的范围[1、2]。语音的低、中频成分是区分元音的要素,而语音的中、高频成分是区分辅音和定位声源的要素。听力损失患者的听力特点是频率范围变窄和对高频声音缺乏感知;而一些辅音的共振峰主要分布在高频区,没有对高频的感知,他们就没有理解语音的基础条件。对于具有听力损失的儿童,缺乏高频感知还影响语音发音的准确和语法的理解。30年前,高频下移技术已设法在模拟助听器中应用[3],由于制造技术的局限,其临床效果较差并因未使听力障碍患者受益而受到冷落。中度及以上听力损失患者的可听频率范围上限可以从8 kHz降至4 kHz,甚至更低;而助听器的大功率受话器频响范围,其高频截止频率只能到5 kHz,因此传统放大(指没有高频下移功能)的助听器不能为其提供有益的高频成分,难以满足语音识别的需求。在耳蜗死区主管高频的某些毛细胞丧失传感功能,致无法通过助听放大器获益[1]。因此恢复听障人士的高频感音能力再度引起听力康复工作者的重视。
频率下移(frequency-lowering,FL)是将音频信号的高频成分移至较低频区的技术。当今,几乎所有的主流助听器厂家都恢复了FL的研发,目前FL的策略很多,虽然目的相同但处理策略差别却很大。Alexander[4]和McDermott[5]较为详细地阐述了多种FL的原理、处理策略和特性差别,并经效果评估得出的结论是各种FL在助听器中的应用都有效。Angelo等人[6]介绍了一种性能完善的FL技术,称为“语音拯救”(speech rescue),该技术确保患者获得最大的高频感音能力,又尽可能使输出语音的整体失真最小。Scollie[7]则介绍了对非线性频率压缩助听器的研究,包括技术原理、应用效果。本文旨在概述高频下移技术的基本理念、实现策略、处理结构和应用效果。
通常认为语音频谱的能量主要分布在0.25~6 kHz的范围[1],实际上,语音频谱的准确范围超过0.2~10 kHz[8],其中元音的频谱能量主要分布在低中频区,而辅音的频谱能量主要分布在中高频区。例如,/oo/的前3个共振峰在300~3260 Hz,能量较高;/s/的频谱主要能量在3~9 kHz,能量较低,在语音中的出现率很高。由于大功率受话器的固有机械特性,其输出功率在5 kHz之后明显下降,因此不能帮助重度听力损失患者解决高频声音的可听度问题。而患者的内毛细胞受损,其听觉可能在中高频区出现“死区”,即在某些频率上完全丧失感音能力。例如,患者的损失曲线是陡降型,以每倍频程20 dB或以上的斜率下降,听力损失在70 dB HL以上,这种类型的听力损失患者需要很高的高频增益放大。然而,很高的增益容易使助听器产生反馈啸叫。因此依靠传统的增加功率的做法是徒劳无益的。
图1显示了一句英语(children like strawberries)信号的2个频谱图,上图为该语句发音的原本频谱,下图为该语句经传统放大后输出信号的频谱,深色表示谱的能量大,浅色反之;两图底部的箭头表示高频能量较高的辅音位置,如/s/、/ch/等。高功率受话器的频响在>5 kHz后就明显下降,从下图可以看出,带箭头辅音在5 kHz以上的能量明显消失或减少,而元音谱的主要能量在5 kHz以下,基本上没有衰减。对于在5 kHz有斜坡型听力损失的患者,其感知语音的频谱图在下图的高频能量将会加倍衰减。这使得高频听力损失患者在噪声环境中的语音交流更加困难。声音的高频成分下移至中频可听频区的策略,使助听器输出频响范围变窄,以适配患者的听力频率特性。这样得到的声音可能打乱原本的频谱结构而造成语音失真。特别是谱峰比发生变化以后,声音听起来不自然,也不舒适。
图1 原本语音的频谱图(上)和高频听力损失患者等价的感知谱图(下)
频率下移(FL)既要保证高频听力损失患者能听见语音中的高频成分又要使听音效果尽可能自然,这项严峻的挑战需要研究FL的策略、处理结构和得益,从而获得最佳的方案。虽然FL可导致助听器输出声音的频谱结构畸变,却不一定会给患者带来不舒适,这取决于畸变的程度。由于个人的声带尺寸、质量不同,不同谈话者的共振峰频率是有明显差别的。男人、女人和儿童发同一个音素的声音时,有较大的频谱差异,但听者没有不舒适的感觉并能识别语音含义。例如,发/i:/时,男人、女人和儿童的F1分别是270、310和370 Hz,F2分别是2290、2790和3200 Hz,F3分别是3010、3310和3730 Hz[8]。F1与F2的谱峰比分别是0.118、0.111和0.116;F2与F3的谱峰比分别是0.090、0.094和0.099。因此,不同性别、年龄的人发音的共振峰并不相同,但无碍语音的理解;如果FL能使高频成分按一定的比例下移,语音的共振峰结构仍然是自然的,则含义不会被误解。从大量的语音谱图中得知,同一谈话者的语音高频与低频成分在许多时候不是同时存在的;如有语音频谱的实时分析和控制,FL带来的负面作用不是想象的那么大。
近年来,助听器研究人员提出的频率下移(FL)策略多种,本文将其归纳为以下三大类。
分段记录输入的声音信号,以比进入速率慢的速率分段回放记录的语音信号,再将它们连接在一起输出,聆听时不可感知的高频成分就能听见了。录音慢回放也称等比频率压缩(proportional frequency compression)或线性频率压缩,见图2左上图,输出频率与输入频率之比称为换置因子(transposition factor)。例如,换置因子是0.7,5 kHz的调音就换置成3.5 kHz的。该策略在整个音频区上将所有的频率成分以一固定比率向下压缩,对辅音和元音信号都有降频作用。该策略理念较简单,在换置因子不低的条件下,对所有声音的频率成分都保留了它们之间的谱峰比,语音的自然性没明显损坏;但元音频率成分下移可能造成语音识别性能下降。因此,更好的处理策略是时变的,即在需要FL的时间段才开启。例如,当输入信号由2.5 kHz以上的频率分量主控时,才启动该策略,否则就取消FL处理,以保证良好的音质。
将指定下移的中高频区称为源频区,即源频区是患者的不可感知中高频区;将高频区下移去的频区称为目的频区,目的频区是患者的可感知中频区;源频区的最低频率称为起始频率(start frequency)。产生与高频带包络信号相同的中频带信号,并与目的频区的较高频带叠加在一起。这又分两种做法:①将下移产生的几个中频带信号合到一个频带上,再将该频带信号叠加到目的频区的高端频带上,而高频带信号仍保留在源频区,称为频率复合,见图2右上图;②将下移产生的几个中频带信号并排叠加至目的频区的几个频带上,且源频区的那些高频带信号不再保留,称为频率换置,见图2右下图。起始频率之下的各频率成分原封不动,保留了低中频共振峰的原本信息;目标频区的宽度窄,为了使下移高频对它的扰动小,就要求下移频带作多层叠加。起始频率之上的信号在中高频区,换置后高频共振峰的包络没有发生变化。无论是源频区还是目的频区,频带的划分要遵循耳蜗的频率选择性,即高频的带宽较低频的要宽,服从对数函数。频率复合的起始频率可以设多个选项,最佳选项因人而异。实际的起始频率不低于2.4 kHz,如果起始频率过低,会改变元音在中频共振峰的信息。频率复合/换置策略可以是时变的,时变的频率复合有文献称之为频谱包络翘曲(spectral envelope warping)。由于高频成分进行线性换置,换置后的高频谱峰比维护较好,高音较为自然;下移的高频频带要叠加在元音的前面两个共振峰之后的频带上,以免掩蔽有用的低频语音提示(cues);还要避免换置的高频噪声到可听中频区。
图2 几种高频下移策略的输入/输出频率关系
在指定的中高频区内,将各频率成分非线性地压缩使不可听的高频成分进入到可听的频区,见图2左下图。目标是①最大化地增加高频可听度;②减少对元音线索造成的损坏,维护谱峰比。进行压缩的中高频区的最高频率称为最大可听输出频率(maximum audible output frequency,MAOF),进行压缩的中高频区的下界称为截止频率。该压缩是非线性的,频率高的频带压缩比高,频率低的频带压缩比低。这种压缩遵循了耳蜗感音的频率选择性:对高频声音的分辨力低于对低频声音的分辨力。截止频率是划分压缩与不压缩频区的分界;截止频率之下的信号不作处理,完全保留了低中频声的原本信息,是可听频区;截止频率之上的中高频信号被压缩,但也包括有可听频区。该策略对元音的自然属性保护得很好,但辅音的谱峰比发生了变化,听起来有高频失真感。如果截止频率选得过低,对元音和辅音的分辨都有不利影响;选得过高,有利于感知语音的低频成分,但语音的高频成分不能完全压缩到可听频区。最佳的截止频率是个性化的,可分几个档以适合患者的听力损失特性。该策略可以是时变的,由语音中主控成分是元音还是辅音来控制启动和取消。
当今的音频信号处理从理论到实践都为新一代的FL实现创造了条件,本文仅针对上述三种策略相应的处理结构作进一步概述。
它是一种早期的FL技术,可以用模拟电路来实现;现在通过数字处理来实现更简单可靠[9]。音频信号经模/数转换器后输出的采样率为Fin,称为原采样频率;将此数字信号分段送入移位寄存器,再以比Fin低的速率Fout输出,最后将各输出按顺序组合在一起。经可变时钟发生器和时钟速率控制器操作,输出信号的各频率成分就下移了一个因子Fout/Fin。为了实现时变的慢回放处理,使输出语音的失真最小,还需要对输入语音频谱作分析,根据元音和辅音成分的权重控制换置因子读出器。语音分析器常常用凹口滤波器实现。由于分段信号数据的衔接,抛弃冗余的扩展信号可能会丢失语音信息[9]。
首先用带通滤波器组将输入信号分裂为多个频带的信号,频带越多调谐越精细。对指定下移的高频带,计算调制载波的频率并产生载波振荡;用乘法器将下移高频带的语音调制,形成中频边带信号并进行带通滤波。输出的较低频带信号与未处理的低中频带信号叠加,下移的高频包络就与低中频区某频带信号复合了;多个下移高频带作并行处理,加快了高频信息落入可听的中频带中。如果是时变的频率复合,还需要语音分析器,判定输入信号是否由辅音主控,以启动或取消频率复合功能。复合的频道数量和信号强度可以选择,以最佳化患者个人的需求;频带数越多、频区越宽、下移信号强度越大,得到的高频语音提示越多,但同时也会产生语音模糊的感觉;频带的开、关可能出现处理夹带信号(artifacts)[10]。
采用快速傅里叶变换(fast fouriertransform,FFT)和逆快速傅里叶变换(inverse FFT,IFFT)将频率范围进行非线性压缩。将输入数字信号作FFT处理以便获得很多频带的信号,指定截止频率Fcut后,对Fcut之上的各频带信号作非线性压缩,不同厂家有不同的频带转移函数,即中高频区的各频带信号下移挤进中频区的算法。FFT的频带数越多,则带宽越窄,压缩越精细,但信号处理的延时和功耗较大。FFT频带是离散的,转移处理时要作舍入运算;各转移频带的信号强度是可选的,以使患者获得最佳的感音能力和音质。此外,非线性频率压缩可以是时变的,需要语音分析器的输出来控制频率压缩参数,也可关闭该压缩功能。非线性频率压缩会有咬舌声的感觉,信号带的开、关可能出现处理夹带信号[11]。
Angelo等人[6]核实了频率复合技术的“语音拯救”助听器的效果。测试条件:①12例成年重度~极重度感音神经性听力损失患者,平均年龄54岁。②测试助听器为dynamo大功率型,它们具有传统放大和语音拯救两种模式。③听音环境为两类:Ⅰ在安静环境中按音节发音,以核实其辅音分辨的性能,选用9个辅音/b,d,f,g,k,p,s,sh,t/;Ⅱ在噪声环境中读语句,以核实语句中分辨字词的性能;目标语句的音量是70 dB SPL,淹没在未调制的噪声中。用DantelⅡ测试语句,是阵列结构(matrix)的丹麦语句。④语音救助设置:源频区宽约3.3 kHz,在4~9.5 kHz范围,起始频率在4~6 kHz上。源频区和目的频区各有十个频带,对应形成十个构象(configuration);它们的覆盖很宽,因此,可以选出一个构象满足患者的听力损失特性。结果发现辅音区分方面,语音拯救比传统放大,正确率从56.1%增至58.4%,提高了2.3%;语句识别的性能方面,语音拯救比传统放大,平均性能(S/N和正确率)从56.5%增至59.6%,提高了3.1%。
FL技术会导致信号失真,但它能有效改善听力损失患者的高频感音效果,在辅音区分和语句识别方面的性能都明显比传统放大技术好。三类FL技术各有其特点,每种处理策略中又有多个频率下移参数可选择,很难预先确定哪种更好。大体的评估是:①录音慢回放的处理、测试和使用较为简单,语音高音频率的下移,使听不见的高频音能够被感知;但由于低中频率也下移,自然性受到影响,女人的声音可能听起来像男人的声音,并会有极少量的信息丢失。②频率复合/换置的起始频率设在中频区,保护了低频区声音的自然性,中高频区的谱峰比也得到维持,多参数选择提供灵活性;但实现较为复杂,因下移频率成分与原本中频成分的混叠失真,可能会听见夹带声。③非线性高频压缩仅在中高频区进行,截止频率较高,有效保护低频区声音的自然性,但实现较为复杂;由于中高频区谐振峰之间的紧缩造成了声音的高频失真,有时听起来像咬舌音(lisping)并可能会听见夹带声。
高频下移技术可有效解决患者对高频区感音能力差的问题。对于轻/中度听力损失患者,高频损失一般不严重,为确保更好的音质和节省功耗,一般不选择这类助听器。当必须选用FL助听器时,应尽可能地保留可听低中频成分,仅下移听不见的中高频成分。探管麦克风测试法可以有助于或得到较为准确的感音频率特性。需要注意的是:没有一种助听手段是万能的,更不是完美的,但FL技术是解决高频可听性问题唯一可靠的途径。专家们认为要使听力障碍患者获益于这类FL助听器,大约需要6周~6个月的适应期,患者才能体验到最佳的FL参数设置,恢复对高频声音的感知。
[1]Theodore HV,著.张戌宝,田岚,译.实用助听器原理和技术(第二版)[M].北京:人民军医出版社,2013.41-45,89.
[2]张戌宝.现代助听器的动态范围控制技术和性能[J].中国听力言语康复科学杂志,2013,11(2):120-123.
[3]Simpon A.Frequency-lowering devices for managing highfrequency hearing loss:A preview[J].Trends in Amplification,2009,13(2):87-106.
[4]Alexander JM.The highs and lows of frequency lowering amplification[J].www.audiologyonline.com/20Q,Article#11772,Apr.2013.
[5]McDermott HJ.A technical comparison of digital frequencylowering algorithms available in two current hearing aids[J], Plos One,2011,6(7):1-7.
[6]Angelo K,Alexander JM,Christiansen TU,et al.Oticon frequency lowering Access to high-frequency speech sounds with Speech Rescue technology[J].White Paper,Oticon A/S,Denmark,2015.1-16.
[7]Scollie S,Glista D,Bagatto M,et al.Multichannel nonlinear frequency compression:A new technology for children with hearing loss[D].Proceedings of 4th SFTEA International Conference.2007.151-159.
[8]Speech Analysis.www.physis.indiana.edu/courses/p109/p109fa08/11.pdf.Online article.
[9]Nof Haemak VL.Frequency transposing hearing aid[J].USA Patent,5014319,AVR Communications Ltd.,Haifa, Israel,1991.
[10]Andersen HH.Klinkby KT.Hearing aid with enhanced high frequency reproduction and method for processing an audio signal[J].USA Patent,8031892 B2,Widex A/S,Lynge,Denmark,2011.
[11]Silvia A.Method for frequency transposition and use of the method in a hearing device and a communication device[J].European Patent Application,EP1441562 A2,Phonak AG,Stafa,Swaziland,2004.