陈又圣,杜军
深圳信息职业技术学院电子与通信学院,广东深圳518000
据世界卫生组织官网报告(数据更新日期为2018年3月15日),全世界患有残疾性听力损失的人数高达4.66 亿,其中包含0.34 亿儿童患者,并且听力损失的患者在迅速增长,到2050年,患有残疾性听力损失的人数将会超过9 亿。2017年,第70 届世界卫生大会通过一项有关预防耳聋以及听力损失的决议,协助世界卫生组织的成员国制定相应的规划,并把耳部和听力初级保健纳入本国的卫生保健系统。不同的听力损失情况可以采用不同的治疗方式,例如药物治疗、佩带助听器、植入电子耳蜗等,其中,对于重度耳聋患者和极重度耳聋患者来说,植入电子耳蜗是目前最为有效的方式。电子耳蜗既可以单独使用,也可以和助听器进行结合并形成双耳的模式[1-5]。电子耳蜗处于噪声环境以及应用场景中的各类失配都会导致言语识别率的大幅度降低,为了提高电子耳蜗的言语识别率,近年来学者们在电流导引[6]、电子耳蜗的精细结构编码[7]、虚拟电极[8-9]、光学耳蜗[10-11]、麦克风阵列[12-13]等方面做了很多努力和研究工作。
电子耳蜗包括体外和体内两个模块,其中体外部分通过麦克风采集声音信号,传入言语处理器中,信号被特定的电子耳蜗言语处理策略处理,进行参数提取、信号调制、编码、压缩等系列过程,然后通过无线方式把有效信号和能量传输到体内植入体中,体内植入体的线圈接收信号,并通过解码等过程把目标参数提取并传输到电极阵列上,电极阵列以特定的刺激参数和模式刺激对应位置的听觉神经并让听力患者产生听觉感知,恢复部分的听力。目前国外电子耳蜗的生产商主要有3 家,即澳大利亚的COCHLEAR 公司、奥地利的MED-EL 公司和美国的AB 公司,而国内则只有诺尔康公司推出电子耳蜗临床产品,其中,COCHLEAR 公司是全球最大的电子耳蜗生产商,占了全球市场份额的60%~70%。由于电子耳蜗的复杂性,其价格一直很高,限制了其应用的广度和深度。据报导,目前电子耳蜗的市场渗透率在发达国家也只有20%,而在发展中国家则不到1%。近几年这种情况有所改观,有学者研究和统计指出[14],近年来3家国外公司(COCHLEAR、MED-EL和AB)和一家国内公司(诺尔康)在中国政府投标价格中有了大幅度的下降,从2011年的每个25 000 美元到2016年的6 030 美元再到2017年的5 490 美元。价格的大幅度降低有助于促进电子耳蜗在中国大陆的进一步使用,但是汉语本身是音调语言,音调对汉字的识别比英语重要得多,因此,直接把国外电子耳蜗中的言语处理策略移植并应用在汉语人群中是不适合的。本研究选取目前广泛使用的基于信号特征的电子耳蜗言语处理策略进行研究,并探讨其频带选取的特性以及对信号特征变化的影响,为电子耳蜗新言语处理策略的开发以及电子耳蜗国产化提供基础。
从大类来说,电子耳蜗的言语处理策略可以划分为基于滤波器组的算法和不基于滤波器组的算法,其中,基于滤波器组的算法是目前的主流方法。而从刺激模式来看,基于滤波器组电子耳蜗的言语处理策略可以进一步划分为非信号特征的模式(即规律性循环刺激模式)和基于信号特征的刺激模式。规律性循环刺激模式与信号本身的特性无关,该言语处理策略是按预先设计好的刺激模式进行,例如连续交替采样模式[15-17]、连续交替等间隔刺激模式[18]。而基于信号特征的刺激模式是基于信号本身的实时变化特征的,例如可以选取频带中若干个最大的频带用于电极刺激,常见模式包括SPEAK 策略[19]、ACE 策略[20]、n of m 策略、FFC 策略、信号精细结构策略等。目前研究领域和应用领域应用最广泛的是基于信号特征的言语处理策略,而该类策略的主要特点是基于信号特征的频带选取模式,本文的实验测试和参数分析是基于该类言语处理策略进行研究的。
本文的信号采集采用KNOWLES 麦克风模块,为了便于进行信号采集,麦克风模块与STM32 开发板进行连接,实现按键控制声音的录入播放,并将麦克风采集的声音进行处理并写入flash,生成wav音频文件。采集的信号保存在SD 卡中,可便携地进行不同场景的信号采集,而需要进行算法研究时,SD卡插入计算机中,用Matlab 读取声音文件并进行算法处理。考虑到电子耳蜗使用者面对面交流的使用场景,本文的信号采集实验的麦克风与目标声源(音箱)的距离设置为1 m,语料为女声发音的汉语“中国医学物理学杂志”。电子耳蜗不同的言语处理策略的程序代码已经用Matlab 提前编写好,所采集的信号经过不同算法处理后,用于进行进一步的参数提取和分析。
用所搭建的硬件系统采集目标信号,保存在计算机,然后分别用Matlab 所编写的电子耳蜗言语处理进行信号处理,生成并合成用于表征原始信号编码和传入电极阵列的新信号,进而用于算法比较。本研究选用目前应用最为广泛的两种基于信号特征的电子战耳蜗言语处理策略,即ACE 策略和SPEAK策略,来进行算法研究和参数比较。其中,ACE 策略选用常见的22 通道滤波器组并选取8 个频带用于电极刺激,而SPEAK 选用常见的20 通道滤波器组并选取6个频带用于电极刺激。
原始采集的目标信号、经过ACE 策略和SPEAK策略处理后并合成的新信号,它的信号频谱图的对比如图1所示。
图1表示信号经过ACE策略和SPEAK策略处理后的信号和原始信号的对比。从图1a 可以看到,原始信号在每个时间帧均包含不同频率成分的信号,其中红色是高能量的部分,颜色越深对应的能量越大。而对比图1b 和图1c 可以看到,ACE 策略和SPEAK 策略处理后的信号在每个时间帧开始集中在特定的几个频率上。在图1b和图1c中标记了对应滤波器组每个频带的中心频率,通过比较可以看到,经过算法处理后的信号能量集中在对应的若干频率位置上,该频率位置对应所在滤波器组每个通道的中心频率。而进一步比较图1b和图1c中每个时间帧所选取的频带来看,算法选取的是能量最大的若干个频带,频谱中显示的是红色和深红色区域,其中,ACE 策略选取的是能量最大的8 个通道的信号,而SPEAK 策略选取的是能量最大的6 个通道的信号。对于不同的时间帧来说,由于原始信号的能量分布随着时间的变化而不同,因此,算法所提取的频带也不同,频带的选取与原始信号的能量强度分布有关。
图1 信号的频谱比较Fig.1 Comparison of signal frequency spectra
不同时间帧所选取的信号的频带不同,可以对所选取的各个频带进行统计。在所采集的语料为“中国医学物理学杂志”的语音信号里,该语音信号的长度为1.95 s,算法中的每一帧的长度为512点,整个信号一共划分为61帧。然后对每一帧所选取的频带编号进行统计和分析,可以发现以下的规律:ACE策略中每一个时间帧选取8个频带,其中低频的频带经常被选取,同样,SPEAK 策略中每一个时间帧选取6 个频带,也是低频的频带经常被选取。进一步统计每个频带被选取的次数并由大到小排列,则ACE 策略中被选取次数最多的前5个频带依次是:通道2、通道1、通道4、通道5、通道3,对应被选取的次数分别是:51、50、45、44、43。而SPEAK 策略中被选取次数最多的前5 个频带依次是:通道1、通道2、通道3、通道4、通道5,对应被选取的次数分别是:48、45、36、35、30。由于实验中的语音信号共划分为61 帧,因此,计算得到ACE 策略的通道1、通道2、通道3、通道4、通道5 的被选取的概率分别是:81.97%、83.61%、70.49%、73.77%和72.13%,SPEAK 策略的通道1、通道2、通道3、通道4、通道5 的被选取的概率分别是:78.69%、73.77%、59.02%、57.38%和49.18%。因此,从分析和统计上看,基于信号特征的电子耳蜗言语处理策略在频带选取上倾向于选取低频的频带,这种频带选取的模式一方面可以保留语音中低频的较高的能量信息,另一方面容易丢失中高频的细致信息。
从前面的分析看到,低频的频带容易被选择,而中频和高频的频带选取情况也有所差异,进一步详细统计各个频带的选取概率,其频带选取概率曲线如图2所示。
图2 ACE策略和SPEAK策略的频带选取概率曲线Fig.2 Probability curves of frequency-band selection for ACE strategy and SPEAK strategy
图2为ACE策略和SPEAK策略的频带选取概率曲线,从曲线上可以看到,低频通道所对应的频带选取概率较高,中频和高频的选取概率较低。另一方面,两组曲线均在中间位置有一个下凹,表示ACE 策略和SPEAK 策略对中频频段的选取概率是最低的。从图1a 中原始信号的频谱中可以看到,原始信号的能量分布总体上是沿着从低频到高频有下降的趋势,中频频段的能量并没有明显比高频频段的能量少。但是,由于ACE 策略和SPEAK 策略在频带划分上都是高频的频带宽,低频的频带窄。因此,高频频段所包括的频带内的信号成分更多,也有助于提高所在通道被选取的概率,而中频频段既没有低频通道的能量集中特性,也没有高频通道的频带宽特性,反而是被选取概率最低的。
本研究基于信号特征的电子耳蜗言语处理策略的频带选取特性,总结了ACE 策略和SPEAK 策略等算法在频带选取上倾向于低频频带的特征。通过谱分析和电子耳蜗通道选取的统计,对比高低频频带的电子耳蜗不同时间帧的通道选取和参数。基于信号特征的电子耳蜗言语处理策略在频带选取上更多选取能量集中的低频信号,部分选取高频信号,较少选择中频信号。该选择模式有助于传递目标语音信号的主要信息,但中高频通道被选取的概率偏低,导致中高频信息丢失,后续的算法研究和改进需要结合该特性研究降低中高频信号失配的补偿模式,尤其是中频信号的提升方法。