电子耳蜗CIS言语处理策略参数特征研究

2017-12-09 08:23陈又圣王健薛国伟张璞陈培培

深圳信息职业技术学院学报 2017年3期

关键词：基频频带耳蜗

陈又圣,王健,薛国伟,张璞,陈培培

（深圳信息职业技术学院电子与通信学院，广东深圳 518172）

电子耳蜗CIS言语处理策略参数特征研究

陈又圣,王健,薛国伟,张璞,陈培培

（深圳信息职业技术学院电子与通信学院，广东深圳 518172）

目前电子耳蜗主流的言语处理策略是基于滤波器组的语音处理算法，而其中大部分算法是基于连续交替采样策略（即CIS算法）的算法结构延伸而成的。连续交替采样策略是一种通过电极阵列连续交替刺激听神经的算法，在特定的时刻只有一个电极在刺激，因而可以避免电极之间的电流扩散而降低算法的性能。本文研究了连续交替采样策略的算法结构，通过编程实现该言语处理算法并进一步提取语音的特征和参数，研究了连续交替采样策略的信号变化特征。

电子耳蜗；连续交替采样策略；参数；语音特征

引言

对于听力损失患者来说，佩带助听器或者植入电子耳蜗[1-3]是恢复部分听力的有效方法。而对于重度聋或者全聋患者来说，植入电子耳蜗是目前唯一有效的方法[4]。电子耳蜗通过提取信号的特征并传递到植入体的电极阵列中，电极阵列以预设好的刺激模式、强度和电流强度来刺激听觉神经，让患者恢复部分听力。

目前电子耳蜗在噪声环境下的言语识别率还不高[5-7]，因而在目前电子耳蜗研究的热点之一是如何提升噪声环境下的电子耳蜗言语识别率，并出现了多种算法和技术。不仅国内外的研究学者提出了多种电子耳蜗言语处理策略，国内外的电子耳蜗生产厂商也在近年开发了新的电子耳蜗处理算法或者改进了参数，比如美国的AB公司、澳大利亚的COCHLEAR公司和奥地利的ME-DEL公司，我国的杭州诺尔康神经电子科技有限公司等。而目前主流的电子耳蜗言语处理策略，比如ACE[8]、SPEAK[9]和n of m[10-11]等算法，其算法结构本质上是基于连续交替采样（Continuous Interleaved Sampling Strategy，CIS[12-14]）策略的。

本文研究了电子耳蜗CIS言语处理策略的算法结构，并且通过编程实现了实际信号的采集和算法处理，进一步提取了算法处理后的算法特征和参数，通过参数分析和特征比较研究了CIS算法处理前后的特征变化，有助于基于CIS新言语处理策略的研究和提升电子耳蜗的算法性能。

1 电子耳蜗算法实现流程

电子耳蜗的CIS策略的核心在于通过滤波器组划分频带并与电子阵列对应，电极的刺激是连续但交替的，即各个电极不同时刺激听觉神经。电子耳蜗的CIS策略的算法实现流程如图1所示：

图1表示电子耳蜗连续交替采样策略的算法实现流程图。目标信号被体外机的微型麦克风采集，经过声电转换并放大和滤波后进入言语处理器进行算法处理。在言语处理器中首先对信号进行预处理，包括能量均衡和预加重等过程。然后用滤波器组把信号进行分频滤波处理，形成高低不同的子带信号。然后对每一个子带的信号提取其信号包络、信号能量等参数。然后对信号进行压缩，以符合电流刺激的范围，压缩后的信号的参数用无线方式传递到体内植入电路中。体内的接收线圈接收了信号的参数及能量并传递到电极阵列中。对于电子耳蜗CIS言语处理策略来说，电极阵列依次等间隔单个刺激，即某一时刻只有一个电极在发出刺激电流，通过交替刺激的方式来防止两个电极间刺激电流的干扰和扩散。

图1 电子耳蜗的CIS策略的算法实现流程图Fig.1 Algorithm structure of continuous interleaved sampling strategy for cochlear implant

2 信号采集及信号参数和特征分析

2.1 信号采集

为了进行电子耳蜗CIS言语处理算法的研究，本文采用前期所搭建的电子耳蜗信号采集平台用于实验研究[15-16]。所搭建的硬件系统前端放置全向性麦克风用于采集目标信号，该目标信号用距离麦克风1米等高位置的音箱播放。麦克风采集的信号经过放大和滤波后，通过AD芯片转成数字信号，然后用USB外置声卡传递到计算机中，并保存为声音文件。计算机里编写了CIS电子耳蜗言语处理算法，用编程好的算法处理采集到的信号，并进一步提取处理前后信号的特征参数用于算法研究。音箱所播放的目标信号源选用的是语料“one、two、three”，该语料为美式男声发音的三个单词。

2.2 CIS算法处理前后的波形特征

原始信号的波形如图2所示：

图2 原始信号的波形图Fig.2 Waveform of original signal

目标信号经过电子耳蜗信号处理策略后传递到体内所有电极的信号如图3所示（16通道电子耳蜗）：

对比图2的三个单词的原始信号波形图和图3的传递全部通道信息的电子耳蜗波形图，可以看到，信号处理前后的波形的一致性较好，总体的包络具有较准确的匹配性，只在细节上有差别。这个对比结果表明电子耳蜗言语处理算法在包络和短时时域能量的传递上具有匹配性。

图3 电子耳蜗传递全部通道信息的信号波形图Fig3.Waveform of signal after transferring all channel information for cochlear implant

但电子耳蜗CIS言语处理策略并不是一次性把全部通道信息传递给电极，而是依次传递，瞬间时刻只有一个通道的信息被传递，经过电子耳蜗CIS算法处理后的波形对比如图4所示：

图4 CIS算法处理后的信号的波形图Fig4.Waveform of signal based on CIS algorithm processing

对比4的CIS算法处理后的信号波形图和图2的原始信号波形图，可以观察到信号有几个变化的特征。首先是信号的总体幅度发生较大的降低；其次是CIS算法处理后的信号波形匹配度大幅度降低，信号包络与原始信号有着明显的偏差；第三个特征是信号的成分减少，信号变化细节缺失。上述三个特征与CIS本身处理过程有关，在特定时刻之后一个电极信号被用于传递，因此信号能量有限，而且一个电极信息对应一个滤波器的子带频率，因此信号信息缺失并与原始信号失配。

2.3 信号谱特征

经过电子耳蜗CIS算法处理后的信号的频谱图如图5所示：

从图5的信号经过电子耳蜗CIS算法处理后的频谱分布来看，信号能量集中在少数频率上，形成明显的线谱分布。因此，电子耳蜗的CIS言语处理算法波形和幅度上存在差异，同时不同频率所对应的幅度也存在差异，即不同频率的能量发生变化。由于信号需要经过电子耳蜗滤波器组进行分频处理，电极阵列每个电极对应一个频率，因此在电子耳蜗言语处理算法中对每个子带信号是用纯音信号来进行调制的。为了更清晰地分析电子耳蜗CIS言语处理策略的过程，画出其时频分布语谱图，如图6所示：

图5 CIS算法处理后的信号的频谱图Fig5.Spectrogram of signal based on CIS algorithm processing

图6 CIS算法处理后的信号的时频分布语谱图Fig.6 Time-frequency spectrogram of signal based on CIS algorithm processing

图6的时频语谱图红色是信号能量大的区域，蓝色是信号能量非常小的区域。从时频分布上看，电子耳蜗CIS言语处理策略在特定时刻能量集中在某一个频率附近，而且不同时刻能量集中的位置不同。对于电子耳蜗CIS言语处理策略来说，信号能量从一个通道到另一个通道依次连续交替传递给电极阵列，在每一个时刻都保障只有一个频段的信号以纯音调制的形式传递给对应电极并产生刺激电流以防止电极间的电流干扰。

2.4 信号基频参数提取及分析

从前面的分析可以看到，经过电子耳蜗CIS言语处理算法处理后的信号在时域波形和频域能量分布上发生了改变。下面进一步分析语音在电子耳蜗算法处理后的基频参数变化，基频参数决定信号的音高，是电子耳蜗言语识别的重要参数。本文用自相关的方法来计算信号基频，经过电子耳蜗CIS言语处理算法处理前后的基频曲线比较如图7所示：

图7 CIS算法处理前后的基频比较Fig.7 Pitch comparison of signal before and after CIS algorithm processing

通过图7中的电子耳蜗CIS言语处理算法处理前后的基频曲线的对比，可以得到信号基频变化的几个特征。首先是处理后信号的基频与原始信号发生失配，并且基频变化呈现不规律性。第二，原始信号的基频曲线较为连续且变化平缓，而CIS算法处理后的信号基频曲线跳跃明显。另外，处理后的信号基频曲线在部分位置发生缺失（如子图a），而在原始信号不存在基频的位置（静音段等位置），CIS算法处理后的信号基频则出现了基频的数据（如子图b和c）。第三，原始信号的基频在每个位置的基频不同，表明信号的基频会随着时间的变化发生变化，而经过CIS算法处理后的信号基频曲线除了跳跃的变化，在不跳跃的部分则是平坦的，平坦的基频曲线表示音调变化信息发生缺失。对于汉语来说，一个音有四个声调，如同样发音‘ba’，在一到四声分别可以对应汉字‘巴’、‘跋’、‘把’、‘爸’。与英语不同，汉语的声调是区分语音含义的重要指标，汉语声调的变化对应信号基频的变化，因此，电子耳蜗CIS言语处理策略会丢失语音的音调信息，会影响基于声调的语音识别。

3 基于CIS的改进方案探讨

3.1 增加频带及其限制分析

由于CIS策略本身把信号划分为不同频带，每一频带的能量用该频带的中心频率来调制，因此会发生失真的现象，原始信号丰富的频率信息转化为若干个频率的信息。从增加信号频率分辨率角度看，增加频带有助于提取信号更精细的信息，并增加波形的匹配性，该方法与目前AB公司所采用的高分辨率策略有类似的地方。但是，滤波器所划分的频带数量是于植入体内的电极阵列对应的，由于耳蜗非常小，增加频带会导致刺激电极的间距非常小。一方面增加刺激电极数对工艺有更高要求，而且过于接近的相邻电极也容易发生刺激电流的泄露和相互干扰，因此目前电子耳蜗中所使用的频带数一般不会超过30，增加频带的方案受到限制。

3.2 采用变化的刺激速率以增加信号基频信息

从前面的分析可以看到，CIS策略会丢失信号的基频信息，基频的失配对汉语等声调语言影响更大。由于不同电极对应了频带的中心频率，因此每个电极的刺激速率是固定的。为了增加基频信息，可通过电极在固定刺激速率基础上以一定范围跟随基频变化，即每个电极在固定范围内以可变刺激速率刺激听神经。可变刺激速率可增加一个变化参数，有助于识别不同声调的汉字，增加言语识别率。但是，可变的电极刺激速率需要工艺和体内刺激电路进行调整，工艺复杂度更高，同时，提取信号基频并融入电子耳蜗言语策略中也会增加算法的复杂度和电子耳蜗电池的功耗。

3.3 低频带单刺激和高频带多刺激策略的方案

CIS策略虽然划分了不同频带，但为了减少电极刺激电流之间的干扰，在特定时刻只有一个电极处于工作状态，即每一个时刻只传递一个频带的信号，这不利于增加信号有效信息。由于电子耳蜗所划分的频带不是等分的，低频划分密，高频划分疏，因此，所对应的低频的相邻两个电极间隔近，高频相邻电极间隔远，因此，可以把信号先划分为低频和高频两段，低频仍采用CIS策略，而高频则采用多刺激的CIS策略，即高频处每一时刻传递多个频带。为了减少刺激电极间的相互干扰，可采用等间隔的方式，例如，高频处采用等间隔双刺激模式，对低频和高频采用不同的刺激策略有助于在增加信号有效信息和减少相邻电极干扰间进行折中选择。

4 结论

随着技术的发展，越来越多的言语处理算法被提出，但就核心算法架构而言，主流的算法核心是基于CIS言语处理策略的。本文深入研究了电子耳蜗CIS言语处理算法的架构并编程实现该算法。通过算法处理实际的信号，分析并探讨了算法处理前后的时域波形、频域谱参数和基频参数等特征，探讨了算法处理后的信号基频变化对汉语识别的影响，并进一步提出了基于CIS的改进方案，为电子耳蜗的国产化的算法研究提供了基础。

[1]GAO X,David B G,Mark D M.Modeling Electrode Place Discrimination in Cochlear Im plant [J].IEEE Journals &Magazines,2017,64(9): 2219-2229.

[2]Meng Q L,Zheng N H,Li X.Loudness Contour Can Influence Mandarin Tone Recognition: Vocoder Simulation and Cochlear Implants [J].IEEE Transactions on Neural Systems and Rehabilitation Engineering,2017,25(6): 641-649.

[3]Lai Y H,Chen F,Wang S S,et al.A Deep Denoising Autoencoder Approach to Improving the Intelligibility of Vocoded Speech in Cochlear Implant Simulation [J].IEEE Transactions on Biomedical Engineering,2017,64(7):1568-1578.

[4]Zeng F G.Tre nds in cochlear implant [J].Trends Amplif,2004,8(1): 1-34.

[5]Chung K,Zeng F G.Using hearing aid adaptive directional microphones to enhance cochlear implant performance [J].Hear Res,2009,250: 27-37.

[6]Chen Y S,Gong Q.Broadband beam forming compensation algorithm in CI front-end acquisition[J].Biomed Eng Online,2013,12: 18.

[7]Zeng F G.Challenges in Improving Cochlear Implant Performance and Accessibility[J].IEEE Transactions on Biomedical Engineering,2017,64(8): 1662-1664.

[8]Psarros C E,Plant K L,Lee K.Conversion from the SPEAK to the ACE s trategy in children us ing the Nucleus 24 cochlear implant system: speech perception and speech production outcomes [J].Ear Hearing,2002,23(18): 18.

[9]Skinner M W,Holder L K,Whitford L A.Speech recognition with the nucleus 24 SPEAK,ACE,and CIS speech coding strategies in newly implanted adults [J].Ear Hearing,2002,23(3): 207-223.

[10]Ziese M,Stutzel A,Specht H.Speech understanding with the CIS and the n-of-m strategy in the MED-EL COMBI 40+system [J].Orl-J Oto-Rhino-Laryngol,2000,62(6):321-329.

[11]Buechner A,Frohne C,Boyle P.A high rate n-of-m speech processing strategy for the first generation Clarion cochlear implant [J].Int J Audiol,2009,48(12): 868-875.

[12]Wilson B S,Lawson D T,Zerbi M.Design and e valuation of a Continuous Interleaved Sampling(CIS) proces sing strategy for multichannel cochlear implants [J].J Rehabil Res Dev,1993,30(1): 110.

[12]Wilson B S,Finley C C,Lawson D T.Better speech recognition with cochlear im plant [J].Nature,1991,352:236-238.

[13]Boex C,Pelizzone M,Montandon P.Speech recognition with a CIS s trategy for the I neraid multichannel cochlear implant [J].Amer J Otology,1996,17(1): 61-68.

[14]Chen Y S,Gong Q.A normalized beamforming algorithm for broadband speech using a continuous interleaved sampling strategy [J].IEEE Trans Audio Speech Lan P,2012,20 (3):868-874.

[15]陈又圣.基于Matlab的电子耳蜗信号采集研究 [J].深圳信息职业技术学院学报,2016,14(3): 6-10.CHEN Yousheng.Research on Matlab based Signal Acquisition for Cochlear Implant [J].Journal of Shenzhen Institute of Information Technology,2016,14(3): 6-10.（in Chinese）

[16]陈又圣,宫琴.基于双TP型麦克风的电子耳蜗前端指向性语音增强系统的研制[J].仪器仪表学报,2010,(9):1952-1958.CHEN Yousheng,GONG Qin.Study on Dual TP Microphone-based Directional Speech Enhancem ent System for Cochlear Implant[J].Chinese Journal of Scientific Instrument,2010,(9): 1952-1958.（in Chinese）

【责任编辑：杨立衡】

Research on Parameter Feature of Continuous Interleaved Sampling Strategy for Cochlear Implant

CHEN Yousheng,WANG Jian,XUE Guowei,ZHANG Pu,CHEN Peipei
（School of Electionic Communication Technology,ShenZhen Institute of Information Technology,Shenzhen 518172,China）

Present main speech processing strategies are filter bank based speech processing algorithm,and most algorithms are based on the algorithm structure of continuous interleaved sampling strategy (CIS algorithm).CIS method uses electrode array to continuously stimulate auditory nerve one by one.At a fixed time,only one electrode are stimulating the auditory nerve,therefore,this algorithm can avoid the current s pread between two electrodes and weaken the algorithm performance.In this paper,we research the algorithm structure of continuous interleaved sampling strategy,and programme the speech processing algorithm.Further,we extract the speech feature and parameter,and research the signal changing feature for CIS algorithm.

cochlear Implant；continuous interleaved sampling strategy；parameter；speech feature

TN912.3,R764

1672-6332（2017）03-0012-07

2017-6-5

深圳科技计划基础研究（No.JCYJ20160415114250896）；广东省自然科学基金博士启动基金（No.2016A030310073）；国家自然科学基金（No.81401539）

陈又圣（1985-），男（汉），讲师，博士，主要研究方向：语音增强，麦克风阵列波束形成，电子耳蜗言语处理，医疗仪器设计。E-mail：chenyoushengtsinghua@aliyun.com