王鑫?张健 张洋 王玮
摘要:本文主要定义一种卫星终端使用的基带声码器软核实现的设计,用于卫星终端基带集成语音编解码软核功能的设计与开发参考,提升卫星基带模组的高集成能力,为低功耗小型化手持卫星终端开发提供帮助。针对卫星通信系统常用的MELP语音编码器,设计包括多速率话音编解码器、话音激活检测、抵抗误码传输的软声码器。为开发人员提供实现条件和技术原理指导。
关键词:基带声码器,多速率语音,话音激活,抵抗误码
一、引言
卫星通信的话音,采用的混合激励线性预测(MELP)语音压缩编码,通常具有2.4Kbps和4.8Kbps两种话音编解码方案。该压缩编码采用MELP算法,对重建的语音信号采用常见的多带处理方式,并运用线性预测谱来估计语音信号中的包络。目前,这种编解码方式广泛应用在国外的铱星、海事卫星等提供话音服务的卫星通信系统中,国内也有按照这一标准建设的卫星系统。卫星链路的特点是功率受限和易受干扰,要求具备话音激活检测和抵抗误码传输的能力。设计的多速率语音编码器是一个单独的综合语音编解码器,具备2.4Kbps和4.8Kbps两种源编码速率以及一种低速率背景噪声编码模式[1]。针对卫星通信系统功率受限和不可靠传输的特点,设计了通过产生舒适噪声进行不连续传输的话音激活检测方案,以及通过差错隐藏来应对丢包影响的抵抗误码传输方案。基于MELP算法的软声码器采用线性预测混合激励模型,使用随机噪声信号来表示清音激励,对浊音激励采用谐波信号来表示。该软声码器通过提取线谱频率、基音周期、增益、清浊音信息和傅立叶幅度等五类参数,并使用软件算法来实现话音编解码方案。
二、软声码器组成原理
基带一般采用RTOS系统,对实时性要求较高,为了避免有效进程进入拥塞状态,声码器嵌入在编码和解码两个任务子线程中,因此需要为编解码的软实现准备独立的任务线程。多速率话音编解码器包括2.4Kbps和4.8Kbps两个速率,由于两种速率在同一时刻不可能同时存在,因此编码和解码不需要为不同速率创建任务。另外,声码器的两档编解码速率配置具有接近的编解码效率和相似资源占用情况。话音激活检测对于实现话音业务低功耗和降低卫星功率占用至关重要,本设计定义了话音端点检测(Voice Activity Detection,VAD)、舒适噪声产生(Comfort Noise Generation,CNG)、静音描述帧(Silence Descriptor frame,SID帧)。这些组成部分共同用于判断话音是否存在、生成背景舒适噪声,并在静音时传输对应的静音描述帧,以实现低功耗传输和卫星资源的有效利用。
抵抗误码传输是声码器性能提升的关键,本设计定义了清浊音判决(Voiced/Unvoiced V/UV)、自适应谱增强(Adaptive Spectral Enhancement以及线性预测编码(Linear Prediction Coding)[2]。这些组成部分用于改善信号质量、提高抗干扰能力,并在受到误码传输的情况下进行差错隐藏,从而降低传输误码对语音质量的影响。
(一)谐波激励线性预测
采用谐波激励线性预测,改进包括:清音成分采用随机噪声,浊音成分采用谐波激励源,对激励源采用多带混合激励模型,对声道采用线性预测系数描述,实现一种基于线性预测编码的语音编码模型。
(二)话音端点检测
话音端点检测:确定的方法是通过将当前输入信号的幅度和频谱特征与设定的幅度和频谱特征相比较所得,实现将一小段语音信号分为“语音”或“背景噪声”的方法。
(三)舒适噪声
舒适噪声产生:在接收中断时,在接收端合成低幅度噪声的方法。其目的是为了增加语音的听觉感知质量。合成噪声具有当前发送端背景噪声的特点。以提供一种更加自然的听觉体验。
(四)话音帧
话音帧(Frame):指将语音信号分割成连续的固定时长的数据段,用于声码器的编码和解码过程。帧数据由模型参数量化为比特流,并送给FEC进行进一步信道编码。同时,话音帧也是声码器完成一次编码或译码的基本单位,经过编码或译码后,输出的结果是一段连续的重构语音数据。
静音描述帧(SID):是一种特殊的帧,它不包含有效的话音数据,而只包含舒适噪声数据的帧。与正常的话音帧不同,在SID帧中没有话音或是音调数据。通常在语音通信系统中,SID帧被用于表示静音或非语音段。
三、编解码
(一)语音编码
编码器采用分帧处理的方法分析语音参数,按照8Khz的采样,16Bits的位宽来估算,分析后设置帧长为20Ms(在8KHz的采样率下每帧160个采样点)[3]。编码器参数分析框图如图1所示。
(二)语音解码
对接收码流进行译碼的过程。通过反量化过程,得到线性预测系数、基音周期、子带清浊音判决、增益和傅立叶幅度参数等信息。当没有语音时,它就不被传输,这就导致了背景噪声的不连续性,由于不连续接收切换的速率非常迅速,这种不连续会使收听者感觉很不舒服,尤其在强背景噪声情况下,这种感觉尤为明显。最坏的情况就是语音难以理解。为了克服这个问题,舒适背景噪声生成技术被提出[4]。
语音编解码功能通过软核集成在基带模块中,除了完成语音编解码任务外,还具备了不连续传输、话音激活检测、舒适噪声、帧替代和静默处理等一整套处理功能。话音激活是在卫星通信方面必需的要求,它能够降低载荷资源占用和提高用户话音接入量,同时还能减少终端话音过程的发送占空比,显著降低终端业务功耗。这个功能在手持小型化终端中特别实用。
四、处理流程和支持特性
(一)混合激励
混合激励算法框图如下图所示。对接收码流进行译码,并通过反量化得到线性预测系数、基音周期、子带清浊音判决、增益和傅立叶幅度参数。用这些参数来合成语音。
在一段正常的电话通话中,讲话者互相转换,因此,平均意义上,每个传递的方向将约占据50%的时间。本算法采用谐波信号和噪声信号混合形成激励信号,去激励合成滤波器得到合成语音。
(二)软核声码器处理过程
经隔直滤波和采样之后,从原始语音输入信号获取目标信号。在解码过程中,首先对经过编码的帧数据接收、存储、解包和排序,然后输入到事先设计好的解码端。解码端采用混合激励线性预测编码算法,根据话音激活信号检测和自身抗干扰要求,通过混合激励信号的生成、自适应谱增强、线性预测合成等多项技术重构语音信号。在接收到非正常语音帧时,在接收端产生舒适噪声,以避免产生杂音和尖锐的噪声,在发送端,增加了话音激活检测单元和背景噪声评估单元,以便将特性参数传递至接收端,实现不连续传输操作。在规定的区间内,通过静音指示帧将舒适噪声信息传递至接收端。解码端的译码原理框图如图4所示。
输入信號首先经过预处理。对采样后的语音信号通过一个截止频率为60Hz的高通滤波器进行处理,以去除直流成分和50Hz的工频干扰。并进行高频提升[3],经过处理后的所得信号将作为后面处理的输入信号。对所有合成的参数做基音同步内插处理。线性预测分析每帧进行一次,分析窗长为200个样点,采用汉明窗[4]。分析窗的中点位于当前帧的中心位置,通过分析得到10个线性预测系数。
解码端参数插值也用线谱频率参数进行,然后再转化成预测系数,构成合成滤波器,用于语音合成。线性预测分析和合成滤波器都采用10阶线性滤波器。解码器通过从上述处理过数据中恢复出所有帧的参数,并判断此帧是否为比较安静的语音帧,如果是静音帧或者较为安静的语音帧,则增加对接触的两个子帧增益进行噪声衰减,同时改变噪声估计的值[4]。由于声道与声门激励互相作用,这会产生基音分析的倍频或者半频错误。因此,在计算基音估计函数之前,应尽量使谱幅度平坦化。所有这些处理都是通过软件算法实现的。
(三)软核声码器支持特性
1.不连续传输
在一段正常的电话通话中,讲话者会互相转换,因此,平均意义上每个传递的方向将约占据50%的时间。不连续传输是一种能够使得语音编码器以比正常编码更低的比特率编码背景噪声的操作模式。模式能够以比正常编码更低的比特率编码背景噪声。卫星空口无线网络将自适应改变其传输方案以便充分利用这种变化的比特率,这可能是为了达到以下两个目的:延长卫星通信用户终端的电池寿命,或者在一个操作时间内使用小容量电池;降低平均需要的比特率,使得在降低负载的情况下能够更有效地传输,从而提高卫星通信系统的容量,缓解卫星载荷功率受限的问题。
2.话音激活检测
在通话过程中,话音是随时触发的过程。语音编码器中的话音激活检测是其中的一部分,它接收输入语音本身以及一些编码器生成的参数。通过使用这些信息来判决语音编码器输入帧是否包含语音信号,并输出一个标志指示当前帧是否为语音。
3.舒适噪声产生
在通话过程的静默状态下,当不存在语音信号时,解码器的合成操作与接收到正常语音帧不同。通过接收到的非语音参数来合成人工噪声,这称之为舒适噪声再生。通过软件算法合成的人工噪声,使得在通话过程中的沉默与声音之间的过渡更加平滑,不会显得突兀。
4.丢失帧的替代与隐藏
卫星信道的特殊性,丢包、误码和错帧是随时发生的情况,在接收端,由于传递错误或者帧遗失,语音帧可能会丢失。为了隐藏孤立丢失帧的影响,基于前一个接收帧预测到的一个帧会被用来代替丢失的帧。当有多个连续帧丢失时,就会进行消除操作以便向接收端用户指示传递受到中断。
五、结束语
卫星移动通信终端正在朝着小型化、芯片化的方向发展,低功耗和高处理效率是卫星基带芯片的迫切需求。目前,卫星移动通信的终端厂家越来越多,基带芯片对外接口的完备程度越来越高,标准化的设计和更高的集成度直接影响终端开发者的效率和终端产品的竞争力。本文提出了一种适用的卫星移动通信基带软声码器设计,将符合卫星通信特点的声码器处理,通过软核的方式集成于基带处理中。该方案具有用户应用灵活、集成度高、实现成本低等特点,对卫星通信专用声码器和集成处理研究具有一定的推动作用。
参 考 文 献
[1] 肖玉娟,赵利. 基于MELP的变速率分类型语音编码算法[J]. 电声技术,2013,37(2):54-57.
[2] European Telecommunication Standards Institute.3GPP TS 26.092 version 11.0.0,Adaptive Multi-Rate(AMR)speech codec; Comfort noise aspects (Release 11)[S]. European: ETSI,2012
[3]李强,高齐峰,席海峰.基于E-Model的VoIP语音质量测量的研究[J].重庆邮电大学学报(自然科学版),2010,22(6):724-728.
[4]李强,谢虹恩. 改进的基于MELP的非连续传输语音编码算法[J]. 重庆邮电大学学报(自然科学版),2014,26(5):636-641.
王鑫(1984.03-),男,汉族,山东莱州,硕士,高级工程师,研究方向:卫星通信方向。