孙 燕,姜占才,潘春花
(1.青海民族大学计算机学院,青海西宁 810007; 2.青海师范大学物理系,青海西宁 810008)
语音自组织特征映射神经网络矢量量化算法
孙 燕1,姜占才2,潘春花1
(1.青海民族大学计算机学院,青海西宁 810007; 2.青海师范大学物理系,青海西宁 810008)
针对数字语音信号分帧提取MFCC参数,MFCC是Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)。Mel频率是基于人耳听觉特性提出的,它与Hz频率呈非线性对应关系,利用它们之间的这种关系,计算得到Hz频谱特征。将每帧的MFCC作为矢量进行自组织特征映射神经网络矢量量化及LBG矢量量化,通过实验对二者进行比较。仿真结果表明,自组织特征映射神经网络矢量量化算法得到的码书比LBG算法具有量化误差小、码本尺寸小的特点,进而可以节省存储空间。实验结果表明,文中方法具有一定的实用性。
LBG算法;自组织特征映射神经网络;MFCC参数;矢量量化
矢量量化是将若干个采样信号构成一组,形成一个矢量,然后对此矢量进行量化。矢量量化可以压缩数据,但也带来了信息的损失。矢量量化需要解决三个问题:码书设计、码字搜索、码字索引分配。矢量量化最本质的核心是码书设计。
码书设计有多种算法,主要分为四类:LBG[1]算法(也叫GLA改进算法);矢量量化算法;由数学理论衍生出的全局优化技术的码书设计算法,如随机场下随机松弛算法、模拟退火算法、遗传算法和指导性搜索算法;由模糊数学作为理论基础的模糊聚类的码书设计算法[2]。
传统的LBG矢量量化是硬聚类算法[3]。该算法可以使量化误差达到最小,并聚类为一个矢量中心集,只能判别为一个类,当聚类的样本尺寸巨大,最终的存储量非常大。自组织特征映射神经网络(Self-Organizing Feature Maps,SOFM)通过对外界输入信号特征的无监督竞争学习,自组织形成不同的区域,不需要目标输出,网络根据提供的学习样本自学习,由输入样本的特性自组织映射,对输入样本进行排序和分类,从而形成码书。由SOFM形成的码书不仅对初始码书不敏感,还因为使用了邻域概念保证收敛到全局最优,是一种可行的矢量量化算法。
LBG算法是传统算法。它是一种基于初始码书的迭代算法。具体步骤如下:
步骤 1:给定初始码书为 C(0)={,,…,},令迭代次数的初始值n=0。在给定的平均失真→∞ 下,其下降阈值为ε(0<ε<1)。
步骤2:训练矢量集X根据最优划分原则将初始码书中的码字C(n)作为质心,划分矢量集为N个胞腔R(n)={,,…,}。其中,满足= {v|d(v)=d(v),v∈X}。
步骤3:计算平均失真。
步骤4:根据矢量量化误差达到最小的矢量中心集条件,计算各胞腔的质心。由这N个新质心y(n+1)j,j=0,1,…,N-1形成新码书C(n+1),置n=n+1,转步骤2,直到≤ ε停止计算。
自组织特征映射(Self-Organizing Feature Maps)神经网络[4-7]是一种竞争性神经网络,是由芬兰学者Kohonen提出的。基本思想是:对一个一个神经网络提供学习样本,神经网络自动学习,将学习样本根据不同的响应特性分成不同区域,神经网络完成自动的分类和排序。它一般是由输入层和竞争层构成的网络,输入层由k个输入神经元组成,竞争层由N个输出神经元组成,输入层和竞争层的各个神经元实现全互连接。
SOFM神经网络的算法如下:
步骤1:对输入层建立初始优胜邻域Nj*(0);它的学习率η=0;总的迭代次数为T,并将小随机数赋予输出层的各权向量之后进行归一化处理,得到w^(j),j =1,2,…,m。
步骤2:输入层随机选取一个输入模式并进行归一化处理,得到X^(p),p∈{1,2,…,P}。
步骤3:搜索最优节点计算X^(p)与w^(j)的点积,j= 1,2,…,m,从中选出点积最大的最优节点j*。
步骤4:以优胜邻域Nj*(t)的j*为中心,确定t时刻的权值调整邻域范围。一般情况下初始邻域Nj*(0)较大,在训练过程中Nj*(t)随训练时间t逐渐缩小。
步骤5:利用式(2)对Nj*(t)内的所有节点进行权值调整:
其中,η(t,N)是在训练时间t时刻,邻域内第j个神经元与获胜神经元j*之间的拓扑距离为N的函数。
步骤6:令t=t+1,返回步骤2,直到t=T为止。
根据SOFM理论,将语音进行SOFM量化,流程见图1。
语音SOFM矢量量化原理是将原始的一段语音进行预处理分帧,为了增加帧与帧之间的连续性,经过海明窗将语音信号经过快速傅里叶变换到频域,再经过20个三角带通滤波器得到平滑的消除谐波的突显语音共振峰的对数能量,带入离散余弦变换的对数得到MFCC参数,进入到SOFM创建的网络训练得到聚类结果,SOFM创建网络可调用相应的函数完成,即得到语音SOFM矢量量化的码本。
相同点:SOFM[8-9]和LBG都是从某个区域内获得最佳质心,从码书设计对比二者是等价的。
不同点:分类发生的地方不同;由训练矢量学习的特征传递给码书的方式不同。LBG算法主要是将输入矢量聚类为新质心作为下次迭代开始的码书[10]。SOFM是通过更新特征域码书矢量,将邻域内的矢量更新作为新码书,对初始码书不敏感[11-12]。
LBG算法有3个主要缺点:
(1)由此算法得出的码书自适应性差,初始码书没有随机性;
(2)迭代的区域划分过程,搜索算法和求最近码字距离的时间复杂度和空间复杂度很大;
(3)初始码书的选择影响算法的收敛速度和最终码书的性能。
而SOFM在更新码书时使用了邻域概念[12],避免了LBG算法存在的缺点。
文中的初始矢量码本[13-14]是在实验室条件下录制的语音经过分帧、海明窗、快速FFT变换、三角带通滤波器、对数、离散余弦变换六步得到的MFCC参数,其码本尺寸为20×622。其中,码本的大小和选择的语音大小,每帧的帧长,及带通滤波器的个数有关[15]。
实验中语料为短诗;数字语音的各种参数为采样率8 kHz、PCM编码;分帧提取语音MFCC参数,毎帧的MFCC参数即为一矢量,建立大小为20×622的码本训练样本集。
利用模糊聚类确定区域边界中心改进LBG算法对语音参数MFCC矢量量化进行仿真实验。
仿真结果如图2~5所示。其中,图2是原始语音;图3是MFCC参数按每2行所有列画出的空间分布图;图4是神经网络每个类别自组织形成的个数;图5是训练后网络权值分布图。用这个权值作为矢量量化的结果,码本大小为20×30,可以看到由SOFM训练的码本尺寸大大缩减了。
6.1 编码失真
通常可以用峰值信噪比(PSNR)来描述矢量量化的编码失真。它是原失真测度与被处理失真测度之间的均方误差相对于(2n-1)2的对数值,PSNR值越大,就代表失真越少。PSNR定义如下:
其中,MSE是均方误差。
6.2 实验数据
表1给出了仿真实验在迭代过程中LBG算法和SOFM算法的PSNR比较。
通过表1可知,SOFM比LBG的PSNR还要高,比传统LBG算法的量化误差小、码本尺寸小,SOFM较传统LBG算法具有更好的性能。
针对数字语音信号分帧提取MFCC参数,将每帧的MFCC作为矢量进行自组织特征映射神经网络矢量量化及LBG矢量量化。仿真实验结果表明,自组织特征映射神经网络矢量量化算法得到的码书比LBG算法具有量化误差小、码本尺寸小的特点,进而减少了存储量,具有一定的实用性。
[1] Linde Y,Buzo A,Gray R M.An algorithm for vector quantizerdesign[J].IEEE Transactions on Communications,1980,28 (1):84-95.
[2] 孙圣和,陆哲明.矢量量化技术及应用[M].北京:科学出版社,2002.
[3] Shen F,Hasegawa O.An adaptive incremental LBG for vector quantization[J].Neural Networks,2006,19:694-704.
[4] Hagan M T,Demuth H B.神经网络设计[M].戴 葵,译.北京:机械工业出版社,2002.
[5] Amerijckx C,Legaty J D,Verle-Ysen M.Image compression using self organizing maps[J].Systems Analysis Model Simulation,2003,43(11):1529-1543.
[6] Seo S,Oberayer K.Self organizing maps and clustering methods for matrix data[J].Neural Networks,2004,17:1211-1230.
[7] Lau K W,Yin H,Hubbard S.Kernel self-organizing maps for classification[J].Neurocomputing,2006,69:2033-2040.
[8] McAulie J D,Atlas L E,Rivera C.A comparison of the LBG algorithm and Kohonen neural network paradigm for image vector quantization[C]//Proc of ICASSP.[s.l.]:[s.n.],1990:2293-2296.
[9] Nasrabadi N M,King R A.Image coding using vector quantization:a review[J].IEEE Transactions on Communications,1988,36(8):957-971.
[10]Lancini R,Tubaro S.Adaptive vector quantization for picture coding using neural networks[J].IEEE Transactions on Communications,1995,43(2):534-544.
[11]王茂芝,徐文皙.LBG算法对初始码书敏感的实验性能分析[J].物探化探计算技术,2004,26(4):375-378.
[12]Huang H,Chen S H.Fast encoding algorithm for VQ-based image coding[J].Electronics Letters,1990,26:1618-1619.
[13]Ra S W,Kim J K.A fast mean-distance-ordered partial codebook search algorithm for image vector quantization[J].IEEE Transactions on Circuits and Systems-II:Analog and Digital Signal Processing,1993,40(9):576-579.
[14]Chang C C,Chang R F,Lee W T,et al.Fast algorithms for vector quantization[J].Journal of Information Science and Engineering,1996,12(4):593-602.
[15] Chang C C,Lee W T,Chen T S.Two improved codebook search methods of vector quantization based on orthogonal checking and fixed range search[J].Journal of Electronic Imaging Representation,1997,8(1):27-37.
A Speech Vector-quantization Algorithm of Self-organizing Feature Maps Neural Network
SUN Yan1,JIANG Zhan-cai2,PAN Chun-hua1
(1.Computer Department of Qinghai University for Nationalities,Xining 810007,China; 2.Department of Physics,Qinghai Normal University,Xining 810008,China)
MFCC parameter is extracted from digital speech frame,and MFCC is Mel Frequency Cepstrum Coefficients.Mel frequency is proposed based on human auditory characteristics,and it reflects nonlinear relationship with Hz frequency.The Hz frequency spectrum characteristics is calculated by their relationship.The MFCC of each frame is taken as vector for vector quantization of self-organizing feature maps neural network and LBG,and they are compared by experiment.Simulation shows that the self-organizing feature maps neural network algorithm has smaller quantization error and code size than LBG algorithm,saving the space of memory.The experiment demonstrates the method is feasible.
LBG algorithm;SOFMNN;MFCC;VQ
TP391
A
1673-629X(2016)09-0175-03
10.3969/j.issn.1673-629X.2016.09.039
2015-04-30
2015-08-12< class="emphasis_bold">网络出版时间:
时间:2016-08-23
青海省自然科学基金(2013-Z-920)
孙 燕(1973-),女,副教授,硕士,研究方向为语音处理和语音编码。
http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1343.020.html