刘双君, 金小峰, 崔荣一
( 延边大学工学院 计算机科学与技术学科 智能信息处理研究室, 吉林 延吉 133002 )
原始的音频数据是一个非语义符号表示的无结构化的数据流,缺乏内容语义的描述和结构化的组织,因而音频分析受到极大的限制[1].相似性度量是基于内容的多媒体检索技术的关键步骤之一[2].对声音相似性度量方法而言,其面临的主要困难之一是呈现手段的匮乏,这与声音的主观性特点密切相关;同时,以帧为单位提取的单个特征向量也不能完全反映声音片段之间的相似性关系[3].Subramanya等人[4]直接针对音频样本的二值图像进行了分割处理,这种方法虽然简单直观,但由于采样率、量化位和时长等因素,并不具备实用性.Foote[5]利用可视化方法对音频的时间结构进行了分析,以寻找音乐中的自相似特点,如提取鼓点的节奏,发现旋律重复的特点.研究[6]表明,音乐检索中基频作为语音旋律的一个重要特点,将其按照上升、平稳、下降的变化将语音转化为一个三元化的音符序列,也有较好的表现.
本文首先将语音分帧后提取MFCC参数[7],并将n段语音的MFCC参数进行聚类,然后将其中每一段语音的每一帧进行分类,并将其映射成一个相应的字符;n段语音相应转化为n个字符串后,计算每两段字符串的编辑距离,即每两段语音之间的相异性,从而得出其相似性.
不同的人说的同一段话其信息是一样的,因此可以假设:相同内容的语音信号应该归于同一类中,不同内容的语音信号归于不同的类中.进一步可延伸为,相同内容的语音信号映射为同一个赋予特定含义的抽象字符串,不同内容的语音信号映射为不同的字符串,这样每段语音信号就可以用一个字符串表示.
如果要将语音信号映射成一个字符串,首先应该将语音信号分为m类,即映射后的字符串由m个基本字符构成;因此,本文将提取的MFCC参数(符合人耳的听觉特性)采用k均值聚类[8]的方法进行聚类,得到m个互不重叠的类空间.聚类算法如下:
1) 指定簇数目m,以及簇中心的初值和结束条件.簇中心的初值为样本空间的前m个数据,结束条件为迭代N(N=1 000)次内两次迭代的簇中心的差值不超过阈值T(T=0.01)或者迭代次数达到N;
2)采用欧氏距离计算相似性,计算样本空间中各样本与簇中心的距离,距离最小的样本划归同类;
3)重新计算每个类的簇中心,得到m个新的簇中心;
4)判断是否满足步骤1)中的结束条件,若满足条件则结束,得到m个簇中心,否则执行步骤2).
得到m个簇中心后,采用KNN算法[9]对语音进行分类,即将一段语音映射为一个字符串.首先,计算样本空间中每个样本与每个簇中心的距离(本文采用欧式距离);然后,找出样本空间中每个样本与m个簇中心距离的最小值,再将此样本与此簇中心归为同一类,并映射为同一个字符;最后,得到每一段语音所对应的字符串.
用上述方法将每段语音映射成一个字符串后,语音文件之间的相似性度量就转换为字符串之间的相似性度量.编辑距离则是字符串相似性度量的一个经典算法,为了说明本文方法的有效性,将其与直接采用MFCC进行语音相似性度量的方法进行比较.
编辑距离(Levenshtein distance)[10]由Levenshtein于1966年提出,是指由字符串S变化到目标字符串T所需要的最小编辑操作的次数.这里所指的编辑操作是指对字符串的某一个位置的字符进行删除、插入、替换的操作,如字符串“kitten”与“sitting”的编辑距离为3,计算过程中发生了2次替换和1次插入操作.为了便于对比多对字符串之间的相似程度,本文将一对字符串的编辑距离与该字符串对中最长的字符串长度相除后的距离作为本文的编辑距离,如“kitten”与“sitting”之间的编辑距离为3/7.
图1为2个人的8段语音信号,其中(a)与(e)、(b)与(f)、(c)与(g)、(d)与(h)的语音内容相同,(a)、(b)、(c)、(d)是第1个人的语音,(e)、(f)、(g)、(h)是第2个人的语音.将上述8段语音采用本文提出的帧语音符号化后,计算编辑距离得到的结果见表1.表1表明,相同内容的语音段间的编辑距离较小,因此验证了本文所提出方法的可行性.
图1 不同的语音信号
表1 语音间的编辑距离
经典的语音相似性度量方法是直接采用符合人耳听觉特性的MFCC参数,但由于语音段长度的不同会导致提取到的MFCC参数的维度不同,因此需要采用DTW算法[11]度量它们之间的相似性.表2是图1中各语音段间的MFCC参数之间的DTW距离.由表2可知,相同内容语音间的差异较小,不同内容语音间的差异较大.
表2 语音间的DTW距离
首先将语音中的静音部分(此时无人说话)去除,分帧后提取MFCC参数,并对n段语音的MFCC参数进行聚类;然后将其中每一段语音的每一帧数据进行分类,并将其映射成一个相应的字符,n段语音相应转化为n个字符串;最后计算每两个字符串的编辑距离,可得出每两段语音之间的相似性.处理过程如图2所示.
图2 语音相似性分析流程图
为验证本文方法的有效性,设计了3组实验,实验的语音数据由SONY公司生产的PCM-D50线性录音棒录制,采样频率均为44.1 kHz.
在语音帧符号化前的聚类阶段,初始的簇数目将对后续的分类结果产生重要的影响,因为它决定了一组音频数据符号化后由几个基本字符构成.簇数目的确定还没有可靠的理论依据,目前只能通过实验来确定最佳的簇数目.
表3表示在簇数目为16、15、14时,分别进行19次实验所获得的错误识别率.第1至第10次实验的数据是不同的人说相同内容时所获得的,第11至第19次实验的数据是相同的人分两次说相同内容时获得的.从表中可以看出,在聚类数目为15时,其错误率较小,因此,在本文实验中确定聚类数目m=15;第11至第19次的实验结果要好于第1至第10次的实验结果,这说明由于不同的人可能来自不同的地方,其特有的地方口音会对实验结果产生影响.
为了验证本文方法的有效性,将上述采集的19组语音数据分别与DTW方法进行对比实验.表4为使用DTW方法和本文方法产生的错误率.由表4可知,本文方法的平均错误率为14.47%,DTW方法的平均错误率为21.05%,由此表明本文方法效果要优于传统方法.
表3 不同聚类数目下各次实验的错误率
表4 本文方法与DTW方法的错误率
为了进一步说明本文方法的优越性,本文引入可区分性度量函数H(x).H(x)是对一组数据中的某一个数据与此组数据相似性的一个评价,其公式为
(1)
其中X为任一组数据,x为此组数据的任一元素,H(x)越大说明此元素在此组中的可区分性越好.图3是本文方法和DTW方法的可区分性比较示意图,其中横轴为实验的次数,纵轴表示每次实验后两种方法最差的可区分性度量.由图3可看出,本文方法的可区分性较好.
图3 可区分性比较
针对音频的相似性度量,本文提出了一种将音频符号化后再计算其相似性的方法.通过将语音符号化后,使许多单纯的数值表示的语音信号抽象化为由一系列基本字符表示的字符串,简化了相似性的度量运算,并且符号化后的语音信号之间的相似性度量方法的准确率也高于传统的DTW方法.如何结合其他的语音特征提高算法的鲁棒性,降低不同口音带来的影响,提高识别率是本文今后进一步的研究工作.
参考文献:
[1] 张自强.基于内容的音频匹配研究[D].上海:华东师范大学,2012.
[2] 李丙洋.基于音频内容的多媒体文件相似性快速比对研究[D].哈尔滨:哈尔滨工业大学,2013.
[3] 李超,熊璋,朱成军.基于距离相关图的音频相似性度量方法[J].北京航空航天大学学报,2006,32(2):224-227.
[4] Subramanya S, Abdou Y. Segmentation of audio data based on the binary images of the audio samples[C]//In: Proc of Inter Conference on Intelligent Systems. Denver: ISCA, 1999:137-141.
[5] Foote J. Automatic audio segmentation using a measure of audio novelty[C]//In: Proc of ICME 2000. NY: IEEE, 2000:452-455.
[6] 曹文晓.哼唱检索中基于分段信息的匹配算法研究[D].北京:清华大学,2010.
[7] Skowronski M D, Harris J G. Increased MFCC filter bandwidth for noise-robust phoneme recognition[C]//In:IEEE International Conference on Acoustics, Speech, and Signal Processing. Florida: IEEE, 2002:801-804.
[8] 蔡碧野,吴一帆,谢中科,等.数据挖掘中聚类的研究[J].计算机工程与应用,2003,17(2):39-42.
[9] 孙岩,吕世聘,王秀坤,等.基于结构学习的KNN分类算法[J].计算机科学,2007,34(12):184-187.
[10] Levenshtein V L. Binary codes capable of correcting deletions, insertions and reversals[J]. Doklady Akademii Nauk SSSR, 1966,163(4):707-710.
[11] Itakura F. Minimum prediction residual principle applied to speech recognition[C]//In: IEEE Trans Acoustics, Speech, and Signal Proc. IEEE: 1975,23(1):67-72.