TL—CNN—GAP模型下的小样本声纹识别方法研究

2018-11-26 09:33丁冬兵
电脑知识与技术 2018年24期
关键词:声纹识别迁移学习卷积神经网络

丁冬兵

摘要:为提高小样本声纹识别效率,该文提出了一种TL-CNN-GAP网络模型下的小样本声纹识别方法。该方法利用源数据集预训练卷积神经网络(Convolutional Neural Network ,CNN),将训练好的卷积层与降采样层用迁移学习(Transfer learning,TL)的方法迁移到小样本的目标集上,最后用全局平均池化层(Global Average Pooling ,GAP)替换重训练CNN中的全连接层(Fully Connected layers,FC)。这样不仅减少了小样本声纹识别模型的训练时间,而且相比传统的声纹识别模型的识别率有着显著地提高。此外,为了解决在实际运用中声纹训练样本不足的问题,该文采用了一种凸透镜成像的图像增多的算法,根据凸透镜成像原理,通过改变光谱图的大小,从而获得更多的训练数据。实验中采取含有 630人的TIMIT语音数据库与实验室自建的40人语音库作为小样本声纹数据集进行训练、验证和测试。实验表明,与原网络相比,用GAP替代CNN中的全连接层的方法,使其重训练时间缩短了32.5%,该模型与传统的GMM、GMM-UBM和GMM-SVM网络模型相比,声纹识别率有效地提高了3.3%—9.1%,为小样本声纹识别提供了一种切实可行的方法。

关键词:卷积神经网络;全局平均池化;小样本;图像增多算法;迁移学习;声纹识别

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)24-0177-02

生物特征是每个人固有的特征,具有唯一性和稳定性。对于人类来说,生物特征是多种多样的,大致可分为两类,主要包括生理特征和行为特征。生理特征主要包含指纹、掌纹、人脸、DNA、视网膜、虹膜与血管纹路等。行为特征主要包含声纹、心跳、步态、签名等。本文主要介绍的是对声纹识别技术[1]的运用,声纹识别技术作为仅次于指纹和掌纹的第三大生物识别技术,在识别领域有广泛的研究和应用。声纹识别技术在识别领域的市场份额占有率大约为16%,并且有逐年上升的趋势。随着信息处理技术的发展与完善,声纹识别技术在司法领域、医疗领域、军事安全领域、金融领域等都得到了广泛的应用。例如,在司法领域,警察可以通过声纹来确定嫌疑人身份;在医疗领域,医生可以通过声纹来判断病人是否患有某些疾病;在军事安全领域,声纹可以识别军官或士兵的身份;在金融领域,声纹识别技术同样可以确认用户的身份。综上所述,正是因为声纹识别技术有着简单、方便、经济、安全等优点,所以受到了国内外专家的高度重视,并取得了许多研究成果。因此,研究高效率的声纹识别技术有着重要的现实意义和价值。

在声纹识别领域,当科研人员对语音进行分析预测时,往往会面临缺少样本数据的问题。目前,一个较为完善的声纹识别系统,通常是科研人员用数十万乃至数百万个网络参数对卷积神经网络[2]进行训练,才能得到一个相对完整的声纹识别模型。基于大样本模型下的声纹识别,虽然极大提高了声纹识别的准确度,但是这种情况会花费大量的人力物力,从长远的经济效益来看并不划算。在这种背景下,国内外学者对于小样本[3]问题的研究就应运而生。然而,科研人员在小样本的条件下,并不能有效地对声纹识别的实验结果进行评估与分析。对于这些问题,本文采用了一种基于凸透镜成像的图像增多的算法[4],并且将训练好的卷积层与降采样层迁移过来,用GAP替代CNN中的全连接层,从而构成了一个新的网络模型。

1理论模型

对于本文所采用的卷积神经网络模型下的小样本声纹识别方法,其TL-CNN-GAP模型流程图如图1所示。

1.1原始语音信号的预处理

语音信号是一种非平稳的时变信号,其携带着丰富的特征信息。对语音信号的预处理是声纹识别技术的关键环节,是一项必不可少的过程,直接关系到识别率的好坏。预处理主要是对原始语音信号进行分析,通常采用的方法是“短时平稳技术”。 对一段原始语音信号进行预处理,绘制成语谱图 (即二维图)。

1.2迁移学习与重训练

迁移学习是一种全新的机器学习方法,它主要是运用已存在的知识解决不同但相关领域的问题,它能准确、快速地对相似问题进行求解。本文将预训练的CNN模型中的卷积层与降采样层迁移到小样本目标声纹数据集上,用小样本进行重训练,同时用全局平均池化层(GAP)去替换CNN网络的全连接层,这样就构成了一个新的网络模型TL-CNN-GAP。

传统的卷积神经网络最后一层都是全连接层,在整个卷积神经网络模型中,它的作用是對特征信息进行分类。然而,全连接层有一个非常明显的缺点就是参数的数据量过大,在整个CNN模型中,全连接层占用了大部分的参数。由于参数量过大,一方面增加了训练以及测试卷积神经网络模型的计算量,需要消耗大量时间,降低了计算速度;另外一方面参数量过大容易出现过拟合(例如Alexnet)。

因此,本文提出采用全局平均池化替代全连接层的方法。与传统FC相比,GAP有很大的不同,GAP是对每一个特征图的整张图片都进行了全局平均池化,于是每张特征图都可以产生一个输出。采用全局平均池化的方法,能够极大地减小网络参数,可以有效防止过拟合。此外,它还有一个重要的特点,每张特征图相当于一个输出特征,因此这个特征就可以表示输出类的特征。

2 实验结果与分析

对于本实验提出的一种适用于小样本声纹识别的方法,本文先将TIMIT数据库作为预训练集来训练CNN网络,预训练集的样本容量约31500。迁移模型后再从自建语音库选取30人的小目标声纹数据(人均50张语谱图)作为训练集(样本容量为1500)来验证下述第四种方案的有效性。从上述30人中任选10人(人均50张语谱图,样本容量为500)作为测试集,按以下四种方案做对比实验。

方案一:用上述小目标声纹数据分别去训练和测试常用于语音识别的GMM、GMM-SVM、GMM-UBM模型。

方案二:仅用小目标声纹数据去训练传统CNN-GAP网络。

方案三:用大样本声纹数据TIMIT预训练传统CNN网络;然后将训练好的模型迁移到目标集中,用小样本声纹数据进行训练和测试。

方案四:用大样本声纹数据预训练CNN网络,迁移模型到小目标集中,将全连接层替换为全局平均池化层,再用小样本声纹数据进行重训练和测试。

实验结果表明:四种方案在相同的小样本训练样本容量下,CNN-GAP网络模型由于训练样本参数严重不足,导致识别率较低,而经过迁移学习后,TL-CNN-GAP模型的识别率最高。

3 结论

本文提出的一种TL-CNN-GAP模型下的小样本声纹识别方法,用大样本参数预训练CNN网络模型,将模型迁移到小目标集中。此外,将目标集小样本声纹信号所对应的语谱图通过基于凸透镜成像的图像增多算法增加了样本容量,同时用全局平均池化层替代了全连接层。与传统的CNN模型相比,TL-CNN-GAP模型减少了网络训练参数,极大地缩短了网络训练时间,提高了声纹识别率。

参考文献:

[1] 陈联武,郭武,戴礼荣.声纹识别中合成语音的鲁棒性[J].模式识别与人工智能,2011,24(6):743-747.

[2] 刘万军,梁雪剑,曲海成.不同池化模型的卷积神经网络学习性能研究[J].中国图象图形学报,2016,21(9):1178-1190.

【通联编辑:光文玲】

猜你喜欢
声纹识别迁移学习卷积神经网络
基于i—vector声纹识别上课点名系统的设计与实现
奇异值分解与移移学习在电机故障诊断中的应用
基于深度卷积神经网络的物体识别算法
大数据环境下基于迁移学习的人体检测性能提升方法