基于迁移学习优化的DCNN语音识别技术

2020-09-21 08:48张安安邓芳明
现代电子技术 2020年17期
关键词:迁移学习语音识别

张安安 邓芳明

摘  要: 针对现有语音识别技术识别精准度低的问题,提出一种基于深度卷积神经网络算法与迁移学习相结合的语音识别技术。由于深度卷积神经网络应用范围有限,当输入输出参数发生变化时,需要重新开始构建,体系结构训练时间过长,因此,采用迁移学习方法有利于降低数据集规模。仿真实验结果表明,迁移学习不仅适用于源数据集与迁移问题的目标数据集比较,而且也适用于两种不同数据集情况,小数据集应用不仅有利于降低数据集生成时间和费用,而且有利于降低模型培训时间和对计算能力的要求。

关键词: 语音识别; 深度卷积神经网络; 迁移学习; 数据集规模; 识别精度; 培训时间

中图分类号: TN912.34?34; TN925                    文献标识码: A                 文章编号: 1004?373X(2020)17?0069?03

Abstract: Since the recognition accuracy of existing speech recognition technology is low, a speech recognition technology based on deep convolution neural network algorithm is proposed. Due to the limited application scope of deep convolutional neural network (DCNN), when the input and output parameters change, the deep convolution neural network needs to be rebuilt and the training duration of architecture is time?consuming. Therefore, the migration learning method is adopted, which is beneficial to the reduction of the data set scale. The results of simulation experiments show that the migration learning is not only suitable for comparing the source data set with the target data set of migration problem, but also suitable for situations of two different data sets. The application of small data sets is favorable to the reduction of not only the time and cost of data set generation, but also the training duration and computational ability requirement of the model.

Keywords: speech recognition; deep convolution neural network; transfer learning; data set scale; recognition precision; training duration

0  引  言

语音识别是机器的听觉系统,能够实现人与机器的交流[1]。一般来说,语音识别的方法通常分为以下3种:基于声道模型和语音知识方法、模板匹配方案以及利用人工神经网络方法[2]。人工神经网络方法模拟了人类神经活动,相比于传统的语音识别法,在建模能力以及语音识别准确率上都有了很大的提升。

深度学习的概念源于人工神经网络[3],2009年深度学习首次被应用于语音识别任务中[4]。根据目前语音识别技术的发展现状,基于深度学习的语音识别技术算法主要分为长短时记忆(Long Short?term Memory,LSTM)网络[5]、深层神经网络(Deep Neural Network,DNN)[4]、卷积神经网络(Convolutional Neural Network,CNN)[6]。CNN通过采用局部滤波和最大池化技术可以获得更好的鲁棒性,因此,CNN近年来在图像、视频及语音识别领域得到了广泛的关注[7?8]。而在最近的一些研究中,CNN在语音识别领域中得到了新的应用,相比于之前的工作,最大的不同是使用了非常深层的卷积神经网络(Deep Convolution Neural Network,DCNN)[9?10]。在语音识别中,每个人的发音存在差异性,通过DCNN能有效地去除这种差异性,提高语音识别准确率[11?12]。DCNN需要一个大型的数据集来防止过拟合,因此,体系结构的训练非常耗时。目前,减少图像数据集大小的方法是迁移学习,在迁移学习中,网络结构在被传输到一个未知的、小得多的目标数据集之前,被训练在一个大的源数据集上。关于迁移学习的物体识别可在文献[13]中找到。在迁移学习的支持下,视觉识别有许多不同的方法,这些方法被广泛应用到图像分类[14]和医疗领域[15]。

本文提出DCNN算法与迁移学习相结合的方法实现语音识别,采用DCNN算法能有效地提高语音识别精度,迁移学习用于降低数据集规模。由仿真结果可知,迁移学习方法不仅可减少数据集生成的时间及成本,而且极大地节省了训练时间。

1  迁移学习

1.1  数据预处理

Avicar数据集来源于一辆装有多个传感器的汽车中收集的视听语音语料库。在5种不同的驾驶条件下,分别用50个男性和50个女性演讲者收集数据。本文对5种驱动条件下的孤立字母音频数据进行了进一步的研究。对于从A~Z的26个字母中的每一个,分别提取和保存200个音频文件的训练集和50个音频文件的测试集。一共生成13 000个音频文件的稀疏数据集,其中10 400个文件用于培训,2 600个文件用于测试。本文利用傅里叶变换从音频数据中生成频谱图。

由于存在稀疏数据集,因此进行数据扩充,利用标签保持转换实现数据集的人工扩充。为了实现数据放大,不需要生成新的图像,对已经存在的数据集进行细微的修改,这些更改包括翻转、旋转或平移。本文对不同的增强调整进行简单的测试,通过随机旋转和随机宽度移动获得了最佳的结果,转换后的图像是从原始图像生成的,对上一批进行培训时在CPU上生成,不需要存储。

1.2  迁移学习和方法

在小数据集上对DCNN进行训练,但得到的结果与理论仍存在差异,因此使用迁移学习解决该问题。除了预先训练的权重之外,还有不同的架构,它们可以自由地用于预测、微调或特征提取。本文采用16层卷积网络VGG?16用于进一步的工作,因为与其他可访问的模型相比,测试结果最优。

如图1所示,VGG?16的体系结构包括输入大小为244×244×3的图像,然后添加接收场大小为3×3的卷积层,以及一个像素的步幅和5個像素窗口为2×2的最大池化层。接下来是3个完整连接层和最后1个SoftMax层。对于所有隐藏层,整流非线性(RELU)被用作激活函数。该体系结构在ImageNet数据库的一个子集上进行了培训。ImageNet是一个用于研究应用的图像数据集,包含超过1 400万个图像,这些图像通过手工分类来指示图像中的对象。为了对VGG?16进行培训,使用了超过一百万张图像的子集,这些图像被分为1 000个对象类别,生成丰富多样的图像的广泛特征表示。预训练具有识别关系并可在广泛的数据集上创建结构和形状分类的优点,可以在新的任务中适应和组装以完成重新设计的任务。从字面上讲,它将学习进展转移到当前的主题上。

在使用小数据集时,视觉识别的迁移学习非常适合,尤其是在医学图像分析中,通常只有很小的数据集,DCNN是分析的首选方法。大数据集的预训练提取了一般特征,并将这些特征应用于小数据集的后续给定任务,并在学习稀疏数据时提出改进。

2  实验设计及结果

在这种方法中,使用带有TensorFlow后端的Keras深度学习框架来实现。Keras除了各种预先训练的深层卷积神经网络外,还包括之前描述过的VGG?16模型。该模型可用于预测、特征提取和微调,并具有预先训练的权重,在这种方法中,模型开发使用微调。

如图2所示,通过截断最后一个最大池化层之前的最后一个完全连接层,并通过全局空间平均池化层和两个完全连接的层扩展模型,对预先训练的VGG?16模型进行修改。全局平均池化层(GAP)通过减少模型的参数数量,减少了空间维度,并保证模型不会过度拟合。之后是一个尺寸为1×1×512的全连接层和一个线性分类器(RELU)以及一个尺寸为26个类的第二个全连接SoftMax层。这与实验所需的类数相对应。

利用数据增强得到的图谱,通过人工放大数据来提高性能,对VGG?16模型的顶层进行训练。作为一个优化器,选择学习率为0.000 5的随机梯度下降优化器。该模型训练的批量大小为8的25,50,100和200个学时的音频数据,只有男性的声音、女性的声音和混合的男性和女性的声音,预先训练的学时数要接近或在训练饱和的范围内。总的准确度百分比的培训结果如表1所示。

由表1可以看出:对于一个包含5 200个男性或女性声音文件的数据集,可以收到每个性别的语音测试结果。对于一个包含5 200个文件的数据集中男女声音的组合,培训无法取得可比的结果。但是一个包含2倍多文件(10 400个)的数据集不能只是达到单独培训的结果,它甚至优于单独培训的结果。也可以看出,对于所有的测试案例,超过25个学时的培训都不能完成的结果,可以通过50个或更高学时的培训获得。

由表2可知,男性和女性的声音分别测试和合并在一起,与预训练一样,整体准确度的结果对于单独训练的男性和女性声音具有可比性,而男女合并后的精度较低。可以看出,在所有实验条件下,冻结层的百分比为10%~50%时,可获得最佳结果。在90%层被冻结的情况下,根本没有训练成绩。在这项研究中,预训练数据库与实际数据集不相关时,冻结大部分层并只训练最后剩余的层是没有意义的,因为特征的适应度是不够的,可随着冻结层的减少直到某个点改善。由于表1中的结果不充分,无法说明25个学时前培训不充分的假设。在与微调的交互中,只有25个学时阶段的预培训会产生与其他测试案例类似的结果。

从图3中的学习率和精确度饱和情况可以看出,50个学时以上的培训足以进行微调,且冻结层的比例小于50%,如表2结果所假设的那样。

3  结  论

本文主要采用DCNN与迁移学习相结合实现语音识别,尽管使用了不同的数据集,但是仿真结果表明,即使目标数据库与预训练模型的源数据集存在差异,预训练特征也普遍适用。在语音字母识别应用中,在小数据集上使用迁移学习。仿真结果表明,即使是对于一个非常小的数据库,也能很好地检测出语音字母,识别精度略低于使用大数据集的其他方法,但仅使用10 400个男女声音文件的数据集,即使部分音频数据是在噪音条件下录制的,也可以达到近80%的精度。小数据集的应用减少了数据集生成的时间和费用,也减少了培训模型的时间和对计算能力的需求。

参考文献

[1] 杨洋,汪毓铎.基于改进卷积神经网络算法的语音识别[J].应用声学,2018,37(6):940?946.

[2] 山世光,阚美娜,刘昕,等.深度学习:多层神经网络的复兴与变革[J].科技导报,2016,34(14):60?70.

[3] 余凯,贾磊,陈雨强,等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799?1804.

[4] 戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,32(2):221?231.

[5] 舒帆,屈丹,张文林,等.采用长短时记忆网络的低资源语音识别方法[J].西安交通大学学报,2017,51(10):120?127.

[6] 王霞,杜桂明,王光艳,等.基于卷积神经网络的面罩语音识别[J].传感器与微系统,2017,36(10):31?34.

[7] RONNEBERGER O, FISCHER P, BROX T. U?Net: convolutional networks for biomedical image segmentation [C]// Medical Image Computing And Computer?Assisted Intervention 2015—18th International Conference. Munich, Germany: Springer, 2015: 234?241.

[8] 赵珊珊,何宁.基于卷积神经网络的路面裂缝检测[J].传感器与微系统,2017,36(11):135?138.

[9] 张军,张婷,杨正瓴,等.深度卷积神经网络的汽车车型识别方法[J].传感器与微系统,2016,35(11):19?22.

[10] JOHNSON R, ZHANG Tong. Deep pyramid convolutional neural networks for text categorization [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.: s.n.], 2017: 562?570.

[11] ABDEL?HAMID O, MOHAMED A H, JIANG Hui, et al. Convolutional neural networks for speech recognition [J]. IEEE/ACM transactions on audio, speech, and language proces?sing, 2014, 22(10): 1533?1545.

[12] ABDEL?HAMID O, DENG Li, YU Dong. Exploring convolutional neural network structures and optimization techniques for speech recognition [C]// INTERSPEECH. Lyon, France: [s.n.], 2013: 3366?3370.

[13] 张雪松,庄严,闫飞,等.基于迁移学习的类别级物体识别与检测研究与进展[J].自动化学报,2019,45(7):1224?1243.

[14] 石祥滨,房雪键,张德园,等.基于深度学习混合模型迁移学习的图像分类[J].系统仿真学报,2016,28(1):167?173.

[15] SHIN H?C, ROTH H R, GAO Mingchen, et al. Deep convolutional neural networks for computer?aided detection: CNN architectures, dataset characteristics and transfer learning [J]. IEEE transactions on medical imaging, 2016, 35(5): 1285?1298.

猜你喜欢
迁移学习语音识别
迁移学习研究综述
从认知角度探讨大学英语网络教学模式
奇异值分解与移移学习在电机故障诊断中的应用
通话中的语音识别技术
面向移动终端的语音签到系统
农业物联网平台手机秘书功能分析与实现
一种基于迁移极速学习机的人体行为识别模型
基于LD3320的非特定人识别声控灯系统设计
大数据环境下基于迁移学习的人体检测性能提升方法
基于语音识别的万能遥控器的设计