遗传算法优化时间卷积网络的手机来源识别

2022-02-24 12:33武钦芳吴张倩苏兆品张国富
计算机工程与应用 2022年3期
关键词:背景噪声适应度种群

武钦芳,吴张倩,苏兆品,2,3,4,张国富,2,3,4

1.合肥工业大学 计算机与信息学院,合肥 230601

2.智能互联系统安徽省实验室(合肥工业大学),合肥 230009

3.工业安全与应急技术安徽省重点实验室(合肥工业大学),合肥 230601

4.安全关键工业测控技术教育部工程研究中心,合肥 230601

随着智能手机和移动互联网的普及,人们越来越倾向于利用微信、手机QQ等各种即时通信应用工具进行沟通和发布信息,尤其是通过发送语音的方式代替文字编辑,交流更加便捷,因而私录手机音频日益增多。《最高人民法院关于民事诉讼证据的若干规定》中指出:数字音频可作为电子证据出示给法院。尤其是在众多的民事纠纷中,通过分辨、鉴定手机语音中的声音来确定使用者身份和交互内容,往往能起到关键性的作用。但是手机语音是否可以作为有效证据被法庭采纳的一个前提条件是需要对其真实性、关联性和合法性进行认定,而手机来源识别是手机语音真实性鉴证的重要环节之一,已成为多媒体取证领域中的一个研究热点[1-3]。

1 相关工作

目前热门的基于语音的手机来源识别方法大都采用人工智能技术,包括机器学习、深度学习和神经网络等。Hanilci和Kinnunen[4]采用信息论的方法提取非语音部分的特征,利用最大互信息训练的高斯混合模型来表示特定设备的特征。Aggarwal等[5]从噪声估计样本中提取Mel频率倒谱系数(Mel frequency cepstral coeffificient,MFCC),并使用支持向量机(support vector machine,SVM)进行分类。Qi等[6]从背景噪声中提取语音特征,并对比分析了在Softmax回归模型、多层感知机、卷积神经网络(convolutional neural network,CNN)下的识别性能。裴安山等[7]将本底噪声作为手机的指纹,采用主成分分析法对本底噪声特征进行降维,并采用SVM进行分类。此外,裴安山等[8]使用端点检测得到语音的静音段,然后将静音段中对数域的Mel滤波器组系数(logarithmic Mel-filter bank coefficients,Fbank)按照最佳优先原则进行交叉验证降维后交给SVM进行分类。而且,裴安山等[9]还将语音的频谱信息量、对数谱和相位谱三个特征进行融合,并使用基于径向基核函数的SVM进行分类。Luo等[10]发现不同生产商在音频采集管道上不尽相同,提出了一种基于带能量描述符(band energy descriptor,BED)特征,可以作为一个具有显著鉴别能力的鲁棒指纹,表征设备特征,并在此基础上基于BED和SVM提出了一种手机来源识别方法(BED+SVM)。Qin等[11]为了解决同一品牌手机的不同型号难以有效识别的难点,提出了一种从CQT(constant Q transform,CQT)域的中低频段提取频谱分布特征,以有效地体现它们之间的细微差别,然后通过实验验证基于CQT和CNN的设备识别方法(CQT+CNN)具有更好的识别效果和更强的鲁棒性。秦天芸等[12]基于线性预测系数和MFCC特征得到线性预测梅尔频率倒谱系数,然后将这个新的特征与能量特征组合作为手机的指纹,最后基于SVM进行分类。Jin等[13]利用编码特征作为记录设备的固有指纹,在研究了7个主流品牌的24款智能手机的编码特征基础上,提取一些重要参数的统计特征作为智能手机识别的判别特征,并且为了在合理的特征维数和较高的分类率之间保持平衡,设计了方差阈值和SVM相结合的两步特征选择策略来选择最优特征。Baldini和Amerini[14]在不同频率下用非语音声音刺激内置麦克风,利用手机内置麦克风的固有物理特性构建CNN对智能手机进行识别和认证。

总的说来,基于语音的手机来源识别主要是挖掘语音信号中手机内置麦克风自身的高斯噪声特征来进行识别。上述已有工作虽然取得了不错的识别效果,但存在如下问题:

(1)已有方法均是采用标准数据库,大都是纯净语音或人工背景噪声语音,而在司法领域的实际应用场景中,所提取的语音证据通常复杂多变,含有很强的环境背景噪声,已有方法所提取的语音特征很难避免环境背景噪声的干扰,难以反应设备噪声本身的特性。

(2)语音信号具有典型的时间序列性,而已有工作中采用的深度神经网络方法很难在时间维度上进行特征提取,难以捕捉时序上的依赖关系。

(3)深度神经网络的性能高度依赖于其网络结构,上述已有方法均采用前人经验设置或手工试验调整,甚至对于不同背景、内容的语音数据库可能需要重新设计、反复试验,不仅耗费大量的人力成本,效率低下,而且很难找到一个高效可行、能够满足实际应用需求的通用网络结构,难以充分发挥深度神经网络的最佳性能。

基于上述背景,本文首先构建了一个具有环境背景噪声的手机语音数据库:通过搭建手机音频网络采集平台,任一用户可不受性别、年龄、所处环境等限制,通过该平台上传5~15 min的MP3格式手机语音,并将搜集到的素材经过处理、筛选,构建了一个具有环境背景噪声的手机语音数据库,包括在室内、操场、地铁站、马路边等日常场景下的对话、电影对白、无线电广播等各种内容。而且数据库涵盖了10个品牌、47种型号的不同手机设备,共32 900条语音,数据集包含的手机型号数目及语音数目均超过目前已有的手机来源识别数据库。其次,本文基于Fbank特征利用时间卷积网络(temporal convolutional network,TCN)[15]进行深度语音特征学习,并利用线性判别分析(linear discriminant analysis,LDA)[16]提取低维深度特征,最后将低维深度特征输入到LIBSVM[17-18]中进行训练和识别,这样不仅可以有效提取手机设备的高斯噪声特征,而且能够很好地反映语音信号的时间序列关系。最后,本文提出一种基于遗传算法(genetic algorithm,GA)[19]的TCN优化方法,并设计编码方式、适应度函数和遗传操作,不仅节省了网络设计效率,而且可以充分发挥深度神经网络的最佳性能。

2 手机来源识别整体框架

本文所提的手机来源识别整体框架如图1所示,总共分为三个层次:TCN层、LDA层和SVM层。本文利用LibROSA工具包[20]提取手机语音信号中的Fbank特征[8]作为识别框架的输入,这是因为与经典的MFCC特征相比,Fbank特征没有进行去相关和压缩处理,保留了语音信号最原始的信息,拟合了人耳接收的特性,更符合声音信号的本质,可以让CNN更好地利用不同维度特征之间的相关性进行模型训练[8,21]。

图1 手机来源识别整体框架Fig.1 Framework of source cell-phone identification

为了尽可能地忽略掉环境背景噪声的影响,本文让TCN根据不同层级卷积特征的差异性去自主训练Fbank特征,从而暴力提取语音信号中的设备噪声高维深度特征。与其他CNN相比,TCN可以根据不同任务的不同特性灵活选择残差模块、激活函数、优化器等结构元素,从而可以灵活决定历史记忆长度,更加有利于捕捉时序上的依赖关系,从而能够很好地迎合语音信号的时间序列性[15]。而且,还可以在TCN中多次利用加速神经网络训练的BatchNorm算法[22]来提高TCN的收敛速度和稳定性。需要指出的是,对于常规的TCN应用,通常采用全局平均池化层和softmax层对最后一个因果卷积层输出的高维深度特征进行数据的强制降维以实现分类和识别[15]。但是,通过大量测试发现,当手机语音数据集规模较小、训练不够充分时,这种暴力降维往往会丢失一些关键设备噪声信息,且不能有效抵抗环境背景噪声的影响,导致TCN的分类准确率大幅下降。因此,本文保留了完整的TCN训练结构,但并没有利用全局平均池化层和softmax层进行分类和识别,而是将最后一个因果卷积层输出的高维深度特征送给LDA层进行有效的降维来实现低维深度特征(low-dimensional deep feature,LDDF)的提取。

为了充分利用手机语音中的设备噪声主要是高斯噪声这一特性,本文采用对满足高斯分布的数据效果特别显著的LDA[16]对TCN输出的高维深度特征进行降维和优化,去除高维深度特征中的冗余和相关性,以提取语音信号中设备噪声的LDDF。最后,考虑到SVM在处理小样本数据方面的优势以及较好的鲁棒性,本文利用LIBSVM工具包[17-18]对提取的LDDF进行训练建立手机设备多分类模型。

从上面的介绍可以很容易看出,在图1的整体框架中,LDA和SVM可以看作是TCN中全局平均池化层和softmax层的有效替代。影响分类效果的主要因素就是通过TCN层学习训练和暴力提取的高维深度特征是否能有效抵抗环境背景噪声的干扰和充分反映设备噪声信息。更进一步的,在TCN层的网络结构中,影响TCN学习性能的主要因素可概括如下:

(1)残差模块个数:残差模块可以在很大程度上避免梯度爆炸和梯度消失,从而有效解决随着神经网络层数变多拟合效果反而变差的问题[15]。通常,每个残差模块包含5个残差单元Res_unit。残差模块的个数在很大程度上决定了网络的深度。从理论上来说,网络越深其学习能力越强,但容易造成过拟合,导致模型性能下降。因此,根据TCN学习效果,选择合适数量的残差模块(即确定图1中r的值),是需要面临的第一个问题。

(2)激活函数的选择:激活函数是为了在TCN中引入非线性因素以避免单纯的线性组合,如Sigmoid、Tanh、ReLu、ELU等函数[23]。每一层的输出通过这些激活函数之后,可以变得更加复杂,从而提升神经网络模型的整体表达能力。在图1中,总共有6个位置需要用到激活函数,因为在同一网络中,所有Res_unit通常采用相同的结构。对于每一个位置,如何选择最合适的激活函数,是需要解决的第二个问题。

(3)优化器的选择:优化器是根据网络反向传播的梯度信息来更新网络的相关权重,以起到降低loss函数计算值的作用,避免网络学习进入局部最优或鞍点,如

RMSprop、Adam、SGD、Adagrad、Adadelta、Adamax、Nadam等算法[24]。不同的优化算法其收敛速度和收敛性各不相同。因此,根据学习效果,选择合适的优化器,是需要解决的第三个问题。

正如前述,传统的基于深度神经网络的手机来源识别方法大都依靠人工经验选取相应的结构来解决上述三个问题,效率极其低下。与已有工作不同的是,在图1中,本文根据SVM层的分类效果,采用GA[19]来实现TCN层网络结构的智能和自动设计。此外,需要强调的是,模式识别领域中已有的GA+SVM方法其主要思想是采用SVM分类效果作为GA中的适应度函数,从而实现特征的提取和选择,以达到更好的识别效果,其编码方式及遗传操作通常是对特征进行处理和操作。而本文方法则是利用TCN和LDA实现特征的提取和选择,GA用来优化TCN的结构,其编码方式以及相应的遗传操作均是针对TCN的网络结构进行,SVM则直接利用提取的特征进行分类。这种GA+TCN+LDA+SVM的优势在于,不仅能够充分利用深度网络提取更能代表设备特质的低维深度特征,提高了识别性能,而且不需要对深度网络进行大量、繁琐的调参工作,提高了网络设计的效率。

3 基于GA优化TCN结构

GA[19]是模拟自然界生物进化机制而发展起来的一种高效、并行、全局搜索和优化方法,可以在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最佳解。GA通常由三个部分组成:种群、适应度函数和进化机制。具体来说,种群是一组个体(即候选解),会在迭代过程中被更新和维护;适应度函数用于给种群的每个候选解赋值;进化机制包括精英保留、选择、交叉和变异等基本算子。有关GA的更多详细信息可参阅文献[19]。

与传统人工智能系统不同,即使输入发生了巨大的变化,GA也不会轻易崩溃,它具有在优化过程中自适应搜索的能力,特别适用于具有大状态空间、多模态状态空间、多维曲面等问题,并已成功应用于优化各种CNN结构[25-26]。因此,本文采用GA来智能优化图1中TCN层,其基本流程如图2所示。首先基于个体编码方案对种群(假设包含N个个体)进行初始化。对于初始种群中的每个个体,根据基因编码解码出相应的TCN网络结构并进行适应度评估,然后利用选择、交叉和变异三个遗传操作产生进化种群,再对进化种群进行适应度评估。将初始种群和进化种群合并,从组合种群中选择适应度值最好的N个个体组成新种群。此时,如果算法未达到最大迭代次数,则重复上述步骤让新种群继续进化,否则从新种群中挑出适应度值最大的个体进行解码,确定最佳的TCN结构。

图2 GA优化TCN的基本流程Fig.2 Flowchart of GA for optimizing TCN

为了更加清晰地说明GA如何智能优化TCN,在下面的章节中,将详细介绍图2中的一些关键步骤。

3.1 编码方案与种群初始化

从第2章知道,TCN中需要优化的结构元素有残差模块个数、激活函数和优化器的选择,是一个典型的组合优化问题。为了简化问题的求解,采用一维整数编码,如图3所示。每个个体编码有8个基因位,第1个基因位代表残差模块个数,取值为[1,3]之间的一个随机整数;第2个基因位为优化器,取值为[1,7]之间的一个随机整数,分别代表RMSprop、Adam、SGD、Adagrad、Adadelta、Adamax和Nadam这7个优化算法中的一个;后面6个基因位为图1中6个位置的激活函数,取值为[1,4]之间的一个随机整数,分别代表Sigmoid、Tanh、ReLu和ELU这4个函数中的一个。这种编码方式简单、容易理解,从根本上与TCN结构优化问题的组合本质相适应,从而为问题的求解奠定了良好的基础。

图3 个体编码方案Fig.3 Encoding scheme of chromosome in GA

对于初始种群中的每一个个体,按照图3的编码方式在基因位各自的取值范围内随机生成一个整数,根据不同整数代表的含义就可以解码出这个个体对应的TCN采用的结构。

3.2 个体适应度评估

适应度是指个体在进化过程中对环境的适应能力。优化TCN结构的最终目的是提高手机来源识别方法的平均识别准确率,即预测正确的样本占所有样本的比例。因此,如图2所示,对于每个个体来说,根据解码出的TCN结构,首先利用训练样本对该TCN进行训练,再用测试样本进行测试,以SVM层分类结果对应的平均识别准确率作为个体的适应度值。

3.3 二元锦标赛选择

如同自然界的进化一样,最优秀的个体应该存活下来并被用来创造新的后代。也就是说,个体越优秀,被选中的几率就应该越大。因此,利用二元锦标赛选择法来选择当前初始种群中的存活个体。首先从当前初始种群中随机选择两个候选个体,然后比较这两个候选个体的适应度值,选择适应度值更大的那个个体存活下来放入过渡种群中。重复上述步骤,直到这个过渡种群的规模达到设定的N。

3.4 单点交叉

交叉是将两个选定的父代个体的基因位混合以生成两个子代个体的过程。交叉通常使用较高的交叉率,一般取值在[0.8,0.95]之间。本文使用最简单的单点交叉来形成交叉种群。从过渡种群中依次选择一对候选个体作为父代,然后在(0,1)之间生成一个随机数。如果随机数大于给定的交叉率,则直接将父代的基因位复制给两个子代个体。否则,在图3的8个基因位中随机选择一个基因位作为交叉点,然后将两个父代的基因位中超过交叉点的位在两个父代之间交换,形成两个子代个体。也就是说,从第一个基因位开始到交叉点的所有位都是从一个父代个体复制的,剩下的基因位则是从另一个个父代个体复制的。这样处理的好处是交叉后每个子代个体的各个基因位取值仍然能够满足各自的取值范围约束,确保了子代个体的可行性。重复上述步骤,可以生成规模为N的交叉种群。

3.5 二元变异

在执行交叉后,在交叉种群中对每个个体进行变异操作,形成进化种群。变异的目的是防止种群中的所有候选解陷入局部最优,并保持遗传的多样性。变异操作是在预先设定的变异率下执行,其值通常设得很低。在本文中,采用经典的全局二元变异策略,即每个个体的每一个基因位都独立的随变异率进行突变,这一方法已广泛应用于各种元启发式搜索算法中[27]。具体来说,对于交叉种群中的每个个体中的每个基因位,首先在(0,1)之间生成一个随机数,如果随机数不大于给定的变异率,则在该基因位对应的取值范围内随机生成一个与当前取值不同的整数来取代当前的值。这样既实现了基因突变,又能确保个体的可行性。变异率被设置为1/nbits,其中nbits是基因位的总位数,在本文中nbits=8。

3.6 重组与选择

将进化种群进行适应度评估,并与当前初始种群结合,形成大小为2N的组合种群。然后对组合种群中的个体适应度值按照从大到小进行排序,从组合种群中选择N个适应度值最大的个体组成下一代新的初始种群。由于以前和现在的所有最佳个体都被保留在了新种群中,这种精英保留策略确保了算法的收敛性。

4 实验结果与分析

4.1 手机语音库的建立

目前用于手机来源识别的开源语音库均是在实验室环境下构建的,且含有的手机型号较少。为了搜集尽可能多的具有自然环境背景噪声的手机语音,搭建了一个手机音频网络采集平台,任一用户可不受性别、年龄、所处环境等限制,通过该平台上传5~15 min的MP3格式手机语音。将搜集到的素材经过处理、筛选,构建了一个具有环境背景噪声的手机语音数据库,包括在室内、操场、地铁站、马路边等日常场景下的对话、电影对白、无线电广播等各种内容。数据库涵盖了10个品牌、47种型号的不同手机设备,每种型号手机对应不同的ID,如表1所示。其中每个ID手机收录到的语音信号被平均分割成1 s,每个ID手机共收集700条语音片段,其中600条用于训练,其余100条用于测试。语音数据库一共包含32 900条语音,其中训练样本有28 200条语音,测试样本包括4 700条语音。本文的所有实验均是基于以上语音数据库进行测试和分析。

表1 每种手机的型号及其对应的IDTable 1 Model and ID of each mobile phone

4.2 参数设置与评价指标

对于LDA层和SVM层,均采用开源包的默认参数。对于GA,种群规模N=20,交叉率为0.9,变异率为0.125,最大迭代次数为50。对于TCN层,根据GA的优化结果,最终确定残差模块个数为3,优化器选择RMSprop,6个位置的激活函数分别采用:(1)ELU、(2)Sigmoid、(3)ReLu、(4)ELU、(5)ReLu、(6)ELU。TCN的其他参数已在图1的网络结构中给出。

为了充分评估所提方法的性能,本文引入如下四种在机器学习中常用性能指标[7-9]:准确率(Accuracy)、召回率(Recall)、精确率(Precision)和F1分数(F1-score)。准确率表示预测正确的样本占所有样本的比例,表示了一个分类器的区分能力。召回率是指在所有实际为正例的样本中,被预测为正例的样本比例。精确率代表的是在所有被分类为正例的样本中,真正是正例的比例。F1分数为精确率和召回率的谐波均值,兼顾了分类模型的精确率和召回率。

所有测试均在Intel®Core™i7-8700 CPU@3.20 GHz 3.19 GHz、RAM16.0 GB、64位操作系统的个人PC上进行。

4.3 不同特征的对比

为了验证GA优化TCN的有效性,在第一个实验中,将优化TCN后提取到的LDDF特征(optimized LDDF,OLDDF),与文献[15]推荐的默认参数TCN提取的LDDF、文献[10]的BED特征和文献[11]的CQT特征进行对比分析。BED特征和CQT特征是分别与SVM和CNN结合的较好的两种语音特征,且分别在纯净和人工背景噪声手机语音库上取得了较好的识别准确率。采用流行的t-SNE(t-stochastic neighbor embedding)[28]来可视化每个特征,以直观地查看每个特征的可分性。t-SNE方法能够同时保持原有数据的全体与局部结构的特性,可以全面地反应不同特征的分类能力。

图4分别给出了BED特征、CQT特征、LDDF特征和OLDDF特征的t-SNE可视化结果。从图中可以看出,BED和CQT特征的分类效果已经较好,且二者的可分性不相上下,大多数设备可形成明显可分离的簇。这是因为,BED特征关注语音信号的傅里叶变换后的能量值差异,可以很好捕捉到不同品牌手机设备之间的细微差异,而CQT关注的是中、低频频带的特征,与固定时频分辨率的短时傅里叶变换相比,具有更高的低频频率分辨率和高频时间分辨率。但是,虽然不同品牌之间手机设备的差异较明显,但同一品牌不同型号手机设备之间的相似度较高,仍然有一些极其相似的手机设备无法分离出来,簇与簇之间非常接近。LDDF特征是基于Fbank的深度特征,其可分性要显著优于BED特征和CQT特征,簇与簇之间的区别非常的明显。这是因为,Fbank特征具有很大的相关性,充分保留了语音信号中的有效信息,经过TCN暴力提取,充分挖掘了Fbank保留的有效特征,再经过LDA去除冗余,可分性显著提升。特别的,OLDDF特征分割出来的簇要比LDDF特征更加紧凑和平滑。究其原因,经过GA优化的TCN其特征学习能力进一步得到增强,让OLDDF特征的可分性更好。

图4 不同特征的t-SNE可视化结果Fig.4 Visualization results of t-SNE for different features

4.4 不同识别方法的对比

为了进一步验证GA优化TCN的有效性,在第二个实验,将LDDF+SVM、OLDDF+SVM、BED+SVM[10]和CQT+CNN[11]进行对比实验分析。

表2给出了不同识别方法的平均识别准确率。可以看出,在环境背景噪声手机语音库上,BED+SVM和CQT+CNN的识别性能相当,而LDDF+SVM和OLDDF+SVM识别准确率更高,这说明本文选择TCN挖掘设备深度特征的有效性。特别的,OLDDF+SVM相比LDDF+SVM又有了一定的提升,离完全识别只差了0.02%。上述实验结果表明,用GA优化TCN结构确实能改善手机来源的识别性能,进一步降低了出错率。

表2 不同识别方法的平均识别准确率Table 2 Mean accuracy of different identification methods

为了更加直观地展示,图5给出了OLDDF+SVM的详细混淆矩阵[29]分析结果。混淆矩阵中的每一行代表该类样本的预测结果,不同位置的值代表被预测成相应ID的个数,可以非常容易地可视化出多个类别是否有混淆,即一个类别被预测成另一个类别。由图5可以看出,在47个手机ID上,OLDDF+SVM在45种手机ID上的识别准确率达到了100%,只在ID25、ID38上有1个分类错误。

图5 OLDDF+SVM的混淆矩阵结果Fig.5 Confusion matrix results obtained by OLDDF+SVM

为了进一步的对比,图6分别给出了BED+SVM、CQT+CNN、LDDF+SVM和OLDDF+SVM四种方法在Recall、Precision和F1-score三个指标上的测试结果。从图中可以看出,在ID25和ID38上,OLDDF+SVM的召回率要稍微低于BED+SVM、CQT+CNN和LDDF+SVM,但超过98%,在其余45个不同ID上,OLDDF+SVM的召回率要显著优于BED+SVM和CQT+CNN,而LDDF+SVM在3个ID上未达到100%。此外,在所有47个不同ID上,OLDDF+SVM的精确率和F1分数与LDDF+SVM不相上下,均要明显好于BED+SVM和CQT+CNN。而且,可以很清楚地看到,在每个手机ID上,OLDDF+SVM在三个指标上的综合表现非常突出,明显优于BED+SVM、CQT+CNN和LDDF+SVM,几乎在每个ID上的每个指标都达到了100%。

图6 不同识别方法在不同指标上的实验结果Fig.6 Experimental results of different identification methods on different metrics

综合分析以上实验结果,本文引入TCN来暴力挖掘手机语音的深度特征信息,并基于GA优化TCN结构,提升特征提取的性能。所提方法在环境背景噪声下的手机来源识别更为精准,进一步降低了出错率,对司法领域的实际应用具有潜在的价值。究其原因,本文所提方法利用GA优化后的TCN从Fbank特征中学习语音信号中的深度特征,更能充分发挥TCN的学习性能,所提取的OLDDF特征更能反应设备本身特性,而与说话人(年龄、性别等)、场景、内容(日常对白、唱歌、广播等)等环境背景噪声无关,具有更好的鲁棒性。

5 结束语

基于手机语音的来源设备识别是多媒体取证领域中的一个热点问题,本文针对司法领域对环境背景噪声下的手机语音证据的鉴真需求,首先提取手机语音中的Fbank特征以保留完整的设备噪声信息,并输入到TCN中进行训练,进一步提取能够表征语音设备的深度特征,然后利用LDA进行降维,去除高维深度特征中的冗余,并交给LIBSVM进行分类。特别的,利用GA对TCN的网络结构进行智能优化和自动设计,以最大化发挥TCN的学习性能。通过在47种型号手机设备录制的32 900条环境背景噪声语音样本库上的实验表明,本文所提方法在准确率、召回率、精确率和F1分数四个主流指标上的整体表现要明显优于已有识别方法BED+SVM和CQT+CNN,大大降低了出错率,为环境背景噪声下的手机来源识别提供了一个有益的尝试。但由于实验条件的限制,本文收录的手机型号覆盖范围还不够广泛,在未来仍需进一步扩充语音库,而且还需要尝试其他的手机语音格式以及受到攻击的语音。

猜你喜欢
背景噪声适应度种群
改进的自适应复制、交叉和突变遗传算法
山西省发现刺五加种群分布
环境背景噪声对飞机噪声监测结果的影响
基于双种群CSO算法重构的含DG配网故障恢复
利用背景噪声研究福建金钟库区地壳介质波速变化
中华蜂种群急剧萎缩的生态人类学探讨
一种基于改进适应度的多机器人协作策略
应用背景噪声成像研究祁连山地区地壳S波速度结构
青藏高原东北缘背景噪声特征分析
自适应遗传算法的改进与应用*