环境背景声自动识别技术研究

2019-10-21 10:26申小虎王聪
科学与信息化 2019年2期
关键词:鉴定分类

申小虎 王聪

摘 要 通过介绍环境背景音声纹鉴定技术概念、产生、发展以及原理,来探讨声纹鉴定的步骤、理论依据、法律依据、案件适用的类型,讨论声纹鉴别在个人身份证明、刑事侦查、军事、通信、防伪等领域的应用,展望声纹鉴别的应用前景。

关键词 环境背景音;分类;鉴定

Abstract by introducing the concept, generation, development and principle of voiceprint identification technology in environmental background, this paper discusses the steps, theoretical basis, legal basis, applicable types of cases, and discusses the identification of voiceprint in personal identification. The applications of criminal reconnaissance, military affairs, communication, security and so on, and the application prospect of voiceprint identification are prospected.

Keywords Environmental background sound; Classification; Identification

1 环境背景音研究意义

在当前,环境背景音识别技术发展得非常迅速,在很多方面(如原理认识,识别模型的搭建,运行效率等方面)都有迅猛的进展。尤其是在无噪音环境下,环境背景音识别模型系统的识别率非常高。本论文基于语音信号分析的理论基础,考虑了语音识别系统的实际应用要求,提出来噪声环境下非特定人孤立语音识别系统的研究,对语音通信系统有着重要的意义。实验表明,这种方法不仅能够对不同背景噪声环境下的语音进行准确识别以及鉴定分析,提高语音识别的准确率,还能够对带噪语音进行精确处理,提高语音的清晰度和可理解度,在人群噪声环境、机器噪声环境以及其他背景声环境下都有着较高的准确度以及辨识度[1]。

2 环境背景音特征提取技术

在声纹鉴别过程中最主要的两部分内容是特征提取和模式匹配。所谓特征提取,就是从声音中选取唯一表现环境或人声的有效且稳定可靠的特征,即通过声纹技术根据语音波形中反映的环境背景音的语音参数,将其识别分类出是哪种环境背景音的一项技术,甚至可以通过环境背景音的特征提取直接定位出背景音的具体位置,这对公安工作的开展具有巨大的意义。模式匹配就是对训练和鉴别时的特征模式做相似性匹配,进而从原语音信号中分离出环境的背景音。

声纹技术在环境背景音的特征提取方面有以下几种技术可供参考:

2.1 独立成分分析方法

不同的ICA算法可以提取声音信号中独立成分的特性,将声音信号拆解成基函数与相互独立的系数两部分,对于常见的声音信号,经过ICA算法变化都会更强的超高斯性。另外,利用ICA变换的基函数是利用数据自身的统计特性求得,可以随着处理对象的变化而变化[2]。

2.2 码激励线性预测编码方法

网络中的音频信号一般都是经过语音压缩编码的,码激励线性预测编码的技术研究正是以音频压缩编码的比特信息流为对象,环境音频信息不需要经过解压缩,直接从编码比特信息流中获取音频特征参数。

3 实验与分析

3.1 声音数据库

本文实验的测试对象包括45种噪声环境下的环境声音事件音频。实验用到的生态环境声音大部分来自使用SONYICD-UX512F录音棒以16kHZ的采样频率实地采集的声音,录制背景为寂静山林、马路附近、雨天湖边附近。其包括:动物叫声,鸟叫声,昆虫叫声,大自然声和常见事物的声音等,共45种,由于下载的声音文件编码格式、采样频率等与自己录制的声音并不统一,因此在实验开始前先将所有的声音文件统一转换为采样率16KHz(可分析8KHz以内的环境声音信号),单声道,16bits的格式。考虑到MP分解速度,将声音截断为3-6s的声音片段,每一段对应于一种声音类型,经处理后,每种声音都至少包含4个单独的声音文件,且所选择声音的录制环境都不相同,最后得到的声音数据库。且经语谱图分析,所选45种声音频率在8kHz以下[3]。

3.2 环境声音事件的分类

(1)MP噪声消除

用25個原子就能将原始信号(海浪声)的主体结构重构出来,说明利用MP稀疏表示的方法可以提取出信号最主要的结构特征信息,有效的消除噪声的干扰。若将整段信号进行MP稀疏表示,对MP稀疏分解重构之后的样本(25个原子),提取MFCCs-12特征,输入SVM模型进行分类,得到对信号进行系数表示后的信号的识别结果。去噪的效果有时要取决于信号和噪声的相似度,如果某种噪声的特征同信号的特征相似,则MP对这种噪声的去噪效果不会得到预期效果。

(2)特征选择

不同物种的声音明显不同,同一物种的不同个体间亦有可能会发出差异明显的声音,甚至是同一个体在不同的季节或时向,其声音也会存在着一定的差异,这就需要合适的鲁棒的特征参数来将信号的内在特征信息表示出来。本文将对以下频域和时频域特征进行研究。

①基音频率

基音携带有非常重要的声音信息,不同种类的声音其基频分布可能差异很大,考虑到环境声音信号的差异性,试验中设定基音频率范围为50-2000Hz。

②Mel频率倒谱系数

实验分为三步:首先,以12维MFCCs(MFCCs-12)作为分类特征,对5类声音的每一类分别进行特征提取,然后用纯净的声音样本进行训练,用得到的分类模型对测试集样本进行预测,最后得到各类声音事件的分类准确率。下面是针对库中的动物叫声中的5中声音的训练结果,MFCCs-12作为特征,采用网格搜索、交叉验证方法,得到的训练过程的参数选择。

①动物叫声:(MFCCs-12:84.27%)、(MFCCs-26:73.68%)、(MFCCs-39:73.68%);

②鸟叫声:(MFCCs-12:86.89%)、(MFCCs-26:92.03%)、(MFCCs-39:97.34%);③昆虫叫声:(MFCCs-12:72.22%)、(MFCCs-26:86.67%)、(MFCCs-39:80%);④大自然声:(MFCCs-12:65.18%)、(MFCCs-26:24.59%)(MFCCs-39:23.77%);⑤常见事物的声音:(MFCCs-12:80%)、(MFCCs-26:33.33%)、(MFCCs-39:25%)。

由此可见:MFCCs-12特征对于5类声音的分类准确率最稳定。对于鸟叫声和昆虫叫声,MFCCs-26特征和MFCCs-39特征识别率均比MFCCs-12高出10个百分点左右,面对动物叫声、大自然声和常见事物的声音,MFCCs-26和MFCCs-39特征的识别率大幅下降,尤其是对大自然声和常见事物的声音,准确率降到了40%以下。综合对5类声音的识别率表现,MFCCs-12对识别结果的贡献更稳定,选择MFCCs-12作为本文实验的识别特征[4]。

③匹配追踪

通过实验验证基于Gabo小波的MP特征对实际情境下的环境声音事件的识别是否有效。

首先对样本信号进行分帧、加汉明窗,对每帧信号进行MP稀疏分解,每帧信号得到4个MP特征(MP-4)。需要注意的是,虽然随着重构原子数的增多,识别率也随之上升,但是原子数越多,所消耗的时间也随之增大。因此7个原子的鸟叫声识别率反倒不如5个原子的识别率。此外,对于昆虫叫声,识别率均在8%以下,经分析,这是因为昆虫叫声的录制环境里干扰较多且干扰噪声与昆虫叫声较相似,MP稀疏分解难以区分信号空间和噪声空间。综合时间和识别结果稳定性的考虑,最终选择7个原子重构样本信号。然后将MP-4(7个原子)与MFCCs-12分别作为特征参数进行识别结果对比,结果如下所示:

①动物叫声:(MFCCs-12:84.12%)、(MP-4:31.58%);②鸟叫声:(MFCCs-12:86.89%)、(MP-4:36.14%);③昆虫叫声:(MFCCs-12:72.22%)、(MP-4:7.48%);④大自然声:(MFCCs-12:65.18%)、(MP-4:30.88%);⑤常见事物的声音:(MFCCs-12:80%)、(MP-4:22.12%)

MP-4(7个原子)单独作为信号特征进行识别,识别率在40%以下,那么将MP-4(7个原子)和MFCCs-12一起作为音频特征,将这16维参数进行归一化,因为参数的取值差异较大,不在同一个数量级,因此先进行归一化,然后再将归一化后的特征参数输入识别模型,利用特征集合MP-4和MFCCs-12进行识别,准确率比单独MFCCs-12提高8%以上,与单独用MP-4(7个原子)相比识别率大幅提高。说明频域特征MFCCs-12和时频域特征MP-4(7个原子)的组合的特征集对环境声音事件的识别是起积极作用的。

3.3 结果分析

对分析提取的特征参数:基音频率、MFCCs-12,MFCCs-26,MFCC-39和MP-4通过实验进行筛选。对库中所有声音信号分别求出上述特征,然后分别将MFCCs-12,MFCCs-26,MFCC-39,MP-4和特征组合MFCCs-12,MFCCs-12+MP-4,MFCCs-12+MP-4+基音频率输入SVM分类模型进行识别,得到对应的识别准确率。

由实验结果,虽然MFCCs用于语音/音乐识别时表现良好,但对于不具有谐波结构、背景噪声复杂的环境声音事件来说,并不适合。分析其原因,MFCCs对所有频带以相同的权重模拟信号的频谱包络,对噪声和声音事件一视同仁。

MP时频特征提取是依据原子的能量高低依次选择信号分量,提取的信号分量最终表现为按原子能量由高到低的线性和,而环境声音事件与背景噪声相比,声音事件的能量在时频平面上倾向于局部集中。因此MP特征对于环境声音事件的识别,具有噪声鲁棒性,能在MFCCs失效的情况下弥补其噪声敏感的缺陷。

利用不同种类声音的基频分布差异,将基音频率用来作为识别的特征之一,实验结果表明,加入基音频率特征后,识别准确率略有上升[5]。

4 结论及展望

总之,声纹识别技术是一种方便、快捷、安全的识别技术,随着各个研究领域的不断发展,声纹识别技术也在飞速发展,由此可见,在不久的将来,声纹识别技术会在更多领域内获得更广泛的应用,使人类的生活更方便、安全。此外,随着声纹识别技术准确性的提高,以及录音设备(如录音笔、MP3)的更新换代,新型录音设备携带方便、存储容量大、使用简单的特点,使人们在很多场合下可以容易地获取声音样本。通过声纹识别技术,声音样本在公安机关侦破案件、司法部门做出判决等方面都将起到关键性作用。

参考文献

[1] 沈阳丽,赵启升.GMM-UBM声纹识别技术研究与应用[J].电脑编程技巧与维护,2017,(16):84-86.

[2] 盧一男,单宝钰,关超.声纹识别技术现状与发展应用[J].信息系统工程,2017,(02):11.

[3] 郑方,李蓝天,张慧,等.声纹识别技术及其应用现状[J].信息安全研究,2016,2(01):44-57.

[4] 赵成辉,杨大利.基于声纹识别技术的移动通信监听方案[J].北京信息科技大学学报(自然科学版),2015,30(01):59-65.

[5] 陈拥权,张羽,胡翀豪,等.声纹识别技术及其应用前景分析[J].网络安全技术与应用,2013,(11):24,26.

猜你喜欢
鉴定分类
垃圾分类的困惑你有吗
我给资源分分类
按需分类
教你一招:数的分类
说说分类那些事
古籍版本鉴定
浅议检察机关司法会计鉴定的主要职责
青铜器鉴定与修复初探
八种氟喹诺酮类药物人工抗原的合成及鉴定
高职院校教学档案的鉴定与利用