咳嗽音特征在话者识别中参考价值的相关研究

2016-03-06 08:12申小虎金恬张长珍万荣春
中国刑警学院学报 2016年4期
关键词:声纹基频声门

申小虎金 恬张长珍万荣春

(1 江苏警官学院 江苏 南京 210031;2 江苏省公安厅物证鉴定中心 江苏 南京 210031)

咳嗽音特征在话者识别中参考价值的相关研究

申小虎1金 恬2张长珍1万荣春1

(1 江苏警官学院 江苏 南京 210031;2 江苏省公安厅物证鉴定中心 江苏 南京 210031)

为确定声纹鉴定中咳嗽音声纹特征的应用价值,录制30名条件相近、身体健康发音人的咳嗽声各3组样本。将样本输入OTExpert法庭语音分析工作站,并对各样本的宽带语谱、LPC频谱、MFCC倒谱、信号能量谱图进行分析比较。相同个体样本的咳嗽音与不同个体的咳嗽音相比较,在共振峰频率与过渡形态、基频参数、音强曲线的差异性,前者明显小于后者,但相比普通语音个体稳定性较弱。单一咳嗽音特征在话者识别中具有参考价值,但不能作为同一认定的标准。

咳嗽音 共振峰 基频 音强 话者识别

日常生活中我们经常遇到仅从咳嗽音就能判断发音个体的情形。在实际案例中也存在利用背景噪声中潜在的咳嗽音、清喉音、清鼻音等不带有文字信息的声纹片段缩小侦查范围,指明工作方向从而快速侦破案件。针对上述情况,从理论角度上判断咳嗽音特征是话者识别中是否具有参考价值,开展此项研究。

1 咳嗽音的产生机理

咳嗽音是一种声道的应激性反应,发音原理同普通语音声纹信息相同,都是声门气流激励声道,最后通过口腔辐射。典型咳嗽语音信号从产生到结束持续时间一般不超过1秒,其过程大致可分为声门打开阶段与声门关闭阶段。

声门打开阶段期间,声带由迅速通过的气流快速打开,声门下的高压空气快速排出时带动声带振动,并进入平稳阶段,此阶段为称为咳嗽音的爆发期,能量最高。如图1(A)(B)中的区域Ⅰ所示。声门关闭阶段期间,由于收尾气流在声带回位时引起声带周期性振动,并随着气流的减缓声门最终关闭,波形能量逐渐减弱。如图1(A)(B)中的区域Ⅱ所示。由于咳嗽发音方式不同,有的咳嗽音由于收尾气流在声带回位时声带的周期性振动产生波形的突起部分,这部分也可属于声门关闭阶段,称为咳嗽音的第二声[1]。如图1(A)的区域Ⅲ所示。

图1 咳嗽音时域波形图的两种形态

2 实验条件

2.1 实验设备

实验硬件设备为研华科技610H工控机,CPUi7-4790 3.60G双核,内存16GB。采用Gnome-p录音设备进行咳嗽音录音采集,利用Adobe Audition CS5.5软件对其进行剪辑,消除空白音域,并归档建库。最后使用俄罗斯法庭语音分析系统OT-Expert 5.1对采集语音的共振峰特性、基频参数、信号能量等指标进行测量对比。

2.2 样本取样

选择30名20~22岁处于健康状态下(非感冒期间) 的男性个体20名,女性个体10名,利用Gnome-P录音设备在声纹录音室,根据司法部录音资料鉴定规范[2]进行咳嗽音录音,每名个体不间断连续咳嗽3次。

2.3 实验组织方法

对上述咳嗽音信号的共振峰的频率、咳嗽音的共振峰过渡形态、基频参数、短时能量等特性进行提取计算,选取几种特征显著的样本,分别讨论相同个体咳嗽音间的稳定性与不同个体咳嗽音间的差异性。

3 实验结果

从对30组个体咳嗽音的实验对比中我们发现,不同个体的咳嗽音在共振峰频率与过渡形态、基频参数、短时能量上不尽相同,有时会出现明显的差异;而相同个体在上述参数的差异性则不明显。

3.1 个体咳嗽音间共振峰的频率

根据咳嗽信号产生的生理机理,对相同个体的咳嗽音和不同个体的咳嗽音,在声带打开阶段和关闭阶段分别统计其共振峰频率。由于咳嗽音共振峰曲线条纹没有普通元音共振峰曲线条纹明显,为了区别共振峰频率差异,我们使用LPC频谱得到共振峰曲线。因篇幅有限,这里仅列出不同个体间咳嗽音(声门打开阶段)的基频曲线图,如图2所示。其中咳嗽音1为女性,2、3均为男性。从图2我们可以看出,由于咳嗽音1为女个体发音,与元音发音的规律类似,各共振峰频率略高于男个体咳嗽音2、3。

图2 不同个体咳嗽音(声门打开阶段)LPC频谱的共振峰曲线

为了更好地说明同一个体咳嗽音的稳定性与不同个体间的差异性,我们对男个体2、3咳嗽音与个体3的两次咳嗽音的定量化统计分析结果进行整理,如表1、表2所示。可见不同个体间咳嗽音的F2、F3、F4在声门打开阶段和声门关闭阶段的频率相对偏差大于相同个体下得到的相对偏差。这里由于篇幅的原因,没有将30组相同个体咳嗽音的共振峰相对偏差列出,但需要指出的是相同个体的不同咳嗽音间存在共振峰相对偏差较大的情况。

表1 不同男性个体咳嗽音间共振峰统计

表2 相同男性个体咳嗽音间共振峰统计

3.2 个体咳嗽音的共振峰的过渡形态

共振峰的音节间过渡形态具有人际差异性,因而声纹鉴定中具有一定的利用价值[3]。由于咳嗽音信号受到咳嗽爆发湍流的影响,声纹共振峰曲线与基频条纹没有普通语音信号那么明显,我们从录取的数据库中选取湍流影响不明显的咳嗽音作为本次实验的样本,进而研究这些频域特征保持完好咳嗽音的各项性能指标对同一性认定的价值。

图3中(A)、(B)、(C)为同一人发出的3次咳嗽声,可以看出从声门打开到稳定阶段再到最后的声门关闭,F1共振峰均有先升后降的趋势,而且3个阶段共振峰过渡形态平滑自然。而图4中(B)、(C)共振峰则没有(A)先升后降的趋势,同时(C)出现了间断过渡。间断过渡产生的原因是在咳嗽发声过程的交界处,舌位发生了突变,从而造成共振峰曲线的间断。

3.3 个体咳嗽音间的基频参数

利用MFCC倒谱对30组咳嗽声音的基频参数进行统计。限于篇幅原因,仅列出两组不同个体与相同个体的咳嗽音间的基频参数对比表,如表3、表4所示。同共振峰频率类似,不同个体的基频相对偏差要比相同个体下差异较大。

基频反映声带振动速度,基频最小值与基频最大值分别是从倒谱上提取的数值中的最小及最大数值。通过对30组基频最小值的统计对比发现,基频最小值的相对偏差在不同个体与相同个体间的差异率区别明显并相对稳定。这是由于基频受音调的影响,最大值会出现高低变化,而基频最小值不易于伪装具备稳定性。因此基频最小值是基频参数中最有价值的参考数据。同时实验数据中咳嗽音的基频频率要比普通元音发音的基频频率高,这是由于咳嗽音的发音方式近似紧喉嗓音(Creaky Voice),声带在这种发音方式下是处于紧绷状态,只有很小一部分在振动,因此基频要比普通元音发音的语音更高。

图3 相同个体的咳嗽音共振峰宽带语谱

图4 不同个体的咳嗽音共振峰宽带语谱

表3 不同个体(男)咳嗽音间的基频参数对比

表4 相同个体(女)咳嗽音间的基频参数对比

3.4 个体咳嗽音间的即时能量(音强)

音强是语音的4要素之一,也是声纹鉴定中重要特征之一[4]。咳嗽音的音强分布比较复杂,本实验仅针对咳嗽期间的即时能量按时间方向的动态分布情况进行了比较分析。图5中的(A)、(B)、(C)是相同个体咳嗽3次所生成的音强曲线图。可以看出,从走势上大致相同且均呈现两端强中间弱的情况。这是由于声门打开阶段与声门关闭阶段所带动的振动幅度大于稳定期间的振动幅度所造成的。

图5 相同个体的咳嗽音即时能量(音强)曲线

图6 不同个体的咳嗽音即时能量(音强)曲线

图6中(A)、(B)、(C)分别是不同个体咳嗽声生成的音强曲线。从走势上,(B)一直处于下降趋势。(C)虽然也明显具有两端强中间弱的特征,但声门打开阶段保持时间明显小于声门关闭时间。

4 分析与讨论

咳嗽音的共振峰频率的发音机理与普通语音音节发音机理相同,都是通过发音器官的振动发出声音,具有相同的数据模型,因此大部分音节前4阶(F1-F4)共振峰频率变异系数范围不会超过12%[5]。表1、表2中的实验数据基本满足相同个体与不同个体间咳嗽音识别所满足的阈值。但30组相同个体中也存在相对偏差较大,与普通语音样本比较存在个体稳定性不高的情况。共振峰走势的差异形成,一方面是由于不同个体由于声带和声道等发音器官的不同,另一方面是由于咳嗽习惯带来的发音器官运动过程所造成的。后者可以通过训练改变发音器官运动幅度从而达到伪造的目的。

本次实验结果表明基频平均数值男女差距并不大。因为在元音的发声过程中,男性个体的声带一般较女性个体的声带更加粗宽,因此男性语音的基频一般较低。根据咳嗽音的生成机理,有时咳嗽的发声没有经过声门上系统的声带发音环节,仅仅是根据咳嗽的发音习惯引起的声门上系统口腔、鼻腔、唇腔等的变化带来的咳嗽音基频的不同,因此不能仅仅通过基频判断咳嗽音发声个体的性别。

音强曲线分布的不同可能是咳嗽应激反应初始时,肺部呼出气体量而造成的。由于个体咳嗽习惯不同,肺活量大小不同,声门打开阶段与声门关闭时间因而也存在一定的差异。

5 结论与展望

以上结果表明,相同个体的咳嗽音在共振峰频率与过渡形态、基频参数、即时能量上有着与其他个体相比较存在一定的人际差异性。针对声纹特征良好的咳嗽音,可以成为话者识别的辅助个体特征,在缩小侦查范围上也具有一定的利用价值。但由于咳嗽音相比较普通语音,语音样本片段较短、个体间的稳定性相对较弱,所以不能仅从咳嗽音进行同一认定。除咳嗽音外,录音片段中时常出现的清嗓音、清喉音等非言语信息是否也具有同咳嗽音一样的认定价值,这是下一步研究的内容之一。在社会应用方面,可以拓展到针对语音障碍的残障人士身份识别研究方向。

[1]赵青.咳嗽音特征提取及在身份识别中的应用研究[D].南京:南京邮电大学,2009:8-15.

[2]中华人民共和国司法部司法鉴定管理局.司法部录音资料鉴定规范:SF/Z JD0301001-2010[S/OL].北京:司法部司法鉴定技术研究所,2010:2[2010-04-07]. http://www.moj.gov.cn/tongyong/download/moj/11lyz ijd.pdf.

[3]王英利.声纹鉴定中普通话音素间过渡方式特征研究[J].证据科学,2011(1):100-105.

[4]王英利,潘自勤,常蓝山.声纹鉴定中的音强特征研究[J].中国司法鉴定,2011(5):19-22.

[5]申小虎,金恬,等.滤波降噪对语音同一认定的影响[J].警察技术,2015(6):32-35.

(责任编辑:孟凡骞)

D918.4

A

2095-7939(2016)04-0065-04

10.14060/j.issn.2095-7939.2016.04.014

2015-12-20

江苏高校优势学科建设工程资助项目(PAP);江苏警官学院科研项目(编号:2016SJYZQ01);江苏省教育厅资助项目(编号:2014SJB246)。

申小虎(1981-),男,山东青州人,江苏警官学院刑事科学技术系工程师,主要从事语音信号处理与视听资料检验研究。

猜你喜欢
声纹基频声门
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
支撑喉镜下声门暴露困难的相关因素
桥面铺装层对中小跨径桥梁基频影响分析
支撑喉镜声门区暴露困难影响因素的logistics分析
屏幕即指纹识别
尴尬的打嗝
45000kHz基频晶体滤波器
基于数字水印的人脸与声纹融合识别算法
声乐学习中“声门适度感”的掌握