张红兵
(中国刑事警察学院声像资料检验技术系 辽宁 沈阳 110035)
耳语特征变异分析
张红兵
(中国刑事警察学院声像资料检验技术系 辽宁 沈阳 110035)
说话人凑近别人耳朵或私下里轻微发音,被称为“耳语”。相较于正常发音,耳语发音在听感和图谱上都存在着明显变化,给话者鉴别工作带来诸多困难。从分析耳语的语音学基础入手,运用对参数统计分析和图谱比对等方式,深入研究耳语发音在声调特征、共振峰分布特征以及能量特征等方面的变异情况,以期给耳语话者鉴别工作提供参考和借鉴。
耳语 话者鉴别 共振峰 LPC
说话人凑近别人耳朵或私下里轻微发音,被称为“耳语”,话者经常会受内外部因素影响或因表意的需要发出所谓的耳语。从语音学角度分析,耳语是依靠气流冲击摩擦未闭合的声带及其他声腔部位而发出的特殊语音,更多地表现出声带震动能量(即基音)的消失,并伴随着发音能量的明显减弱。相较于正常发音,耳语发音在听感和图谱上都存在着明显变化,耳语检材在声纹鉴定中的出现,给检验工作带来诸多困难。嫌疑话者之所以通过耳语方式发音,较常见的是发音人试图通过耳语方式进行伪装;另外,由于话者的声带结构不完整甚至被完全切除,只能靠喉部其他组织代替声带完成发音,也会产生耳语效果。
汉语属于声调语言,耳语过程中声带未振动,意味着声调的弱化甚至消失,话语辨识度也有所下降,但为什么耳语仍能实现话者间的沟通交流?耳语过程未产生声门波,那么音节中元音韵母的图谱特征是否依然存在?耳语发音与正常发音的在声学特征方面会存在哪些异同?基于上述问题,本文从分析耳语的语音学分析入手,通过对声学参数的统计分析和图谱比对等方式,深入研究耳语发音在声调特征、共振峰分布特征以及能量特征等方面的变异情况。
1.1 耳语的产生
耳语的产生过程类似于清辅音,声门的不完全闭合形成了耳语发音部位,气流对声门的摩擦产生了具有噪声特性的耳语发音。虽然耳语在元音发音时未产生基音和后期明显的声腔共振,但相对于清辅音而言,其仍具有较为规律的能量分布特性,这里以类共振峰特征来描述,如图1所示。
图1 耳语发音宽带语图
1.2 耳语特点
有人认为“耳语”等同于“气声”,2种发音过程中声带都未完全闭合,听感上存在明显的气流声[1]。两者最明显的区别在于前者发音时声带是完全不振动,而后者发音时声带是不完全振动,属于一种声乐演唱技法。耳语亦不同于汉语中的轻音和轻声,虽然都伴随着声调的缺失,但耳语话者为了清晰表意需要放慢语速,因此单个耳语音节的音长明显大于正常音节;而汉语轻音和轻音长则明显小于正常发音,并且汉语轻声和轻音虽然受重音的影响而能量减弱,但不妨碍其具备元音的发音特性,即有基音和较为清晰共振峰存在,如图2所示。
图2 “桌子”2种发音的宽带图谱
话者鉴别主要是通过对各类图谱和数据进行特征比对和统计分析,判断话者异同程度,耳语的产生机理明显有别于正常发音,在图谱能量分布上必然存在差异。要想准确地鉴别耳语话者,就需要通过具体的耳语变异实验来进行量化分析耳语给话者本质特征带来何种变化,以确定耳语检材和正常发音样本之间是否还存在可比性,进一步确认耳语发音的变异程度。
2.1 实验设计
随机选择15名在校大学生作为发音人,模拟案例自然对话的方式,进行正常发音(普通话)和耳语发音,每位话者发音语料中包含2个二合元音(/ ao/和/ia/)各10个、2个三合元音(/iao/和/uei/)各10个。使用OLYMPUS LS-12型录音笔在专业录音室条件下录制语料,以减少噪音和空间混响的影响。最终建立各300个音节库容的正常语音库和耳语语音库[2]。
利用声学分析方法通过智能语音分析系统对各类发音进行图谱分析和数据统计,重点研究耳语发音的变异情况,进而比较分析多次耳语发音的特征曲线形态,以充分研究耳语话者特征的稳定性以及利用耳语特征进行话者鉴别的可行性。
2.2 实验分析
2.2.1 过零率曲线分析
过零率一般被用来表示短时或者单帧语音波形通过波形中心线的次数,常被用来区别清音和浊音。耳语发音缺失了浊音发音的关键因素,可以通过过零率曲线比对来分析耳语发音给语音信号带来的变化,如图3所示。
图3 过零率曲线形态对比
从2个语音库中随机选取对应20个字的发音,利用讯飞智能声纹鉴定工作站分别提取短时过零率曲线,首先在对应音节间进行曲线形态比对分析。结果表明,相对于正常发音,耳语发音中辅音声母区域的曲线形态高度未发生显著变化,但元音韵母的过零率曲线存在着明显差异,意味着耳语发音中元音部分短时能量得到提升,表现出清音的过零率特征,这与耳语发音机理相吻合。
从2个语音库中随机抽取5个字的发音,测量各音节韵母部分的短时过零率均值,利用Eviews6.0软件对上述均值做配对样本T检验。统计结果显示t值为18.282,P值=0.00<0.05,表明耳语发音与正常发音在韵母区的过零率有显著差异,并明显高于正常发音。
2.2.2 共振峰特征分析
发音原理的差异,导致2种发音的共振峰分布产生明显的差异,相较于正常发音,耳语除整体能量下降外,在低频区和中高频区存在着明显的能量衰减,出现了此区域共振峰的淡化甚至消失。耳语靠气流摩擦产生能量,并且摩擦力度强于辅音,因此高频区域能量得到增强,发音语速的降低使得能量横向分布较为舒展。
图4 2种发音的宽带图谱
把正常发音元音共振峰的位置、相对关系以及走势等特征,与耳语的类共振峰特征进行形态化比较,如图4所示。共振峰能量明显减弱,共振峰数量明显减少(低频区和高频区共振峰由于能量明显减弱而淡化甚至消失),共振峰带宽也存在增大现象;辅音区域的能量相对增强,辅音图谱特征更为明显。在统计过程中,由于受发音个体、发音随机性、样本数量以及图谱清晰度等方面的影响,共振峰特征的形态化差异度并非绝对稳定。
从2个语音库中分别抽取每位话者的二合元音和三合元音的各10次发音,利用Praat软件测量每个发音第二共振峰的起始值、核心值和收尾值(二合元音只测起始值和收尾值)。利用Eviews6.0软件对每组1500个样本值(3000个观测值)做配对样本T检验,以分析正常发音与耳语发音之间在共振峰特征方面是否存在明显差异,针对第三共振峰的均值测量计算以及统计分析方法同上,统计结果见表。
表 15位话者耳语前后F2、F3的配对样本T检验分析结果
统计结果表明,耳语发音的F2和F3相对于正常发音,有较为明显变化,变化范围在260Hz~360Hz之间,并呈上升趋势,特别是第二共振峰,整体的变化程度基本不影响话者个体特征的判别。针对数据组做相关回归分析。由于耳语发音的类共振峰能量较弱,因此在选取测量点、测量方式以及数据计算方式等方面还存在一定误差;耳语导致共振峰带宽变大,对于某些元音共振峰进行形态化比较和定量分析就存在困难,同样会影响到检验结果。另外,话者的发音次数以及总体样本量还需要进一步提高,因此,个别发音人的共振峰变化规律与整体规律存在差异是在所难免[3]。
2.2.3 FFT长时平均曲线分析
FFT长时平均曲线是利用不同参数集合来获取话者发音特征的有效方式之一,该曲线不受发音内容的限制,表现出较为明显稳定的话者特征,并且随着发音方式方法的变化,曲线形态也会反映出话者自身差异[4]。
利用讯飞智能声纹鉴定工作站建立每位话者两种发音的FFT长时平均统计曲线并进行数据均值分析,可较为具体地分析出,耳语相较于正常发音而言,韵母区能量明显衰减的具体频率区间为低频区(1000Hz 以下)以及中高频区(2500Hz~4200Hz),这与宽带图谱的形态化对比结果基本一致。如图5所示,其中粗黑曲线是代表正常发音,较细曲线代表耳语。
在6000Hz左右处耳语能量开始接近于正常发音,并在更高频段处有超越正常发音的趋势,这与耳语的产生机理有直接关系,但超出6000Hz以上的能量分布,对于大部分话者的个体特征识别已经没有太大的应用价值。
图5 2种发音的FFT长时平均曲线
2.2.4 LPC谱分析
LPC谱分析能够较好地反映话者声道特性,并且与发音样本无关,因此常被用来分析话者特征差异以及特征稳定性。通过智能声纹鉴定系统,分别提取话者2种发音的长时LPC谱分析曲线,以及音节发音中韵母稳定段瞬时LPC谱分析曲线,并加以比对分析。如图6、图7所示,其中粗黑曲线代表正常发音,细曲线代表耳语。
图6 长时LPC谱分析曲线
图7 瞬时LPC谱分析曲线
长时LPC谱清晰显示出耳语发音的能量集中区位置有所提高,并且在低频区和中高频区域能量明显弱于正常发音,导致整体的LPC谱分析曲线形态出现显著差异,而在高频区域又回归正常,这与共振峰数据统计结果和FFT长时平均曲线比对结果基本一致。
瞬时LPC谱分析曲线能够清晰显示出元音稳定段瞬时能量~频率分布状态。图7中耳语曲线的能量强区位置稍有上移,对应于音节韵母F2、F3所处位置,体现出耳语发音共振峰存在位移现象。耳语曲线中各峰的频率跨度略大于正常发音,意味着耳语音节中所谓共振峰带宽的提高。
耳语的产生机理与正常发音存在着较大差异,在听觉感知、图谱能量特征分析以及声学特征参数测量统计等方面,都给检验人员带来干扰甚至较大误差。本文针对一定量样本发音的声学图谱、曲线进行形态化比对和数值分析,并对声学特征参数进行统计分析。较之其他相关研究,本文进一步提高了样本量,并针对二合元音和三合元音音节进行关键点数据测量,并利用专业数据统计分析软件对上千个观测值进行配对检验,增强了声学参数统计和图谱分析的语音学意义。另外,在图谱分析过程中,采用了过零率曲线、FFT长时平均谱以及LPC分析谱,并进行曲线分布形态比对和数值分析,扩充了对耳语特征变异的分析途径,丰富了比对结果。
分析结果表明,耳语导致元音韵母低频区以及中高频区的能量发生明显下降,F1的利用价值明显降低,F2和F3位置都有一定程度的提高(平均在260Hz~360Hz之间),并且共振峰带宽也随之增大,上述变异情况给耳语图谱的清晰度带来负面影响。
话者在耳语发音时,为了更加清晰地表述内容,势必会加大发音力度以及喉部的紧张程度,给辅音发音的能量提升提供帮助。同时,较强的气流在声腔的调制之后,体现出了类似于共振峰的能量分布特征,在形态分布方面不会产生较大改变,但在整体共振峰数值上出现了提升,但未达到本质差异程度,因此可以利用耳语检材进行话者特征鉴别,需要鉴定人员在数值比对时加以适当修正。
综上所述,耳语虽然损失了一部分话者的常规特征,通过研究耳语的发音机理可知,耳语发音具有一定的稳定性,在话者鉴别工作中,可以利用耳语检材与正常样本或者耳语样本进行话者比对分析,但需要提高样本量以减少发音不稳定性以及其他内外部因素所带来的干扰。
参考文献:
[1] 潘欣裕,赵鹤鸣.中文耳语元音的声调特征研究[J].信号处理,2011(10):1525-1530.
[2] 杨莉莉,李燕,徐柏龄.汉语耳语音库的建立与听觉实验研究[J].南京大学学报(自然科学),2005(3):311-317.
[3] 张翠玲,张红兵,曹巧玲.耳语伪装语音的声学研究[J].中国刑警学院学报, 2005(4):43-46.
[4] 杨俊杰.利用长时平均LPC谱检验双胞胎语音之探讨[J].中国人民公安大学学报(自然科学版),2003(4):32-37.
(责任编辑:于 萍)
Analysis on the Variation of Whisper Features
ZHANG Hong-bing
(Audio-Visual and Image Technology Department of Criminal Investigation Police University of China Liaoning Shenyang 110035)
The speaker speaks close to other’s ears, which is called whisper. Compared with normal speech, there are signif cant changes in the sense of hearing and the spectrum of whispered speech, which brought many diff culties to the speaker identif cation. In order to provide reference for the whispered speaker identif cation, this paper starts from the analysis on the basic phonetics of whisper, and the variation of tone characteristics, formant distribution and energy characteristics of whispered speech are studied by parametric statistical analysis and spectral equivalence.
Whisper Speaker identif cation Formant LPC
H017
A
2095-7939(2017)01-0096-05
10.14060/j.issn.2095-7939.2017.01.015
2016-09-29
2016年度辽宁省自然科学基金项目(编号:201602810)。
张红兵(1979-),男,河南舞阳人,中国刑事警察学院声像资料检验技术系副教授,主要从事公安视听技术研究。