张犇 李日兴 高培喆 李争琦
摘要:在司法语音检验过程中,由于检材与样本在录制时,各自所选取的信道不同,促使语音在听觉上产生差异,由于信道因素可能会导致素材的客观真实性受损,以至于影响我们的语音司法检验。本文重点针对手机内部录音,结合语音鉴定技术对其进行具体参数分析和图谱比对,最终得出有针对性、实用性强的明确结论,对语音鉴定工作有较强的指导意义。
关键词:语音;信道;手机录音;图谱
1.引言
随着科学技术的发展和法制建设的完善,以诸多现代科学技术为基础的视听资料被刑事诉讼法规定为诉讼证据,司法语音检验是视听资料作为证据进行检验的一个重要组成部分。语音检验技術方法日趋成熟的同时,检验鉴定人员开始更多地关注语料的获取方式,由于硬件条件和采集环境所限制,在案件语音检验鉴定过程中,很难保证检材和样本获取方式和途径是一致的。其中,由于检材与样本在录制时,信道的差异促使语音在听觉上发生畸变。因此,我们在比对过程中就必须考虑这种差异带来的影响。
本文将通过理论分析、实验比对和数据统计分析等方式,对上述影响进行具体研究并得出相关结论,以期对司法语音检验工作提供有力补充。
2.语音信道及其影响
语音信道是指语音信号传输的途径,它以传输语音的媒体和中继通信设施为基础,可分为有线信道和无线信道两类。由于各种实际因素,信道所提供的频带总是有限的,信道特性也总是存在着不完善性。因此语音信号通过信道时,往往会或多或少地发生幅度和相位失真,从而产生波形失真,这就为语音传输信道差异分析奠定了基础。在话音信号通过传输通路后,一般会受到如下几种影响:
2.1总衰减
总衰减是指话路的输入信号电平和输出信号电平之差,它表示信号在整个话路传输后的减弱程度,也即总的传输损耗。总衰减越大,话路输出的信号功率就越小,信噪比降低,通话的清晰度就越差。
2.2衰减频率失真
衰减频率失真是指信号通过信道时,不仅幅度被衰减,而且波形也可能发生畸变。由于话音信号占有一定的频带,因此经过话路传输后,如果在传输频带内各频率成分的衰减不等,将会使接收到的信号波形失真。这种失真主要来源于传输系统的滤波器。
2.3噪声
可分为热噪声、互调噪声、串音和脉冲噪声等。他们对传真信号的影响是降低了信噪比S/N,最终使接收到的信号出现差错或使传输速率下降,其中以串音和脉冲噪声犹为常见。串音是指相邻信道传输信号的相互干扰。脉冲噪声一般是指持续时间小于1ms的电平突然变化,它具有突发性和较大的强度,虽然对话音信号影响不大,但对于频谱的低频区域也会产生一定的干扰。
2.4频率偏差和谐波失真
频率偏差是由于多路载波系统中调制与解调过程所用的载波供给系统的频率不一致造成的。谐波失真是由于话路中存在非线性部件所引起的,系统中某不见因过载而进入非线性工作区域时,将会使信号产生谐波和各频率成分的交互调制,造成附加的噪声而导致信噪比的降低。
3.手机内部录音
电话数字录音的核心部件为数字录音芯片,根据质量优劣,其录音效果也分不同等级,普通的手机录音芯片一般支持采样率8000Hz,16位量化。通话录音的基本原理是——语音信号经过滤波和放大后送入A/D转换器,采样量化后形成数字信号,再经过录音软件压缩编码而形成特定的语音文件格式。
语音从口中发出后,经过电话信道传输,受到电话受话器、编码器、中转系统、解码器、和电话扬声器等信道模块的干扰,在信号频率成分、功率分布等方面势必会受到影响,影响程度可以通过后期的图谱比对和数据分析来加以研究。手机受话器的频率响应性能如图1所示。
4.实验及其分析
4.1实验条件及方法
语料包括国际音标中的5个元音、10个数字、10个词语和5个短句。
话者根据语料标准发音,使用手机——手机通话并在接收端开启内部录音功能,同时使用高质量麦克直接拾取语音输入计算机,之后通过专用数据线和提取软件把手机内部录音输入计算机,分别形成语音文件。
4.2实验结果分析
4.2.1听觉分析
通过手机信道录入的语音(下称X2)与麦克直录语音(下称X1)相比较存在明显的区别。在音色上,麦克直录语音听起来非常接近话者真实发音,内容清晰、干净,听不出话语失真。而手机信道录音存在着信号失真,音色感觉频率成分有较大缺失;个别音节发音不清,有嗡声存在,在内容识别上产生浑浊感;在整体听觉上声音较闷,声音强度有一定增强。
4.2.2共振峰图谱分析
检材X2相对于样本X1,各共振峰位置和形状未发现明显变化,但中高频共振峰(F2、F3)相对于低频共振峰(F1)出现明显的能量增强现象,高频共振峰(F4)能量有所衰减或者消失;辅音图谱中频区能量增强,低频区(具体为1500Hz以下)能量有所减弱。如图2,图3所示。
4.2.3振幅曲线分析
通过观察比对分析两组音节的强度曲线,韵母部分走势和强度基本不变(考虑两种录音方式的输入输出电平差异);声母如果是送气塞擦音,则强度有明显提升,如果是爆破音,则强度也有一定提升,但效果不明显。频谱和共振峰分析结论中,X2效果语音中高频区域能量得到加强,而绝大部分辅音的主要能量集中区就处于音节的中高频区域,因此,含有辅音声母音节的强度曲线变化会出现上述变化。
4.2.4基频曲线分析
通过观察分析两组基频曲线图发现,部分音节基频曲线出现畸变现象,具体为曲线断裂、起始部位提升、尾部快速提升、部分曲线消失等现象。通过统计观察,两个以上元音组合发音时,发生上述畸变的现象较普遍;发送气擦音[s]和[sh]时,经常会出现基频曲线起始端畸变。
4.2.5共振峰数据分析
选取15个音节两种信道下的共振峰一峰、二峰、三峰和基频数据,应用数理统计的方法进行分析。表1给出两组所选音节的F1、F2、F3的成对t检验和相关回归分析结果,表中t值和p值分别表明两种信道的各音节前三共振峰差异较显著;在对应共振峰之间做相关回归分析,得出相关系数处于0.82∽0.98之间。
由此。推出回归方程并得到R2分别为0.95、0.98、0.96,说明利用回归方程推算出的频率值有较高的利用价值。
4.2.6基频数据分析
对基频曲线发生畸变的音节,测量其基频平均值已经没有统计价值,因此在四种调形音节中,选择没有发生畸变的音节测量,然后做成对双样本均值t检验和相关回归分析,以研究其变化情况,结果见表2。
数据表明:两种信道的四类调形基频没有显著差异,但阴、阳调形的基频均差明显小于另外两种,说明后者要比前者受信道变化的影响大,这与前面图谱分析的结论相符。
4.2.7语音自动识别分析
把麦克直录语音文件作为样本输入自动识别系统,库容量为10000人,然后把手机内录语音文件作检材进行训练比对,输出的识别分数为0.057,识别结果为接受。该系统为中国刑警学院与清华大学合作开发的司法语音识别系统,目前,已经通过鉴定并进行行业推广。
5.结论
语音经受信道干扰后,在听觉上产生失真,有频率成分缺失现象。图谱比对发现各共振峰位置和走势未发生明显变化,但中高频区峰的能量明显增强,而低频峰的能量明显减弱。
数据分析的结果表明:各音节共振峰受信道影响在数值上发生较明显变化,分析这种变化是由于语音受信道影响后,除频率分布变化外,常规测量各共振峰均值的方法会带来较大误差所造成的。
通过观察比对两组音节的强度曲线,辅音所产生乱纹冲直条的能量也有所增强,尤其是送气塞擦音;韵母部分走势和强度基本不变(考虑两种录音方式的输入输出电平差异);后期通过频谱曲线走势变化情况可以印证上述结论。
对四种基音调形音节的基频数值进行检验未发现显著变化,但可以得出上、去调形比阴、阳调形更易受信道影响。提取基频曲线时发现,部分音节的基频曲线发生畸变,分析推测此类现象是由于设备因素造成的特殊现象。
自动识别结果发现信道差异被系统接受,但被识别的相似度得分普遍较低。
参考文献:
[1] 岳俊发、王英利(1996)《声纹鉴定》。北京:警官教育出版社。
[2] 侯风雷、张万军、王炳锡(2002)电话信道对语音信号参数影响的研究[J]。信息工程大学学报。
[3] 周静芳、陈一宁、刘加、刘润生(2004)说话人识别信道补偿技术HNSSM[J]。清华大学学报。
[4] 王煒、王炳锡、王波(2004)信道补偿技术的发展及其在说话人识别上的应用[J]。语音技术。
[5] 张辉、曹丽娜《现代通信原理与技术》。西安:西安电子科技大学出版社。