司法语音同一鉴定的一种具体方案

2018-01-26 21:12王春兰

新教育时代·教师版 2017年45期

摘要：司法语音同一鉴定是用声纹技术把案件现场获取的涉案人的语音检材和犯罪嫌疑人的语音样本进行分析对比。鉴定过程中常用到频谱图和宽带语图、窄带语图，测量基频、音长、音强、共振峰的频率、斜率等参数，进行对比，如果参数变化超过允许的范围则认为出现差异，根据出现差异的参数个数确定音节的差异，根据音节差异的个数给出同一鉴定的意见。

关键词：同一鉴定语音声纹语图共振峰

引言

语音等作为视听资料的一种，已经被写入到刑法的八大证据中，因此越来越多地出现在现在司法案件中。司法语音鉴定结合听觉分析和声纹识别技术对检材语音与样本语音进行综合对比，确定两个语音中的说话人是否为同一人，司法领域称之为语音同一鉴定，具有非常重要的司法实践作用[1，2]。

一、司法语音同一鉴定的应用技术

1.声纹识别技术的理论依据

在发音过程中，肺部相當于声道的激励源。咽腔、口腔、鼻腔等形成各种语音的声道。发音过程中声道变化非常复杂，发音时的方式不一样，发音时各部位活动轨迹不一样，就会形成不一样的声纹特征。任何两个人在发相同音素时发音的方式与声道形状不一样，所以形成的声纹特征参数也有有本质差异[3]。

2.声纹识别技术的常用图谱

（1）时间波形图

时间波形图也就是时域图，X为时间轴（秒），Y为振幅轴（分贝，dB）。该图反映了语音的能量随着时间的变化趋势。如图1（左）是某语音的时域图。

（2）频谱图

频谱图的X为频率轴（秒），Y为振幅轴（分贝，dB），该图反映了语音的能量随着频率的变化趋势。如图1（右）就是某语音的频域图。

（3）三维语图

三维语图包括宽带语图和窄带语图，它们的三个维度坐标都一样，X为时间轴，Y为频率轴，Z为能量轴，能量的强弱通过灰度深浅来表示的，颜色越深，表示能量越强[4]。顾名思义，用较宽的滤波器带宽分析出来的语图就是宽带语图，通常在8KHz的频率范围，常用300Hz带宽滤波器来分析。相应地，窄带语图是用较窄的滤波器带宽分析出来的，对8kHz频率范围常用45Hz带宽滤波器分析[4]。

从宽带语图中能看到共振峰形态，窄带语图可以显示谐波构成，反映基频的变化。从整个语音的语图中可以观察到共振峰的大体分布走势，如果需要测量某时间点的共振峰的频率值，则可以基于宽带语图的某个时点做出来的片段频谱图，如下图（左），从前面的四个尖峰处频率值可以估算共振峰F1～F4的频率值。另外，也可以根据窄带语图做某个时间点的频谱图，帮助我们估算该时间点的基频值。如下图（右），可以从第一个尖峰的频率值可以知道该时间点的基频值。

二、一种具体的鉴定方案

声纹检测法需要从检材和样本中选择发音清晰的相同语句、语词或音节，如果说话声音大小、速率和语调等方式相同，则只要有七八个音节的一句话就可以做出鉴定。尽量达到3～5个相同的语句或7个以上的语词，当然越多越利于鉴定。当检材和样本声学特征差异很大时，结合听辨法、言语识别法的结果，可做出否定结论；反之，则需要进行主要声学特征的定量检测、比对，根据先期研究语音稳定性和特殊性得到的判据，做出是否同一的鉴定意见。声学检验分为定性观测检验和定量分析检验两步，两步都包括韵律特性和共振峰特性两个主要部分。

1.定性检测

（1）韵律特性

调出检材和样本中某一相同短语或句子的韵律谱图，对比显示为上下图。在打印出的谱图上标记声调曲线、音强曲线、停顿等韵律特征异同点，进行必要的数据检测。

（2）共振峰特性

将检材或样本的宽带语图做上下对比，在打印出的谱图上标记各音节或词、句的共振峰频率及其走向形态等的特征异同点，进行必要的数据检测。

经过韵律和共振峰的观测、比对，两个语音的主要声学特征如果有明显差异则可以结合听辨得出否定结论。反之，如果检材和样本的韵律和共振峰等主要声学特征没有明显差异时则需进一步做定量分析。

2.定量检测

（1）韵律特性

在韵律比对谱图中分别测量所选取音节的声调、音强和音长的数值，因为声调和音强随时间变化，所以测量音节稳定时段的开始、中间、结束三个数值取其平均值代表各音节的相应参数值。需要注意的是，检材和样本的各测量点要对应。

同一人在不同情况下，两次说同一短语或句子的韵律特性会有一定范围的变异。正常情况下，音节声调类型不变时，中调值的增减男性一般不超过40Hz，女性一般不超过60Hz，两次说话的各音节之间声调、音强、音长相对比率不超过14%。

（2）共振峰特性

在宽带语图对比图中，用光标分别定量检测这些音节的共振峰频率，或语词拐点处的共振峰频率。宽带语图只能根据黑度估测，可以用宽带语图和LPC谱图平铺分布检测各音节的共振峰频率和强度。音节共振峰是随时间在动态变化的，一般可以检测检材和样本的对应稳定时段共振峰数据，时长20～60ms，代表该音节共振峰。

对音节或音节间共振峰斜度较大的动态共振峰特性，应检测开始点频率和时刻、终点频率和时刻、计算共振峰斜度，以始点频率、终点频率和斜率三个参量共同表示其共振峰特性。根据公安部物证鉴定中心对普通话的正常说话状态的成年人的统计研究结果表示，同一人两次说话时，音节共振峰频率和强度虽有一定的变异，但仍有较强的稳定性。共振峰频率的变异与其频率值或阶数相关，对300～4000Hz的前四个共振峰，变异系数范围为12%～6.5%，音节各阶共振峰强度的相对比值的变异系数一般不超过14%。

司法语音同一鉴定的依据是话者自身的非本质变异小于话者之间的本质差异。对说普通话的部分成年人正常说话的定量研究，短语或句子的韵律特性和共振峰特性中上述参量具有相当好的稳定性和特殊性，以下为标准判决：

音节：以三个和三个以上参量超过判据，判为有差异；

在所选取短语或句子的八个音节中，如果三个和三个以上音节有差异，则认为该短语或句子为两人所说。

综上，司法话者识别要将听辨法和声纹检测法的结果进行综合分析判断，最后得出鉴定结论。在实际案件中，还要考虑以下因素的影响：检材和样本中相同语句的说话声音大小、语气、语调、情绪是否相同；检材和样本在录制时录音设备信道不同的影响等。

结语

在案件发生过程中，涉案人受到各种因素影响，情绪会波动甚至用各种方式伪装语音，导致检材语音会偏离涉案人正常心理状态的发音，而犯罪嫌疑人在明确其样本会影响最终判决时，录制样本的心态也会很复杂，所以案件语音常常存在伪装和心理状态变化引起的特殊变异。在实际司法鉴定工作中，要特别注意说话人故意伪装、掩饰个人特征以及情绪波动导致的声纹参数变异。

参考文献

[1]谢春荣.声纹识别技术在司法鉴定中的应用研究[D].厦门：厦门大学学位论文，2008，4-10

[2]王志飞.数字音频司法鉴定技术研究[D].厦门：厦门大学学位论文，2014，6-15

[3]杨俊杰，李红明等.不同通信系统下的说话人识别探究[J]. 中国司法鉴定，2010.5

[4]宋乐.说话人识别中改进特征提取算法的研究[J].计算机工程与设计，2014.5，15-25

作者简介

王春兰讲师1980.2，汉，女，硕士，研究方向：声像资料检验endprint