假声伪装语音同一认定的可行性分析

2018-05-03 11:45:13申小虎张长珍万荣春

中国刑警学院学报 2018年2期

申小虎金恬张长珍万荣春

（1 江苏警官学院刑事科学技术系江苏南京 210031；2 江苏省公安厅物证鉴定中心江苏南京 210031）

近年诈骗侵财类案件高发，录音材料成为侦查破案有用情报，也是公诉量刑的重要证据来源。犯罪嫌疑人为掩盖其真实身份，通过捏鼻子、电子变声器、假声发音等伪装手段逃避公安机关的侦查。捏鼻伪装手法是鼻音通道受阻形成的语音，虽使语音特征发生改变，但是不同个体之间差异仍然大于自身差异，具备鉴定的条件和基础[1-2]。电声伪装语音使语音发生了畸变，但有的学者利用声学特征变化规律得到线性回归模型，通过逆变换可以得到与原声声学参数相近的语音[3-4]。假声发音有提高基频、降低基频、快速发音、慢速发音[5]等多种伪装方式，但从实际案例得到的伪造语音检材来看，犯罪嫌疑人进行伪装发声的方式相对简单唯一。因此，针对相同伪装方式条件下的假声语音，分析其基频参数、宽带语谱图、能量曲线等声学参量数据并进行量化比较，为发掘假声语音检验中的线索与依据而开展此项研究。

1 假声伪装手法

根据发声生理学，正常发音主要通过人体喉部环甲肌组织的收缩运动使声带完全振动，控制声门的全方位闭合，进而发出音质明亮的声音。假声则是喉部披裂肌作收缩运动使声带局部振动，声门闭合呈菱形合缝状，声带边缘变薄后与空气流动共同发出的声音。假声高于原声正常音域，且接近正常音域上限一个8度范围，例如“海豚音”。假声发音机理的不同改变了发声声音的基频，同时由于基频的改变，元音、浊辅音的语谱图也会呈现出一定程度的变化。犯罪嫌疑人经常采用假声发音的方式伪装不同角色逃避侦查，给侦查、鉴定工作增加了难度。

2 实验条件

2.1 实验设备

硬件：Gnome-p专业录音器（采样频率8KHz/16KHz，截止频率为16KHz）、研华科技610H工控机（CPU i7-4790 3.60G双核，内存16GB）。

软件：Adobe Audition语音编辑软件、俄罗斯法庭语音分析系统OT-Expert 5.1、美国LVIS自动话者识别系统。

2.2 实验样本

待测试音频文件中发音人共30人，选用江苏警官学院大四男女学生各15人，年龄分布在22～24岁之间，采录时采用现场发生率较高的“提高基频式”假声方法发音。录音语料为自行设计的3分钟语音对话语句。录制地点选择于江苏省公安厅物证鉴定中心的语音采集室。录音设备为Gnome-p专业录音器，设置录音器参数为11.025KHz采样率，按照声纹鉴定语音检材和样本提取方法[6]进行录制。录制过程为每人正常发音阅读1次后再假声发音阅

读4次，依次命名为XXX假声1，XXX假声2，…，

XXX假声4，其中XXX为说话人姓名音节首字母，共得到150份语音样本。

2.3 实验方法

分别利用OT-Expert 5.1的宽带语谱图、共振峰/基频统计模块、能量曲线模块，分析计算男、女间正常发音与假声伪装样本的共振峰走势形态、共振峰/基频参数、音强等声学特性，并在0.05的检验水平下进行成对T检验，论证正常发音与假声间、假声发音间差异性与稳定性。同时，将此实验样本中的30份伪装语音作为检材加入自动话者识别系统LVIS的2500人语音库中。再利用30份正常语音与其余120份假声作为样本进行自动识别测试，最后对测试结果进行分析统计。

3 实验结果

从对实验样本的对比中我们发现，假声的发音特性导致相同个体的正常发音与假声的语谱图中的共振峰、基频、音强等各参数具有明显的差异，与期待结果相同，同时相同个体的4次假声间的差异较小。由于篇幅限制，本文中仅列举了1位男性个体WDJ的分析对比实验结果。

3.1 基频参数

利用MFCC倒谱功能模块对实验样本的基频参数进行量化统计。众所周知，由于基频反映声带振动速度，而假声是利用声带边缘部分振动与空气流动共同发出的声音，因此振动速度与正常发音相对较快。相同个体情况下，假声各项基频参数均明显高于正常发音。同时实验发现，相同个体4次假声发音的基频各声学参数数值较为接近，差异率较小，如表1所示。从图1基频曲线分布对比图中也可以看出，假声语音实验样本基频频率值明显高于正常发音实验样本的基频频率值，4次假声的基频走势与区间分布大体一致，基频分布与基频曲线走势拟合度较高。同时实验结果中，女性个体假声的基频各项参数均高于男性个体。

对假声语音与正常语音进行成对T检验得出：T值为-15.16，显著概率P值为0.001，结果表明基频差异显著；对假声语音进行成对T检验得出：T值为1.2，显著概率P值为0.271（远大于0.05），即基频差异不显著。

表1 WDJ正常发音与假声间基频参数对比

图1 WDJ正常发音与4次假声间的基频分布对比

3.2 宽带语谱图检验

截取语料中一段语音“我不愿和他一起做大创课题”（包含a、i、u、e、o5个元音音节）作为示例进行语谱图分析。图2、图3分别为WDJ男性个体的正常发音与4次假声间的共振峰宽带语谱图、LPC频谱图。由于提示基频式假声发音会导致开口度变小、共鸣空间的形状变化小音强较弱，进而带来共振峰边界显现模糊，共振峰曲线起伏走势幅度小[7]51；同时塞擦音等形成的乱纹与塞音形成的冲直条得到了一定程度的的衰减。

高频特征的稳定性是语音同一认定的重要条件，通过实验发现，假声音节间的高频共振峰频率值、共振峰走向、音节内过渡音征、音节间过渡音征相似性远大于与正常音节的对比。例如图2中红色箭头所示，发音音节“愿（yuan）”的宽带语谱图对比中可以看出，正常语音音节内的F3过渡音征呈升渡，而4次假声音节内的F3过渡音征呈降渡。从发音音节“一起”的音节间过渡形态对比可以看出，正常语音音节为清晰过渡，而假声音节间的过渡形态为模糊过渡。另外，从发音音节“大创”的音节间过渡形态对比可以看出，正常语音音节为缓冲过渡，而假声音节间的过渡形态为暂停过渡。

共振峰体现了声道谐振特征，反映了元音的音质，因此从听觉检验上假声与原声相比其音质要差很多。如图3所示，本文使用LPC编码频谱图得到各音节的共振峰频率曲线，并通过辅助人工标记的方式可以得到各录音样本的共振峰端点频率。为更好的验证假声是否具有同正常语音一样的个体稳定性与人际差异性，我们将个体的正常发音与假声按照性别分类后，计算元音端点频率并进行量化统计分析。表2为将剪切语料中的“大”字的[A]、“一”字的[i]、“不”的[u]、“课”字的、“我”字的[o]元音共振峰端点频率。限于篇幅，仅列出了女性个体XYH与男性个体WDJ正常发音与假声发音间的各项指标参数与相对偏差。

对假声语音与正常语音的F3共振峰进行成对T检验得出：T值为-4.92，显著概率P值为0.013，结果表明F3差异显著；对假声语音与正常语音的F4共振峰进行成对T检验得出：T值为-1.86，显著概率P值为0.106（大于0.05），结果表明F4存在差异但不显著。对假声语音的F3共振峰进行成对T检验得出：T值为1.2，显著概率P值为0.469（远大于0.05），即F3差异不显著；对假声语音的F4共振峰进行成对T检验得出：T值为0.35，显著概率P值为0.776（远大于0.05），即F4差异不显著。

图2 WDJ正常发音与4次假声间的共振峰宽带语谱图

图3 WDJ正常发音与4次假声的LPC频谱图

从实验结果可看出，男女个体的假声各音节的共振峰F1、F2频率均比正常发音时差异较大，已不具备鉴定的条件。相同也发现，个体提升基频式假声间的共振峰数值差异不明显，具有一定的稳定性。与正常发音相似，由于女性声带较男性更薄，因此假声发音的各共振峰频率也高于男性个体。本次实验选用的提升基频式假声发音的音节声韵母结构、声调未发生变异，因此仍可依照语音样本，提取语音检材中的相同音节进行鉴定。但其他伪装方式，例如捂嘴、咬物、方言等，声韵母结构已改变情况下，也不能作为相同音节比对。

表2 相同个体正常发音与4次假声间的共振峰各参数对比

3.3 音强检验

语音的能量也称为音强，是语音同一鉴定时的重要参考因素之一，其大小取决于采录设备接收处的波幅。正常发音和假声的本质区别是声带参与（振动）的面积和类型。假声是由声带韧带边缘振动产生的，声带主体是放松的，而正常原声是全体声带振动产生的。同时由于提升基频式假声的某些音节开口度小，在相同发音条件下假声发音缺乏力度，因此，其即时能量要比正常发音要弱[7]50。由于未经过专业训练的发音人的不能很好的控制由声带边缘振动时所产生的假声，因此很容易产生能量断裂，在即时能量曲线上所表现的是突然下降的能量波谷，如图4所示。本次实验选用的提高基频式伪装语音发音较耳语、降低基频式等伪装方式，声带振动幅度大、气流强烈，音强能量均值与正常发音差异不大。

对假声语音与正常语音的能量均值进行成对T检验得出：T值为-1.27，显著概率P值为0.261，结果表明能量差异不显著；对4次假声语音的能量均值进行成对T检验得出：T值为0.584，显著概率P值为0.869，即能量差异不显著。

图4 正常发音与假声间的即时能量（音强）曲线图

3.4 语音自动话者识别测试

在前面的传统人工图谱检验实验中，我们发现伪装手段使语音频谱的基频、共振峰、音强都发生了变异，影响了说话人同一认定的判断。但同时也发现，相同伪装方式下的假声某些语音特性存在一定的稳定性。为进一步验证此结论，本文将30名发音人伪装假声语音1作为检材加入LVIS自动辨识系统的录音库，同时将30名发音人的正常语音与其余伪装假声语音作为待测试语音样本，进行自动话者识别测试。

LVIS自动说话人鉴定系统选用UBM-GMM混合模型、隐马尔可夫模型和神经网络技术并结合Tippet图结果验证系统，其等错误率（EER）最低为1.20%，但由于系统限制不能够调整阈限值。测试结束后LVIS系统将录音库中与待测试语音样本似然率数值（匹配度）依次进行降序排列，并列出各录音库语料与待测试样本的似然率，如图5所示。其中似然率0～10-4认定为不同一，10-4～1为倾向性不同一，1～104认定为倾向性同一，大于104认定为同一。

图5 LVIS自动话者辨别系统

本次测试假定将待测试语音样本与伪装假声语音检材匹配时，系统计算得到的正确发音人语音样本的似然率位列前5名，即为正确辨识。从实验结果来看，正常语音样本的正确辨识率仅为23.3%，而伪装假声语音样本的正确辨识率则达到了88.89%，如表3所示，其中★标识为辨识不成功的样本例（篇幅所限，仅列出15位发音人的测试例）。

表3 15位发音人的语音样本的自动识别似然率

4 分析与讨论

通过上述分析检验结果可以得出下列结论：

（1）假声语音检材与正常语音样本间不具备同一鉴定条件。从语谱图与从T检验量化结果可以看到，由于假声发音时共振腔的共振作用减弱，使得假声语谱图中共振峰的总体分布与走势、塞音冲直条、摩擦乱纹、浊音横杠产生变异；假声语音与正常语音相比较，共振峰走势分布以及持续时长，共振峰频率、基频数值均存在差异；音强曲线中易产生能量带断裂。同时上述差异在男性发音个体间更为明显。因此，假声语音检材与正常语音样本间进行同一认定时易导致否定结论，LVIS自动语音辨识系统也正确验证了此结论。

（2）相同伪装方式下的假声语音检材与样本间进行同一认定具备一定的鉴定条件。从语谱图与从T检验量化结果可以看到，相同伪装方式下语音图谱的共振峰走势形态、基频数值、音强曲线的能量断裂位置具有一定的稳定性。在伪装发音检材与样本间进行同一鉴定时，可利用上述特征作为参考依据。但本次仅使用了提高基频式伪装发音作为实验样本（30例），快慢速、捂嘴、耳语等其它伪装发音[8]未作讨论，其它相同伪装方式条件下的假声是否具备相对稳定性还需在对假声录音样本进行扩充后进一步加以论证。

（3）语音检验中，语音检材与样本不能满足同一认定条件的情况下，利用方言口音、习惯用语、赘语、言语缺陷、韵律特征等在伪装不易改变的信息特征，对缩小侦查范围也具有重要参考价值。

参考文献：

[1] 庄琳. 捏鼻语音的声纹鉴定研究[J].中国人民公安大学学报(自然科学版),2010(4):1-7.

[2] 张翠玲,曹巧玲,张红兵. 捏鼻伪装语音的声学研究[J]. 中国刑警学院学报,2006(3):46-48.

[3] 张桂清,金怡珠,等. 电子伪装语音的变声规律研究[J]. 证据科学,2010(4):100-105.

[4] 张翠玲,赵晓波. 电声伪装语音的声学研究[J]. 中国刑警学院学报,2008(2):53-55.

[5] 张翠玲. 伪装语音的声学研究[D].天津:南开大学,2005:4-5.

[6] 王虹. 基层公安机关声纹鉴定语音检材和样本提取技术[J].警察技术,2012(4):57-60.

[7] 金阳天,王虹,欧阳国亮. 语音开口度对共振峰频率的影响[J].中国刑警学院学报,2014(3).

[8] 张翠玲,谭铁军,刘昇. 伪装语音的自动话者识别研究[J].中国刑警学院学报,2007(2):18-21.