不同通信系统下的说话人识别探究

2010-09-13 00:43杨俊杰李红明胡耀民杨运生李靖伟李小勇
中国司法鉴定 2010年5期
关键词:双胞胎音节共振

杨俊杰,李红明,岳 玮,胡耀民,杨运生,李靖伟,李小勇

(1.山西警官高等专科学校,山西 太原 030021;2.山西省公安厅,山西 太原 030001)

不同通信系统下的说话人识别探究

杨俊杰1,李红明2,岳 玮1,胡耀民1,杨运生1,李靖伟1,李小勇1

(1.山西警官高等专科学校,山西 太原 030021;2.山西省公安厅,山西 太原 030001)

目的 研究不同通信系统条件下,利用语音进行说话人识别的基本假设“个体之间的语音差异大于个体自身的语音变异”是否成立。方法选择宽带语图差异较大的不同通信系统下语音进行比对及差异的统计。结果 发现说话人识别的基本假设在不同通信系统条件下成立。结论 得出了不同通信系统条件下进行说话人识别的方法与判阈。

不同通信系统;宽带语图;说话人识别

Abstract:ObjectiveTo validate the basic premise of voice identification,that is,inter-speaker difference of voice is bigger than intra-speaker variation,under different communication systems.MethodsBroad band spectrograms of voices under different communication systems were compared.ResultsThe basic premise of voice identification is valid under different communication systems.ConclusionKnowledge about voice identification under different communication systems was obtained.

Key words:different communication systems;broad band spectrogram;voice identification

据信息产业部报道,截至2009年12月,我国电话用户共有10.6亿,其中手机用户7.5亿、固定电话用户3.1亿[1]。虽然电话的普及方便了人们沟通与交流,但同时犯罪分子也把这些通讯工具作为隐秘、便捷的作案手段,由此增加了案件的侦破难度。另外,在当前的民事及行政诉讼中也经常涉及到各种电话录音。因此,通过电话录音进行说话人识别越来越成为打击犯罪、维护公民合法权益的重要技术手段之一。

利用语音进行说话人识别的一个基本假设是“个体之间的语音差异大于个体自身的语音变异[2]”。在由录音远端电话→录音远端电话网络系统→交换网络(包括IP网络)→录音近端电话网络系统→录音近端电话组成的通信系统下,语音所受的影响是通信系统各个环节共同作用的结果。对于通信系统不同环节的影响 Kunzel HJ[3]、Catherine Byrne and Paul Foulkes[4]、李敬阳[5]、施少培[6]、杨俊杰[7]等分别进行了比较详细的研究,对各个环节的影响有了较为明确的认识。

但在这种综合影响下说话人识别的基本假设是否仍然成立,在不同通信系统下进行说话人识别时需要注意什么问题,其判阈如何等尚需要详细研究。本实验对宽带语图差异较大的不同通信系统下的语音进行比对及差异统计,得出了不同通信系统条件下进行说话人识别的方法与判阈。

1 材料与方法

1.1 实验器材

1.1.1 硬件

联想电脑、神鹰中讯HCD1988(82)TSD固定电话1部、CECTY767手机1部、OKWΛP小灵通 1部、酷派2938手机1部。

1.1.2 软件

VS-99计算机语音工作站3.0版、Excel 2003。

1.2 实验语料

1.2.1 录音对象

山西省太原市、20岁左右、相同文化程度(大专在校)的说话人为不同通信系统下的录音对象。

为了尽可能考查相似客体的语音人间差异,我们还从30对双胞胎中选择了语音最相近的2对男性双胞胎语音和3对女性双胞胎语音进行研究。为了充分考查个体语音变异,我们还找了相距7年的三人语音进行研究。

1.2.2 声样内容

1.2.2.1 普通人群声样内容

我叫某某某,今年某岁,山西太原人,在山西警官高等专科学校某中队某区队上学。不闻不问,人云亦云,运筹帷幄,巍巍昆仑,惟我独尊,卿卿我我,以及《乌鸦喝水》全文。

1.2.2.2 双胞胎声样内容

1、2、3、4、5、6、7、8、9、10

他去无锡市出差,我到黑龙江检查工作。

有一次,李四忘了吃饭时间,张兰英的丈夫爱喝酒,醉了就大哭小闹,事后又非常懊悔。连续几年,耐火材料的销量很好。我喜欢南方秋天的蓝天白云,讨厌北方的灰尘飞扬。收集资料,掌握知识,承蒙您的恩情,引人入胜,引火烧身,恩将仇报,因果报应。

1.2.3 比对音节的选择

1.2.3.1 选择原则

相同语境,相近语速,如某个音节因强度较弱而共振峰反应不好的则改用其他同韵音节进行比对。

1.2.3.2 选择结果

汉语普通话实际共有38个韵母。但在具体一段语音中,38个韵母都出现的概率较低,于是我们选择了包含大多数韵母的《乌鸦喝水》等作为普通人群朗读样本的内容。考虑到相同韵母音节的相关性,我们随机选择了35个不同韵母的音节进行考查。

对于双胞胎语音我们选择了28个不同韵母的音节进行考查。

1.3 实验参数

1.3.1 采样参数

VS-99的采样率 8kHz,显示密度20,时钟频率80。

1.3.2 长时平均LPC实验参数

帧长 20,运算点数 512,分析阶数16。

1.3.3 宽带语图实验参数

男性,带宽为300,女性带宽为400或更高,动态范围42,衰减根据不同语音的强弱而定,高频提升系数 0.99,纵向网格1 000,哈明窗,横向网格1 000。

1.4 实验设计

根据说话人识别的基本假设,要得出在不同通信系统条件下进行说话人识别的判阈就必须找到该条件下语音个体变异的最大值与语音人间差异的最小值。由于在前期研究通信系统各个环节对语音的影响时发现,在所考查的不同通信系统中,固定电话—G网手机(录音)与小灵通—C网手机(录音)所录语音的语图宽带语图差异宇大。因此,我们主要选用这两个系统所录语音进行了以下工作:

1.4.1 不同通信系统条件下有显著差异音节的判别标准

当前,在说话人识别中,定性与定量分析检材和样本的声学特性和声学模式主要包括:辅音、嗓音起始伪间(VOT)、辅音浊化现象、音征、共振峰蓉性(共振峰阶数、频率、强度、趋向)、音节时长、拄强曲线、基频曲线、音节间过渡特征、长时平均功率谱等等。其中,检材与样本的言语速率、音节间相对时长、音节相对强度、基频曲线、音节间过渡等特性经常会因为当事人心理、情绪等因素的影响而产生较大差异,使得这些特性的参考价值大大降低,而长时平均功率谱在说话人识别中主要是参考价值,并且在3 000Hz以下范围内的区别力更差[8]。因此,在不同通信系统条件下,我们把比对分析的重点放在能反映音节内声韵相对时长、嗓音起始时间(VOT)、辅音浊化现象、音征、共振峰特性等方面的宽带语图上。

由于在不同通信系统条件进行说话人识别时要充分考虑共振峰强度会受到较大影响,甚至会出现附加共振峰及共振峰缺失[9]的现象。因此,不同通信系统条件下辅音强频区、共振峰相对强度不宜作为考查对象,对共振峰特性的比对也只能在检材与样本共有的共振峰之间进行。考虑到电话信道下宽带语图的频率范围较窄,我们把比对音节在音节内声韵相对时长、嗓音起始时间(VOT)、辅音浊化现象、音征、共振峰特性等方面有一个有显著差异即认为比对语音在该比对音节上存在显著差异。其中,共振峰频率的比对参考见表1。

表1 共振峰频率的比对参考表

1.4.2 同一人语音在不同通信系统条件下的个体变异统计

我们对固定电话—G网手机录音与小灵通—C网手机录音语音个体变异进行了20人次考查。考虑到男性语音在电话信道频率范围内特征较多,出现差异的概率也较大,我们以男性语音为主要研究对象。另外,个体语音变异的显著差异应该随着间隔时间的增长、语音频率范围的增加而增加,为了充分体现正常语音的个体变异,我们对相隔7年的3名成年人的语音在3 000Hz范围内进行了比对统计。

1.4.3 不同通信系统条件下语音的人间差异统计

我们共对固定电话—G网手机录音与小灵通—C网手机录音语音人间差异在普通男性间进行了100对的比对。考虑到比对工作量太大,我们先用较长的某句话进行初步比对,然后再选择差异最小的11对进行大量音节的比对。

同时,我们又随机选择了12对该条件下的女性录音进行大量音节的比对。

考虑到研究对象(呼叫端话机、说话人)的无法穷尽性,为了尽可能找到该条件下语音人间差异的最小值,我们选用了高度相似的同卵双胞胎语音分别在3 000Hz以下、2 000Hz以下范围内进行大量音节的比对。

2 结果与分析

2.1 不同通信系统下同一人语音的个体变异统计结果

不同通信系统下同一人正常语音的个体变异范围均小于20%,即不同通信系统下同一人正常语音之间最多会有20%的音节出现显著差异。这一结果与美国的现行标准、崔效义等在国家“九五”攻关课题中的结论相一致。

2.2 不同通信系统下语音人间差异的统计结果

不同通信系统下正常语音人间差异的最小范围比较复杂,具体如下:

(1)在大量音节的情况下,即使是相似度稍高的普通男性人间差异平均值(64.42%)还要略高于普通女性人间差异平均值(60.48%)。对于高度相似的双胞胎语音,在3 000Hz范围内,男性人间差异也要稍高于女性人间差异;在2 000Hz范围内,这种关系开始变得不是很明显,但还是发现有一对女性双胞胎之间的差异只有21.43%,要略低于男性的32.14%。因此,在电话信道的频率范围内在同等条件下,进行男性说话人识别比进行女性说话人识别要稍微容易一些,我们认为这与电话信道的频率范围内男性语音宽带语图中的共振峰数量一般比女性的多有关。

(2)对于不同通信系统,只要普通人群语音内容清晰、有效共振峰有两条以上,人间语音差异比例约为57%左右。即使是高度相似的双胞胎语音,如果其宽带语图的有效频率能达到3 000Hz附近,其人间差异尚有46%左右。但当双胞胎语音宽带语图的有效频率范围只有2 000Hz时,存在部分基频较高的双胞胎语音人间差异只有大约20%的情况。这一结果与美国的现行标准[10]中“至少要有80%以上的单词存在显著差异,语音的说话人才可能为不同人”存在明显不同,但与崔效义等在国家“九五”攻关课题中的结论比较接近。我们认为这一结论与美国标准存在差异的主要原因一是量化的单位不同(汉语是音节,英语是单词,而英语50%以上的单词是多双音节或音节词),二是汉语与英语的音节结构不同。

(3)先前我们认为的“元音音素越多出现人间差异的概率理论上应该越高”在单元音、二合元音、三合元音上并没有倾向性的表现,但在单元音、二合元音、三合元音上表现出的人间差异,不管是男性还是女性均要小于在鼻元音上所表现出来的人间差异。

2.3 不同通信系统条件下说话人识别的程序和方法

通过实验方法及判阈结果我们概括出不同通信系统条件下说话人识别的程序和方法为:

(1)询问送检人检材的录音通信系统;

(2)询问、调查检验对象是否有同卵双胞胎情况;

(3)尽可能在通信系统不变的情况下采集样本;

(4)将检材与样本调整为相同频率范围,运用听辨对检材样本的相似度进行主观评价,选取特征比对音节;

(5)对检材与样本中选取的特征比对音节的宽带语图进行定性比对;

(6)对检材与样本中选取的特征比对音节的宽带语图进行定量检测,并按照表1对各个共振峰频率的异同逐一比对。

(7)把定性与定量比对的显著差异音节数据输入比对语音、比对音节及个数、有显著差异的音节及个数、差异音节所占比例进行统计,得到检验结果。

(8)把检验结果与表2中的条件进行对照初步得出检材与样本的说话人是否是同一人的结论。

表2 电话录音说话人识别比对制阀表

(9)最后依据听辨、定性比对及与定量比对的检验结果综合得出说话人是否是同一人的判别。

3 讨论

3.1 对不同通信系统所录语音进行说话人识别的对策

由于通信系统的任何一个环节发生变化都会对语音产生一定的影响。其中,不同品牌、型号的呼叫话机对说话人识别影响最大。因此,在受理电话录音送检案件时询问送检人检材及样本的录音设备及信道显得至关重要。如果在检案实践中,录制样本的通信系统与录制检材的通信系统不一致。在这种情况下,要用检材与样本共有的共振峰等特性进行比对,而不应把因通信系统的影响所导致的差异看作是本质差异。

3.2 不同通信系统下利用宽带语图进行说话人识别判阈的复杂性

对于普通人群语音只要有效共振峰有两条以上,都可以鉴别。而对高度相似的双胞胎语音,如果其宽带语图的有效频率能达到3 000Hz附近尚具备检验条件,但宽带语图的有效频率范围只有2 000Hz时,存在部分基频较高的双胞胎语音单独利用宽带语图无法鉴别的情况,需要结合其他特性来做进一步检验。因此,在实际的检案当中一定要注意检验语音的说话人是否存在双胞胎的情况,特别是同卵双胞胎。

另外,由于女性的基频普遍较高,在电话信道频率范围内的共振峰较少,其语音人间差异表现的没有男性充分,鉴定难度稍大,需要多用一些音节。

4 不足之处

(1)由于时间等因素的制约,我们仅对不同通信系统下正常语音的说话人识别进行了研究,尚需要对不同情绪等状态下的说话人识别做进一步研究。

(2)尚需对不同通信系统下说话人识别所需的最少音节做进一步的探讨。

(3)在考查个体语音变异时所拥有的时间间隔较长的语音有限,需要今后注意收集这类语料再做进一步深化研究。

[1]康钊.2009年我国移动电话用户净增过亿 [EB/OL].(2010-02-03)[2010-05-01]http://tech.163.com/10/0121/21/5TJ68 QIU000915BE.html.

[2][美]国家研究理事会.嗓音鉴别的理论与实践[M].丁宁,译.北京:群众出版社,1989.

[3]Kunzel HJ.Beware of the Telephone Effect:The Influence of Telephone Transmission on the Measurement of Formant Frequencies[M].Forensic Linguistics,2001:80-99.

[4]Catherine Byrne and Paul Foulkes,The‘Mobile Phone Effect’on Vowel Formants,Speech,Language and the Law 11(1)2004[M].University of Birmingham Press,2004:1350-1771.

[5]李敬阳,崔效义,王莉,等.三种不同录音器材录制的电话对声纹鉴定的影响[C].第五届全国现代语音学术会议论文集,2001:364-365.

[6]施少培,杨旭,陈晓红,等.手机通话语音的实验研究[J].中国司法鉴定,2008,(5):39-44.

[7]杨俊杰,李红明,岳玮,等.通信信道及通信设备对语音共振峰特性的影响[J].山西警官高等专科学校学报,2010,(1):78-80.

[8]杨俊杰,崔效义,李敬阳,等.常用语音特性在鉴别双胞胎语音中的区别力研究[J].中国人民公安大学学报(自然科学版),2006(7):21-24.

[9]施少培,杨旭,陈晓红,等.手机通话语音的实验研究[J].中国司法鉴定,2008(5):39-44.

(本文编辑:施少培)

Research on Forensic Voice Identification under Different Communication Systems

YANG Jun-jie1,LI Hong-ming2,YUE Wei1,HU Yao-min1,YANG Yun-sheng1,LI Jing-wei1,LI Xiao-yong1
(1.Shanxi Police Academy,Taiyuan 030021,China;2.Public Security of Shanxi Province,Taiyuan 030001,China)

DF793.2

A

10.3969/j.issn.1671-2072.2010.05.009

1671-2072-(2010)05-0045-04

2010-05-11

2006年度公安部应用创新项目(2006YYCXSXST053)。

杨俊杰(1973-),男,硕士,讲师,主要从事司法说话人识别方面的研究。E-mail:happyyjj308308@yahoo.com.cn。

猜你喜欢
双胞胎音节共振
词语双胞胎
同是“双胞胎”为何大不同
双胞胎逛“1元店”
ZJP56型组合绳锯组锯机超谐共振分析
拼拼 读读 写写
安然 与时代同频共振
选硬人打硬仗——紫阳县党建与脱贫同频共振
看音节说句子
双胞胎聚会
改革是决心和动力的共振