陈维娜, 李 同, 张肖肖
(1.中国人民公安大学刑事科学技术学院, 北京 100038;2.华东政法大学, 上海 200042)
长时平均功率谱在声纹鉴定中的应用研究
陈维娜1,2, 李 同1, 张肖肖1
(1.中国人民公安大学刑事科学技术学院, 北京 100038;2.华东政法大学, 上海 200042)
声纹鉴定是一项对语音的同一性问题作出判断的法庭科学技术。进行声纹鉴定的关键是尽可能多地提取有价值的语音特征。长时平均功率谱(LTAS, Long Term Average Spectrum)是语音的频谱特征之一,能够反映出一段语流中说话人的全部频率分量,以及各频率分量与强度之间的关系,是表征个人语音特性的参量之一,可采用线性预测分析技术获得。通过系统实验,找出同一人发音LTAS的稳定性,不同人发音LTAS的差异性;并讨论信道、文本、语境、时长、噪音等因素对LTAS的影响;确定LTAS的应用范围和条件,以期为声纹鉴定实践工作提供新思路。
声纹鉴定; 线性预测技术; 长时平均功率谱; 语音特征; 影响因素
声纹鉴定又称语音同一性鉴定、话者识别(鉴定)、说话人鉴定和嗓音鉴定,指通过比较、分析,对声像资料记载的语音的同一性问题所进行的科学判断[1]。在司法实践中,鉴定人员常常需要对涉案语音(如绑架案中勒索赎金电话的录音,经济纠纷中当事双方的谈话录音等)进行检验,分析说话人的身份、判断涉案语音(检材语音)与特定对象语音(样本语音)是否来源于同一人,并作出科学的评判性书面意见,进而为案件的调查提供线索和方向,为法庭诉讼提供证据。从科学证据生成的过程来看,声纹鉴定需要解决的核心问题是找到更有效的比对方法和更为特殊的语音特征,最大程度地减少专家和技术人员在比对过程中可能存在的主观随意性,力求检验结果可靠和有效。
现代声纹鉴定技术在我国开展已近三十年,技术水平仍在不断发展和完善中。随着数字信号技术的发展,线性预测分析技术(LPC,Linear Prediction Coding)在语音信号处理方面愈加成熟,已有利用线性预测分析技术进行语音自动识别的成功范例。但在声纹鉴定领域中,线性预测分析技术多用来获取个人语音中元音的共振峰频率和强度信息。长时功率谱(LTAS, Long Term Average Spectrum)是语音的频谱特征之一,亦可采用线性预测分析技术获得。LTAS是对即时频谱的长时平均,能够反映出一段语流中说话人的全部频率分量,以及各频率分量与强度之间的关系,是表征个人语音特性的参量之一。
但就长时功率谱特征是否能够应用于检案实践,业内人士有不同的看法。有专家指出LTAS的稳定性和总体差异性均不强,难以作为频谱特征应用于语音同一认定,但可考虑在其他方面作为参考特征使用[2]。也有专家的研究表明语音的LTAS具有个体特征,其特征稳定、可靠,话者自身差异小,是较好的语音个体特征参数,可用于说话人的语音鉴别[3]。还有学者提出语音的长时功率谱具有较强的个体稳定性,双胞胎语音在长时平均LPC谱上均存在一定差异[4]。
本研究通过系统实验,探求LTAS在相似人群发音中的稳定性和特殊性,并讨论信道、文本、语境、时长和噪音等因素对其影响,旨在找到利用长时功率谱特征进行声纹鉴定的方法及途径。
语音是人们在言语交际过程中发出的声音,实际上是由联结说话人大脑和听话人大脑的一连串心理、生理和物理的转换过程完成的,可分为“发音—传递—感知”3个阶段[5]。人们进行言语交流时,首先由大脑发出一定意义、概念的指令,指挥发音器官发出语音,这是心理—生理的转换过程;语音通过空气传到人耳是物理过程;语音通过听觉系统被大脑感知、释义是生理—心理转换过程[6]。声纹鉴定的检验对象是语音,发音器官和发音习惯的不同是个人语音具有唯一性的根本原因;司法实践中,专家和技术人员可以通过感知来解析被检验的语音,用客观的声学指标去描述和评价[7],综合判断待检语音与特定嫌疑对象语音是否来源于同一人。
声纹鉴定作为一种认识活动,属同一认定范畴。同一认定的根据是客体的绝对差异性——客体的绝对差异使得我们能够将某一客体与其他客体相区分,并将该客体与其自身相等同。客体的性质往往深含于客体的内部,它必须被一些征象或标志标识出来,也就是说它必须以一定的特征具体表现出来才能为我们所认识,才能被我们用于同一认定[8]。由此可见声纹鉴定的根据离不开对语音特征的分析和解释;而这些语音特征能够充分反映、相对稳定,并且特征的集合能够表征语音的总体特殊性,是声纹鉴定能够顺利进行的必要条件。
语音特征提取就是从说话人的语音信号中提取出个人独特的特征信息[9]。长时平均功率谱是语音特征之一,可使用VS8.0语音工作站利用线性预测技术(LPC),提取一段时间内语音的长时平均功率谱(LTAS)。
线性预测分析的基本思想是,一个语音样本的抽样能够用过去若干个语音抽样的线性组合来逼近,为公式(1)所示;通过使实际语音抽样和线性预测抽样之间的最小均方误差的逼近,能够获得一组线性预测系数。预测误差及均方预测误差为公式(2)、公式(3)所示。线性预测分析采用的是声道模型,将声道看作谐振腔,共振峰就是腔体的谐振频率,通过线性预测分析得到的声道模型为全极点模型,在发音过程中,声源谱经声道的调制,改变了原来的谐波振幅关系,与声道形态相对应,形成有起有伏的包络曲线,该曲线为声道传输特性曲线[10]。
(1)
(2)
(3)
通过录制相似人群语音样本,利用VS8.0语音工作站获取个人语音的长时功率谱,对图谱进行形态分析和数据处理,从而获得个人语音频谱特性的稳定成分以及不同人语音的差异成分。
2.1 语音样本的录制及处理
2.1.1 录音对象的选择
本文主要研究长时功率谱在相似人群中的稳定性和差异性。因此,在选择录音对象时,结合实际情况将发音人的自然条件设置为青年男性。共采集年龄在18岁至21岁的20位男性发音人语音,这些发音人的普通话较标准,部分发音人能够掌握一种方言,详见表1。
表1 录音对象相关情况
2.1.2 录音条件的设置
录音时采用朗读和对话两种语境,通过线路录音和电话信道录音两种方式,在安静的录音室中录音时,实现对相似人群的语音采集。录音采样率均为8 K,16 bit。其中每位发音人的文本内容大致相同,包括试音语料1段,自由话题2段,朗读语料。
2.1.3 语音样本的处理
将录音样本用Audition软件进行剪切、加噪等处理,然后分别按照信道、文本、语境、时长、噪音5大影响因素进行分类存放,以便于实验分析利用。
2.2 长时功率谱的提取和分析
2.2.1 长时功率谱的提取
使用VS8.0语音工作站中的“长时平均LPC”功能提取待检音段的LTAS,设置参数为:帧长20 ms,分析阶数20,运算点数2 048。提取的长时功率谱示例见图1。
图1 使用VS8.0语音工作站提取长时功率谱示例
2.2.2 长时功率谱的分析
从长时功率谱上反映出的语音频率和强度分布情况进行定性和定量分析,拟合出长时功率谱包络曲线;通过谱包络曲线的比对,直观反映出长时功率谱特征的个人同一性、人间差异性以及信道、文本、语境、时长、噪音等因素对其的影响。
探求LTAS在相似人群发音中的稳定性和特殊性,并讨论信道、文本、语境、时长和噪音对其的影响,旨在找到利用长时功率谱进行声纹鉴定的方法及途径。
3.1 长时功率谱的稳定性
同一发音人在相同录音环境下自然朗读语音样本“北风和太阳”两次,这两次发音的LTAS谱包络形状相似,有较好的重合度,LTAS中各频率分量的极值位置相同、强度相近,如图2、图3所示。这说明在相同的录音条件下同一人的长时功率谱具有自身同一性。
图2 发音人1号两次线路录音的LTAS
图3 发音人4号两次电话录音的LTAS
3.2 长时功率谱的特殊性
不同发音人在相同录音环境下自然朗读语音样本“北风和太阳”,提取各自的长时功率谱,发现不同人发音的LTAS谱包络形状存在较大差异,LTAS中各频率分量位置不同,能量分布存在较大差异,如图4、图5所示。这说明在相同的录音条件下不同人的长时功率谱存在差异。
图4 不同发音人线路录音的LTAS
图5 不同发音人电话录音的LTAS
3.3 长时功率谱的影响因素
3.3.1 信道的影响
同一人自然朗读语音样本“北风和太阳”,同时使用线路录音和电话录音两种信道对语音进行采集。提取不同信道下语音样本的长时功率谱进行分析,发现信道对LTAS的影响较大。同一人的同次发音,在不同的信道环境下LTAS谱包络形状、各频率分量位置及强度数值均存在较大差异,如图6、图7所示。由此可以得出声纹鉴定中长时功率谱特征仅在检材语音和样本语音的录音信道相同的情况下才能够使用。
图6 发音人3号同次不同信道下的LTAS
图7 发音人19号同次不同信道下的LTAS
3.3.2 文本的影响
在相同的录音环境下,同一发音人分别朗读语音样本“北风和太阳”和“国家荣誉感”,从中能够选取时长约40s的录音,提取不同文本语音样本的长时功率谱,发现文本内容不同,LTAS谱包络形状、各频率分量位置及强度数值存一定的差异,如图8、图9所示。由此可以得出在声纹鉴定时,使用长时功率谱特征的前提条件之一是尽可能地保证检材录音与样本录音的发音内容一致。
图8 发音人7号不同文本的LTAS
图9 发音人8号不同文本的LTAS
3.3.3 语境的影响
实验分别录制了朗读和对话两种语境下的语音样本,时长约40 s。提取不同语境下语音样本的长时功率谱,发现同一人在不同语境下发音的LTAS谱包络形状、各频率分量位置及强度数值均存在差异,如图10、图11所示。尽管如此,也很难确定语境是否对LTAS产生影响,因为在不同的语境下,发音人的说话内容不同,语调和音量也都存在一定的变化。在此种情况下,影响因素不是单一的,而是复杂的,既包含了语境的不同,也包含了文本的不同,因此无法确定LTAS的差异究竟是语境造成的,还是文本引起的,亦或是综合因素所致。
图10 发音人1号不同语境的LTAS
图11 发音人5号不同语境的LTAS
3.3.4 时长的影响
实验重复录制了试者语料“一起去无锡市旅游”共3段,每段时长约15 s,分别提取15 s、30 s和45 s三段时长录音的长时功率谱进行分析,发现三段不同时长的LTAS谱包络形状相近、各频率分量位置相符,但15 s的LTAS在各频率分量的强度上与30 s、45 s的LTAS存在一定差异,如图12、图13所示;30 s和45 s这两个时段LTAS中各频率分量的极值位置相同、强度相近。由此可以看出,时长对LTAS有一定的影响,但这种影响仅出现在短时长范围,当录音时长超过30 s后,同一人的长时功率谱趋于稳定。
图12 发音人2号不同时长的LTAS-1
图13 发音人2号不同时长的LTAS-2
3.3.5 噪音的影响
在Audition中对同一段录音附加噪音,噪音的颜色为白噪音,强度7.8 dB,持续时间与该段录音时长相同。分别提取含噪音和不含噪音的两段录音的长时功率谱进行分析,发现噪音对LTAS有较大的影响。加入噪音后语音的LTAS谱包络形状、各频率分量位置及强度数值与加入噪音前语音的LTAS存在明显差异,特别是在强度分布上,加入噪音后的LTAS随着频率的增大强度有大幅度下降,如图14、图15所示。
图14 发音人1号不同噪音下的LTAS
图15 发音人2号不同噪音下的LTAS
通过实验可以看出长时功率谱LTAS作为表征语音的特征参量,具有一定的稳定性和特殊性,表现在:同一发音人不同次发音中的LTAS相符合,不同发音人的LTAS存在明显差异。但需要指出的是LTAS易受到录音环境、录音条件的影响,具有较强的动态性,表现在:不同信道下同一发音人的LTAS存在明显差异;噪音对LTAS有较大的影响;文本内容不同的情况下同一发音人的LTAS存在一定差异;较短的时长对LTAS有一定的影响,主要表现在各频率分量的强度数值上;单纯的语境变化是否会对LTAS产生影响尚不确定。
同时,长时功率谱LTAS作为众多语音特征中的一个,需要与其他特征一起形成语音的特征总和,在检验中经综合评断所有特征的符合点和差异点后才能得出语音是否同一的鉴定意见。
因此,在司法实践中,利用长时功率谱LTAS的稳定性和特殊性来进行声纹鉴定具有一定的可行性,但前提条件是涉案的检材语音与样本语音的录音环境、录音条件要相近,发音内容要相同,特别是录音信道需要保持一致。
[1] 中国人民共和国司法部司法鉴定管理局. 声像资料鉴定通用规范:第1部分 声像资料鉴定通用术语:SF/Z JD0300001—2010[S/OL], [2010-04-07]. http:∥www.ssfid.com/Files/jsgf/no10.pdf.
[2] 王英利.声纹鉴定技术[M].北京:群众出版社,2013.
[3] 张翠玲.法庭语音技术研究[M].北京:中国社会出版社,2009.
[4] 杨俊杰,崔效义,李敬阳,等.利用长时平均LPC谱检验双胞胎语音之探讨[J].中国人民公安大学学报(自然科学版),2003(4):32-37.
[5] 林焘,王理嘉.语音学教程[M].北京:北京大学出版社,2006.
[6] 黄建同.文件检验[M].北京:中国人民公安大学出版社,2013.
[7] 李敬阳,胡国平,王莉.声纹自动识别技术与声纹库建设应用[J].警察技术,2012(4):66-69.
[8] 李学军.物证论——从物证技术学层面及诉讼法学的视角[M].北京:中国人民大学出版社,2010.
[9] 何振亚,顾明亮.语音信号的主分量特征[J].应用科学学报,1999, 12(3):12-14.
[10] 陈泉金,黄君灿,陈航.白噪声不同信噪比对语音基音和共振峰的影响研究[J].刑事技术,2015(1):49-54.
(责任编辑 于瑞华)
陈维娜(1984—), 女, 辽宁沈阳人, 博士, 讲师。 研究方向为声纹检验、文件检验、司法鉴定。
D918.9