赵擎华 杨俊杰
(1山西大学语言科学研究所 太原 030006)
(2山西警察学院 太原 030021)
20世纪30年代至今,司法话者识别技术已经历了近90年的发展历程。当前,国内外司法话者识别方法主要有声学语音学识别、全自动话者识别及半自动话者识别3种[1]。其中,依靠“听觉-声学-语音识别”由专家进行综合判别的声学语音学识别方法,因其结论准确性及可解释性为各国法庭普遍采信,成为国内外司法话者识别专家普遍采用的方法。全自动话者识别具有快速高效的特点,但识别准确率随着样本库容、语种、信道等的异同而稳定性较差,故主要应用在门禁系统、犯罪预防、军事等领域;在打击犯罪领域主要是利用其快速特点进行嫌疑对象的筛查与串并案件。而基于人工与自动识别相结合的半自动话者识别技术,正处于研究阶段,尚未有成熟可信的系统可供使用。在声学语音学的司法话者识别方法中,共振峰频率是最为常见的声学测量参数之一[2],对其应用主要体现在共振峰的动态模式与静态模式上,因其是话者发音器官言语中运动习惯动力定型的声学表现,能够充分体现个体间发音习惯的异同。而基于第一、第二共振峰构建的元音声学空间(F1-F2sapce)度量模型是对共振峰模式最直观体现的方式之一[3]。而今,这一度量模型还被广泛应用于检测耳蜗植入物的语音感知[4]、语言疾病评估[5−6]、构音障碍矫治[7]、语音清晰度评估[8]、语音识别[9]、跨语言比较[10]、汉语方言学研究[11]等多项研究中。
尽管元音声学空间度量模型已有较为广泛的研究应用,但鼻化元音共振峰的阶次问题一直是个绕不开的挑战。鼻音和鼻化音在言语中不可或缺,是声道口腔部分与鼻腔、副鼻腔(又称副鼻窦)耦合的结果。鼻腔和副鼻腔的解剖结构相当复杂。Dang等[12−13]利用核磁共振成像(Magnetic resonance imaging,MRI)研究了鼻腔、副鼻腔的形态与之对应的声学关系,发现二者形态的个体差异大,左右不对称明显。这种形态上的复杂性在声学实验中会产生极其复杂的频率响应,导致元音鼻化后在口音共振峰附近引入额外鼻音共振峰的数目和位置并不固定,具有明显的个体变异和人间差异。从语音学角度,Ladefoged[14]证实在第一共振峰F1与第二共振峰F2之间存在一个鼻音共振峰Fn。Fujimura等[15]通过对声道的扫描测量,认为通常在F1以下和第三共振峰F3区域引入了零极点对;Hawkins等[16]指出除了F1附近存在一个以上的共振峰外,自然语音中的鼻音化还可以在较高频率频谱中引入其他共振峰,而且这些共振峰变化在不同个体和元音中并不一致;方强等[17]验证了元音鼻化后会在250 Hz附近出现弱的鼻音共振峰,1000 Hz和2000 Hz之间会出现几个能量较弱的谱峰,不同元音鼻化后所表现的声学特征也各不相同。此外,在研究分析个体鼻化元音声学特征时,往往是基于已知元音发生鼻化,且有与之对应的口元音为参照的前提。然实践中,某些个体因生理或方言发音习惯等因素的影响,会把口元音发成鼻化元音,进而难以找到口元音做参照,使得共振峰的分析工作更加困难。即便常见单元音的前3个共振峰有数据可参考[18],但要区分某个具体元音中的某个共振峰是口音峰还是鼻音峰却也非常不易。因此,在司法话者识别领域,李敬阳等[19]提出,不论哪种强峰都是个人语音音色特性的体现,检案中,可以按说话人语音出现的强峰,依次标称为第一、第二、第三强峰或者直接沿用语音学“共振峰”的称谓,省去口、鼻音共振峰判定的繁复过程。然而,口音共振峰数据的准确性是通过F1、F2构建元音声学空间模型来识别说话人的首要要求,如不明确区分口音、鼻音共振峰,构建元音声学空间的准确性便无从谈起。更何况由于个体间鼻腔与副鼻腔的人间差异显著,其声学特性具有明显的人间差异[20],如不能进行细致的区分,则无法充分发掘鼻音峰的区别价值。
为此,本文探究了一种通过编辑元音共振峰的能量,结合专家听辨,观察编辑前后元音音质的改变情况,来区分口音、鼻音共振峰的方法,以期对司法话者识别中构建元音声学空间模型能有所帮助。
早在1948年,Joos[21]就提出了F1、F2与舌位的高低和前后的直接关联。1951年,Delattre[22]对舌位和共振峰进行了详细比较,得出结论:F1反映发音人舌位的高低(或嘴巴的开合度),F2反映舌位的前后或嘴唇的圆展,F3主要反映舌尖的上翘(卷舌)。鲍怀翘等[18]分别用不同的方法讨论了舌位和声道形状与共振峰频率之间的关系,得到了一致的结果“舌位高低主要与F1相关;舌位前后可用F2的值来推算”。
根据F1、F2与调音器官动作特性(舌位)的对应关系,有理由推测如果语音的F1或F2被剪切掉,则元音音色发生改变,相应的舌位特征在听感上也必然会被改变。反之,如果对某个共振峰进行了剪切,元音音色有所改变,而该元音舌位特征在听感上并没有发生变化,则剪切掉的一定不是F1或F2。对于鼻化元音,当其鼻音共振峰与口音共振峰交错混杂在一起难以分辨时,通过对某个共振峰的剪辑,再根据元音音色是否改变、如何改变,则可判断被去除的是否是口音共振峰以及是哪个口音共振峰。
2.1.1 实验设备
北京阳宸IV-12计算机语音工作站(V10.5)。
2.1.2 参数设置
(1)采样参数
8 kHz采样率,16位,单声道。
(2)共振峰带宽参数
带宽为300~500 Hz,具体依据个体基频进行调整,但保证同一个体参数的一致。通常,男性带宽设置为300 Hz,女性设置为400 Hz。
(3)频域编辑参数
频域编辑参数设置原则:一是频率起止范围不能低于所选带宽;二是衰减操作对周围共振峰的语图影响最小。
频率范围确认方法:调整语图衰减参数,使共振峰显示效果最佳。当目标共振峰边界显示分明时,以该共振峰上下边界为衰减频率范围;当两峰叠接无明显边界时,取合峰的中间位置为两个共振峰的边界,再以该合峰的上边界或下边界为衰减上限或下限频率范围。
频带减弱(dB)设为30(实验时衰减两次,共60 dB,详细讨论见第3.3节),时段参数设为“选定时段”,边界渐变时段设置为“5”,如图1所示。
图1 频域编辑参数设置Fig.1 Frequency domain editing parameter settings
2.2.1 发音人
成年男女发音人各一人。二人均无明显构音障碍,但发音均存在不同程度的鼻化。
2.2.2 语料
为考察发音人自然语流中的元音特征,实验所用的发音材料由句子“小红喜欢用毛笔写大字”等和文章《乌鸦喝水》“一只乌鸦口渴了,到处找水喝……它打算停下来歇一歇,就落在一棵树上……”组成。发音人熟悉材料后用自然语气述读。
2.2.3 声样选择
本文选取了不受鼻音声母和韵尾影响的单元音韵母/a/为实证分析声样。原因有三:一是高元音不易鼻化,低元音最容易鼻化[23],元音/a/的鼻化现象更具普遍性;二是前低元音/a/发音时开口度很大,F1是所有元音中最高的,F1与F2共振峰距离很近,与F1、F2距离较远的前高元音相比,鼻音共振峰的位置更不易判断;三是发音人将不受鼻音声母和韵尾影响的单元音韵母发为鼻化元音,一般已固化成发音习惯,在案检声样中不易找到对应的口元音作为参照分析。
2.2.4 听辨人
听辨人由5位经过国际音标系统训练且常年从事语音研究的专业人员组成。
实验采用成对比较法进行元音听辨,以提高听辨的准确性同时减缓听觉疲劳。成对比较法又称为AB比较法,其特点是听音人只对呈现的两个信号的某特性做相对判断,并比较这种特性在两个信号中哪一个更为显著[24];其优点是判断准确、重复性好。实验中根据成对比较法的分组原则,将编辑后的元音与待检元音两两配对,依次比较两者开口度、舌位前后、鼻化程度在听感上的不同。
2.3.1 实证分析1
男性发音人的待检元音为[tã](如图2所示)。从语图中可发现,在2.5 kHz以下有4个“强峰”,依次标记为F′1、F′2、F′3、F′4,然后逐个进行共振峰编辑和听辨分析(本文语音样本已上传至网络,见https://cloud.189.cn/web/share?code=ji6Rr2fuA32m)。
图2 男性发音人[tã]音节的宽带语图Fig.2 Wide-band spectrogram of the[tã]spoken by the male speaker
(1)第1组:待检元音-编辑元音1(去除F1’)
如图3所示,对待检元音的共振峰进行能量衰减去除F′1(见红框部分,下同),命名为“编辑元音1”。“编辑元音1”与“待检元音”相比,从语音音色角度来看,编辑后的元音在听感上变的单薄。
图3 待检元音与编辑元音1对比图Fig.3 Comparison of the vowel to be checked and the edited vowel 1
从元音音质角度来看,元音的开口度、舌位前后在听感上均无明显变化,元音鼻化程度明显变弱,如表1所示。其中,5位听辨人就元音音质变化的听辨结果基本一致,仅对变化的程度在感知上稍有差异,并不影响实验分析结果,下同。可以确定口音共振峰没有受到影响,衰减的是鼻音共振峰。也就是说,“待检元音”中的第一个“强峰”是。
表1 去除元音音质变化评价Table1 Evaluationofvowelquality change after removing
表1 去除元音音质变化评价Table1 Evaluationofvowelquality change after removing
开口度变化舌位前后变化元音鼻化程度元音音质变化去除F′1 无 无 明显减弱 微弱
如图4所示,对待检元音共振峰进行能量衰减,同时去除F′1和F′2,命名为“编辑元音2”。与“编辑元音1”相比,“编辑元音2”在听感上开口度变大,舌位前后和元音鼻化程度无明显变化,如表2所示。由于F1的位置高低反映了元音的开口度大小,因此在听感上感知到开口度发生变化,可以确定F1的位置发生了变化。据此得出:“待检元音”中的第二个“强峰”F′2是口音共振峰F1。
图4 编辑元音1与编辑元音2对比图Fig.4 Comparison of the edited vowel 1 and the edited vowel 2
表2 去除元音音质变化评价Table2 Evaluationofvowelquality change after removing
表2 去除元音音质变化评价Table2 Evaluationofvowelquality change after removing
开口度变化舌位前后变化元音鼻化程度元音音质变化去除F′2 变大 无 无 显著
图5 编辑元音1与编辑元音3对比图Fig.5 Comparison of the edited vowel 1 and the edited vowel 3
表3 去除元音音质变化评价Table3 Evaluationofvowelquality change after removing
表3 去除元音音质变化评价Table3 Evaluationofvowelquality change after removing
开口度变化舌位前后变化元音鼻化程度元音音质变化去除F′3 稍微变小 无 微弱 微弱
图6 编辑元音1与编辑元音4对比图Fig.6 Comparison of the edited vowel 1 and the edited vowel 4
表4 去除元音音质变化评价Table4 Evaluationofvowelquality change after removing
表4 去除元音音质变化评价Table4 Evaluationofvowelquality change after removing
开口度变化舌位前后变化元音鼻化程度元音音质变化去除F′4 无 向后 无 显著
2.3.2 实证分析2
女性发音人的待检元音[tã](如图7所示)。从语图中可以发现在2.5 kHz以下有4个“强峰”,依次标记为、、、。
图7 女性发音人[tã]音节的宽带语图Fig.7 Wide-band spectrogram of the[tã]spoken by the female speaker
对女性发音人的待检元音进行共振峰能量衰减编辑,听辨后发现分别去除、后元音音质的变化特征和实证分析1基本一致,可以容易得出是鼻音共振峰、是口音共振峰F2。具体分析过程不再赘述。分别去除和后,元音的开口度在听感上都发生了变化,不同的是去除后,元音开口度变化更加显著,元音的音质变化也更加明显,如表5所示。所以是鼻音共振峰,是口音共振峰,这与男性发音人的共振峰阶次正好相反。
表5 去除、元音音质变化评价Table 5 Evaluation of vowel quality change after removing and respectively
表5 去除、元音音质变化评价Table 5 Evaluation of vowel quality change after removing and respectively
开口度变化 舌位前后变化 元音音质变化去除F′2 稍微变大 无 微弱去除F′3 明显变小 无 显著
由上述实验,可以知道两个发音人所发的[a]元音都发生了鼻化,且口音共振峰和鼻音共振峰的“身份”也得到了明确:男性发音人鼻化元音[ã]的前4个共振峰分布依次是Fn1、F1、Fn2、F2;女性发音人鼻化元音/ã/的前4个共振峰分布依次是Fn1、Fn2、F1、F2(如图8所示)。
图8 男性发音人女性发音人鼻化元音[ã]的共振峰分布图Fig.8 The formant distribution diagram of the nasalized vowel[ã]spoken by the male speaker and the female speaker
通过共振峰编辑法得出的男性发音人口、鼻共振峰分布状态与方强等[17]的研究结果基本一致。从语图(图8)中可以看出,F1以下大概250 Hz附近会出现共振峰,同时F1与F2之间也有可能出现鼻音共振峰。[ã]的F1与鼻音的Fn1相距较远,相互叠加的部分少,基本上对250 Hz附近的频谱没有影响。鼻音共振峰Fn2与口音共振峰F1、F2都比较靠近。不同的是,方强等认为第二鼻音峰很难在频谱上表现出来,而男性发音人的第二鼻音峰清晰可见。
与男性发音人口、鼻共振峰依次交替分布不同,女性发音人在F1以下大概250 Hz和600 Hz处存在一弱一强两个鼻音共振峰。对于这种现象,Hawkins等[16]认为鼻腔的阻抗在大概1.5 kHz以下有多个低频共振,因此在鼻元音的声谱中有时可以观察到F1附近存在一个以上的鼻音共振峰。
实验中发现,低频共振峰对元音听辨的影响较大。尤其是在去除F1附近的共振峰时,感知到语音最大的变化特征是发闷、发嗡,而不是元音开口度的变化。Kiefte等[25]、Andrus[26]认为通过降低共振峰的振幅来改变元音音质时,低频共振峰同时掩盖了高频共振峰,掩蔽效应和共振峰的频谱对比度可能都在元音感知中起到一定的作用。为此,本文实验中去除了低频鼻音共振峰以消除掩蔽效应。低频鼻音峰与舌位的高低、前后并无明显相关性,去除之后不仅不会影响元音舌位特征的感知,且会使听辨过程更加容易,听辨结果也更加可靠。
影响元音音质的因素不仅有共振峰频率,还有共振峰的强度。Lindqvist等[27]、Ainsworth等[28]、Aaltonen[29]、Hedrick等[30]通过语音合成实验发现,随着共振峰相对强度的变化,合成元音的音质也会同时发生改变。其中,Ainsworth的实验表明,当F2与F1的能量差小于28 dB时,F2强度的降低对共振峰频率没有影响,元音音质基本无变化;随着F2峰强的继续衰减,元音音质先是变得模糊不清,最终变得与剩余F1相对应元音的音质相近(这与本文对自然语音完全去除F2后前元音/a/的音质变为后元音//的结果一致)。
为避免因共振峰强度衰减不足,未能使共振峰频率发生根本性改变,或使共振峰相对强度的变化成为元音音质改变的主要原因,进而影响共振峰频率和调音器官动作特性对应关系的判断,所以本文实验中将共振峰能量衰减至完全消除。因北京阳宸IV-12计算机语音工作站(V10.5)每次最多只能衰减30 dB,故实验时连续衰减两次(共60 dB),以达到完全去除共振峰的效果。
3.4.1 对司法话者识别领域的价值
实验发现,不同人语音共振峰存在“形似而质异”的情况。两发音人所发相同鼻化元音的共振峰模式相似,在2.5 kHz以下均存在4个强峰,但共振峰“身份”属性却存明显相异(如图8所示)。同样,同一人语音共振峰也存在“形异而质似”的情况。同一发音人多次所发相同鼻化元音共振峰的分布也可能不同。尤其是F1和F2之间鼻音峰的稳定性较差,存在明显的个体变异。如图9所示,男性发音人两次所发音节[ã]的宽带语图,分别为4个和3个强峰。
图9 男性发音人两次所发音节[ã]的宽带语图Fig.9 Wide-band spectrogram of the syllable[tã]produced by male speaker twice
实际案检中,如对共振峰的“身份”不加以区分,以“强峰”一概而论,只考察检材和样本整体共振峰的“形”,却忽略单个共振峰的“质”,这样得出的鉴定结论显然未充分发挥出鼻音峰的区别价值。
共振峰编辑法利用共振峰和调音器官动作特性的相关性,可以对共振峰进行逐个分析,针对性强,特征规律容易把握,可有效区分鼻化元音的口、鼻共振峰。明确鼻化元音中每个共振峰的“身份”属性,不仅可以为建立元音声学空间模型提供可靠的口音共振峰数据,对利用共振峰特征进行司法话者识别的其他方法,也可充分利用鼻化元音口音、鼻音成分的共振峰个体特征,提高其结论的可靠性。
3.4.2 对其他研究领域的价值
如前文所述,基于F1和F2的元音声学空间度量模型已广泛应用于医疗、语音、语言研究等多个领域。该模型多利用口音共振峰频率经数学运算形成量化指标,主要有:基于三元音、四元音以及多元音空间系统的元音声学空间面积(Vowel space area)[7,9],基于元音空间的角元音共振峰频率和的商的共振峰集中度(Formant centralization ratio)[6],基于元音间平均距离或各元音到元音空间中心距离的共振峰离散度(vowel formant dispersion)[4,8]等。当元音声学空间模型包含鼻化元音时,如能明确区分口、鼻共振峰,保证共振峰基础数据的准确性,对提高量化指标的可靠性则显而易见。
本文探讨的这种区别鼻化元音口音、鼻音共振峰的方法,旨在帮助通过构建元音声学空间模型来进行司法话者识别时提供准确的共振峰数据。该方法对共振峰进行编辑剪切后,通过听辨就能得到准确判断,具有快速、便捷等优点。其既可以有效解决在缺少同一人的口元音来确认口音共振峰时,难以分辨鼻化元音中共振峰“身份”的问题,还可以有效解决方言学、语音学、自动语音识别、语言病理学、语音临床评估、语言障碍矫治等多个领域中对共振峰性质的区分问题,为应对这一挑战提供了一种新的可行方案。