贾丽文
(中国政法大学 研究生院,北京100088)
我国从1989年第一起运用语音鉴定的案件至今,声纹鉴定逐步从单一依靠图谱比对分析,发展成综合运用嗓音音质、言语特征和频谱数据的多种定性定量分析,一步步揭开了其神秘面纱,使声纹鉴定日趋规范化和标准化。伴随对语音、语言研究的深入,以及语音处理软件的升级换代,有的鉴定者在声纹鉴定中,多依赖于频谱的分析和数据的提取及处理上,却忽视了鉴定中听音过程,或减少了听音次数。然而,听音才是声纹鉴定之王,只有在听音基础上的分析和判断,才能成为声纹鉴定的正确导向。
目前使用的声纹鉴定方法,主要是通过语图仪或语音工作站实现语音声学特征比对进行鉴定。声纹鉴定的步骤,主要是“听-看-测-析”。“听”即听音,“看”(通过语图观察特定音节的各方面形态特征)、“测”(对各方面特征参数的定量检测)、“析”(综合分析判断)都是在“听”的基础之上进行。
听音,就是听辨检材和样本的全部语音材料,对有关方言、语音速度、言语习惯、鼻音轻重、音高、变音、变调、节奏、声源谱特性(声音的厚薄、余音的强弱)、清晰度、流畅度、口头语、赘语、虚词、言语缺陷(口吃、大舌头等),以及是否伪装等进行辨别。此外,还要听辨语义、词汇、语法及其表达方式的异同。
听音是声纹鉴定的首要步骤,也是声纹鉴定的必经程序,声纹鉴定离不开听音这一过程。离开听音,仅仅依靠对语图的观察和特征参数的测量,将使声纹鉴定变得没有方向,会浪费大量的鉴定资源,得出不可靠的鉴定意见。
1.决定了声纹鉴定的方向。在一段语料中,并不是所有的词语和音节都有鉴定价值。听音是对整体语料的感知,同时也是对特征音节的筛选,进而对语图分析和参数测量有了方向和依据。
2.有助于得出正确的鉴定结论。不同的软件和算法的选择及不同的参数设置,会造成“同一”的假象,再使用听音进行判断和检查,假象就会露出破绽,避免单一依靠语图和数据带来的鉴定失误。
3.有助于弥补现有技术对语图和参量数据无法反映的语音特征。人类对声纹鉴定技术的认识仍处在不断的深化之中,现有的鉴定技术难免有其系统性的弊端。好在人的听觉感知系统与生俱来且功能强大,其奥妙之处,就在于人们能感知检材与样本是否为同一人所说。
刑事物证鉴定的一般理论,揭示了被鉴定客体具有特定性、稳定性和反映性。声音之所以可进行话者的同一认定,亦是依赖声音的特定性、稳定性和反映性,其中最主要的是声音的特定性。声音的特定性,首先表现在语音产生的生理机制上,即人呼吸器官的生理结构、声带的生理结构(包括质量、几何形状、劲度、周围肌群等)、声道的生理结构(包括长度、截面积、机能等);其次表现在话者的言语习惯定型,即话者言语的社会性,话者处在一定的社会环境和社会条件下,会形成独特的言语搭配习惯和语音表达习惯(如:方言)。因此,声音的特定性不是单一的生理结构特点或是话者的语言习惯定型决定的,而是二者结合的结果,导致声纹鉴定比指纹鉴定、笔迹鉴定更加复杂,影响鉴定的因素也更加多样化。无论是指纹鉴定还是笔迹鉴定,都是直观的检材和样本的比对,而声音之所以能进行比对,是依赖将声音转化为语图。然而,不同的软件所转化的语图,会因其自身的属性或参数设置的不同而丢失,或者无法反映一些语音信息,使反映语音生理特点的特定性产生偏差。因此,语图的比对要以听音为基础,排除听音以单一语图比对将会产生错误。而对于话者言语习惯定型的特定性的反映,听音是最好的选择。话者是否有地方口音,是否有特殊的词语搭配习惯,几乎一听便知。
在日常生活中,人们能很轻易地辨别出家人、朋友、同事的声音,甚至当对方在愤怒、哭泣、大声喊叫、使用方言时,也能很快地辨别出是某人发出的声音,而不是他人发出的声音。就是很多年没有交往的朋友,接电话听到声音时还能听辨出对方是谁。甚至对不熟悉的陌生人其少年时和老年期说同样一段话,人们也能分辨出哪个是其少年时所说,哪个是其老年期所说。这种先天具有的功能,源于人类自身所具备的听觉系统。人类的听觉系统既是灵敏的声音接收系统,也是高度的语音综合分析系统。
人类的听觉系统对声音具有很强的解析、综合和分析判断能力,听觉系统的这些能力和特点总称为听觉特性。听觉特性可进一步细分为声学感受性和主观感受性。声学感受性可通过各种声学参数(如:频率)来表述。但是,主观感受性在声纹鉴定研究中,要想如声学感受性一样得以量化表示和衡量,还有很长一段路要走。此外,就音质和音色而言,人类的听觉系统具有奇妙的感知能力,人们能够轻易地区分不同人的声音且不混淆,就是听觉具有差别感受性。也正是听觉的差别感受性,使声音鉴定有据可循,最早的话者识别,就是依靠听音来完成。因此,听音在声纹鉴定中具有其得天独厚的优势,它是人类的听觉系统与生俱来的,任何工具不可替代。
人类的生活离不开语言。语言是生理现象、心理现象和社会现象三者的结合和统一。语音的生理性、心理性和社会性构成了语音的特性。言语交流实际上是一系列生理、心理、物理转换的复杂过程,它可分为发音、传递和感知三个阶段。发音和传递在声纹鉴定过程中是既定的,而感知过程是语音通过听音者听觉系统获得专一信号,这是一个从生理现象到心理现象的转换过程,它具有很强的独立性。正因如此,依据同样一段语图进行听音,有些人听后可得出同样的结论,有些人听后则得出不同的结论。之所以会产生这样的情况,源于不同的人有不同的感知过程。在这种情况下,不仅要重视语图和参量数据,更要加强反复听音和多次听音。理由很简单:这种差异根本没有反映在语图上!正如笔迹鉴定寻找差异点需要反复比对一样,声纹鉴定也需要反复地听音来寻找差异点,尤其在声纹鉴定还没有成熟化的今天,听音更不可捨弃。
目前,声纹鉴定主要使用语音学分析法,即综合运用嗓音音质、口头语言和频谱等特征综合评断的一种方法。此外,还有声纹自动识别法和综合方法(即语音学分析法和声纹自动识别法相结合的方法)。鉴定方法的发展在逐步信赖科学技术的同时,也很自然地逐步巩固了听音的重要地位。因为:
1.对现有科学技术的认识存在局限性。在声纹鉴定中,最重要的一点是对共振峰的提取,这方面的研究已经颇为丰富,但是,不同软件和不同参量的选择,在提取的过程中都会面临自身方法的弊端。人们在认识的过程中还不能达到尽善尽美,而听音能听出原声态。
2.在某些情况下,听音比使用科学技术更加便利,能够省去参量选择和数据处理等技术要求的大量繁琐过程,而直接得出可靠的意见。由此可见,真正的声纹鉴定,永远不会摒去听音,如同指纹鉴定离不开“看”,声纹鉴定亦离不开“听”。
听音在声纹鉴定中固然重要,但也会遭遇一些困境。
听音者的识别能力强度,很大程度上取决于听音者的感知。而感知会受到听觉效应的影响产生偏差。听觉效应主要有:
1.掩蔽效应。即当同时听到两个声音时,较响的声音掩盖了较轻的声音,使人听起来好像只有一个声音。这种掩蔽效应,又分为纯音对纯音的掩蔽和噪音对纯音的掩蔽。
2.哈斯效应,又称时间效应。即当方向不同的两个声源发出同样的声音时,由于到达的时间为同一时刻、或相差5~35ms、或相差35~50ms、或相差50ms以上,会感觉声音来源方向是两个声源之间的一个假声源、先到达的声源、后到达的声源,得出声源来自不同方向的结果。
3.德·波埃效应,又称响度效应。即两个声源对称的置于听音者的前方时,当反馈给两个声源的声音信号相同时,听音者感觉声音来自两个声源的中间,而且似乎是只有一个声源。
4.劳氏效应,又称相位效应。劳氏效应产生假立体声效果,即将信号延时后以反相叠加在直达声信号上,立即就会产生明显的空间印象,声音似乎来自四面八方,听音者有置于乐队之中的感受。
听觉效应所产生的困境,主要是听音者感知失真。这种失真,听音者不可控制,也不可避免。对于掩蔽效应带来的困境,学术界已有人提出并研究了统计模型算法、谱减法、听觉掩蔽算法、短时谱估计算法、子空间算法、小波变换算法等,用作降低录音资料的噪音信号、增强语音信号。其余的效应在日常生活中不常见,在此不作研究。
听音为声纹鉴定服务,声纹鉴定的最终目的是要鉴别检材与样本的说话人是否同一。就像指纹认定同一一样,要以本质符合点占绝对多数,且少数差异点得到科学解释为判断依据。声纹鉴定能够进行同一认定,也要有值得令人信服的判断依据。而听音是一个主观性很强的活动,很难以“我认为两个语料是同一人所说”来取得他人的信服。即使两个或三个听音者持同一意见,也很难保证没有其他听音者持不同意见,这就使听音的结论很难在认定声音同一时得到体现。
对于这一困境,可以将主观的听音判断转化为客观的参数反映和语图反映方式来解决。目前,国内外学者对声纹研究已经日趋扩大,从基本的音强特征、音高模式的研究,已经逐步细化到情绪语音、情感语音及具体的地区方言(如广州话、上海话等)的研究上,使听音所得的结论可通过具体的参数和形态(如共振峰频率、基频、语图形态等)得以量化。虽然具体的研究还有待于进一步探索,但听音在认定同一中的体现也有了方向可循。
在提供侦查线索、缩小侦查范围上,声纹鉴定起到的作用有目共睹。但是,在法庭上作为证据使用,要具备证据力。在美国,声纹鉴定作为证据使用不是没有,但并不常见。之所以如此,主要质疑声纹鉴定的可靠性,往往要从鉴定人是否具有经验,鉴定过程是否存在主观性,语音自身的易变性等诸多问题,对声纹鉴定是否具有可采性提出质疑。在日本、德国和英国等国家,声纹鉴定作为证据也较少见。我国声纹鉴定起步晚于西方国家,在之前的诉讼程序中,声纹证据也不作为定案的根据。但是,伴随新刑诉法的修改,鉴定结论改为鉴定意见,鉴定人出庭制度得到进一步的完善,声纹作为诉讼程序中的证据指日可待。不过尽管如此,完善声纹鉴定的证据能力,还要经过很长的路程对其探索。
声纹鉴定过程中,听音是必不可少的重要步骤,鉴定人要高度重视听音。要多注重做好专业的听音训练,夯实语音学基础,以此提高声纹鉴定质量。
[1]徐立根.物证技术学[M].北京:中国人民大学出版社,2008.
[2]杨俊杰.司法话者识别[M].北京:中国人民公安大学出版社,2009.
[3]杨英仓,徐毓文,欧荣安,李文瑞,王英利.听辨在声纹鉴定中的作用[J].刑事技术,2012:43-45.
[4]唐畅,廖翔.浅谈司法语音鉴定中的综合技术应用[J].警察技术,2011:30-32.
[5]王英利,李敬阳,曹洪林.声纹鉴定技术综述[J].警察技术,2012(4):5 4-56.
[6]伍浩鹏.声纹鉴定及其证据效力[J].甘肃政法学院学报,2000(4):99-102.
[7]文宇.一声定音[J].检查风云,2004(6):36-38.
[8]宋淼,李敬阳.浅谈声纹检验鉴定技术[J].北京人民警察学院学报,2005(2):35-36.
[9]阎萍.声纹鉴定及其在侦查破案中的作用[J].辽宁警专学报,200 8(1):70-72.