刘世杰,王 虹
(中国刑事警察学院,辽宁 沈阳 110000)
声纹,原指通过声谱仪显示的作为诉讼证据的声音图谱,现指作为诉讼证据的声音特征的集合。在国际上称其“Voiceprint”,在我国刑事技术领域则比照指纹,形象的将其称为声纹。从另一方面来说,声音是由人的发声器官在大脑语言中枢的指挥下发出的,成年人的声纹同指纹、足迹等其他生物特征一样,具有人各不同的特定性和相对稳定性,故亦可将其归为人体痕迹的一种,称之为“声痕”。
声纹检验,泛指有关声音的所有检验鉴定技术。具体包括语音真实性(完整性)检验、言语内容听辨、语音信号增强、降噪处理、语音人身分析、说话人鉴定等[1]。
未见其人,先闻其声。这是我国文学四大名著《红楼梦》里的一句描述,可见,用声音来判断人的身份这种做法古已有之。正常人成年之后,其声音便会长期稳定,基本不变,同其他生物特征一样具有相对稳定性和特定性,可以用以个体识别。语音鉴别技术的应用历史悠久,可以追溯到十五世纪,但现代声纹检验技术的发展则开始于声谱仪(能够将声音转化为可视图像的仪器)发明之后。
虽利用声音来进行个体识别古已有之,但那多停留在个人主观听觉上的辨认,在注重客观证据的现代社会,个人主观感受在审判过程中很难作为证据,这使得声音这一生物特征很难在审判中发挥其应有的作用。
二战期间,为满足战争的需要,美国贝尔实验室(Alcatel-Lucent Bell Labs)接受政府委托,在L.G Kersta的主持下率先展开了对声纹的研究,并有了早期的动态声波分析仪,即我们现在所称的声谱仪(或称语图仪)。20世纪50年代后期,战后美国经济迅猛发展,通信技术进展迅速,电话这一现代通讯工具进入了寻常百姓家,给生活带来方便的同时,利用电话进行犯罪的案件也越来越多。此类案件不同于其他案件,缺少常规的犯罪现场,留给警方的线索也只有电话录音,这让美国警方大感头痛。而警方则转向求助于贝尔实验室,希望能提供说话人识别方面的支持,因此,战后搁置的声纹研究作为司法鉴定领域的一项专业技术重新登上了历史舞台。
1963年,日本警察研究所开始研究声纹检验,并成功地利用声纹相关知识协助了幼童吉展被拐骗案的侦破。1966年,Kersta利用声谱仪成功地完成了一桩悬案的声纹检验。1976年,美国国家科学院声谱委员会发表了《嗓音鉴别的理论与实践》报告,表明了“嗓音鉴别”的精度极高,误差仅为1%~2%,可作为一项科学的成熟技术。随后世界各国相继展开了声纹检验的研究工作,并越来越多的将其作为证据在法庭上被采信。其中最著名的案件当属菲律宾前反对党领袖阿基诺被杀案[2]。
我国的声纹检验研究工作起步相对较晚,这是与我国社会生产力发展状况紧密相关的。建国初期,我国社会生产力水平相对低下,通信事业欠发达,通讯设备架设不完善,给犯罪分子加以利用的机会也相对较少。1978年底,我国实施了改革开放,引进了大量先进技术,极大地解放了社会生产力。80年代后期,社会生产力的解放带来了经济的腾飞,通讯事业随之蓬勃发展,而移动通信也乘着改革开放的浪潮迅速崛起。国民生活水平提高,各式各样的公用或私人电话迅速普及,这为生活带来便利的同时也给了犯罪分子以可乘之机。
1986年,中国刑事警察学院收到了沈阳市有关部门一项关于说话人鉴定的委托,这时国内在声纹检验这一领域还未有人涉足,中国刑警学院也没有相关技术,因而无法接受这项委托[3]。这件事给了公安部门及相关领域学者敲响了警钟:国内社会现状与公安工作实践急需这方面的理论和技术支持,声纹检验技术的相关研究必须马上展开,填补国内该领域的空白。
1988年,中国刑事警察学院文件检验技术系从美国KAY公司引进了KAY-7800型数字语图仪,成立了以岳俊发、王英利、金阳天、陈祥民为成员的课题小组,建立起了国内第一个声纹检验实验室,率先展开了声纹检验技术相关的研究工作。一年后,公安部第二研究所(公安部物证鉴定中心)引进了KAY Sona Graph 5500型声谱仪,成立了以崔效义、李敬阳、王莉、冯祖祎等人为成员的课题组,同样展开了声纹检验相关研究。1989年12月,中国刑警学院成功地针对沈阳军区与闽辽公司的一起财务纠纷案中涉及的音频资料进行了声纹检验,且该鉴定意见被法庭采信作为证据,这是我国第一起声纹检验意见被法庭采信的案例。
随着30年的发展,我国的声纹检验技术从无到有,从有到精,在几代人的努力下,逐步建立起一套针对汉语特点的科学、完善的声纹检验体系。声纹技术在各个领域大放异彩,被广泛应用,而声纹检验技术则成功地为大量案件在侦查及诉讼阶段提供了有力的帮助,成为公安机关打击犯罪的又一利剑。
声纹检验针对的对象是指案件中发现的能够证明案件事实或与案件有关的一切音频资料(包括各类录音设备或存储设备中存储的音频资料以及视频录像中的音频)。自1989年起,我国就将“视听资料”作为证据写入《中华人民共和国刑事诉讼法》,这从法律上规定了声纹检验的客体--音频资料(属视听资料的一种)作为证据的合法性。
在视听资料作为证据使用有争议时,当进行鉴定。侦查过程中缺少线索,只有有限的音频资料时 ,应进行鉴定以获取线索。声纹检验在侦察和诉讼阶段均扮演着重要的角色,那么声纹检验包含哪些内容呢?
3.2.1 录音真实性(完整性)鉴定
录音的真实性(完整性)鉴定,又称录音资料剪辑鉴定,指通过听觉感知、声谱分析、元数据分析、数字信号分析等技术手段,对录音资料的原始性、连续性和完整性所进行的科学判断,以确定其是否经过后期加工处理。
3.2.2 降噪和语音增强
降噪分为可视降噪和自适应降噪。可视降噪是指选择噪声谱,对检材部分或全部进行降噪处理。自适应降噪是指选择适当的自适应参数,对检材内的噪声在频域和时域进行降噪处理。
语音增强是指使用语音增强技术,对检材语音过弱的部分或全部进行语音增强处理,提高信噪比。
3.2.3 语音内容辨识
对音频资料里的语音内容进行审听辨识。
3.2.4 环境噪声分析
对音频里的环境噪声进行审听,根据其中一些特定的声音来推断录音时所处的环境,为侦查提供线索。
3.2.5 说话人语音分析
从语音、语调、发音习惯、词汇和语法习惯等方面进行综合分析,对说话人的方言、口音、年龄、文化程度、职业等特征进行分析刻画。
3.2.6 说话人鉴定
这是声纹检验的主要内容,是指通过对不同的音频资料中特定说话人的语音声学特征与进行分析检测和综合比对,做出两者是否为同一人的结论。
3.2.7 音源同一鉴定
指通过对影音制品中音频信号的声学特征进行综合分析,做出检材与样本的音源是否同一的鉴定过程。
声纹检验发展初期,音频的载体多是模拟信号的磁带,想对这样的音频文件做修改,必须对磁带动手,难免会在磁带上留下修补痕迹,篡改人的水平不同,痕迹的明显程度不同,即使利用空磁带对修改后的磁带进行翻录,也会在新的磁带上记录下非正常的脉冲条纹(多为多次按压“暂停/播放”按钮所致)。但随着数码时代的到来,各种便携的数码设备都具有了录音功能,现在案件中遇到的音频资料多为数字化的资料。网络上也有各种各样的音频编辑工具(如:CoolEdit、Adobe Audition、WaveCN……),而且有免费的使用教程,对于别有用心的人来说,大大降低了犯罪成本。利用这些编辑软件犯罪分子可以很容易的对录音内容进行删减或添加,经过软件的优化处理,一般侦查人员很难分辨出涉案录音的真实与否。
录音真实性检验是声纹检验中十分重要的一环,因为一份音频资料能否作为证据在诉讼中使用,最重要的是该音频资料应为真实有效且未经修改的。同时,录音真实性检验又是法庭科学中的一项技术难题,尤其是数字录音。对于数字录音文件来说,首要的一项检验就是录音参数检验。数字录音文件是由与之对应的数字录音设备所录制的,因此,录音文件的各项参数特征必然与该设备相符。更有“amr编码检验”、“波形图检验”、“电网频率检验”、“频谱检验”等多种不同的方法,针对不同类型的录音进行真实性检验。在录音真实性检验中, “重翻录”录音材料的检验更是难上加难,但重翻录操作不仅能做到伪造录音场景,还能攻击基于语音特征的安全系统,因而针对重翻录录音材料检验的研究极有必有。目前有研究人员从数据统计分析的角度,利用幅度共生向量特征来对重翻录语音和原始语音进行分析。虽然有了成果,但其实用性,以及在实战中的准确率有待考量,需要进一步优化与实践[4-6]。
语音识别技术起始于20世纪50年代,经过半个世纪的发展,在20世纪末,语音识别系统走向了实用化,各种模型和算法极大地提高了识别准确率[7]。
在声纹检验的前期准备工作中,需要对检材、样本语音进行转写,对检材、样本语音中的相同词进行标注,人工进行往往会消耗大量时间,降低效率。加入语音识别系统后,可对检材、样本进行自动的转写和标注,但目前的系统在识别方面精度并不高,无法达到检验需要的标准,仍需人工进行核对。目前有不少的研究人员在更新算法、优化程序代码,甚至在尝试着加入机器学习与神经网络深度学习,以期提高语音识别的准确率。
声纹检验技术在我国起步较晚,但在几代人的努力下,迎头赶上,取得了不俗的成果,为以后的发展奠定了坚实的基础。随着科技的进步,社会的发展,各种专业知识的学习成本在信息化时代都越来越低,犯罪分子的作案手段因而越来越先进,为了在这正与邪的对抗中不落下风,我们应以开放的心态,以兼容并包之势,吸收各个领域的前沿知识,先进技术,将其应用于声纹检验中来,在前辈的基础之上,进行创新,探索更广阔的的发展空间。