南兆营
(中国刑事警察学院,辽宁 沈阳 110854)
根据腾讯官方发布的数据,到2020 年第二季度,微信的月活跃用户数量已达到12.06 亿,单用户每天的语音发送条数约为7 条。大量的微信语音消息便利了人们的沟通交流,也成为多网络犯罪常用的手段。以微信语音诈骗为例,犯罪分子一般先盗取受害人的微信账号,使用“克隆软件”提取受害人的微信语音,然后利用人工智能的方法合成含有虚假内容的语音。这种合成语音从听觉上很难分辨真假,使得犯罪分子利用这种方法进行诈骗的成功率很高。因此,对微信语音的相关研究越来越重要。本文从声纹检验技术的角度出发,探究微信语音经过网络传输后能否进行语音同一认定问题。
目前,声纹检验技术在网络犯罪领域越来越受到重视。随着5G 时代的到来,音视频信息无处不在,使得声纹检验技术得到了广泛应用。声纹是指作为诉讼证据使用的各类声音的特征集合[1],国际上称为“Voiceprint”,我国类比指纹的叫法称其为“声纹”。声纹、指纹及DNA 等生物特征一样,可以用于人身识别,客观、准确、生动形象且更加直观与全面,具备其他生物特征不具备的优势[2]。声纹检验技术是指将科技手段与专业经验、知识相结合,对音像资料中的声音材料进行各种分析、检验及鉴定,以证明语音音源的同一性、音像资料的真实性和完整性、语音内容、噪声来源、说话人属性以及录制器材等内容的专门鉴定技术,可为侦查提供线索、为审判提供证据[3]。
声纹检验技术主要包括语音同一性检验、语音真实性(完整性)检验、音源同一认定以及说话人言语习惯分析等内容。其中,语音同一性检验在证据检验领域通常被称为声纹鉴定、话者鉴别或说话人鉴别,是出现最多的语音证据检验项目。语音同一性检验的理论基础是一个人的言语习惯形成以后,语音在一个较长时期内本质特征不变,具有相对稳定性。每个人的语音具有不同于他人的个体特征,虽然同一个说话人不同次的发音在语音声学特征上不完全符合,但是说话人自身语音的差异小于不同说话人之间的差异。
通话设备为安卓智能手机,型号分别为EMLAL00(语音接收)、SEA-AL10(语音发送)和KNT-UL10(现场录音),语音分析软件为PRAAT。
在比较安静且无明显回声的环境中,通过手机SEA-AL10 上微信软件的语音发送功能向手机EML-AL00 发送语音消息,同时第三部手机KNTUL10 放置在与语音发送手机SEA-AL10 距离约0.5 m 的位置,利用内置录音功能进行实时录音。
正常语速读古诗《春晓》。
将3 部手机上发送和接收到的微信语音消息和语音录音提取出手机,分别导入电脑进行比对分析,找出其中最清晰、最容易比对的语音进行对照分析。具体地,选择“春”“眠”“处处”作为鉴定对比的字词音节,根据图谱特征进行基频、共振峰等参数的测量分析,寻找数据之间的差异和共同点。
对选定音节的微信语音发出端和接收端,从共振峰频率值特征、动态特征及音节内过渡形态特征3 个方面进行分析。选定音节的声谱图如图1~图3 所示,图谱测量结果如表1~表3 所示,其中x峰表示第x共振峰。
表1 音节“春”图谱测量数据
表2 音节“眠”图谱测量数据
表3 音节“处处”图谱测量数据
3.1.1 共振峰频率值特征
共振峰频率是反映声道传输特性的重要指标,与声道的形状和长度密切相关,稳定性强,在进行语音同一认定时使用价值最高[4]。由于复合元音韵母形成的共振峰为曲线形态,一般选用共振峰上的特定点或稳定段进行频率测量和比对。实验中,所有测量音节的共振峰频率值均在误差允许范围内,说明共振峰频率值特征在实验中非常稳定,因此可用于微信传输语音的同一认定。
3.1.2 共振峰动态特征
共振峰动态特征是指共振峰中心线在频率-时间平面上的曲线形态,反映了语音及其共振峰的动态特性。直线型共振峰的走向可进行斜度比对,曲线型共振峰的走向可进行斜度、凹向及弯曲程度的对比。对实验中选定音节的共振峰进行细致的观察比对,各音节接收端与发出端的共振峰走向特征均呈现出较好的一致性,没有明显的差异。从图谱对照结果来看,共振峰动态特征可以作为微信传输语音同一认定的依据。
3.1.3 音节内过渡音征
音节内过渡音征是指一个音节内部图谱的过渡形态,包括声母与韵母相衔接的一段动态性音段(前音渡)的形态、元音韵母的共振峰走向形态、韵母与鼻韵尾之间相衔接的一段动态性音段(后音渡)的形态。
实验对选定音节进行全面的比对检验。以图2为例,微信语音接收端“眠”音节内部的过渡音征走向和过渡方式表现与发出端一致,可以作为微信传输语音同一认定的依据。
通过分析和表1~表3 的数据可以看出,微信发出端和接收端语音在基频、共振峰频率值特征、动态特征及音节内过渡音征上呈现相似性,即在手机上利用微信软件进行语音传输并不会对语音造成明显的改变,发送端和接收端的语音可以进行同一认定。但是,微信端(发送端和接收端)语音样本与现场录音样本在声学特征上存在较大的差异,在共振峰频率值特征、动态特征及音节内过渡音征方面均有较为明显的差异,且共振峰的数据测量值差异也比较明显。例如,音节“眠”在语音发出端和现场录音的波形图有明显的差异,在现场录音中声音的振动强度更大,如图4 所示。
究其原因,出现该现象可能两方面的原因。一方面,设备录音时的距离不同,说话者贴近语音发送端的手机话筒,而录音手机静置于旁边,声音的传输时间、声音传播受干扰时间以及空气杂音干扰时间不相同,导致录音和微信传输语音的品质不同。另一方面,微信发送语音时录音机制与打开录音机进行录音时的录音机制不同,导致声音呈现的图谱形态存在一定的差异。这两个原因代表的影响普遍存在于将语音用于同一认定的过程,因此在实际应用中不应将数据的简单对比作为判断话者是否为同一人的唯一证据,还应综合考虑各种因素,以采用科学的方法进行语音的同一认定。
语音同一认定的常规方法主要有审听检验和图谱检验(也被称为听辨分析和声谱分析[5])。审听检验是指通过直接用耳朵辨听样本和检材中的语音内容对发音特征进行直观比对和认定的初检方法。图谱检验是指将语音通过专门软件转化为声谱图,通过观察图谱中的声纹特征进行比对分析,从而得出结论。
审听检验的主要内容包括:
(1)全面审听录音材料,掌握录音中的谈话人数、内容、口气、气氛、心理、人际关系以及空间环境特点等相关信息;
(2)着重提取具有个体特色的音素,如在发音中出现的重复、颠倒、拼读错误、语法以及习惯用词等具有个人特征的信息;
(3)分析具有较高比对价值的音节,要求音节发音清晰,可以生成清晰的图谱,原则上能够在图谱中看到4 级及以上的共振峰,且该音节为检材和样本所共有;
(4)听辨噪声,辨别并记录噪声的种类、来源、出现的位置以及音量或电平信号的突然变化等。
通过以上各类信息的听辨分析,做出相似或差异程度的评价。
图谱检验也叫语音图谱视觉检验。它是指选择合适的参考音节或音段,从中选出适合对照的“语音对”,利用语音声学分析知识和个人经验生成视觉显示最佳化的语音图谱。
图谱检验的方法包括概貌观察和语图形态比较两种。通过概貌观察,分析语图结构成分的完整性、时长、动态范围、共振峰及能量集中区分布等信息。语图形态比较从所选的最小语音单元图谱开始检验,一般选择音节作为最小的分析单元。图谱检验的顺序是声母、过渡区和韵母。仔细观察、分析检材和样本中相同和相近的音素、音节、词语及短语图谱的语音声学特性和声学模式,包括共振峰特性(共振峰级数、频率及强度)、共振峰动态特性(斜率、凹向及弯曲程度)、音节内过渡特征(前音渡和后音渡)、音节间过渡特征、过零率曲线和辅音浊化现象、协同发音现象、音强曲线以及基频曲线等,最后作出相似或差异程度的评价。
语音从生成到记录的整个过程都是动态的,即便是同一个人,两次发相同音的语音及图谱也不可能完全一致。加上环境和设备条件的动态变化,差异不可避免。对检材和样本语音的比对分析,一般以3 种结论形式呈现:一是全部特征基本一致,没有明显差异点,如实验中微信发出端与接收端的语音,可以做出同一认定的结论;二是多数特征有明显差异,符合点很少,可以做出否定的结论;三是多数特征基本符合,但存在少数差异点,如实验中微信端语音与现场录音的对比,此时必须通过动态分析确定差异点是同一个人的非本质差异还是不同人的本质差异,之后再做出相应结论。
根据实验结果可知,微信发出端和接收端语音在基频、共振峰频率值特征、动态特征及音节内过渡形态特征上呈现相似性,因此在手机上利用微信软件进行语音传输并不会对语音造成明显的改变,即发送端和接收端的语音可以进行同一认定。但是,微信端语音样本与现场录音样本在声学特征上存在较大的差异。因此,实际应用中不应将数据的简单对比作为判断话者是否为同一人的唯一证据。语音同一认定必须对作案环境、录音条件与设备、话者的自然条件和社会环境以及话者的生理和心理等多种音素做出细致充分的分析和考察,并综合分析听觉评价、图谱比较、定量比对及动态分析的结果,才能得出最后的结论。