张 晓 孔华锋 王海燕 刘文超
1(公安部第三研究所信息网络安全公安部重点实验室 上海 201204)2(武汉商学院 湖北 武汉 430056)3(华东政法大学刑事司法学院 上海 201620)
声纹与指纹、虹膜等作为人的重要生物识别特征,都具有唯一性和稳定性。声纹鉴定又称语声同一性鉴定,是指通过对未知说话人的语音声学特征与已知说话人的语音声学特征进行综合分析比对,做出两者是否同一的结论的过程。早期声纹鉴定的语音资料多来自于手机、录音笔、MP3等电子设备,录制的语音文件失真度较低,能够清晰地反映声纹的共振峰特征。
在当今信息化时代,即时通信软件是目前互联网上使用最广泛的应用之一。当前司法鉴定中涉及到QQ、微信、陌陌等即时通信软件的语音鉴定案件也日益增多。通话人在使用即时通信软件过程中产生的网络语音记录了语音的信息特征,使得违法犯罪行为有迹可循。语音同一性鉴定的主要内容是对检材和样本的共振峰特征进行比对。但是,网络语音与普通语音的区别在于,即时通信软件中音频编解码压缩标准通常为了保持传输时的低带宽占用和较高的编解码效率,而将音频信号的采样频率、采样精度和范围等做了降低,使音频清晰度和还原性都有所衰减。这样就在某种程度上使得对声音的还原达不到要求,而通常的语音未经过压缩编码,语音不会失真,共振峰的特征反映比较稳定。网络语音在经过存储和传输过程中,是否会导致语音共振峰的某些特征改变,以及会对鉴定结果产生怎样的影响,尚且需要实验来证明。这一不确定性给网络语音的同一性司法鉴定带来困难和挑战。
本文以当前互联网上使用频率较高且在司法鉴定领域常会涉及的5款即时通信软件(微信、QQ、陌陌、易信、YY)为代表进行研究。通过实验分别分析即时通信软件产生的网络语音与原始语音的共振峰特征,比对二者之间的差异;总结即时通信软件产生的网络语音相对于原始语音的共振峰特征改变规律,以提高即时通信网络语音在同一性司法鉴定中的准确性,更加有效地打击网络犯罪。
根据中国人民共和国公共安全按行业标准《法庭科学语音同一认定技术规范》中的相关规定,声谱定性分析的对象主要包括元音的声谱特征等,定量分析的检测对象主要包括共振峰的声谱特征等。标准中关于认定同一的规定,“检材语音和样本语音中有10个以上可供比对的不同音节,且每个音节有3条(含)以上有效共振峰;或者有6个以上可供比对的不同音节,且每个音节有4条以上有效共振峰”。
本实验设计的语音样本中共有23个字,包括了韵母表中的大部分韵母。由10个说话人通过5款即时通信软件重复朗读此段话3遍,共计产生3 450个汉字的语音样本。
软件:微信、QQ、陌陌、易信、YY。
硬件:6部手机、1支录音笔。
1.3.1 说话人
随机抽取10个说话人(5男5女),年龄20~30岁,普通话发音较标准,基本无特殊发音习惯。让他们在熟悉语音样本内容的前提下,重复读3遍。说话人在录音时身体处于健康的状态,朗读时情绪饱满、发音正常。
1.3.2 语音样本
朗读的语音内容为“他和我去无锡,找文村长洽谈承包经营农田的合作项目”。
此段话中包含了6个单韵母:[a]、[o]、[e]、[i]、[u]、[ü];4个复韵母:[ao]、[ia]、[ian]、[uo];3个前鼻韵母:[en]、[un]、[an];4个后鼻韵母:[ang]、[eng]、[ing]、[ong]。语音样本可以满足实验对语音样本韵母覆盖率的要求。
1.4.1 语音采集
准备6部智能手机,5部手机用于发送语音,一部作为用于接收语音。5部手机分别安装微信、QQ、陌陌、易信、YY等5款即时通信软件之一,另外一部手机安装上述全部5款即时通信软件。按照以下步骤进行操作:
(1) 使6部手机都处于同一无线网络环境中。
(2) 在5部发送语音的手机上分别登录微信、QQ、陌陌、易信、YY账号,在一部接收语音的手机上也登录上述5款软件。接收手机的即时通信软件账号分别与5部发送手机的即时通信软件账号互加为好友,使接收手机能分别接收到5部发送手机通过不同的即时通信软件发来的语音。
(3) 说话人对着录音笔和5部接收语音手机的麦克风孔朗读三次语音样本。在录音的过程中,5部手机上的即时通信软件均开启“按住说话”功能,直至录音结束。
(4) 6个说话人依次重复上述语音录制过程。
(5) 语音采集流程如图1所示。
图1 语音采集流程图
1.4.2 语音提取
原始语音的提取方式较为简易,直接从录音笔中找到对应的语音文件提取出来,作为语音检材。
网络语音的提取方式较为复杂,通常分为两种提取方式:一种是使用手机取证工具,对接收网络语音的手机载体进行检验,从手机中提取出相应的语音文件;另一种是直接从手机中提取语音文件,这就涉及到语音文件的存放路径问题,由于文件夹层级较多,需要一层一层筛查直至找到目标语音文件。
本实验中5款即时通信软件接收的语音文件在手机的存储路径如下:
微信:/tencent/MicroMsg/6a4e8d2ce598d6dc3a13c
3511243e2bf/voice2
QQ:/tencent/MobileQQ/qq号/ptt
陌陌:/immomo/users/594865788(陌陌号)/audio2
易信:/Yixin/audio
YY:/yymobile/im/voice
从上述路径中可以提取5款即时通信软件接收到的语音文件。
共振峰是指在声音的频谱中能量相对集中的一些区域,它不但是音质的决定因素,而且反映了人的声道的物理特征。共振峰是反映声道谐振特性的重要特征,因此对语音特征的识别中,对共振峰的特征分析是研究的关键。
使用科大讯飞智能声纹鉴定工作站对语音检材和语音样本语音进行分析。检材语音为用录音笔录制的原始语音文件。样本语音为5款即时通信语音软件通过“按住说话”方式采集到的5段网络语音。选取同一时刻检材和样本中包含6个单元音字“他[tā]”“和[hé]”“我[wǒ]”“去[qù]”“无[wú]”“锡[xī]”进行分析。在汉语普通话中,[a]、[o]、[e]、[i]、[u]、[ü]6个元音几乎代表了所有主要元音,因为二合元音和三合元音都是由这几个单元音组成,因此单元音的研究结果也适用于二合和三合元音。
检材语音和5款样本语音的宽带语图如图2所示。
图2 宽带语图对比
单元音音节的韵母,其共振峰总体上是一条单调的曲线,因此主要考察其共振峰的斜度、弯曲方向、弯曲程度以及弯曲变化情况等。5款样本语音与检材语音的第1、2、3、4共振峰(F1、F2、F3、F4)走向特征大致呈现以下规律:
(1) 韵母[a]、[e]、[i]的共振峰走向规律。
5款样本语音与检材语音的共振峰的走向几乎完全相同,每一条共振峰的斜度、弯曲方向、弯曲程度以及弯曲变化情况等均相同,基本无变化。
(2) 韵母[o]的共振峰走向规律。
YY软件语音与检材语音相比,在F2和F3之间存在一条虚假共振峰。其余基本无变化。
(3) 韵母[u]的共振峰走向规律。
陌陌软件F2能量分布不均匀,末端能量较弱。其余基本无变化。
(4) 韵母[ü]的共振峰走向规律。
陌陌软件F2能量分布不均匀,始端能量较弱。其余基本无变化。
共振峰参数包括共振峰频率、带宽和峰值。其中共振峰的中心频率主要体现了语音中共振峰能量的平均强度随频率的分布关系,是语音共振峰的重要表现。比对检材语音和5款样本语音的共振峰数据特征,并计算共振峰中心频率的偏差比例,将软件、共振峰与偏差比例三者之间的关系用三维坐标系表示。其中:x轴代表5款软件;y轴代表F1至F3三个共振峰;z轴代表中心频率的偏差比例。分别统计[a]、[o]、[e]、[i]、[u]、[ü]6个元音在每款软件的F1、F2、F3共振峰中心频率与原始语音检材F1、F2、F3共振峰中心频率的偏差比例,统计结果如图3所示。
图3 中心频率偏差比例对比
对图3的中心频率偏差比例的统计结果进行分析,可以总结出网络语音的共振峰改变大致呈现以下规律:
1) 第1共振峰F1的特征:
(1) 大多数软件在大多数元音上的中心频率偏差比例数集中在5%以下。
(2) 软件YY在所有元音上偏差比例较小,在3%左右。其中,软件QQ在元音[e]和[i]上中心频率偏差比例为10%左右。软件陌陌、微信分别在元音[u]和[a]上中心频率偏差比例在9%~17%之间。软件易信在元音[o]、[e]和[u]上中心频率偏差比例为11%。
2) 第2共振峰F2的特征:
(1) 5款软件都有1~3个元音的中心频率呈现一定的偏差比例。其中:QQ、陌陌、易信均有一个元音的中心频率偏差比例在13%~32%之间;YY在元音[o]和[ü]上偏差比例在11%~16之间;微信在元音[o]、[u]和[ü]上的中心频率偏差比例在11%~20%之间。
(2) 5款软件总体在元音[a]、[e]和[i]的中心频率偏差比例较小,在0%~6%之间;在元音[o]、[u]、[ü]都有二至三款软件的中心频率偏差比例较大,在11%~32%之间。
3) 第3共振峰F3的特征:
5款软件在所有元音上的中心频率偏差比例均较小,在0%~8%之间。
本文选取了5款即时通信软件产生的网络语音作为研究对象,通过实验从宽带语图和共振峰中心频率特征等方面对其声纹特征进行研究。从图2中可以看出,网络语音的共振峰走向特征与原始语音基本变化不大,个别软件在个别元音上会出现能量分布不均、存在虚假共振峰的现象。图3中的数据反映出5款软件在不同的元音、不同的共振峰上,共振峰的中心频率偏差比例也表现出不同程度的变化,但是整体上偏差比例较小,十分接近原始语音的中心频率值。
综合分析实验结论,总结出网络语音的声纹共振峰特征相对于原始语音存在着相对的稳定性,不同软件之间存在着一定的差异,对不同的元音和不同共振峰也产生相应的影响,鉴定过程中需要排除虚假共振峰,共振峰频率的偏差比例改变大部分不超过15%。总体来说,这些影响因素导致的差异不会对声纹鉴定的识别造成实质性的干扰,即时通信软件产生的网络语音的共振峰特征较原始语音具有相对的稳定性。即时通信软件产生的网络语音的声纹共振峰差异分析为语音同一性鉴定提供了基础和依据,有利于提高司法语音鉴定效率和准确率,能够有效打击网络犯罪活动,在语音鉴定中具有重要的应用价值。
在互联网飞速发展的今天,使用即时通信软件进行日常交流已经成为人们生活中不可缺少的一部分。根据2018年5月QQ大数据发布的《2018全国城市年轻指数》报告中显示腾讯QQ有7.83亿月活跃用户。2018年3月6日,据运营商公布的数字,在中国微信的全球用户帐号数量已经突破十亿。国内的陌生人社交软件中,陌陌拥有最大的用户量。即时通信软件产生的网络语音作为证据的情况越来越多,而语音同一性鉴定中涉及到网络语音鉴定的案件数量也随着网络的迅猛发展而不断增长,呈直线上升的趋势。
本文研究的即时通信软件产生的网络语音的共振峰特征比对分析结论,适用于英文、普通话、山东话、天津话、东北话和四川话等。但是对于闽南语、客家话、吴语和赣语等方言,由于发音方式复杂且具有很多的不确定性,能否适用还有待进一步研究。希望在今后的研究中,能够增加对方言的实验,深入研究每一种语音的各个音节共振峰的改变特征,使即时通信网络语音的同一性鉴定更具有普适性,提高鉴定结果的准确率。