□耿浦洋,卢启萌,郭 弘,施少培,卞新伟
(司法鉴定科学研究院声像和电子数据鉴定研究室,上海 200063)
语音同一性鉴定(也称声纹鉴定),是指对检材语音和样本语音进行比对和分析,确定二者是否出自同一说话人的技术。在目前的司法鉴定实践中,检材语音的采集设备主要包括录音笔、电话录音、手机录音等。值得注意的是,检材语音的采集设备不同会对语音特征(如共振峰)的比对和分析造成一定影响。例如,固定电话的采样频率范围为300-3400Hz,超出这个范围的语音特征都无法被记录,因此在对检材语音和样本语音进行比对时,应着重关注此频率范围内的特征。有学者提出,为了更科学的进行语音同一性鉴定,在实践中应当充分考虑语音采集设备对语音特征可能造成的影响,或使用检材语音的采集设备来采集样本语音。[1]
近年来,随着智能手机和互联网技术的飞速发展,通讯、短视频和直播等手机软件已经成为人们日常生活和娱乐活动中不可缺少的工具。微信语音、网络直播、短视频也在一定程度上替代了传统通讯和营销方式,占据了主导地位。然而,随着这些软件的不断成熟和推广,一些不法分子也开始使用相关软件进行违法活动,例如电信诈骗、网络赌博、裸聊等。因此,微信语音、视频也越来越多的以证据形式出现在法律诉讼案件中。
通常,一些手机软件为了提高语音信号的传递效率、减少相关文件的空间占用率,会对语音信号采取有损压缩手段。这种手段不会改变语音的可懂度,但可能会对语音的特征造成一定影响。那么,微信、直播等软件在信号传输过程中是否存在有损压缩、其记录的语音特征是否完整?如果存在上述现象,那么在语音同一性鉴定的案件中,作为证据的微信语音或视频是否与使用无损录音设备(如专业录音机)采集的样本语音具有可比性?二者又存在哪些差异?对于这些问题的答案,尚缺乏系统的实验研究。
因此,为了解决上述问题,本文将对微信、短视频、直播三种手机软件与专业录音机采集的语音信号进行对比分析,考察上述软件和录音机采集信号的差异及可比性。
研究招募了男女各一名发音人,普通话标准。录音设备包括三部华为手机(HUAWEI P30 Pro)和专业录音机(型号:SONY PCM-D50)。其中,手机录音的软件包括:微信(版本:8.0.2)、抖音(版本:16.2.0)、花椒直播(版本:7.8.5.1028)。
录音材料为中文版《北风与太阳》。录音开始前,发音人花3-5分钟熟悉录音材料。录音设备置于发音人面前25cm,三部手机(分别运行微信、抖音和花椒直播软件)和录音机同时开始录音。录音机采样率为48.0 kHz,采样精度16 bit。要求发音人使用平时说话的方式朗读录音材料。
此外,为考察微信传输对视频中音频信号的压缩情况,录音结束后,将抖音和花椒直播软件录制的视频通过微信发送至某微信账号。
最后,对手机录制的音/视频文件进行提取,录音文件如表1所示:(1)微信语音通过手机镜像进行提取(即微信-女和微信-男);(2)抖音/花椒录制的视频使用三种方式提取,录制手机相册中视频原始文件提取(即抖音-女、抖音-男、花椒-女、花椒-男)、微信电脑客户端提取(微信-抖音-女-客户端、微信-抖音-男-客户端、微信-花椒-女-客户端、微信-花椒-男-客户端)、手机镜像提取(即微信-抖音-女-镜像、微信-抖音-男-镜像、微信-花椒-女-镜像、微信-花椒-男-镜像)。
表1 录音文件
录音文件的属性信息如表2所示。微信语音的采样率为16.0kHz,采样精度16bit,2声道录制;抖音录制视频中音频信号的采样率均为44.1kHz,无采样精度信息,录制原始文件为2声道、微信传输后文件为1声道;花椒录制视频中音频信号的采样率均为44.1kHz,无采样精度信息,1声道。
表2 录音文件属性信息
频谱特征是说话人个体特征的重要反映,与咽腔、口腔和鼻腔等生理器官存在密切关系。[2]在语音同一性鉴定中,频谱特征(如共振峰、基频等)是进行同一认定的重要依据。因此,要考察手机软件录音和录音机录音之间是否具有可比性,需要对二者采集语音的频谱特征进行对比分析。
从频谱采集的范围看,录音机、抖音和花椒录制音频的频谱特征采集范围为0-12 kHz;微信语音的频谱特征采集范围为0-8 kHz,8-12 kHz范围未采集到频谱特征,这说明微信在采集语音信号的过程中存在压缩现象,过滤了8 kHz以上的频谱特征。
进一步对0-8 kHz范围内的频谱特征进行观察比对发现,男、女发音人在所有录音的频谱特征显示上均表现一致(即频率分布及走向、过渡音段形态、振幅强弱、时长以及背景噪音)。如图1和图2所示,以“在那里争论谁的本事更大”为例,不同手机软件和录音机录制语音的频谱特征未发现差异,这说明在0-8 kHz范围内手机软件和录音机采集的语音信号一致。
图1 “在那里争论谁的本事更大”的频谱图(女)
图2 “在那里争论谁的本事更大”的频谱图(男)
为了定量考察手机软件和录音机采集语音的频谱特征是否存在差异,使用Praat软件对录音文件的频谱特征进行提取,[3]即前四个共振峰(F1、F2、F3和F4)、基频和嗓音参数(jitter、shimmer、HNR)。其中,每个录音文件生成的基频文件均经过手工校正,并进行平滑和插入。最后,对提取的所有参数分别求平均值。
声谱特征的均值如表3所示。对于前四个共振峰的均值,不同手机软件和录音机之间的差异均小于100 Hz,F1、F3的差异相对较大,F2、F4更稳定,男发音人的差异小于女发音人。对于基频和嗓音参数的均值,不同手机软件和录音机之间的差异较小,具有较高的稳定性。
表3 声谱特征的均值
本文对微信、抖音和花椒直播软件与专业录音机采集的语音信号进行对比分析,发现:1.微信语音的有效频谱显示范围为0-8 kHz,抖音和花椒录制视频中音频信号的有效频谱显示范围为0-12 kHz;2.通过微信传输的视频中音频信号未见压缩或削减;3.微信、抖音和花椒采集语音与录音机采集语音在0-8 kHz范围内的频谱特征表现一致;4.微信、抖音和花椒采集语音与录音机采集语音在前四个共振峰(F1、F2、F3和F4)、基频和嗓音参数(jitter、shimmer、HNR)的统计数据上未见显著差异。
本研究的结果与南兆营的发现截然相反。南兆营提出,微信语音在频谱特征上和录音机录制存在显著差异。[4]然而,这个差异实际是由频谱显示范围的设置差异造成的,如图3所示,原始录音的频谱显示范围(即纵轴)为0-4 kHz,而微信和抖音语音的显示范围则为0-5 kHz,三者在0-4 kHz范围内的频谱特征表现一致(即红线以下部分)。因此,微信、抖音语音和录音机现场采集的说话人的语音信号不存在显著差异。
图3 微信语音和录音机录音的频谱图
此外,对于抖音和花椒录制的语音,采样精度信息不可见。这可能是视频录制软件的信号采集特性造成的。本文还发现,微信语音未对8 kHz以上的频谱特征进行采集。由于8kHz以上的频谱特征不会对语音的听觉感知、可懂度等造成显著影响,为了提高传输效率、减少文件占用空间,微信语音未采集这部分频谱特征。然而,值得注意的是,通过微信传输的视频中音频信号并未被压缩,音频采样率、声道等信息与原视频文件均保持一致。
最后,尽管通过手机软件和录音机录制的语音在8个声谱特征的统计数据上基本保持一致,但是仍能发现个别声谱特征(如F3)存在相对大的差异。造成这个现象可能的原因有Praat软件在参数提取过程中的误差,不同软件的音频传输质量差异,以及背景或本底噪声干扰等。总体来说,不同手机软件和录音机录制的语音在声谱特征的统计数据上不存在显著差异。
本研究发现,微信、抖音、花椒直播等手机软件和录音机采集的语音信号在频谱特征显示(如频率分布及走向、过渡音段形态、振幅强弱等)以及统计数据上均表现一致。因此,不同手机软件采集的语音信号和录音机现场采集的语音信号具有可比性。在语音同一性鉴定中,不同手机软件采集的语音信号可以作为有效检材或样本进行同一鉴定。本文的研究结果对于语音同一性鉴定实践具有较高的应用价值。同时,对于进一步推进司法鉴定公正性和科学性也具有重要意义。