王华朋 姜 囡 晁亚东 刘 恩
(中国刑事警察学院声像资料检验技术系 辽宁 沈阳 110854)
鉴定结论是指鉴定人对诉讼中涉及的专门性问题运用科学技术或专门知识进行鉴定和判断的基础上给出的综合结果。十届全国人大常委会第十四次会议通过的《关于司法鉴定管理问题的决定》中提出把“鉴定结论”改为“鉴定意见”,更改的初衷是因为鉴定结果只是鉴定人基于个人认知能力的判断,对于整个案件而言,这些意见只是诸多证据中的一种证据,所以用“鉴定意见”来描述更为恰当,有利于正确说明这类证据在诉讼中的作用。这虽然是对证据效力思考后的一次巨大进步,但是,这并不意味着更改一下描述方式,证据就具有了科学性,越来越多的学者开始关注证据的科学性[1-4]。科学证据的基本要求包括:检验方法和检验过程都是科学的,结果是客观的、可重复的、证据强度是可量化的[5]。法庭说话人识别最主要的任务就是比对罪犯和嫌疑人的语音样本,提取有效稳定语音特征,利用这些特征加以识别或确认。随着语音证据出现率越来越高,国内外对语音证据评估方法有了新的发展,即采用基于似然比的证据评估方法[1,6-7]。DNA检验率先使用该方法,目前正被推广到其他的法庭证据领域。该方法可以量化评估证据对鉴定结论支持程度的大小,是逻辑上和法律上都正确的法庭证据评估方法,在国内外获得了广泛的认同。
人类听觉系统是高度复杂并且高度精密的生理系统,具有很强的声音识别能力和抗噪声能力[8],能在复杂环境中捕捉目标语音。它的声音分析能力大幅度超过了自动说话人识别系统。在含有噪声的环境下,人类听觉系统识别的准确率比任何自动识别系统更具有可靠性[9]。基底膜是耳蜗中能够辨别分析声音最重要的部位[10],频率不同的声音导致基底膜以不同的形式振动,越接近基底膜顶部,共振频率越低,越接近基底膜底部,共振频率越高。因此基底膜能够将不同频率的声音对应到基底膜对应的位置,以基底膜振幅的幅度表示频率的强度[11],Gammatone滤波器能够模拟耳蜗基底膜的分析不同声音的特性[12-13]。本文选择GFCC作为自动识别系统的输入参数,在似然比证据强度评估体系下,对语音中说话人身份的自动识别方法进行了研究,为了提高计算效率和降低噪声的干扰,使用主成分分析技术对GFCC特征进行了降维。
GFCC特征主要通过Gammatone滤波器来实现,该滤波器能够模拟类似耳蜗的听觉模型其时域形式为:
gi(f,t)=ktn-1e-2πbitcos(2πfi+φ)t≥0
(1)
式中:φ为相位,相位对人耳听觉影响较小,常取φ=0,f为各子滤波器的中心频率,n表示滤波器阶数,根据对耳蜗声学特性的测试结果,4阶Gammatone滤波器与人耳听觉特性十分相似[14-15],本文中n取值为4,i表示子滤波器编号,bi、fi为第i个子滤波器的带宽和中心频率,k为增益。
4阶的Gammatone滤波器各频带宽度表示为:
(2)
Gammatone滤波器有N个(一般取N=64)单独滤波器组成,整个滤波器的带宽一般从50 Hz到采样频率的二分之一。
提取GFCC特征的步骤如下:
(1) 语音信号通过64通道Gammatone滤波器组。
(2) 对各通道的滤波响应取绝对值。
(3) 对上述滤波响应的绝对值取对数。
(4) 对上述对数结果进行离散余弦变换,以减少各维特征之间的相关性。
主成分分析是数学上对数据分析主要成分的方法,可降低特征的维度,也能降低计算量、减弱特征间互相影响等问题,还具有一定的降噪功能[16]。它的基本思想是找到一个投影方向将高维的特征向量投影到低维空间中,即从原始数据中分析出低维的主分量来代表原始数据。本文中根据累计贡献率大于95%的原则,设置背景数据库50人中累计贡献率大于95%的需要的最低维度为主成分分析降维后的维度,通过实验验证,降维后的特征维度为14。
似然比可以表示成在同源假设条件下出现嫌疑人语音特征的概率和在完全相反的非同源假设条件下出现相同语音特征概率的比值。因此,似然比就是当前语音证据支持同源假设和支持非同源假设的相对强度,似然比数值反映证据强度的大小。如果用P表示条件概率,E表示证据,H0表示同源假设,H1表示非同源假设,那么似然比表示为:
(3)
法庭自动说话人识别系统的流程图如图1所示,其核心为基于LR的证据评估体系,系统的输出结果是一个具有物理意义的概率比,即犯罪证据在嫌疑人语音中出现的概率与该语音证据在除嫌疑人之外的其他人群中出现的概率比。该自动说话人识别系统的特征提取与模型训练部分和普通说话人识别相同,只是在门限判决部分采用似然比,而不是根据经验或先验知识得到的门限设置。似然比天然的识别阈限为1,如果似然比结果大于1,则说明证据支持同源假设;如果似然比结果小于1,则说明证据支持非同源假设,即罪犯和嫌疑人不是同一人;如果等于1,对两个假设的支持力度相同,说明是一个无效的证据。
图1 法庭自动说话人识别系统流程图
在图1虚线之上为法庭自动说话人识别系统的训练部分,虚线之下为测试部分。由训练背景数据库训练出背景人群的高斯混合模型(Universal Background Model,UBM),然后通过自适应高斯混合模型算法[17]计算出每个说话人的高斯混合模型(Gaussian Mixture Model,GMM),如图2所示。通过参考数据库中测试语音与GMM的对比,获得输出得分,然后根据相同说话人语音得分训练相同说话人正态分布模型,根据不同说话人语音得分训练不同说话人正态分布模型,并根据参考数据库中的数据使用逻辑回归算法对似然比结果进行校正,获得校正加权值。测试时,测试语音的得分在上述两个正态分布模型上分别计算出现概率,其比值即为似然比,通过测试部分获得的校正权值校正后,即为最后的似然比得分,是对证据强度的量化结果。
图2 说话人模型自适应流程图
法庭自动说话人识别系统的识别性能由美国国家标准及技术署说话人识别技术评测中心使用的系统性能评估函数来度量,它是与先验概率无关的对数似然比代价函数:
(4)
式中:Nss和Nds分别是相同说话人语音对和不同说话人语音对的个数,LRss和LRds分别是相同说话人比较对和不同说话人比较对产生的似然比数值。识别系统的结果越可靠,Cllr的值就会越低。
本文使用了3个男性说话人数据库,分别为背景数据库(50人)、参考数据库(20人)和测试数据库(60人)。上述数据库中说话人年龄在19~24岁之间,每个人录音2次,采用中国刑事警察学院的内部固话系统录制,保存为“Windows PCM,*.wav”格式,采样率为8 000 Hz,采样精度为16位。数据库中说话人被要求以普通话朗读固定的文本内容,录制环境为普通的办公室环境。使用Audition CS6软件去除各条语音中的非语音段,以排除讲话停顿时间的干扰。
为模拟真实案件的情况,本文提取了真实案件中办公室录制音频中的噪声,其频谱特性如图3所示,分别按不同程度信噪比加入到上述三个纯净数据库中,形成了信噪比分别为20、10、0、-10和-20 dB的五个等级的数据库,以测试GFCC特征抗噪声干扰能力。
图3 真实案件录音中噪声声谱图
使用背景数据库中50人的两次录音(各30秒)训练背景人群数据库,即UBM。它反映GFCC特征在人群中出现的情况,由64维的高斯混合模型来表示。使用参考数据库中20名说话人组成的20人相同说话人比较对及190人不同说话人比较对,提取每人两次录音的前10秒进行组合,使用自适应高斯混合模型算法,从UBM中生成表征每个人语音特性的GMM,然后使用每人第一次录音的另外10秒语音进行测试。由20次相同说话人比较对的得分训练成正态分布模型H0,表征说话人自身的变化性;由1 770次不同说话人比较对的得分训练成另外一个正态分布模型H1,表征不同说话人之间的变化性。使用参考数据中每人第一次录音中没有用过的另外10秒数据进行测试,测试输出得分在模型H0和H1上计算似然比数值。然后使用逻辑回归算法对结果进行校正,在校正过程中产生校正权重,用于对测试数据库的似然比输出结果进行校正。
在每次测试中,由测试数据库中的60人组成60个相同说话人比较语音对,同时组成1 770个不同说话人比较语音对,提取每人两次录音的前10秒进行组合,使用自适应高斯混合模型算法,从UBM中生成表征每个人语音特性的GMM,然后使用每人第一次录音的其他10秒语音进行测试,测试语音的长度为10秒。输出得分在H0和H1分别计算出现概率,其比值即为测试数据库的似然比数值。
在未加噪的纯净数据中,本文采用了64维GFCC特征的前26维,没有使用PCA 降维。图4是参考数据库中未使用过的10秒语音在本文FASR上获得的测试结果。结果使用Tippett图表示,图中竖直的虚线为识别阈值,似然比的识别阈值为1,取对数后为0;左上较细的实线表示不同说话人似然比取对数10后大于等于x轴刻度的样本所占的比率,小于阈值即为正确识别,距离阈值越远,证据强度越大;右上较粗的实线表示同一说话人似然比取对数10后小于等于x轴刻度的样本所占的比率,大于阈值即为正确识别,距离阈值越远,证据强度越大。图5为使用逻辑回归校正算法校正后的似然比结果。对比图4和图5可以得到,校正后,代表阈值门限的竖直虚线右移,更位于相同说话人和不同说话人的对数似然比得分的中间,错误识别率进一步降低。图5中所有的不同说话人比较对和相同说话人比较对都得到了正确识别,图4中校正前结果中存在一小部分不同说话人识别结果被错误认定,说明校正算法是有效的。图6为测试数据库的似然比结果,错误否定率(False negative rate,FNR)为0,错误认定率(False positive rate,FPR)为0.17%,值为0.006 4。
图4 参考数据库校正前Tippett图
图5 参考数据库校正后Tippett图
图6 测试数据库Tippett图
在加噪声数据库中,本文使用前文所述的PCA算法进行了降维,把64维GFCC特征降为14维特征。在-20 dB的条件下,对于相同说话人语音对,其FNR为5%,对于不同说话人语音对,其错误认定率FPR为3.39%。为节省篇幅,本文使用表1列出了不同信噪比条件下识别系统的值与错误识别率。从数据层面上来看,本文方法优于文献[13]中的方法,但是由于数据库选择、录制环境、加入噪声类型、测试语音长短不同等因素的影响,很难进行客观的横向比较。
表1 不同信噪比条件下识别系统的Cllr值与错误识别率
从表1中测试结果可知,参考库校正前后的值都有不同程度的下降,说明本文使用的逻辑回归算法的有效性。FPR和FNR在信噪比逐渐降低的条件下,保持相对缓慢的增长,但是,即使在高噪声条件下,识别系统依然保持了良好的稳定性。即使识别错误,其错误的程度并不大,不会对鉴定结果产生较大的错误影响。
本文使用能模拟耳蜗听觉特性的GFCC特征与主成分分析相结合的方法,在不同信噪比程度下,对基于似然比证据评估体系的法庭自动说话人识别系统抗噪特性进行了研究。实验结果表明:该方法在信噪比不断降低的情况下,法庭自动说话人识别系统依然能保持良好的稳定性和较高的识别率,甚至在-20 dB的条件下,具有5%的错误否定率、3.39%的错误认定率。测试采用来自真实案件的办公室录音噪声,对法庭自动说话人识别系统的实际法庭应用具有重要意义,下一步将对更多类型的案件噪声进行测试,以拓宽应用范围。