夏西泉,王 平
(1.重庆电子工程职业学院应用电子学院,重庆 401331;2.重庆大学输配电装备及系统安全与新技术国家重点实验室,重庆 400044)
一种基于线性预测的语音认证算法*
夏西泉1,王 平2
(1.重庆电子工程职业学院应用电子学院,重庆 401331;2.重庆大学输配电装备及系统安全与新技术国家重点实验室,重庆 400044)
针对传统语音认证算法不适用于资源受限的移动通信终端语音通信的实时性要求,提出了一种高效的基于线性预测分析的语音认证算法。该算法基于语音信号的线性预测分析的原理对LPC系数参数进行优化,并对构成的LPC系数矩阵进行后处理、非负矩阵分解和量化,形成感知特征序列。实验结果表明:所提算法对于内容保持操作具有良好的鲁棒性,并且运算效率没有降低,可以满足语音通信实时性的要求。
语音认证,鲁棒性,线性预测系数,非负矩阵分解
语音信息作为人类交流信息最自然、最有效、最方便的手段,随着移动通信和个人通信技术的发展,全球各地的人可以随时随地通话,相互联系越来越紧密。另一方面,语音的存在形式也由声波扩展到了模拟信号和数字信号,可以无限传播和保存[1]。
在方便人类生活的同时,随之而来的是海量的语音信息处理、信息安全、社会安全问题[2]。语音内容认证技术就是一个实现对语音数据完整性、真实性进行保护的有效技术手段,它可以检测出接收到的语音数据在传送过程中没有经过第三方的恶意编辑和篡改[3]。由于语音的特殊性,传统的签名认证算法无法满足语音的认证要求,一是因为鲁棒性的要求,语音在传输过程中经常会受到各种干扰,而语音信息并不会因为内容保持操作而影响整体的听觉理解,因此,认证过程中,就应该将内容保持操作归纳到认证的范围内,这就对语音认证算法的鲁棒性提出了很高的要求[4]。另一方面,语音传输的实时性和语音移动终端的资源问题,使得语音认证算法对运算效率又有着很高的要求。而传统的摘要认证算法是将所有的数据都看成比特流,因此,原始数据的微小改动,都会使产生的摘要发生变化,鲁棒性太差,不适用于语音认证,并且对资源要求很高,计算量较大[5]。
目前,对语音认证特征值提取和处理的方法有很多,多是围绕人类听觉系统进行优化[6],作为再估计基本的语音参数,以及用低速率传输或储存语音等方面的核心技术,线性预测(Linear Prediction)可用很少的参数,有效而又正确地表现语音波形及其频谱的性质,而且计算效率高,在应用上灵活方便[7]。
本文针对移动通信环境下语音通信在认证过程中的鲁棒性和实时性问题,以认证数据量小,效率高为研究目的,提出了一种基于线性预测分析的语音认证算法,算法具有对于内容保持操作的鲁棒性和恶意攻击的敏感性。
1.1 线性预测分析
线性预测分析是目前分析语音信号最有效的方法之一,线性预测分析在语音中应用的基本思想是将一个语音片段(帧)的值,用过去若干个(线性预测的阶数)的语音片段的加权线性组合来构成。在构成线性预测的过程中,加权系数可以称为预测器系数,通过对线性加权构成的语音片段与实际语音片段差值的逼近最小值,来确定一组加权系数的取值。
设s(n),n=1,2…,n是语音信号的采样序列,s(n)是语音信号在第n时刻的采样值,也就是要预测的当前采样值。p为线性预测器的阶数,是根据过去的p个采样值的加权和来预测当前取样值s(n)的,此时的预测器称为p阶预测器。
根据线性预测分析的原理可知,为了得到最小的预测误差,就要使得均方误差最小,根据式(2)可以得到误差e(n)的公式,因此,可以得到
正交方程等于0,因此,式(4)可得:
由式(6)和式(3)可以得到
通过线性预测分析,由N帧语音可以得到N组的LPC参数,每组LPC参数形成一个特征矢量,即线性预测特征参量。在线性预测编码中,为了提高LPC系数的鲁棒性,引出了许多与LPC系数等价的表示方法,可以由LPC特征参数进一步得到很多派生参数。
1.2 非负矩阵分解
NMF算法具有求解收敛速度快,分解后非负矩阵存储空间小的特点。
以K-L散度(Kullback-LeiblerDivergence,KLD)来表示两个矩阵的收敛距离。
对于任意W,H,都必须满足W>0,H>0,(VWH)2→0。
对于任意W,H,都必须满足W>0,H>0,D(V‖WH)→0,根据上述规则不停迭代,直到评价函数局部最小。
线性预测产生的预测系数为
其中,n为语音信号的总帧数,p为线性预测器的阶数。对矩阵进行非负矩阵分解,得到系数矩阵W。
计算新矩阵W每列的元素之和:
对形成的系数和的行矩阵进行量化,形成语音特征值,
3.1 实验环境:
在实验中,使用的是格式为wav的语音片段,所采用的语音参数为采样率为16 000 Hz,比特率为256 kb/s,声道数为单声道,采样精度为16 bit,帧长20 ms,帧移10 ms。
3.2 区分性分析
对语音产生的特征值进行对比,所得的比特误码率的正态分布如图1所示。
不同内容的语音的特征值的比特误码率基本服从正态分布,其概率分布参数为均值μ=0.417 2,标准差σ=0.016 7,得到算法的误识率。
当阈值为0.35时算法的误识率达到10-6,能够满足语音认证的需要。
3.3 鲁棒性分析
对语音库中的语音进行内容保持操作。根据上述攻击得到BER,绘制FRR,FAR曲线,如图2所示,从内容相同的语音中提取的特征值,BER都在阈值0.35以下,实验结果表明,本算法具有较高的鲁棒性。并且,图中FRR-FAR曲线在图中没有交叉,说明本算法同时具有良好的区分性和鲁棒性,可以准确地识别内容保持操作和内容恶意操作。根据表2可知,当阈值=0.35时,FAR=2.889 5e-006。
对比以上几种攻击的认证通过率在判决阈值在0.35时,能够满足认证的需要。本文提出的算法针对内容保持操作攻击具有较强的鲁棒性,尤其是回升和低通滤波的鲁棒性有了比较大的提高。但重采样鲁棒性相比LPC算法较差,但在判决阈值=0.35时,还是能够很好地区分语音是否能够通过认证。经过攻击的语音认证通过阈值主要分布在0.25~0.35之间。因此,本文优化后的算法对内容保持操作具有较好的鲁棒性。
本文提出了线性预测编码与非负矩阵分解相结合的语音认证算法。通过实现分析可以看出,本文提出的算法能够有效地检测出相同语音和不同语音,具有很好的区分性;在语音鲁棒性方面,在确定阈值后,经过检测的语音能够准确地匹配出受到内容保持操作的语音片段。实验证明本文所提出的算法能够得到区分性和鲁棒性较好的折中,并且算法简单,运算效率高,数据率低,可以很好地完成语音认证。
[1]吴婧.基于感知哈希技术的音频检索方案研究[D].哈尔滨:哈尔滨工业大学,2008.
[2]古今.语音感知认证的关键技术研究[D].合肥:中国科学技术大学,2009.
[3]焦玉华.音频感知哈希算法研究[D].哈尔滨:哈尔滨工业大学,2010.
[4]牛夏牧,焦玉华.感知哈希综述[J].电子学报,2008,36(7):1405-1411.
[5]Jiao Y H,Ji L P,Niu X M.Perceptual Speech Hashing and Performance Evaluation[J],International Journal of Innovative Computing,Information and Control,2010,6(3(B)): 1447-1458.
[6]古今,郭立,梁惠,等.一种高效鲁棒的语音感知认证算法[J].小型微型计算机系统,2010,4(7):1461-1466.
[7]Xue X Y,Li W,Yin Y.Towards Content-based Audio Fragment Authentication[C]//MM'11 Proceedings of the 19th ACM international Conference on Multimedia 2011,28: 1249-1252.
A Speech Authentication Algorithm Based on Linear Prediction Analysis
XIA Xi-quan1,WANG Ping2
(1.Institute of Applied Electronics,Chongqing College of Electronic Engineering,Chongqing 401331,China;2.State Key Laboratory of Power Transmission Equipment&System Security and New Technology,Chongqing University,Chongqing 400044,China)
According to the situation that traditional speech authentication algorithms does not appropriated for present speech communication,a speech authentication algorithm based on linear prediction analysis is proposed,it can satisfy the requirement of the efficiency and the robustness for speech authentication.Firstly,the LPC coefficients are optimized based on the principle of linear prediction analysis for speech signal,and make Non-negative Matrix Factorization(NMF)toward the coefficients.Finally,the formed getting Characteristics sequences is quantified.Experiments show that the proposed algorithm has good robustness for content preserving operations,and it doesn't reduce the efficiency while meeting the robustness,it can satisfy the real-time requirement of speech communication.
speech authentication,robustness,LPC,NMF
TN911.72
A
1002-0640(2015)10-0072-03
2014-09-15
2014-10-20
重庆市科学技术研究基金资助项目(KJ132206)
夏西泉(1969- ),男,重庆潼南人,副教授。研究方向:电子技术,通信系统与信息处理。