改进证据理论的多生物特征融合方法

2013-07-20 07:56温苗利张洪才
计算机工程与应用 2013年18期
关键词:识别率分类器证据

温苗利,张洪才

1.西安科技大学 电气与控制工程学院,西安 710054

2.西北工业大学 自动化学院,西安 710072

改进证据理论的多生物特征融合方法

温苗利1,张洪才2

1.西安科技大学 电气与控制工程学院,西安 710054

2.西北工业大学 自动化学院,西安 710072

1 引言

通过多生物特征识别融合来提高识别的正确率是目前生物特征识别研究的热点之一。Nandakumar等使用有限混合高斯模型(Gaussian Mixture Model,GMM)求取匹配分数进行多生物特征识别融合,获得了较好的效果[1]。刘红毅等提出了将匹配分数先降维,然后进行分类的改进ENN多生物特征融合算法[2]。Wang等研究了基于支持向量机的多生物牲识别融合问题[3]。证据理论是Dempster于1967年提出的,是一种不确定的数值推理方法。它最大的特点是对不确定信息的描述采用“区间估计”,而不是“点估计”的方法,用信任区间代替概率,用集合表示命题,在区分不知道与不确定方面以及精确反映证据收集方面显示出很大的灵活性,因而D-S证据理论已被成功地应用于多生物特征识别[4-8]。在证据理论方法中,基本概率指派函数(Basic Probability Assignment,BPA)起决定性的作用[9-10]。如何构成BPA是实现证据理论融合方法的关键。目前的构成BPA方法主要有:根据各分类器的识别率和误识率来计算BPA[11];Rogova根据各分类器的相对分类能力计算其BPA[12];而Ng等人则通过估计样本的后验概率来形成分类器的BPA[10];根据分类器输出的不确定性度量形成BPA,从而可以有效地拒绝不确定性较高的样本[9]。

2 基于识别率和误识率的BPA构造

在多生物特征识别中,各识别专家对输入模式的信任程度应当考虑到它对各个模式类的识别能力,所以可利用识别专家的性能指标来表征其不确定性,则基于识别率和误识率的BPA构造方法[11]可描述如下:

设多生物特征识别的模式空间由N个不相交的用户构成,An表示第n个用户类别n=1,2,…,N,AN+1表示不属于模板库中的类别,则证据理论的辨识框架P=A1∪A2∪…∪AN+1。设识别专家的集合为E={e1,e2,…,eK},识别专家ek的输出标号uk=jk∈{1,2,…,N+1}。通过每个识别专家ek的混淆矩阵(Confusion Matrix)PTk来表示它们的识别情况,该矩阵通过对训练样本进行统计获得。PTk是N×(N+1)的矩阵,表示为:

其中,第i行表示第i用户类的样本,第j列表示标记为uk=j的判断,表示第i类的样本有个样本被识别专家ek标识为j。

由混淆矩阵可得识别专家ek的训练样本总数为:

则识别专家ek的识别率为:

识别专家ek的拒识率为:

识别专家ek的误识率分别为:

识别专家ek的可靠性为:

用证据理论解决上述多生物特征识别问题时,把各个用户类及所有这些用户类的集合作为辨识框架,表示为:Θ={A1,A2,…,AN},则每个识别专家的输出就是一个证据,根据识别专家ek的性能指标,则证据的BPA定义为:

3 存在的问题及解决方法

对于多生物特征识别问题,识别专家输出的匹配值有以下特点:匹配值越大,则输入模式为真实用户类的可能性越大;匹配值越小,则输入模式为伪用户的可能性能越大。基于识别率和误识率的BPA构造方法是在统计训练集的伪用户匹配值和真实用户匹配值分布的基础上进行的。

如果识别专家的匹配值满足高斯分布,伪用户的均值为2,真实用户的均值为7,则匹配值的伪用户和真实用户匹配值的分布如图1所示。图1为匹配值频率分布图,虚线为伪用户的分布曲线,实线为真实用户的分布曲线。在图1中,当匹配值在2~7之间时,由伪用户和真实用户匹配值频率分布估计得到的识别率和误识率很好地体现以上特点,但在匹配值小于2时,匹配值变小,伪用户的正确拒绝率明显降低,而真实用户的正确接受率却增加得不明显,导致识别率明显降低,此时伪用户的FAR误差明显增高,而真实用户的FRR误差却降低得不明显,导致误识率明显增大,由式(3)~(7)可知,此情况下使用识别率和误识率构造BPA函数存在一定问题,它不能体现出匹配值越小为伪用户的可能性越大这一特点。同样,在匹配值大于7时,使用识别率和误识率构造的BPA函数也不能体现出匹配值越大则输入模式为真实用户的可能性越大这一特点。

图1 匹配值频率分布

累积频率是从另一角度反映了一组数据的频率分布情况,它与频率分布起着相互补充的作用,图1相应的累积频率分布如图2所示。图中虚线为伪用户匹配值的“不低于”累积频率曲线,实线为真实用户匹配值的“低于”累积频率分布曲线。由图2可以看出,累积频率能很好地体现匹配值越小为伪用户的可能性越大,匹配值越大为真实用户的可能性越大。本文根据这一特征进行研究,提出CFDS的多生物特征识别方法。

图2 匹配值累积频率分布

对于多生物特征识别的模式空间由两个不相交的子集构成,Si表示第i个类别,i=1时表示伪用户类,i=2时表示真实用户类。设识别专家的集合为E={e1,e2,…,eK},识别专家ek,k=1,2,…,K,输出标号uk=jk∈{1,2},其中K表示识别专家总数。

通过对第k个识别专家ek的累积混淆矩阵(Cumulative Confusion Matrix)CCMk来表示它们的累积识别情况,该矩阵通过对训练样本进行统计获得。CCMk是2×2的矩阵,表示为:

其中,为伪用户被正确判断为伪用户类的“不低于”累积频数,为伪用户被错误地判断为真实用户类的“不低于”累积频数,为真实用户被错误地判断为伪用户类的“低于”累积频数为真实用户被正确地判断为真实用户类的“低于”累积频数。

设各识别专家ek训练样本的总数为Μk,则识别专家ek的累积识别率为:

识别专家ek的累积误识率为:

则识别专家ek的可靠性可定义为:

使用累积识别率和累积误识率来解决多生物特征识别问题时,把各用户类的集合作为辨识框架,表示为:Θ={A1,A2,…,AN},其中N表示用户类数。根据各识别专家的可靠性如式(11)所示,构造基本概率指派函数表示为:

4 实验结果

XM2VTS数据库[12-13]包含了295人在4个不同时间段的图像和声音录像。每次,每个人被记录了2段声音录像和2段头部旋转录像。声音录像包括了人脸正面和声音信号。

XM2VTS数据库分为三个数据库集:训练集(Train)、估计集(Evaluation)、测试集(Test)。训练集用于建立真实用户的识别模型,估计集用于估计分类器参数和决策阈值,而测试集用于测试性能。295个用户分成200个真实用户,25个估计伪用户和70个测试伪用户。其中存有两种不同的分割训练集、估计集和测试集方法,称为协议1(Lausanne Protocol 1,LP1)和协议2(Lausanne Protocol 2,LP2)。

声音识别采用MFCC(The Phase Auto-Correlation Mel Filter-bank Cepstral Coefficient)特征[14],采用GMM分类器进行识别。实验中,MFCC特征由采样窗长度为20 ms,20个DCT(Discrete Cosine Transform)系数由MFCC的30个傅里叶系数解相关计算得到。本文中将每一种识别方法称之为一个识别专家,从而构成一个声音识别专家:(MFCC,GMM)。

人脸识别分别采用GH(Gray Feature and Red-Green-Blue Histogram)特征[15]和DCTD(Discrete Cosine Transform Feature&Delta Feature)特征[16]进行特征表征,分别采用MLP(Multi-Layer Perceptrons)分类器进行分类,最后,对DCTD特征采用GMM(Bayes Classifier using Gaussian Mixture Models)分类器进行人脸识别。实验中,根据规范化图像大小,DCTD特征可分为两类:(1)DCTDs特征:规范化人脸图像大小为40像素×32像素,得到35个特征向量;(2)DCTDb特征:规范化人脸图像大小为80像素×64像素,得到221个特征向量。共构成五个识别专家:(GH,MLP);(DCTDs,MLP);(DCTDb,MLP);(DCTDs,GMM);(DCTDb,GMM)。

在LP1测试集上有5组实验,在LP2测试集上有2组实验,表1分别对采用朴素Bayes[17]、mean[17]、FLD[18]和MLP[18]融合方法与本文中DS方法和CFDS方法的HTER误差进行比较。

表1 人脸识别专家和(LFCC,GMM)声音识别专家融合后的误差率 (%)

表1分别为各人脸识别专家与声音识别专家(LFCC,GMM)、(MFCC,GMM)和(SSC,GMM)融合后的HTER误差。表1中加重的HTER值,表示该融合方法的HTER误差最小,即该融合方法在此实验中取得的识别率最高。

由表1可知,在XM2VTS数据库上LP1和LP2的7组融合人脸和声音识别的实验中,有5组实验CFDS方法取得了最小HTER误差,1组实验是DS方法取得了最小的HTER误差,1组实验是mean方法取得了最小的HTER误差。DS方法在融合人脸和声音两种生物特征时,对于LP1和LP2测试集的平均HTER误差为0.686%,而此时CFDS方法平均HTER误差为0.335%,CFDS方法相对于DS方法使HTER误差降低了0.351%,因而CFDS方法在融合两种生物特征时的识别率高于DS方法的识别率。

5 结论

主要研究了基于证据理论的多生物特征融合识别方法。通过对利用各生物特征输出进行基本概率指派函数构造方法的分析,结合统计学中累积频率的原理,提出了一种基于累积频率和证据理论的多生物特征融合方法(CFDS)。该方法充分体现了各识别专家的匹配值越大,输入模式是真实用户的可能性越大,匹配值越小,输入模式是伪用户的可能性越大这一特点。在XM2VTS数据库上的实验结果表明,CFDS方法的HTER误差小于基于误识率和识别率的证据理论方法。

[1]Nandakumar K,Chen Y,Dass S C,et al.Likelihood ratio-based biometric score fusion[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(2).

[2]刘红毅,王蕴红,谭铁牛.基于改进ENN算法的多生物特征融合的身份验证[J].自动化学报,2004,30(1):78-85.

[3]Wang F,Han J.Multimodal biometric authentication based on score levelfusion using supportvectormachine[J]. Opto-Electronics Review,2009,17(1):59-64.

[4]Gao X J,Yao H X,Gao W,et al.Fusion of biometrics based on D-S theory[C]//Proceedingsof2nd IEEE Pacific-Rim Conference on Multimedia,2001:1120-1125.

[5]Jin A T B,Samad S A,Hussain A.Theoretic evidencek-nearest neighbourhood classifiers in a bimodal biometric verification system[C]//Proceedings of 4th International Conference on Audio-and Video-Based Biometric Person Authentication,2003:778-786.

[6]杨帆,浦昭邦,刘国栋.基于D-S证据理论的多指纹数据融合[J].仪器仪表学报增刊,2003,24(4):282-283.

[7]赵春娜.基于D-S证据理论的面像识别和指纹识别融合[D].沈阳:东北大学,2004.

[8]邱亚丹,敬忠良,陈雪荣,等.基于决策级的多源人脸融合识别[J].计算机工程与应用,2006,42(27):219-221.

[9]刘志言,童树鸿,王艳.基于证据理论的多分类器集成方法研究[J].电机与控制学报,2001,5(3):208-212.

[10]Ng G,Singh H.Data equalization with evidence combination for pattern recognition[J].Pattern Recognition Letters, 1998,19(3/4):227-235.

[11]孙怀江,胡钟山,杨静宇.基于证据理论的多分类器融合方法研究[J].计算机学报,2001,24(3):231-235.

[12]Messer K,Matas J,Kittler J,et al.XM2VTSDB:the extended M2VTS database[C]//Proceedings of the 2nd International Conference on Audio-and Video-based Person Authentication,1999:72-77.

[13]Norman P,Samy B.Database,protocols and tools for evaluating score-level fusion algorithms in biometric authentication[J].Pattern Recognition,2006,39:223-233.

[14]Ikbal S,Misra H,Bourlard H.Phase Auto-Correlation(PAC)derived robust speech features[C]//Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,2003:133-136.

[15]Marcel S,Bengio S.Improving face verification using skin color information[C]//Proceedings of 16th International Conference on Pattern Recognition,2002:278-281.

[16]Sanderson C,Paliwal K K.Fast features for face authentication under illumination direction changes[J].Patter Recognition Letters,2003,24(14):2409-2419.

[17]Verlinde P,DruytsP,CholletG,etal.Applying Bayes based classifier for decision fusion in a multi-modal identity verification system[C]//InternationalSymposium on Pattern Recognition in Memoriam Prof Pierre Devijiver,1999.

[18]Ross A,Jain A K.Information fusion in biometrics[J].Pattern Recognition Letters,2003,24(13):2115-2125.

WEN Miaoli1,ZHANG Hongcai2

1.College of Electrical and Control Engineering,Xi’an University of Science and Technology,Xi’an 710054,China
2.College of Automation,Northwestern Polytechnical University,Xi’an 710072,China

Multi-modal biometrics techniques have shown more accurately due to the presence of multiple physiological or behavioral characteristics.Multimodal biometrics has become one of inevitable trends in the future.In this paper,D-S fusion algorithm using the recognition rate and the error rate of training set,is proposed.Then through analyzing the recognition rate and error rate,it proposes a modified multi-biometric recognition algorithm based on cumulative frequency and D-S fusion method, named CFDS.The modified D-S algorithm is applied to fusing multi-biometric.Experimental results demonstrate that the modified D-S algorithm is efficient and can improve the reliability of the combination results.

cumulative frequency;modified D-S theory;multi-modal biometrics recognition

多生物特征融合考虑了个体的多种生理或行为特征,因而能显著地改善系统的识别性能,成为生物特征识别技术未来发展趋势之一。利用训练样本的识别率和误识率,提出了基于证据理论的多生物特征融合识别方法;对各识别专家的识别率和误识率进行分析,提出了一种基于累积频率和证据理论(Cumulative Frequency based D-S,CFDS)的多生物特征融合方法;通过几个实验证明了改进的D-S算法的有效性,提高了合成结果的可靠性。

累积频率;改进证据理论;多生物特征识别

A

TP391

10.3778/j.issn.1002-8331.1112-0186

WEN Miaoli,ZHANG Hongcai.Fusion of multi-modal biometrics based on modified D-S theory.Computer Engineering and Applications,2013,49(18):176-179.

温苗利(1978—),女,博士,讲师,主要研究领域为图像处理、模式识别、生物特征识别、信息融合等;张洪才(1939—),男,教授,博士生导师。E-mail:wenml78@163.com

2011-12-12

2012-02-13

1002-8331(2013)18-0176-04

CNKI出版日期:2012-05-21 http://www.cnki.net/kcms/detail/11.2127.TP.20120521.1142.067.html

book=179,ebook=184

猜你喜欢
识别率分类器证据
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
BP-GA光照分类器在车道线识别中的应用
对于家庭暴力应当如何搜集证据
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
高速公路机电日常维护中车牌识别率分析系统的应用
手上的证据
“大禹治水”有了新证据