基于特征级潜在信息的多生物特征识别方法

2019-04-08 03:25:16孙亚娣张洋洋
实验室研究与探索 2019年1期
关键词:聚合度分级模态

张 擎, 孙亚娣, 张洋洋

(山东大学 a .计算机科学与技术学院;b.艺术学院,济南 250100 )

0 引 言

随着信息技术的发展,层出不穷的网络诈骗、电信诈骗给社会和人民财产安全带来巨大威胁,信息安全、网络安全等问题成为社会关注的焦点。在教育界,实验室资源的安全管理关系到实验教学和科学研究能否顺利进行,国家财产能否免受损失,实验室使用人员的人身安全能否得到保障,对高校、研究机构乃至整个社会的安全和稳定至关重要。随着实验室开放力度的加大以及实验资源的多样化,实验资源安全管理也面临前所未有的巨大挑战。生物特征识别技术在网络安全、实验教学资源安全管理等诸多领域得到广泛应用,发挥着越来越重要的作用。生物特征识别是利用一种或多种人类的生理特征(如指纹、人脸、虹膜、静脉等)或行为特征(如步态、签名等)进行身份识别的技术[1]。虽然目前国内外研究机构针对单一生物特征识别已取得了较多研究成果,但同时通过研究发现,仅使用单一生物特征进行识别,性能总有一定的限制,难以很好地满足广泛的应用需求[2]。例如,指纹识别中,指纹图像存在低质量、大形变、小重叠面积等问题,严重影响识别准确性。由于多种生物特征之间存在较好的独立性和互补性,结合多种生物特征的多模态生物特征识别系统具有更高的识别准确性和可靠性,成为生物特征识别领域的一个重要发展方向[3]。

如何设计有效的集成方法集成多种生物特征实现识别,是多模态生物特征识别领域研究的重点问题和核心内容。从所集成的信息来看,集成方法主要可以分为:①特征级集成,通过将多种生物特征样本中提取的特征合并为一个新的特征实现集成[4]。②得分级集成,将多种生物特征中得到的匹配得分进行集成[5-12]。③决策级集成,根据各生物特征的识别结果做出最终决策[13]。以往研究指出,由于各生物特征样本中提取的特征存在较大差异,将多个特征集成为新特征的做法往往比较困难甚至无法实现,而决策级集成往往无法充分利用各生物特征中的细节信息,信息丢失严重。因此,作为一个折中的手段,得分级集成受到了更多的关注,是目前的主流和核心集成方法。

得分级集成处理的主要对象是样本间的匹配得分,该方法又主要分为:①基于转换的得分级集成方法,将各生物特征的匹配得分转换到一个统一的取值范围,并采用简单的数学方法(加、乘、求最大、求最小等)将各得分集成为最终得分[5-7]。各生物特征的匹配得分之间的权重分配问题是这类方法的研究重点。②基于分类器的得分级集成方法,将所有生物特征的匹配得分组成一个得分向量,以得分向量为训练数据,训练合适的分类器来分类同源和异源匹配得分,实现识别。常用到的分类器有SVM (Support Vector Machine) 及其变形[8],ELM (Extreme Learning Machine)[9], Bayesian分类器[10]等。③基于密度分布的得分级集成方法,通过估计各生物特征的同源得分和异源得分的分布情况分辨同源和异源得分[11-12]。基于似然比(Likelihood Ratio,LR)的集成方法是此类方法的基础性工作[11]。

特征级集成、得分级集成和决策级集成三级集成中可利用的信息逐级递减是目前研究中的共识性问题。各生物特征样本中,例如一幅人脸图像中,提取的特征向量通常被称为样本特征。样本特征是特征级集成中利用的主要信息,因此,也可以被称为特征级信息。由于样本特征直接反映各生物特征的特性,特征级信息最为丰富。匹配得分只保留了样本特征之间的相似度信息,因此,得分级集成中利用的信息远少于特征级集成,存在信息利用上的局限性。

虽然样本特征本身难以实现集成,也难以被得分级集成模型利用,但特征级中还潜在一些可以被挖掘和利用的丰富信息。如各用户样本的分布、样本间的结构关系、模态间的相关关系等信息,称这些通过样本特征获取的样本分布、样本间结构关系等深层次信息为“特征级潜在信息”。特征级潜在信息可以为集成模型的设计提供更多依据,是具有指导性的有用信息。例如,某一模态(生物特征)中各用户的样本分布信息可以一定程度上反映此模态在区分各用户时的区分性,以此为依据设置该模态在集成中的权重将比只依据匹配得分设置权重更加合理。

然而,目前得分级集成模型只针对匹配得分进行处理,特征级潜在信息一直被忽略,尚未得到有效利用。本文打破传统方法在信息利用上的局限性,提出利用特征级潜在信息进行集成模型设计的新思路。在此基础上,提出一种基于特征级潜在信息的集成方法,通过有效挖掘特征级潜在信息,并设计有效的信息表示方法和集成模型实现集成,达到提高系统识别准确率的目的。

1 特征级潜在信息

相对于匹配得分,特征级潜在更多对集成模型的设计有指导意义的有用信息。其中,各模态(各生物特征)中样本的类间离散度和类内聚合度等样本分布信息以及各模态之间的相关度信息是常用到的统计信息,且是能反映各模态识别性能以及各模态之间关系的信息。挖掘和利用特征级潜在的此类统计信息,应该可以进一步优化集成模型,提高集成性能。

假设识别系统有M个模态(用户利用M个生物特征进行识别),系统中注册了N个用户,挖掘的特征级潜在信息及算法如下。

1.1 样本类间离散度

样本的类间离散度反映不同用户样本在分布上的差异。某模态上,不同用户的样本分布差异越大,说明该模态在区分用户方面更有优势。因此,这一指标可以在一定程度上反映各模态的识别性能,从而指导模态权重的设置。具体地,针对每一个模态,可以计算用户样本特征向量的均值向量,并求取两两类别均值向量之间的距离,用距离平均值衡量类间离散度。用di表示第i(i=1,2,…,M) 个模态中各用户样本之间的离散度,

(1)

1.2 样本类内聚合度

样本的类内聚合度反映同一用户样本在分布上的相似性。某模态上,同一用户的样本分布一致性越高,表明该模态在区分用户方面更有优势。这一指标同样可以在一定程度上反映各模态的识别性能。具体地,针对每一个模态,计算各类别样本特征向量标准差的倒数并求平均,用来衡量类内聚合度。用σi表示第i(i=1,2,…,M) 个模态中,各类别的类内聚合度,

(2)

式中:δiu是第i个模态中,第u个用户特征向量的标准差(i=1,2,…,M,u=1,2, …,N)。

1.3 模态间相关度

模态间相关度反映系统中各个模态(如指纹、人脸等)之间的相关关系。这一指标可以指示所有模态共同作用时各模态相互之间的关联和互补性等信息,对集成模型的设计有重要的指导意义。具体地,可以依据Pearson关联系数准则[14],利用各模态中的样本特征计算模态间的相关度。假设分属两个模态的特征集合分别为X=(x1,x2,…,xn)T和Y=(y1,y2,…,yn)T。其中xi,yi(i=1,2,…,n)分别是两个模态样本中提取的特征向量,n为特征向量的数量。相关系数ρ通过下式计算:

(3)

2 集成方法

得分级集成模型一般针对匹配得分设计,要将挖掘得到的特征级潜在信息成功利用于得分级集成,需要研究并提出合适的集成模型。一般而言,在3类得分级集成方法中,基于分类器的集成模型和基于密度分布的集成模型利用匹配得分的方式比较固定,要将挖掘的特征级潜在信息融合利用到此两类模型中去比较困难。因此,本文研究一种基于转换的得分级集成模型。

基于转换的得分级集成模型,

(4)

式中:si是第i(i=1,2,…,M)个模态的待识别样本和模板样本的匹配得分(例如待识别指纹和库中注册的模板指纹的匹配得分);sf是待识别样本与模板样本的最终匹配得分,用来确定识别结果;wi是集成中第i(i=1,2,…,M) 个模态的权重,所有权重加和为1。识别时依据最终得分sf给出识别结果。一般来说,设置阈值θ,若sf>θ则判断待识别样本与模板库中样本属于同一用户,识别成功;相反,则认为识别失败。

以上模型中,设定集成权重w=(w1,w2,…,wM)T是研究的主要问题。文献[5]中提出利用各模态之间的相关性确定各模态的权重。此方法有较完善的理论基础,并获得了较好的识别性能。根据文献[5]中的分析,等错误率EER与指标F-Ratio有关,因此,通过对联合F-Ratio(Combined F-Ratio)指标C-FR(Combined F-Ratio)进行优化确定集成权重,可以有效降低系统EER(Equal Error Rate),提高系统识别性能。C-FR可以看作集成权重向量w的函数,通过下式计算:

(5)

式中:d=(d1,d2,…,dM)T,di是衡量第i(i=1,2,…,M) 个模态中,各类别之间的离散度的度量值;

Σ=ΛRΛ

(6)

Λ=diag(σ1,σ2,…,σM),σi是衡量第i个模态中,各类别的类内聚合度的度量值。R=(ρij)M×M,ρij是第i个模态和第j个模态之间的相关系数。获得最优集成权重w*的公式如下:

(7)

联合F-Ratio模型中所需的参数恰是要挖掘并利用的特征级潜在的统计信息。因此,可以采用如图1中所示的技术方案,挖掘特征级潜在的这3类统计信息,并将其用式(7)中要求的格式(d,Λ,R3组参数形式)进行表示,利用于联合F-Ratio模型,实现集成。

图1 基于特征级潜在信息的集成技术方案

这里需说明的是,文献[5]中所提方法通过匹配得分计算联合F-Ratio,完全没有利用到特征级信息。本文挖掘对集成有指导意义的特征级潜在信息,并借助联合F-Ratio模型将信息利用于集成,与文献[5]中方法的思路完全不同。经验证,本文所提方法识别准确率较文献[5]中方法有明显优势。

3 实验与分析

3.1 实验设计

实验主要验证本文研究思路的合理性和所提方法的有效性。首先,通过比较所挖掘信息与模态识别能力的一致性验证所挖掘信息的合理性。其次,将本文所提方法的识别准确率与几个主流的得分级集成方法进行对比,一方面验证本文研究思路的合理性;另一方面验证本文方法的有效性。基于转换的集成方法中,由于本文方法与文献[5]中方法最为相关,因此,将本文方法与文献[5]中所提方法进行对比,本文中称此方法为基于转换的方法I。此外,为进一步验证本文方法的有效性,分别将本文方法与文献 [7]中基于转换的方法、文献[8-9]中基于分类器的方法以及文献[10-11]中基于密度分布的方法进行对比。本文分别称这些对比方法为基于转换的方法II,基于分类器的方法I、II以及基于密度分布的方法I、II。

本文基于集成指纹、人脸和步态3种生物特征的识别系统对集成方法进行验证。理论上指纹、人脸和步态识别可采用现有任意算法。实验中,步态识别采用基于最外层轮廓的步态识别方法[15],人脸识别采用结合主成分分析和线性判别分析(PCA+LDA)的识别方法[16],指纹识别采用基于细节点的识别方法[17]。

3.2 实验数据

为满足实验需求,采集包括步态、人脸和指纹3种生物特征的同源多模态生物特征数据库。库中包含了25个用户的数据,其中采集每个用户的80个步态序列,60张人脸图像(分为3个角度,正面、左侧15°和右侧15°,每个角度各20幅图像)及400幅指纹图像(每个手指各采集80幅图像)。图2中显示了本实验所采用的指纹、人脸及步态样本的样例。实验中将数据库分为两个部分:①随机抽取每个用户每个特征的3个样本作为初始模板; ②随机抽取每个用户每个特征的30个样本作为测试样本。根据本文所提方法,首先利用模板样本获取特征级潜在信息,即样本的类间离散度、类内聚合度,以及模态间相关关系,利用联合F-Ratio模型实现集成。然后将测试样本作为待识别样本参与系统识别,得到等错误率等指标。

3.3 实验结果和分析

表1中给出各模态的类内聚合度及类间离散度的指标,以及各模态的识别等错误率EER。可以看到,模态的类间离散度越高,等错误率越低;同样,类内聚合度越高,等错误率越低。可见,类间离散度和类内聚合度这两个统计度量值可以在一定程度上反映某模态的识别性能,挖掘此类信息并利用于集成是合理的。

图2 实验用指纹、人脸及步态样本样例

表1 样本类内聚合度、类间离散度与模态性能之间的关系

图3给出各对比方法的EER度量值。可见,基于转换的方法、分类器的方法及密度的方法在识别准确度上各有差异,并没有哪类方法有明显优势。文献[5]中采用联合F-Ratio模型进行权重选择,在识别准确率上优于其他对比方法,本文所提方法进一步挖掘并利用了特征级潜在信息,识别性能优于文献[5]中所提方法。这说明本文利用特征级潜在信息这一思路的合理性。利用这一思路,本文方法弥补了得分级集成方法信息利用上的局限性,提高了集成性能。该结果也在从另一个侧面证明了本文所挖掘的特征级潜在信息确是对集成算法有指导意义的有用信息。

图3 各对比方法的识别等错误率EER

图4中给出各对比方法的ROC(Receiver Operating Characteristic)曲线。ROC曲线越靠近左上角,识别的准确性就越高。相对于EER等评价指标,ROC曲线可以更加直观和全面地反映分类器的识别性能。从实验结果看出,本文所提方法的ROC曲线优于各对比方法,进一步验证了本文方法在识别性能方面的优势。

图4 各对比方法的ROC曲线图

4 结 语

多模态生物特征识别技术较单一生物特征识别在识别准确率和可靠性等方面具有优势,在网络信息安全、实验室资源安全管理等诸多安全领域有着广泛的应用。如何设计有效的集成方法是多模态生物特征识别领域研究的重点问题和核心内容。针对主流集成方法信息利用不充分的问题,本文提出挖掘和利用特征级潜在信息实现集成,进一步提高多模态生物特征识别的识别准确性。本文的主要贡献有:①就作者所知,尚未有研究提出挖掘和利用特征级潜在信息实现得分级集成的思路,这是本文首创性工作。②提出挖掘和利用样本类内聚合度、类间离散度、模态间相关度等统计信息,并将其利用于联合F-Ratio集成模型,实现集成。③实验结果初步证明,所提集成方法在识别准确度方面较现有方法有明显优势。

猜你喜欢
聚合度分级模态
膜分离工艺提高产品中高聚合度ε-聚赖氨酸含量
分级诊疗路难行?
分级诊疗的“分”与“整”
中国卫生(2016年5期)2016-11-12 13:25:50
聚醋酸乙烯聚合度的在线监测
安徽化工(2016年5期)2016-02-27 08:25:04
国内多模态教学研究回顾与展望
分级诊疗的强、引、合
中国卫生(2015年10期)2015-11-10 03:14:22
“水到渠成”的分级诊疗
中国卫生(2015年6期)2015-11-08 12:02:44
基于HHT和Prony算法的电力系统低频振荡模态识别
聚合度7-15的壳寡糖抑制脂多糖刺激的单核细胞产生TNF-α和IL-8的作用研究
由单个模态构造对称简支梁的抗弯刚度
计算物理(2014年2期)2014-03-11 17:01:39