太原理工大学 计算机科学与技术学院,太原 030024
太原理工大学 计算机科学与技术学院,太原 030024
随着多媒体技术的发展,计算机性能的不断提高和网络的广泛普及,使得多媒体视频的应用得到了极大的发展,越来越多的记录都采用视频方式保存。但当人们需要查找这些记录时,面对大量涌现的数据,如何快速有效地从这些海量数据中检索到感兴趣的视频信息,在高效率的现代社会中,已成为亟待解决的问题。传统的视频信息检索办法主要依靠人的记忆查找视频内容,并用文字描述出来。这种方式往往需要人直接参与查找所需的信息,主观性强、速度慢、错误率高。特别是当视频的数据量很大或任务紧迫时,采用这种传统的方法将会碰到一些难以克服的困难。为了解决这一问题,近几年出现了基于内容的视频分析和检索[1],并成为多媒体检索中研究的热点。
基于内容的视频检索突破了传统的基于文本检索的局限,直接对多媒体图像、音频、视频内容进行分析,主要是用媒体对象的语义、视觉、听觉和文本信息等特征,如图像的颜色、纹理、形状,视频中的场景、镜头的运动,声音中的音调、响度、音色等。由于基于内容检索的困难性和复杂性,大量的研究主要集中在视频结构分析上,如视频镜头分割、关键帧提取、视频语义标注等,对视频检索方面的研究相对较少,而这部分常常是应用的关键。
同时,与人脸识别相关的技术也得到了长远的发展,这使得基于内容的视频人脸检索[2]成为可能。基于内容的视频人脸检索作为基于内容检索的组成部分,有着巨大的商业前景和重要的学术价值。例如,当前,人脸识别在国家安全、金融、海关、民航、边境和教育等领域均有应用,但是针对人脸检索这种后台识别的应用却寥寥无几;采用基于内容的视频人脸检索技术,只需提供一张照片,就可以通过计算机自动检索待检测视频中是否出现过目标人脸,大大节省了时间,提高了工作效率。本文提出了一种通过人脸图像进行视频检索的方法,以满足用户对视频中人脸检索的需求。
近年来,与人脸相关的信息处理技术得到了长远的发展,特别是人脸识别技术。但相对于人脸识别,人脸检索的研究尚处于起步阶段,市场应用寥寥无几,关于视频中人脸检索的研究文献并不多见,主要有Everingham等提出采用人脸聚类的方法[3];Arandjelovic等[4],Sivic等[5]就正面人脸提出视频中人脸识别的方法。Everingham等[3]的方法只是简单地使用肤色模型对正面脸进行处理;Arandjelovic等[4]提出去除背景信息、姿态调整和支持向量机检测人脸。上述方法中都没有考虑到单样本人脸识别的问题,不可避免地造成人脸的漏检。单训练样本的人脸识别是人脸识别中一种特殊却非常实际的情况,即目标人脸只有一幅人脸图像作为训练的样本。由于受姿态、表情、光照的影响,单样本图像往往无法代表所属类别的所有特征,因此识别难度较大。本文采用奇异值分解方法解决单样本人脸识别问题,并改进PCA算法使其有效地降低视频条件下光照不均匀对人脸识别造成的影响,对若干视频片段的实验表明,本文方法在简单背景的视频环境下可以得到较准确的检索结果。
视频人脸检索系统实现的功能是,用户提供一张待检测的人脸图像及待检测的视频片段,经由系统分析处理后,就可以在指定的视频片段中检索是否存在目标人脸。视频是由连续的静态图像组成的,所以在视频中检索目标人脸可以看作是在静态图像库中做人脸检索,但不同的是,视频中的帧在时间上有连续性,那么同一个人在连续的多帧图像中都会出现,如果对每帧都进行人脸检测,必然会影响检测速度。为此系统需要有效地提取视频帧,减少冗余。本文在进行视频帧提取时采取了两种方法,一种是隔帧取样,另一种是关键帧提取,并在实验中的第一部分展示了两种方法对于视频人脸检索速度的影响。其中隔帧取样是对待检索视频每隔固定帧数提取一个视频帧;关键帧提取采用的是滑动窗口算法[6-7]实现的。
图1所示为整个视频人脸检索系统的框架图,包括人脸检测和人脸检索两个部分:
(1)人脸检测部分采用级联自举方法(Cascade AdaBoost)[8],该方法是一个广泛使用的人脸检测方法,与其他算法相比,该算法在达到较高查全率时,检测速度也有了实质性的提高。
(2)人脸检索部分需要对检测出的人脸进行预处理、特征提取及识别工作。靠传统的PCA识别算法并不能很好地解决单样本人脸检索问题,并且传统的PCA算法受光照条件变化等因素的影响较大,识别效果不是很好。本文在前人的研究基础上针对光照问题,提出了一种改进的PCA算法,改进的PCA算法是在传统的PCA算法中融合了局部均值和标准差的图像增强处理算法,提高了识别时对人脸光照变化的鲁棒性,并将其与奇异值分解相结合应用于视频人脸检索系统的设计中,实现了单样本视频人脸检索。
图1 视频人脸检索系统框架图
人脸检测方法主要分为两种类型:一类是基于局部特征的人脸检测方法,文献[9]利用肤色像素的连通性进行区域分割,采用椭圆拟合区域,然后根据椭圆的长短轴的比例判断是否为人脸。文献[10]根据色度的一致性和空间距离将肤色像素聚类成区域,接着归并直到得到符合一定先验知识的椭圆区域为止,最后检查椭圆区域中是否存在由眼睛、嘴等形成的暗区域或空洞以确定是否为人脸。另一类是基于整体特征的人脸检索方法。该方法通过搜集大量的人脸和非人脸样本作为训练集,用人工神经网络、支持向量机、Boosting等方法训练分类器进行人脸检测。这些方法大都集中在静态图片上,对光照比较敏感、对姿态和表情有一定局限性[11]。
视频中人脸图像的背景和人物活动都很复杂,表情没有约束、分辨率低、正面人脸少。上述的人脸检测方法显得脆弱、不稳定。但是,如果只是希望对正面人脸或0°~30°的偏向人脸做出准确率较高的检测,对漏检率不做限制,那么现有很多检测算法都符合要求。本文采用Viola等提出的级联自举方法(Cascade AdaBoost)[8],Viola等将大量的人脸和非人脸样本作为训练集,通过采用AdaBoost算法对样本的Haar特征进行多轮训练,将每轮挑选出的有利于判别人脸的Haar特征组成强分类器,并将这些分类器以“瀑布式”的结构级联起来组成更强的人脸分类器。
本文采用OpenCV图像处理库里通过AdaBoost算法训练好的分类器,在OpenCV 1.0平台上实现了人脸检测部分。本文从人脸检测准确率和检测时间两方面设计了测试实验,实验结果如表1和表2。
表1 人脸检测结果
表2 人脸检测时间
通过以上实验证明了该算法在达到较高的人脸查全率的同时检测速度也较快,基本能够满足本文的视频人脸检索系统的应用需求。
本文的视频人脸检索系统需要用户提供一张包含人脸的图像,然后由用户选择待检索人脸,最后能够在待检索视频片段中检索是否存在目标人脸。这就涉及到单样本人脸识别问题。所谓单样本人脸识别,是指人脸识别算法是基于一个训练样本进行的。目前大多数人脸识别系统都是针对多个训练样本的,当有充分数量的具有代表性的训练样本时,能取得较好的识别效果,但是一些较为特殊的场合,如护照验证、身份验证等,只能得到一幅图像,当只用一幅图像去作为这些人脸识别系统的训练样本时,这些系统的识别率就会大打折扣,甚至是无效的。
目前单训练样本的人脸识别方法可以归纳为两类:一是从单样本图像构造出新的图像,形成多样本,方法包括Zhao、Wen和Luo基于表情重建的独立元素分析法[12],Zhao、Su等提出的光照模拟方法[13]等;二是直接对单样本图像进行预处理,使得对识别有利的特征更为突出和易于提取,同时抑制次要信息和不利的信息,由于主分量分析(PCA)推广性能比较好,目前出现了不少在它基础上进行改进的单训练样本的人脸识别方法。
4.1 奇异值分解
针对单样本人脸识别问题,样本扩张法是使用最广的方法之一,由此,本文通过奇异值分解来进行样本扩张。奇异值是图像的一种代数特征,代数特征表征了图像的基本特性并且在一定范围内具有稳定性。奇异值分解最早是由Lu[14]提出的,并通过实验证实了其有效性,同时指出其具有稳定性,比例不变性和旋转不变性,对于图像上较小的扰动,奇异值变化不大。他们认为图像本身的灰度分布描述了图像的内在信息,反映了图像的本质属性。主要思路是将人脸图像视为一个矩阵,通过对该矩阵进行奇异值分解得到奇异值特征。其原理为:假设I是一幅大小为N1×N2的灰度图像,I的奇异值分解定义为:I=U∧VT,通过扰动I的奇异值产生的衍生人脸图像P定义为:
其中,n为取值在1到2之间的实数,r为矩阵 I的秩,σ(σ0≥σ1≥…≥σr-1)是I的奇异值。得到衍生图像后,将其和原图像线性组合得到新的人脸图像样本。组合公式如下:
其中α为取值在0到1之间的结合系数。
由公式(1)可以看出奇异值分解是通过拉伸图像的奇异值的对比度来实现的。图像的奇异值分解在于增强图像的大体信息,抑制一些无关紧要的冗余信息,这样得出的新样本对人脸识别有利的信息得到了增强,不利于识别的信息得到了减弱。
4.2 改进的PCA算法
作为一种经典的、使用最广泛的人脸识别方法,PCA[15]的提出在人脸识别研究领域获得了巨大的成功,但传统的PCA方法提取的是全局特征,因此受光照条件变化等因素的影响较大,使得在视频中人脸的识别效果不是很好。为了克服光照对特征值的影响,在传统PCA算法中融合了基于局部均值和标准差的图像增强处理,使之对照明条件不敏感,即在进行特征提取之前,改进的PCA算法可以有效地降低光照不均匀对人脸识别所造成的影响,因为光照变化只会影响图像的某些部分而不会影响全部图像,从而拓展了PCA算法的应用条件。下面详细说明融合了基于局部均值和标准差的图像增强处理方法的改进PCA算法。
假设有一幅图像,其灰度级在[0,L-1]之间,r表示该图像灰度级上的离散随机变量,p(ri)为灰度级是ri的出现概率,则整幅图像的全局均值Eg即可表示为:
其中,i的取值范围是 0≤i≤L-1。
由于一幅图像的亮度可用图像的均值度量,其对比度可用方差来度量,因此,通过对比全局均值Eg和局部均值Es,全局对比度和局部对比度,可以增强待处理图像中较暗且对比度相对较低的区域,并且对图像中已经比较亮的区域不会造成影响。
假设待处理图像中以点Q(i,j)为中心的 M×M 邻域为S(i,j),则这块邻域的均值,即局部均值可表示为:
公式中的x(i,j)是待处理图像的灰度。
基于局部均值和标准差的图像增强处理的具体步骤如下:
(1)确定图像中较暗的区域。如果 Es<k0Eg,k0是小于1的正常数,则表明该区域为该图像中的较暗区域,需要进一步增强。
(2)确定图像中对比度较低的区域。如果图像中某区域的对比度过低,那么可认定该区域不含细节,不需要对其进行增强。因此,可假设图像中待增强的低对比度区域是:k1σg<σs<k2σg,k1<k2且 k1,k2均为小于1的正常数。
(3)对确定的区域进行灰度放大与对比度拉伸处理。通过之前的比较,可以得出输出图像点(i,j)的灰度值为[17]:
公式中,k0,k1,k2均为小于1的正常数,Es,σs为局部均值与标准差,Eg,σg为全局均值与标准差,λ为灰度放大系数,β,γ为对比度拉伸系数。该算法是通过局部均值与标准差来确定图像中需要增强的区域(即低灰度和低对比度的区域),而且不会影响图像中不需要增强的区域。
在PCA算法中结合基于局部均值和标准差的图像增强处理,可以很好地突出人脸图像中比较重要的部位(如眼睛、鼻子、嘴巴等),在人脸特征提取的过程中可以提取到更具鉴别性的人脸特征,提高人脸识别率,而且在很大程度上消除光照因素对人脸识别效果的影响,这正是视频人脸检索中需要解决的一个问题。
4.3 算法的具体实现步骤
本文的视频人脸检索算法具体实现步骤如下:
(1)样本扩张。通过奇异值分解将用户提供的单训练样本产生一个新的训练样本,然后和原样本一起作为训练样本集。
(2)提取训练样本的特征向量。对样本集求该人脸图像的协方差矩阵和投影矩阵,并求其投影向量。
(3)图像增强处理。对每一幅待检索的人脸图像和检测出包含人脸的视频帧,将其按4.2节描述的算法进行图像增强处理。
(4)归属判别。本文采用最近邻距离分类器,采用欧式距离作为判别参数,计算测试样本与训练样本(待检索人脸)的距离。
本文的视频人脸检索方法整个流程图如图2所示。
图2 视频人脸检索流程图
由公式(7)可知,λx(i,j)是灰度放大部分,在实验时,对公式(7)中的参数取值:k0=0.4,k1=0.01,k2=0.4,λ=3,β=1,γ=0.6。测试环境为CPU:Intel P8700 2.53 GHz,内存:2 GB,操作系统:Windows Server 2003。该系要求图像的格式为BMP或JPG,视频为AVI格式。本文根据视频的复杂程度选取了三个视频片段对文中提出的方法进行人脸检索测试,这三个视频片段代表了三类测试集:
(1)简单背景无压缩的AVI视频片段,人脸数目少于3个,测试集名称为video1。采用的视频片段是无压缩的新闻联播片段。
(2)简单背景XVID编码的AVI视频片段,人脸数目少于3个,测试集名称为video2。采用的视频片段内容和video1测试集一样是同一个新闻联播的片段,但该视频片段是经过压缩处理的。
(3)复杂背景XVID编码的AVI视频片段,人脸数目多于10个,测试集名称为video3。采用的视频片段是经典美剧《老友记》中的片段。
三类测试集描述如表3所示。
基于本文提出的方法,设计了一个视频人脸检索系统,界面如图3所示。左上是选择的待检测图像,左下是检索的视频片段,右下是检索出的视频帧。
实验1检索时间
表3 测试集描述
该部分实验目的有两个:一是测试影响检索时间的因素;二是测试隔帧取样和关键帧提取这两种视频帧提取方法哪个更有利于在实际中的应用,即哪个对于人脸检索的时间更短。实验中,对视频每隔25帧提取一个视频帧。该部分实验选用vidoe1,video2和video3作为测试集。人脸检索时间如表4所示。
图3 视频人脸检索系统界面
表4 人脸检索时间
由实验结果可以看出,video1的检索时间较video2的长,原因是vidoe2的视频经过压缩处理,而video1是无压缩的视频格式,这样在video1上检索人脸时,每次采集视频帧后都要进行解码,花费了较多时间。由video2和video3比较得出,视频片段的时间对检索速度也有影响,视频片段时间长的花费的检索时间相对较长。所以,视频是否经过压缩处理以及视频片段的时长都对检索时间有影响。此外,根据隔帧取样和关键帧提取对于人脸检索时间的影响可以看出,采用关键帧提取视频帧的方法能大大减少人脸检索的时间,因为关键帧提取可以有效地根据视频片段特征来提取视频帧,显然要比隔帧取样得到的视频帧少,这样有利于在实际中的应用。所以在之后的实验中均采用关键帧提取的方法来进行视频帧的提取。
实验2查全率和查准率
测试背景的复杂程度对检索结果产生的影响。该部分实验选取video2和video3作为测试集,其中video2测试集中人脸数目少且背景单一,而video3测试集中人脸数目较多且背景较复杂。经过实验测试后,视频人脸检索的部分结果如图4所示,从图4中可以看出在video2测试集上测试的结果比video3测试集的结果准确。video2测试集中人脸的姿势单一且没有太大的变化,相反video3测试集中的人脸较多而且姿势变换频繁影响了检索的效果,但是即便如此,本文提出的方法在video3中检索出的视频帧大多数是正确的。
根据以上检索结果可以得出人脸检索的查全率和查准率,如表5所示。
表5 人脸检索的查全率和查准率
图4 视频人脸检索部分实验结果
实验结果表明,在简单背景下(video2)的查全率比复杂背景下(video3)的查全率较高,同时查准率方面,简单背景(video2)的查准率较复杂背景(video3)的查准率较高。本文提出的方法对于简单背景的视频在保证高查全率的情况下也能保证较好的查准率,表明该方法的性能较好。
实验3方法对比
测试本文改进的PCA算法和传统的PCA算法在视频人脸检索方面的优劣。该部分在视频人脸检索时分别采用文献[15]的方法(传统的PCA)和本文方法(改进的PCA)进行实验,并对两者进行了比较,实验结果表明在视频人脸检索方面,本文的方法明显优于文献方法。实验采用video2和video3作为测试集。
从表6的数据中看出,本文方法在查全率和查准率方面有了进一步的提高。由于传统的PCA算法提取的是全局特征,在进行特征提取之前,未对原始人脸样本进行任何处理,因此,受光照条件变化的影响很大。而本文提出的方法在传统的PCA算法中融合基于局部均值和标准差的图像增强处理算法,增强人脸图像的清晰度,突出人脸的重要面部器官的特征,再进行特征提取,从而有效降低了光照条件对人脸检索的影响。该部分实验结果表明了本文提出的方法在视频人脸检索方面的表现较好。
表6 文献方法和本文方法对比(%)
通过对PCA算法的改进,使其克服光照对人脸的影响,把奇异值分解与改进的PCA算法相结合,应用于单样本视频人脸检索,从而提高了视频中人脸检索的查全率和查准率,比采用传统的PCA方法进行视频人脸检索的效果较好,取得了很好的检索效果。同时基于本文提出的方法,设计并实现了一个视频人脸检索系统。在今后的工作中,需要研究更稳定的人脸特征提取算法,即使在复杂背景下也能达到理想的检索效果,这将是进一步的研究重点。
[1]庄越挺,潘云鹤,吴飞,等.网上多媒体信息分析与检索[M].北京:清华大学出版杜,2002.
[2]Ngo C W,Zhang H J,Pong T C.Recent advances in content based video analysis[J].International Journal of Image and Graphic,2001,1(3):445-469.
[3]Everingham M,Zisserman A.Identifying individuals in video by combining“Generative”and discriminative head models[C]// Proceedings of the 10th IEEE International Conference on Computer Vision,Beijing,2005:1103-1110.
[4]Arandjelovic O,Zisserman A.Automatic face recognition for film character retrieval in feature-length films[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,San Diego,2005:860-867.
[5]Sivic J,Everingham M,Zisserman A.Person spotting:video shot retrieval for face sets[C]//Proceedings of International Conference on Image and Video Retrieval,Singapore,2005:226-236.
[6]徐兴,杨祥.视频检索系统中的视频片段自动检测方法[C]//第十届全国多媒体技术学术会议论文集,北京,2001:99-106.
[7]Sethi I K,Patel N V.A statistical approach to scene change detection[C]//Proc Storage and Retrieval for Image and Video Database III,1995,2420:329-339.
[8]Viola P,Jone M J.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.
[9]Yoo T W,Oh I S.A fast algorithm for tracking human faces based on chromatichistograms[J].Pattern Recognition Letters,1999,20(10):967-978.
[10]Yang M H,Ahuja N.Detecting human faces in color images[J]. Image and Vision Computing,1999,18(1):63-75.
[11]Zhao W,Chellappa R,Phillips P J,et al.Face recognition:a literature survey[J].ACM Computing Surveys,2004,35(4):399-458.
[12]Zhao Jiali,Wen Jinwei,Luo Siwei.Face recognition:a facial action reconstruction and ICA representation approach[C]// ICII,2001:456-461.
[13]Zhao Jiali.Illumination ratio image:synthesizing and recognition with varying illuminations[J].Pattern Recognition Letters,2003,24:2703-2710.
[14]Lu C,Liu W,An S.Face recognition with only one training sample[C]//The 25th Chinese Control Conference,Harbin,China,2006:2215-2219.
[15]Turk M,Pentland A.Eigenface for recognition[J].Journal of Cognitive Neuroscience,1991,3(1):71-86.
[16]Lee J S.Digital image enhancement and noise filtering by using local statistics[J].IEEE Trans on PAMI,1980,2(2):165-168.
[17]张锋,蒋一锋,陈真诚,等.对一种新的基于局部标准差的自适应对比度增强算法的评价[J].光子学报,2003,32(8):989-992.
奇异值分解和改进PCA的视频人脸检索方法
梁 斌,段 富
LIANG Bin,DUAN Fu
College of Computer Science and Technology,Taiyuan University of Technology,Taiyuan 030024,China
This paper presents a method for face retrieval in video stream based on SVD and improved PCA.The PCA is improved through local mean and standard deviation in order to overcome the effects of illumination.The AdaBoost is used to detect human faces in image and video.The training samples are increased by Singular Value Decomposition(SVD).On the basis of the original and new samples,the algebra features are extracted by using improved Principal Component Analysis(PCA).The features are compared through nearest neighbor classifier and the retrieval results are displayed to users.Experimental results show the method performs well in simple background videos.
face detection;single sample face recognition;Singular Value Decomposition(SVD);Principal Component Analysis(PCA);video-based face retrieval
针对视频中人脸检索问题,提出一种基于奇异值分解和改进PCA相结合的视频中单样本人脸检索方法,其中通过融合局部均值和标准差的图像增强处理来实现PCA算法的改进,从而克服光照对目标的影响。通过AdaBoost人脸检测算法对人脸图像和视频进行人脸检测;通过奇异值分解增加训练样本,在原样本和新样本的基础上采用改进的PCA人脸识别算法提取待检测人脸和视频中的人脸代数特征;采用最近邻分类器进行特征匹配,判断视频中检测出的人脸是否为要检索的目标人脸。实验结果表明,该方法在简单背景的视频环境下可以较准确地检索出目标人脸。
人脸检测;单样本人脸识别;奇异值分解;主分量分析;基于视频的人脸检索
A
TP391
10.3778/j.issn.1002-8331.1110-0196
LIANG Bin,DUAN Fu.Method for face retrieval in video using SVD and improved PCA.Computer Engineering and Applications,2013,49(11):177-182.
山西省科技攻关计划项目(No.20080322008)。
梁斌(1987—),男,硕士研究生,主要研究领域:图像处理与模式识别;段富(1958—),男,博士,教授,研究领域:软件开发环境与工具、软件理论与算法。E-mail:bin.liang.ty@gmail.com
2011-10-12
2011-12-12
1002-8331(2013)11-0177-06
CNKI出版日期:2012-03-08 http://www.cnki.net/kcms/detail/11.2127.TP.20120308.1520.031.html