苏雪平,彭进业
(西北工业大学 陕西 西安 710129)
网络新闻数据包含丰富的文字和图像信息,并且新闻中的人脸图像与字幕中的人名存在多对多关系,如何准确的匹配人脸图像和人名之间的一一对应关系成为一个极富挑战性的问题。针对这一问题,传统解决方法主要是基于文本方法和基于内容的图像方法(即,人脸识别方法)。但是,上述两种方法不是产生错误导致准确率低就是无法获得良好的性能。
Berg等[1]提出结合概率模型的聚类过程显著提高了检索结果。但是实验仅随机挑选了一些真实数据集中的人脸,评价为其命名的正确率。Ozkan等[2]提出基于图论的人脸命名方法,用于寻找与查询人名相关的最相似人脸子集。苏等[3]为了减小运算量和提高聚类的准确率,融合文本和视觉的多模信息提高了人名人脸匹配的性能,实验结果性能优于Berg[1],Ozkan[2]等的方法。Le等[4]用迭代步骤自动将搜索引擎返回的图像分为相关或无关图像。该方法是完全无监督,并且训练的模型可以用于标注新的人脸,但是需要一些经验参数设置,影响性能的稳定性。
文中结合AP聚类和SVM分类将新闻图像中的多个人脸和多个人名的匹配问题,转化为多类分类问题。为了改善训练样本的可靠性,文中通过迭代更新挑选训练样本并训练多类SVM。综上所述,文中提出基于多类 SVM的新闻政治人物自动标识方法。
读者浏览新闻时,最关注的是谁在新闻中。如何自动挖掘新闻字幕中人名与新闻人脸图像之间一一对应关系已引起人们的广泛关注。此外,网络新闻图像包含多种表情、姿态、年龄、光照等情况,使得基于文本相关性或基于人脸识别方法都很难适用于网络新闻数据。针对网络新闻数据,本文提出基于多类SVM的新闻政要人物自动标识方法。算法流程框图如图1所示,具体细节如下所述。
图1 算法流程框图Fig.1 The flow chart of the method
本文使用L.Ratinov[5]的人名识别模型在新闻字幕中检测人名。然而,一个人的名字经常会以不同形式出现。例如,总统布什、乔治布什、总统乔治布什都是小布什的名字。本文手动融合同一个人名的不同形式,并创建人名字典。
针对每一个人名,首先找到与该人名相关的图像子集,建立人名与人脸的对应关系。其次,对该人名的图像子集,使用人脸检测算法检测人脸图像。在检测人脸时,人脸特征点的精确定位对于人脸检测起着至关重要的作用。但在实际应用中,由于人脸差异、图像质量等原因,准确定位人脸特征点并非那么容易。例如在人脸特征点定位中,由于光照、表情、遮挡、姿态等影响使得定位的难度加大。
主动形状模型(Active Shape Model-ASM)[6]是一种常用的人脸特征点定位方法,该方法最初是由 Cootes等人提出并定位图像中某一特定类型的对象。ASM方法训练样本图像并统计分析得到准确的局部灰度模型,再以此模型为依据,在测试图像中进行快速定位。它的优点不仅在于通过形状建模得到目标轮廓的初始位置,选取合理的参数加速定位,并借助特征点周围的局部纹理特征精确地定位出人脸特征点,而且在搜索目标模型的变形时依赖于训练集,也保证了目标定位的准确性。本文使用ASM定位人脸特征点,并利用眼睛中心的位置信息将人脸归一化。
LGBPHS(local gabor binary pattern histogram sequence)是基于多分辨率空间直方图方法。一方面它结合空间和局部强度信息,对光照、表情、年龄等外观变量不敏感。另一方面,它也是非统计学习方法,不需要任何学习过程。所以本文用LGBPHS描述人脸特征,具体过程如下:1)采用多尺度多方向的小波滤波器得到多个小波幅值图;2)局部二元模式将每幅小波幅值图转换为局部小波二元模式图;3)将每个二元模式图分成指定大小的非重叠块,并计算每块的直方图;4)融合所有二元模式图的直方图作为描述人脸的模型。
AP(Affinity propagation)是 Frey等[7]介绍的一种聚类方法。它将数据点间的相似度作为输入,并考虑所有的数据点作为潜在的中心进行聚类。它不需要指定聚类数目,也不需要随机选取初始值,运行时间快,错误率小,方法简单、并适用于大规模数据等优点,所以本文采用AP对人脸图像进行聚类。
依据Berg等[1]的假设,该人名相关的人脸子集图像中,使用聚类方法找到的最大类图像是该人名的真实人脸图像。此外,为了减少运算量并且提高聚类的准确率,将给定人名的图像子集分成两组图像。第一组人脸图像由满足新闻图像中仅有一个人脸图像,并且新闻字幕只包含一个人名条件的图像组成,剩余人脸图像组成第二组人脸图像。本文对第一组人脸图像提取LGBPHS特征,并采用欧氏距离计算人脸图像间的相似度,使用AP聚类找到最大类,并且最大类的人脸图像作为该人名的初始训练样本图像,建立了人名与人脸的对应关系。
不幸的是,实际聚类中,由于不同的表情、光照、姿势等影响,不同的人脸会聚类到同一类中,AP聚类也不例外。然而同一幅图像中,几乎不可能同时出现一个人的多幅人脸图像。所以,当聚类中包含一幅图像的多幅人脸图像时,仅保留其中一个人脸图像。针对这种情况,文中计算这些人脸图像与中心人脸图像的相似度,保留相似度最小的人脸图像,剔除其他人脸图像。
支持向量机(SVM)是一种建立在统计学习理论基础之上的机器学习方法,其最大的特点是根据Vapnik结构风险最小化原则,即在函数复杂性和样本复杂性之间进行折中,尽量提高学习机的泛化能力,具有优良的分类性能。另外,支持向量机在解决小样本、非线性及高维模式识别问题中表现出了许多特有的优势。针对多类分类问题的经典SVM算法主要有一对一(1-vs-1)和一对多(1-vs-all)两种方法。
对于k类问题,一对一 SVM需要构造k(k-1)/2个分类平面(k>2)。这种方法的本质与两类SVM并没有区别,它相当于将多类问题转化为多个两类问题来求解。该方法优点在于每次投入训练的样本相对较少,因此单个决策面的训练速度较快,同时精度也较高。但是当k较大的时候决策面的总数将过多,因此会影响预测速度。然而一对多SVM仅需要构造k个分类平面(k>2)。该方法也是两类SVM方法的推广,实际上它是将剩余的多类看成一个整体,然后进行k次两类识别。与一对一方法相比,由于一对多方法每次构造决策平面需用全部样本数据,因而两种方法训练所需要时间相差不多。但是一对多构造的决策平面数相对少很多,其预测速度也快很多。本文数据类别数较多,综合考虑使用一对多SVM方法进行分类。对于给定人名,AP聚类找到的最大类的人脸图像作为该人名的初始训练样本图像,对于其他人名,也采取同样的方法,找到相应的初始训练样本图像;将所有给定人名的初始训练样本图像用于多类SVM训练。此外,为了提高训练样本的可靠性,通过迭代更新挑选训练样本和训练多类SVM。第二组人脸图像作为测试图像,提取人脸的LGBPHS特征,并将训练好的多类SVM用于第二组图像分类,依据分类结果,标识人脸图像。但是,训练一对多的SVM分类器时,正例的数目与反例的数目样本数量差异很大,也叫数据集偏斜。为了解决数据集偏斜问题,在目标函数中添加惩罚因子,即给样本数量少的类更大的惩罚因子。目标函数公式如下:
其中C是惩罚因子,ζi是松弛变量,l是样本的数目。实验中,对于正类和负类,我们设置不同的惩罚因子,则目标函数中的松弛变量公式如下:
其中,C+/C-分别是正类/负类的惩罚因子,ζi/ζj分别是正类/负类的松弛变量,p/q分别是正类/负类的样本数目。多类SVM训练过程如图2所示。
本文提出了基于多类SVM的新闻政要人物自动标识方法,并在大规模数据集上进行实验验证。首先,本文介绍实验数据集,并在数据集上进行性能评估。其次,与其他方法比较,讨论本文方法与其他方法的优缺点。
图2 多类SVM Fig.2 Multiple SVM
数据集是Berg等[1]在雅虎新闻中搜集的大约50万个带有字幕的新闻图像集。与人脸识别的实验数据库相比,该数据集在非标准实验设置下获取,同时包含多种光照、姿态、表情、遮挡等因素。
首先,采用L.Ratinov[5]的命名实体标注方法处理所有字幕,检测到20 931个人名,每个人名都可以找到一组相关的图像。然而,一方面一幅图像中包含多幅人脸图像,人名相应图像集中检测的人脸图像数目远远大于人名在总字幕中出现的次数,另一方面一个特定人名有多种表示方法,本文手动合并这些不同表示方式的人名并建立人名字典。综上所述,本文只处理人名相应人脸图像数目多于60个的新闻政要人名,符合该条件的人名总共有54个。人名集及人名出现次数如图3所示。
其次,采用主动形状模型定位人脸的特征点[6],该特征点包含68个,主要分布在眉毛、眼睛、鼻子、嘴巴、面颊等区域。利用左右眼睛中心坐标信息归一化人脸。在LGBPHS方法中,窗口大小的设置影响识别性能。为了保留更多的空间信息和局部信息,当人脸图像归一化到80*60像素(左右外眼角像素归一化为50个像素),划分为9个区域,融合这些区域的直方图,得到3600维特征向量。此外,为了减少运算量并且提高聚类的准确率,我们将给定人名的图像子集分成2组图像。对第一组人脸图像采用欧氏距离计算人脸图像间的相似度,采用AP聚类,聚类中最大类的人脸图像作为该人名的初始训练样本图像,对于其他人名,采取同样的方法,找到相应的初始训练样本图像。在迭代更新训练样本和训练多类SVM的时候,设置迭代的次数为3,概率输出的阈值设置为0.85,只要样本的输出概率大于阈值,该样本选中作为下次训练的样本。此外分别计算给定人名的图像集、第一组图像使用AP聚类找到的初始训练样本和通过迭代更新挑选的训练样本的准确率。图4给出了由不同图像集获得训练样本的准确率。在训练多类SVM中,公式(2)中的参数C+/C-设置为正负类样本的数目比值,参数ζi/ζj都设置为0.1。最后,将多类SVM用于分类给定人名的第二组人脸图像,实现新闻政要人物的自动标识。
图3 本文处理的人名及相应出现的次数Fig.3 The names and occurrence number
图4 不同图像集获得训练样本的准确率Fig.4 The precisions of different image subset
为了有效评价本文方法,本文给出了基于F1-measure的实验结果。首先分别计算每个人名的召回率、查准率和F1,然后计算整体的权重召回率、查准率和F1。计算公式如下所示:
其中 r(i)/p(i)/F1(i)分别是第 ith人名的召回率、查准率、F1,t(i)是第 ith人名相应的总人脸数目。
在雅虎新闻出现频率大于60次的54个新闻政要人名的数据集上验证本文的方法,本文方法的加权平均F1值是77.5%。此外,本文与文献[1]~[4]的方法进行对比。一方面与文献[1]~[2]的数据集相同,另一方面本文的假设与文献[2]~[4]的假设一致,并且实验数据都包含多种姿态、表情、光照等因素。实验结果如表1所示。
表1 不同方法的实验结果Tab.1 The results of different methods
从表1可以看出,本文方法得到了较好的实验性能。文献[1]使用人名在字幕中位置的文本信息和视觉信息,获得了较高的召回率。文献[2]提出的基于图论中最大密度的方法与本文的最大聚类的方法比较类似,二者之间可以转化。文献[3]使用了文本信息和视觉信息,使得召回率较高,本文仅使用了视觉信息,通过改善样本的可靠性提高了查准率。另外,对比本文与文献[3]、[4]在挑选训练样本的准确率(如表2所示)。
从表2可以看出,通过聚类寻找的训练样本正例的准确率优于文献[3]和[4]的结果。文献[4]调选样本正例和反例取决于参数的设定,参数设置直接影响了样本的可靠性,从而降低了性能。
表2 训练样本的准确率Tab.2 The precision of different training samples
本文提出基于多类SVM的新闻政要人物自动标识方法。它不需要任何手工标注,仅使用大规模数据集,并且实验数据集包含多种姿势、表情、光照等因素,因而该方法可以普及到一般的人脸识别问题。
在雅虎新闻大约50万的数据集上进行实验,验证了本文方法的可行性。实验也实现了72%的加权平均召回率和83.4%的加权平均查准率,对于单个人名而言,实现了高达91.6%的召回率和96.5%的查准率。与其他文献方法进行比较,也实现了较好的性能。但是,对于出现频率较低的人名,相应的图像子集数目太少无法聚类找到准确的正例样本,从而无法正确标识,并且考虑其他附加信息,在保证查准率的同时提高召回率,这将是我们今后工作的重点。另外,本文方法也可以适用于如目标识别、图像标注等其他问题。
[1]Berg T L,Berg Er C,Edwards J,et al.Who’s in the picture[C].Proceedings of Advances in Neural Information Processing Systems, Cambridge,2005:137-144.
[2]Derya O,Pinar D.Interesting faces:A graph-based approach for finding people in news[J].Pattern Recognition,2010,43(5):1717-1735.
[3]SU Xue-ping,PENG Jin-ye,FENG Xiao-yi,et al.Crossmodality based celebrity face naming for news image collections[J].Multimedia Tools and Application,2013,67 (3):687-708.
[4]D L,S Satoh.Unsupervised face annotation by mining the web[C].In International Conference on Data Mining, Pisa,2008:383-392.
[5]Ratinov L,Roth D.Design Challenges and Misconceptions in Named Entity Recognition[C].In proceedings of the 13th Conference on Computational Natural Language Learning,Boulder,2009:147-155.
[6]Stephen Milborrow and Fred Nicolls.Locating Facial Features with an Extended Active Shape Model[C].Proceedings of the 10th European Conference on Computer Vision,Marseille,2008:504-513.
[7]Frey B J,Dueck D.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.