基于特征融合及差异矩阵的行人再识别

2020-04-24 08:52:30李大湘费国园
计算机工程与设计 2020年4期
关键词:描述符度量摄像机

李大湘,费国园+,刘 颖

(1.西安邮电大学 通信与信息工程学院,陕西 西安 710121;2.西安邮电大学 电子信息现场勘验应用技术公安部重点实验室,陕西 西安 710121)

0 引 言

行人再识别,旨在判别非重叠场景中的不同摄像机下的两人是否为同一行人[1],该技术可应用到智能安防和智能视频监控等领域。

当前行人再识别的研究工作主要集中在特征描述和度量学习两个方面。特征描述分为基于手工设计的表征方法和基于深度学习的表征方法。基于手工设计的特征描述方法集中于描述符的定义,这些描述符能够尽可能多地捕获不同视图中人物外观的变量。文献[2]提出了一种基于显著颜色名描述符(salient color names based color descriptor,SCNCD),利用颜色名对光照的鲁棒性这一优点对行人图像进行表征。文献[3]提出局部最大概率特征(local maximal occurrence,LOMO),该特征主要由HSV颜色直方图和尺度不变局部三元模式(scale invariant local ternary pattern,SILTP)纹理特征构成。与手工设计的特征描述方法不同,卷积神经网络(convolution neural network,CNN)可以从原始图像数据中自动捕获人物外观变量以建立行人表征。文献[4]提出一种FTCNN模型,利用辨别行人联合属性的损失函数有效提高了CNN特征的辨别力,从而改善了行人再识别的性能。

针对文献[5]中参考集的选择问题,提出了一种基于改进差异矩阵度量的行人再识别算法。该算法首先利用显著颜色名描述符(salient color names based color descriptor,SCNCD)和FTCNN特征对行人图像进行表征,然后通过K-means算法对行人图像聚类得到包含典型图像的参考集,最后使用差异矩阵度量方法得到匹配结果。

1 特征提取

为了处理跨摄像机视图中行人外观的变化,选用SCNCD和FTCNN作为视觉特征对不同摄像机捕获的图像进行表征。

颜色作为一种线索,在行人再识别任务中可以获得重要信息。但是它对于光照变化不具有鲁棒性。基于颜色名对光照变化的鲁棒性,Yang等利用显著颜色名描述符对行人图像进行表征。SCNCD的提取过程如图1所示[2]。

图1 SCNCD提取

首先对行人图像调整大小为128*48像素,并且将其均等地分为6个水平条纹以关联特定的身体部位。然后基于手动预定义的16个颜色名,计算每个水平条纹中的颜色概率分布以形成16维向量。由于没有单一颜色模型可以提供良好的描述符,因此颜色名称在4种颜色模型中计算并融合以获得最终的SCNCD。

为了结合深度卷积神经网络特征,本文选取FTCNN特征对行人图像作进一步表征。FTCNN特征的提取过程[4]如图2所示。

安全人机工程学是人机工程学的一个分支,它从安全工程学的观点出发,为进行系统安全分析和预防伤亡事故、职业病提供人机工程学方面的系统理论和知识[6]。LEC法是美国的安全专家G.F.Kinney和K.J.Graham提出的一种简单易行的评价作业条件危险性方法。笔者针对城南污水厂建设要求和实际情况,运用安全人机工程原理,通过风险分析,运用各种管理方法和技术手段,建立合理可行的人机系统,做好城南污水厂工程的施工组织管理,旨在如何有效发挥人的主体作用,保证本工程以安全为主的各项指标受控状态良好,保障工程建设安全高效运行,探索一套行之有效的污水厂建设管理新思路,并为其他类比工程提供参考。

图2 FTCNN特征提取

使用Caffe深度学习框架中的AlexNet网络提取FTCNN特征。在训练期间,使用行人属性数据集PETA对网络进行训练。首先对行人图像调整大小256*256像素,然后随机剪裁227*227像素子窗口送入AlexNet网络中。测试期间,所有行人图像调整大小为227*227像素。所有的CNN参数从预先训练的AlexNet网络中得到。通过水平镜像、随机剪裁行人图像扩充数据量,以避免网络发生过拟合现象。初始学习率被设置为γ=0.0001, 每经过20 000次迭代学习率降低为原来的1/10。

FTCNN特征与SCNCD进行串联融合,然后采用主成分分析法(principal component analysis,PCA)对融合的特征进行降维。最终每张行人图像的特征是280维。

2 度量学习

2.1 差异矩阵

(1)

其中,A和B是两个不同的摄像机,p是目标图像的ID,q是候选集中图像的ID。然后通过比较两者特征向量之间的距离来确定排名。

文献[6]提出一种参考描述符(reference descriptor,RD),即利用一个具有典型身份的参考数据集来重构每个行人的特征。RD方法侧重于发现目标与参考身份相对应的重建关系,并忽略其与每个参考身份的局部差异关系。利用这种关系来描述行人,可以找到目标行人与参考集身份的相对差异,如图3所示。

图3 特征向量和特征矩阵

(2)

引入差异矩阵,可以避免跨摄像机视图成像时对行人图像造成的干扰[5]。

2.2 参考集的选取

文献[5]中参考集的选取具有随机性,因此选取的参考集中的行人图像不稳定且特征矩阵维数较大。本文利用K-means算法对行人图像聚类得到包含典型图像的参考集,在减少典型参考行人图像数量的同时提高行人再识别的匹配率。以行人图像的特征向量作为数据点,对A摄像机下的行人图像操作步骤如下:

步骤1 任意指定k个数据点作为类中心ui,i=1,2,…,k;

步骤2 将每个数据点归并到距其最近的类中心所在的簇ci;

步骤3 对属于同一簇内的所有数据点求取平均值,将平均值作为新的簇中心;

步骤4 重复步骤2和步骤3直至每个簇不再发生变化。

簇的个数对应参考集图像的对数。最终,分别选取距离k个类中心最近的数据点所对应的行人图像作为参考集。对于摄像机B,采用与A摄像机中参考集图像相同ID的图像作为参考集。考虑到算法的时间复杂度和行人再识别的匹配率,VIPeR数据集的参考图像对设置为80对,PRID450s数据集的参考图像对设置为40对。

2.3 差异矩阵度量

(3)

一致项由所有相似对的矩阵距离之和来定义

(4)

(5)

(6)

为简单起见,将一致项和辨别项的权重设为1,稀疏项权重设为μ, 则目标函数为

E(L1,L2)=Econ(L1,L2)+Edis(L1,L2)+μEspr(L2)

(7)

可通过求解目标函数(8)学习度量矩阵,利用梯度下降法迭代求解,具体过程如图4所示,其中步长λ1和λ2的取法见文献[8]

(8)

图4 目标函数求解流程

3 实验结果与分析

3.1 行人再识别数据集

(1)VIPeR数据集:广泛使用的VIPeR数据集[9]包含从632个人的两种视图中捕获的1264张室外图像。一些示例图像显示在图5(a)中。每个人分别具有从两个不同相机拍摄的一对图像。将所有个体图像标准化为128*48像素的大小。视角改变是外观变化的最重要原因,还包括其它因素,如光照条件和摄像头参数。

(2)PRID450s据集:PRID450s数据集[10]是一个更现实化的数据集,其中包含通过两个空间不相交的摄像机视图捕获的450个图像对。所有图像在本实验中均调整大小为128*48像素。与VIPeR数据集不同,该数据集具有显著且一致的光照变化。PRID450s数据集中的一些示例如图5(b)所示。

图5 行人再识别数据集示例图像

3.2 实验结果

采用Windows7 64位操作系统Intel i7处理器的戴尔电脑,利用软件Matlab2015b进行实验。VIPeR和PRID450s的训练集和测试集的图像对数分别设置为200对、200对和150对、150对,参考集图像对数分别为80对和40对。在每种数据集上重复实验10次取均值后作为最终结果。本文选用特征累积匹配(cumulative matching characteristic,CMC)曲线作为评价标准。横轴代表排名等级rank-r,表示具有最大相似度的前r个目标;纵轴代表识别率,指在对应的前r个目标中正确目标的个数与r的比值。利用改进的度量算法在VIPeR和PRID450s行人再识别数据集上分别采用SCNCD、FTCNN以及两者融合的特征对行人图像进行表征的识别率结果如图6所示。

图6 VIPeR和PRID450s的CMC曲线

与当前一些行人再识别方法进行比较,结果见表1和表2,表明提出的方法是有效的。同时对比文献[5]和本文中的算法在两种不同数据集所用时间见表3以及rank-1匹配率如图7所示,验证了利用K-means算法对行人图像聚类得到的图像作为参考集是有利的。

实验结果表明了利用K-means算法选取的参考行人图像比较稳定。因为只考虑具有代表性的行人图像与目标图像之间的差异,所以特征矩阵的维数变小导致差异矩阵的维数降低,因此在差异矩阵度量时不仅提高了行人再识别的匹配率还降低了算法的时间复杂度。

4 结束语

本文在SCNCD特征和FTCNN特征以及DMMM矩阵度量算法的基础上,提出了一种基于特征融合及差异矩阵的行人再识别算法。其创新性在于:①在特征融合阶段,选取具有鲁棒性的两种特征对行人图像进行描述;②在差异矩阵度量时,通过K-means算法对行人图像聚类得到包含典型行人图像的参考集,从而优化目标图像相对于参考集图像的重建关系。对比实验结果表明,所提出的算法优于DMMM算法,在降低时间复杂度的同时又提高了识别率。在两个公开的行人再识别数据集VIPeR和PRID450s上的实验结果表明了该算法的有效性和可行性。

表1 不同算法在VIPeR上的匹配率/%

表2 不同算法在PRID450s上的匹配率/%

表3 矩阵度量算法时间对比/s

图7 本文算法和DMMM算法匹配率对比

猜你喜欢
描述符度量摄像机
有趣的度量
模糊度量空间的强嵌入
基于结构信息的异源遥感图像局部特征描述符研究
测绘学报(2022年12期)2022-02-13 09:13:01
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
Linux单线程并发服务器探索
看监控摄像机的4K之道
利用CNN的无人机遥感影像特征描述符学习
摄像机低照成像的前世今生
新安讯士Q6155-E PTZ摄像机
地质异常的奇异性度量与隐伏源致矿异常识别