基于特征融合及子空间学习的行人再识别

2019-07-12 06:23李大湘费国园
西安邮电大学学报 2019年2期
关键词:特征向量行人投影

李大湘, 费国园, 刘 颖

(1. 西安邮电大学 通信与信息工程学院, 陕西 西安 710121;2. 电子信息现场勘验应用技术公安部重点实验室, 陕西 西安 710121)

在多摄像机监控网络中,利用行人再识别技术[1]可实现目标行人跟踪或异常场景检测,从而服务于智能安防和刑事侦查[2-3]。受光照、遮挡、姿势和杂乱背景等因素干扰,行人外观通常会发生变化,所以,行人再识别的重点主要在于特征提取和度量学习[4]。

在特征提取方面,有局部特征集成(ensemble of localized features,ELF)[5]、对称驱动的局部特征累积(symmetry-driven accumulation of local features, SDALF)[6]、局部最大概率(local maximal occurrence,LOMO)特征[7]、分层高斯方法利用高斯块的高斯区域(Gaussian region of Gaussian patch,GOG)描述符[8]等方法。其中,LOMO特征是HSV颜色直方图和尺度不变局部三元模式(scale invariant local ternary pattern,SILTP)纹理特征的高维表示,而GOG描述符则将图像分为由多个高斯分布描述的不同区域,以刻画行人图像的颜色和纹理等信息。每种高斯分布代表一个图像块,每个图像块的特征融合后得到行人图像的特征向量。

除了欧氏距离和马氏距离外,用于行人再识别的距离度量学习方法还有许多[9],如交叉视图二次判别分析(cross-view quadratic dis-criminant analysis, XQDA)[7]、成对特定CRC编码(pairewise-specific collaborative representation based classification coding,PSCRC)[10]、多核全监督子空间学习(multi-kernel fully-supervised subspace learning,MKFSL)[11]等方法。其中,MKFSL方法能有效利用行人图像,通过学习产生一个有辨别力的子空间,先利用有标签样本的GOG特征学习初始投影,再利用该投影将无标签样本映射到低维空间中,但是,因未能充分利用标签样本,往往会引发行人图像表征单一化或模型浮动。

为了进一步充分利用带标签样本,本文拟从特征融合和子空间学习两方面,对MKFSL行人再识别算法加以优化。以串联融合后的LOMO特征和GOG特征,描述行人图像,弥补单一描述符表征行人图像的局限性。挑选典型带标签样本,来学习优化的判别式投影,避免模型浮动问题。

1 特征提取与融合

1.1 局部最大概率特征

LOMO是特征包含颜色特征和纹理特征。考虑到光照对颜色信息的影响,先对图像利用带颜色恢复的Retinex算法(multi-scale retinex with color restoration,MSRCR)[12]进行预处理,再对其进行HSV颜色直方图特征提取。针对摄像机中的行人目标视图变化问题,采用纹理特征SILTP对行人图像进行描述。

1.2 高斯描述符

采用GOG特征对行人图像作进一步描述。

将行人图像调整为128×48像素,对每张图像进行有重叠的分块处理,分为7个大小为32×48像素的水平区域。对各水平区域进行稠密块采样,采样间隔为2像素,各稠密块的大小为5×5像素。对稠密块中各像素提取8维像素特征,包括像素点的垂直位置、梯度值以及颜色信息等。

用高斯分布拟合稠密块内的像素特征,再用另一高斯分布拟合水平区域内所有稠密块的特征。拼接所有水平区域内的特征向量,所得27 622维特征向量即为GOG特征。

拼接所提取到的LOMO特征向量GOG特征向量,即为行人图像的特征向量。

2 子空间学习

引入子空间学习,将原始特征空间中线性不可分的数据,映射到区分能力更强的低维子空间,对这种映射关系的设计是子空间学习的关键。

选择全监督的子空间学习方法[11],学习一个判别式子空间。选定n张带标签的行人图像,以其特征向量分别描述为xi∈d(n=1,2,…,n),记其相应的标签为yi。学习平方距离函数

(1)

其中,U∈d×r,是一个低维投影矩阵,可将不同摄像机视图中的行人图像映射到一个公共子空间,从而进行有效的行人再识别[11]。r(≪d)是投影子空间的维数。

如果xi和xj属于同一人,也即yi=yj,则其距离函数值较小,反之较大。最优低维投影矩阵可以表示为

(2)

其中,X=(x1,x2,…,xn),而权重矩阵W∈n×n的元素

(3)

利用迹操作,可以将损失函数L(X,U,W)重新改写为tr (UTXLXTu)。其中,L是一个对角矩阵D与权重矩阵W之差,即

L=D-W,

而D对角线上的元素是W对应行之和。增加约束

tr (UTXLXTu)=1,

通过广义特征值分解,即可求得最优低维投影矩阵U*,它由r个最小特征值对应的相关特征向量组成。通常取r=n-1。

得到优化的投影矩阵U*之后,将测试样本的探测图像和候选集图像特征投影到该空间中,通过计算两者的马氏距离,得出一个有序列表,据此即可计算出得人再识别的匹配率。

3 实验分析

3.1 行人再识别数据集

实验选取VIPeR数据集和PRID450s数据集。

VIPeR数据集[13]包含632个行人的1 264张户外图像,其大小被统一标准化为128×48像素,整个数据集被均等一分为二,一半用于训练,一半用于测试。

PRID450s数据集[14]更接近现实,包含由两个摄像机捕从不同视角所捕获的450对图像,其大小不一,但光照强度一致。

3.2 实验设置及评估准则

采用配置64位操作系统、Intel i7处理器的联想电脑,利用软件Matlab2015a进行实验。选用累积特征匹配曲线(cumulative match characteristic curve,CMC)作为评估准则。CMC曲线是模式识别系统的重要评价指标,用以计算前k次匹配到目标样本的概率。比较待查找样本对象与候选集样本间的距离,从小到大排序。查询到的同一行人样本越靠前,则相应算法性能越好。为了统一处理数据,将各数据集图像的大小均预调整为128×48像素,再进行特征提取。

3.3 结果分析

串联融合LOMO特征和GOG特征,并结合改进的子空间学习方法,在数据集VIPeR和PRID450s上进行10次实验,对其结果取平均,所得CMC曲线图如图1所示。其中排序等级代表具有较大相似度目标的个数。

基于像素点提取的GOG描述符,相较基于滑动窗提取的LOMO特征,前者对应的匹配曲线明显要高,而其融合特征对应的匹配曲线最高。融合特征可避免单一特征在描述行人图像方面的局限性,在行人再识别时的1级匹配率更高。

(a) VIPeR

(b) PRID450s

在两个数据集上,所给改进算法与其他行人再识别算法的实验结果分别如表1和表2所示。

表1 VIPeR数据集上不同算法的匹配率

表2 PRID450s数据集上不同算法的匹配率

改进算法融合了两种鲁棒性的描述符以描述行人图像,并引入了子空间学习方法求得的判别性投影矩阵,具有良好的匹配性能。与原MKFSL算法相比,在数据集VIPeR和PRID450s上,改进算法的1级匹配率分别提高了1.7%和2.7%。

4 结语

为了充分发挥带标签样本的可用性,给出一种改进的MKFSL行人再识别算法。融合LOMO特征和GOG描述符以表征行人图像,有效降低了光照、视角及摄像机参数等外界因素所带来的影响。利用低维投影矩阵,将所提取的特征映射到低维子空间中,使之表现出可区分能力更强的特点,更有利于准确地实现行人再识别。实验结果显示,所给改进算法可行有效。

猜你喜欢
特征向量行人投影
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
毒舌出没,行人避让
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
找投影
一类三阶矩阵特征向量的特殊求法
找投影
路不为寻找者而设
我是行人