颜 悦, 谢明鸿, 严双林, 李 凡
(昆明理工大学 信息工程与自动化学院, 云南 昆明 650504)
我国多年前就开始在全国范围内推行“平安城市” “天网工程”等重大安防项目, 目前已建成世界上最大的视频监控网, 助力各地公安部门的案件侦破工作. 然而, 面对如此庞大的视频数据, 仅依靠人工来识别嫌疑人, 不仅消耗资源和警力, 还容易出错, 降低工作效率. 行人重识别能很好地解决该问题, 因此近年来引起了诸多研究者的关注.
行人重识别是一种从不同相机拍摄的图像或视频序列中判断目标行人是否存在的技术. 自2005年荷兰阿姆斯特丹大学的Zajdel等[1]提出行人重识别的概念后, 就引起了国内外广大学者的关注. 当前的行人重识别方法大致可分为两类: 基于特征提取的行人重识别方法和基于度量学习的行人重识别方法. 基于特征提取的行人重识别方法中, 研究者关注的是什么样的特征更具识别力. 文献[2-7]针对图像中行人的颜色、 纹理、 形状、 运动轨迹、 梯度等特征进行了研究. 其中Liao等[3]提出一种有效的特征表示, 称为局部最大出现(Local Maximal Occurrence), 其分析局部特征的水平出现率, 并最大化该出现率以获得一个视角不变的特征表示. Matsukawa等[4]提出一种基于像素特征的层次分布描述符, 可以区分相同全局分布下不同结构纹理的图像. 基于度量学习的行人重识别方法着重于判别式度量模型的设计, 目的是使相同行人不同图像间的距离小于不同行人相似图像间的距离. Weinberger等[8]提出一种大间隔最近邻度量算法(Large Margin Nearest Neighbor), 从标记的实例中学习用于分类的距离度量模型. Zheng等[9]提出一种概率相对距离比较算法(Probabilistic Relative Distance Comparison), 目的是使正样本行人对之间的距离概率远小于负样本行人对之间的距离概率. Pedagadi等[10]考虑局部样本点, 采用局部Fisher判别分析方法(Local Fisher Discriminant Analysis)为降维的特征提供有识别力的空间.
为了更有效地表示行人图像信息, 基于字典学习的行人重识别算法近年来也引起了学者的关注. Yu等[11]用已标记的数据学习一个可以把图像特征和语义属性同时映射到公共潜在空间的通用字典, 保存了不同模态之间的语义相关性. Jing等[12]针对超分辨率的行人重识别任务提出一个半耦合低秩判别字典学习方法, 该字典可以把低分辨率图像中的特征转换到高分辨率的图像特征中. 上述方法能够在一定程度上提升行人重识别精度, 但在实际应用中, 由于不同相机视角之间差异较大, 视觉特征本身所携带的判别信息或身份信息在训练过程中可能会消失甚至被修改, 极大限制了接下来的识别工作, 而这一重要因素在大多数基于稀疏表示和字典学习的行人重识别算法中未被考虑.
针对上述问题, 本文提出的行人重识别算法在以下两方面予以改进: ① 在算法中通过分类器把学习到的行人视觉特征转换到身份信息空间中, 建立视觉特征与行人身份信息的关联; ② 引入身份一致性和不相关约束, 将不同视角下的行人身份进行有效对应, 从而进一步提高模型的判别力. 由于本文方法不仅考虑了不同视角的差异问题, 还考虑了身份信息对识别结果的影响, 因此能得到更好的识别效果.
在本节中, 将分别介绍所提算法的实现过程、 优化求解过程以及识别方案. 所提算法的总体框架如图 1 所示. 该算法首先针对不同视角学习字典, 然后通过分类器把学习到的行人视觉特征转换到身份信息空间中, 同时引入身份一致性和不相关约束, 最后通过行人身份信息设计行人匹配方案.
图 1 所提算法的总体框架Fig.1 The overall framework of the proposed algorithm
设从a,b视角下的图像中选择训练样本Xa=[x1,x2,…,xn1]∈Rm×n1,Xb=[x1,x2,…,xn2]∈Rm×n2, 其中每个样本xi为一个m维特征向量,n1和n2分别为视角a,b所对应的行人图像样本数. 首先, 学习两个字典Da,Db分别表示视角a,b下的行人图像
(1)
然后, 使用两个分类器Wa,Wb实现两视角下行人视觉特征到身份信息空间的转换. 同时, 建立相同行人身份间的一致性约束和不同行人身份间的不相关约束来赋予模型更高的判别能力, 式(1) 可重写为
(2)
α4‖(WaYa)T(WbYb)‖1,
(3)
在式(3)中, 固定其他变量不变, 采用交替迭代算法单独求解每一个变量Da,Db,Wa,Wb,Ya,Yb.
1) 假设Da,Db,Wa,Wb,Yb不变, 更新变量Ya, 关于Ya有以下目标函数
α4‖(WaYa)T(WbYb)‖1.
(4)
引入松弛变量A求解上述问题, 式(4)可写为
(5)
在式(5)中, 可以通过迭代收缩算法[13]求解关于变量A的L1范数最小化问题. 确定A后, 需要引入一个中间变量M才能对Ya进行更新.
(6)
M可通过直接求导获得
(α2WbYbET+WbYbAT+WaYa),
(7)
式中:I1∈Rk×k为单位矩阵. 在确定M后,Ya的解析解可表示为
(8)
2) 通过固定Da,Db,Wa,Wb,Ya来更新Yb, 有以下目标函数
α4‖(WaYa)T(WbYb)‖1.
(9)
类似式(5)采用的方法, 引入松弛变量C求解式(9)中的L1范数最小化问题, 此时Yb可以通过直接求导得到
(10)
3) 固定其他变量不变更新变量Da, 得到Da的最优化模型为
(11)
Da的最优解可以通过拉格朗日对偶法[13]得到. 方程(11)的解析解为
(12)
式中:Λ1为由所有拉格朗日对偶变量构造的对角矩阵.
同理, 用上述方法可以求出Db的解析解为
(13)
4) 固定Da,Db,Wb,Ya,Yb更新变量Wa, 关于Wa的目标函数可写为
(14)
引入松弛变量F, 式(14)写为
(15)
关于变量F也是一个典型L1范数最小化的问题, 对应的最优解也可以通过迭代收缩算法[14]得到. 接下来, 引入一个新的中间变量U
(16)
U可以通过直接求导获得
(α2WbYbET+WbYbFT+WaYa),
(17)
式中:I1∈Rk×k为单位矩阵. 在确定了U后, 通过直接求导可以得到Wa的解析解为
(18)
式中:I2∈Rd×d为单位矩阵.
同理, 用上述方法可以求出Wb的解析解为
(19)
为便于理解模型(3), 将它的求解算法总结在表 1 中.
表 1 基于身份一致性和不相关约束的行人重识别训练算法
在识别过程中, 首先利用已学习的字典Da,Db, 通过以下公式获得每个测试样本Xa1,Xb1的编码系数Ya1,Yb1
(20)
(21)
然后使用训练中得到的分类器Wa,Wb, 通过以下方法获得每个测试样本的身份信息Ba1,Bb1
Ba1=WaYa1,
(22)
Bb1=WbYb1,
(23)
在行人重识别研究中[15-18], 常用的数据集包括VIPeR, GRID, PRID2011和CUHK01. 每个数据集都有各自的特点: 在VIPeR数据集中, 由于每个相机所处的环境条件不同, 捕获到的图像背景、 视点、 姿势和照明存在较大差异; GRID数据集存在大量不相关的行人干扰图像, 并且两视角之间的遮挡、 照明和背景情况存在差异; PRID2011数据集中的行人图像由室外环境下的两个不重叠相机捕获, 并且每个视角下都包含行人干扰图像; 在CUHK01数据集中, 每个身份在每个相机视角中都有两张图像, 此数据集中的所有图像都来自安置于校园内的两台不同的相机. 在这4个数据集上进行实验, 可以较全面地验证本文算法的鲁棒性和有效性.
实验中将图像数据集随机分为两组: 一组用于训练, 另一组用于测试. 重复此过程10次, 获得行人匹配率的平均性能. 采用累积匹配特性(CMC)曲线对性能进行定量评估. 在所提出的模型中有7个参数, 包括训练迭代次数M, 字典Da,Db的原子数da,db, 4个正则化参数α1,α2,α3,α4. 在实验中, 上述参数的值分别被设置为M=25,da=db=84,α1=3.4,α2=2,α3=0.05,α4=0.5. 接下来将详细讨论这些参数对模型识别力的影响.
第1组实验基于VIPeR数据集进行, 从不同视角捕获的行人图像示例如图 2 所示. VIPeR数据集包含从两个任意视角拍摄到的632个行人图像对. 实验中, 将632对行人图像随机分为两组:一组用于训练, 另一组用于测试, 重复此过程10次, 得到行人匹配率的平均性能. 将本文算法与6种具有代表性的算法进行比较, 包括GOG+XQDA(2016)[4], MCKCCA(2017)[15], MHF(2017)[19], DMLV(2017)[20], SL(2017)[5], DMVFL(2018)[16]. 表 2 为在VIPeR数据集上本文方法和其他方法的识别性能, 最佳结果以下划线突出显示. 尽管本文算法在Rank 20时的匹配率略逊于DMVFL算法, 但在Rank 1,5,10相对于次优方法分别提高了1.12%, 0.87%, 0.41%.
图 2 VIPeR数据集的行人图像示例Fig.2 Person image examples taken from the VIPeR dataset
表 2 不同算法在VIPeR数据集的识别率比较
Tab.2 Performance comparison of different algorithms on VIPeR
算法Rank 1Rank 5Rank 10Rank 20GOG+XQDA49.7079.7088.7094.50MCKCCA47.90-87.3093.80MHF44.5671.5083.0392.40DMLV44.3074.4084.7092.70SL44.5671.8983.25-DMVFL46.4074.9086.1095.00本文算法50.8280.5789.1194.43
第2组实验基于GRID数据集进行, 从不同视角捕获的行人图像示例如图 3 所示. GRID数据集包含250个行人图像对, 并且在其中一个视角中存在775张不属于250个行人对中的干扰图像. 在该实验中, 随机选择125个行人身份的图像作为训练数据, 并使用剩余的125个行人对的图像以及775个无关的行人图像进行测试. 重复以上步骤10次, 将平均识别率作为最终识别结果. 为了说明本文算法的有效性, 将所提方法与一些具有代表性的方法进行比较, 包括LSSCDL(2016)[21], DR-KISS(2016)[17], GOG+XQDA(2016)[4], SLSSCDL(2017)[18], MHF(2017)[19], DMLV(2017)[20], MKFSL(2017)[22], DMVFL(2018)[16], CSPL(2018)[23], SRR+MSTC(2019)[24]. 表 3 列出的实验结果表明了本文算法在GRID数据集上显示出很好的识别率, 分别在Rank 1,5,10,20比次优方法高出1.60%, 0.08%, 2.36%, 3.00%.
图 3 GRID数据集的行人图像示例Fig.3 Person image examples taken from the GRID dataset
表 3 不同算法在GRID数据集的识别率比较
Tab.3 Performance comparison of different algorithms on GRID
算法Rank 1Rank 5Rank 10Rank 20LSSCDL22.40-51.2861.20DR-KISS20.6039.3051.4062.60GOG+XQDA24.7047.0058.4069.00SLSSCDL22.60-52.4063.44MHF19.8440.4856.8862.32DLMA19.8035.6046.5058.10MKFSL26.4047.2055.8067.80DMVFL26.7049.2058.6068.90CSPL25.8446.4858.4070.16SRR+MSTC26.5646.3256.1666.80本文算法28.3249.2860.9672.00
第3组实验基于PRID2011数据集进行, 从不同视角捕获的行人图像示例如图 4 所示. 该数据集由室外环境下两个不重叠相机捕获的图像组成, 每个人在每个视角中只有1个图像. 本实验随机选择100个行人身份的图像作为训练数据, 另外100个行人身份图像和749个干扰身份图像作为测试数据. 该过程被重复10次, 并将平均结果作为最终识别性能. 由于存在干扰因素, 此数据集更具挑战性. 在PRID2011数据集上将所提方法与一些具代表性的方法进行了比较: LOMO+XQDA(2015)[4], LDNS(2016)[25], GOG+XQDA(2016)[4], M(2017)[26], LADF(2017)[20], DMLV(2017)[20], MKFSL(2016)[25], APDLIC(2018)[27]. 由表 4 的比较结果可知, 本文所提方法在不同Rank值上的识别率最高, 分别比Rank 1,5,10,20的次优方法高出4.60%, 4.30%, 6.00%, 1.00%.
图 4 PRID2011数据集的行人图像示例Fig.4 Person image examples taken from the PRID2011 dataset
表 4 不同算法在PRID2011数据集识别率比较
Tab.4 Performance comparison of different algorithms on PRID2011
算法Rank 1Rank 5Rank 10Rank 20LOMO+XQDA26.7049.9061.9073.80LDNS29.8052.966.0076.50GOG+XQDA35.9060.1068.5078.10M15.2036.1048.3060.40LADF16.2034.0044.4059.50DMLV27.8048.4059.5072.70MKFSL34.2058.0066.6078.20APDLIC25.0054.0067.0082.50本文算法40.5064.4074.5083.50
第4组实验基于CUHK01数据集进行, 从不同视角捕获的行人图像示例如图 5 所示. 在该数据集中有971个行人身份, 是由安置在校园环境中的两个不同相机捕获. 与上述数据集不同, 该数据集的每个行人在每个相机视角中都有2个图像. 在此数据集中, 一个相机视角捕获行人的正视图或后视图, 另一个相机视角则主要捕获行人的侧视图. 在实验中, 随机选择485个行人图像对进行训练, 剩余的486个行人图像对进行测试. 重复此过程10次, 并将平均结果作为最终行人匹配率. 表5显示了所提出算法与LOMO+XQDA(2015)[4], TCP(2016)[28], DRJRL(2016)[29], LDNS(2016)[25], GOG+XQDA(2016)[4], DR-KISS(2016)[17], LADF(2017)[20], DMLV(2017)[20], MVLDML(2018)[30], CSPL(2018)[23], GOG+TDL(2019)[31]的比较结果. 本文所提方法显示出非常好的结果, Rank 1值比次优算法的性能高5.69%.
图 5 CUHK01数据集的行人图像示例Fig.5 Person image examples taken from the CUHK01 dataset
表 5 不同算法在CUHK01数据集识别率比较
Tab.5 Performance comparison of different algorithms on CUHK01
算法Rank 1Rank 5Rank 10Rank 20LOMO+XQDA63.2083.9090.0094.40TCP53.7084.4091.1096.30DRJRL57.2281.0788.4493.46LDNS60.8081.7088.4093.50GOG+XQDA67.3086.9091.8095.90DR-KISS63.5082.5090.5093.60LADF58.0083.7090.5094.90DMLV65.0085.6091.1095.10MVLDML61.4082.7088.9093.90CSPL69.7587.3092.4996.30GOG+TDL70.1887.3091.9496.45本文算法75.8791.7095.7097.97
2.6.1 参数的影响和选择
字典Da和Db的原子数大小是影响算法性能的关键参数. 由于在识别方案中使用欧式距离来计算测试样本之间的相似度, 要求字典Da和Db的原子数da、db保持一致(即da=db=d), 以保证对应的编码系数维度相同. 固定其余参数, 调整字典的原子数d从10变为800. 从图 6 的结果可以看出, 在整个实验中, 当d=84时, 本文方法可以实现较高的识别精度.
图 6 PRID2011数据集上不同字典大小对应的性能Fig.6 Performance for different dictionary sizes on PRID2011 dataset
其次, 迭代次数的选择对模型的性能也有一定的影响. 固定其余参数, 逐渐调整迭代次数从5到60, 由图 7 可以看出, 当迭代次数达到25时, 本文算法可以实现较高的识别性能.
除了字典Da,Db和训练迭代次数M的大小外, 还需要设置4个标量参数, 即α1,α2,α3,α4, 通过交叉验证来确定这些参数的值. 在此过程中, 仅讨论基于PRID2011数据集上的实验. 首先, 本文分别将α2,α3,α4固定为2, 0.05和0.5, 然后讨论不同的α1值对模型的影响. 图 8(a) 为当α1为不同值时的曲线, 可以看出, 当α1=3.4时, 本文方法可以获得更好的性能. 从图8(b)可以发现, 将α1,α3,α4固定为 3.4, 0.05和0.5时, 取α2=2时模型具有更好的性能. 图8(c)显示了当α1=3.4,α2=2,α4=0.5时, 不同的α3值对模型性能的影响, 从曲线中可以看出α3=0.05时效果最好. 图8(d)表明了α1,α2,α3在分别固定为 3.4, 2, 0.05时,α4=0.5 时模型能达到令人满意的性能.
图 8 不同的α1,α2,α3,α4值对算法识别率
2.6.2 收敛分析
式(3)对变量{Da,Db,Wa,Wb,Ya,Yb}是非凸的, 但对于单个变量是凸的. 诸如上述的收敛问题已经被广泛研究, 并可通过交替迭代方法解决. 因此, 本节对字典和分类器的收敛性进行分析. 图 9 显示了PRID2011数据集上字典和分类器的收敛曲线. 可以看到, 经过不到10次迭代, 所有变量的迭代差值逐渐收敛为0, 变量值趋于稳定.
图 9 Da,Db,Wa,Wb在PRID2011数据集上的收敛曲线Fig.9 The convergence curve of Da,Db,Wa,Wb on PRID2011 dataset
目前大部分的行人重识别算法很少将行人视觉特征和行人身份信息相结合, 本文提出的算法充分考虑了这一联系, 将原始样本特征通过分类器转换到身份信息空间. 同时, 为了提高分类器的可分辨性, 引入身份一致性和不相关约束, 使不同行人的身份信息保持一定距离, 而同一行人的身份信息则尽可能接近. 在相似性度量方面, 大部分算法采用编码系数进行度量, 而本算法将编码系数通过分类器转换成身份信息进行行人匹配, 有效地利用了行人的身份信息. 在4个数据集上进行的实验结果表明该算法是有效的, 与其他一些相关方法相比, 它可以更有效地改善识别性能.