胡芮嘉,阮修洁,徐光剑,赵 炜,孙燕凌,李夏风,王忠林,张 勇
(1.重庆市公安局, 重庆 401147;2.重庆市公安局巴南区分局, 重庆 401320;3.重庆市璧山区公安局, 重庆 402760;4.重庆中科云从科技有限公司, 重庆 401120)
在“智慧城市”“平安城市”等较大区域安防应用中,需要构建非重叠、广覆盖的多摄像头阵列网络进行大范围人员识别检索,以人脸识别技术为代表的非接触式生物特征识别技术在当下发挥了重要作用。然而,受限于各种因素影响,在多数场景中很难获取到可以进行有效识别的人脸信息。通过更为容易获取的人体衣着外貌监控人像,辅助或代替人脸信息对人员进行识别、检索和查找,构建人员完整活动轨迹,实现对人员的跨镜头识别,成为案事件侦办中迫切需要的技术需求。
图1 多粒度网络结构
在计算机视觉研究领域,将通过在某个镜头下的一个监控人像,在跨多个镜头场景下的已知人像中进行同身份图像相似度检索的任务称为人体重识别(Person Re-Identification,简称Re-ID)[1]。人体重识别任务的挑战性在于人像图片内在的复杂性:受到拍摄角度、摄像头标定、客观遮挡物、环境背景等因素的干扰,人像在不同的镜头下的外貌特征可能表现不一致,这对人体信息特征表示的判别性和鲁棒性提出了较高的要求。因此提出了一种在不同粒度下结合全局信息和局部信息的特征学习策略,并设计了一种多分支形态的多粒度深度网络架构。这一结构同时学习全局特征表示分支和局部特征表示分支。在多粒度网络的每个局部分支中,全局合并的特征图分成不同数量的条带作为局部区域,独立地进行局部特征表示学习。全局分支与局部分支共享底层权重,相互进行特征信息的补充和促进,从而进一步提升深度学习人体特征表示性能。
在多粒度人体重识别算法实现的高精度人体身份检索的基础上,结合大数据云计算平台建设,以及实战技战法经验,进一步设计了集实时监控、轨迹检索、人体属性分析、离线视频快速分析、人体- 人脸一体化应用于一体的跨镜识别实战应用系统。通过对前端部署的监控设备结构化处理,从海量视频中提取人体图片,并能依据人员体貌、衣着等特征,对提取/抓拍的人体图片进行深度识别、建模分析,形成人体属性、人体模型等结构化数据,为业务应用提供统一查询检索、交换共享、统计分析等基础数据支撑服务。
人体特征表示作为算法核心,性能决定了人体重识别的检索精度。基于深度卷积神经网络的特征表示方法,在性能上更优于手工特征表示。在此基础上,提出多粒度网络(Multiple Granularity Network, 简称MGN)的网络结构如图1所示。
MGN使用ResNet-50[2]作为骨干网络,它有助于在某些Re-ID系统中实现有竞争力的泛化性能。多粒度网络与原始骨干网络最明显的不同是,res_conv4_1残差块之后的后续部分,被分为三个独立的分支,但与原始残差网络共享相似的网络结构。在上部分支中,在res_conv5_1残差块中使用带有下采样步长为2的卷积层,紧接着最终输出特征图后,在相应的输出特征图上执行全局最大池化(Global Max-Pooling, GMP)操作。为了去除长维度特征的冗余结构,以使特征获得强大的判别能力,并减少存储开支,网络中使用具有批归一化(Batch Normalization)和ReLU激活函数的1×1卷积层,将2 048维特征减少为256维。该分支学习了没有任何局部划分信息的全局特征表示,故命名为全局分支。中间分支与下部分支同全局分支相比拥有相似的网络结构。不同之处在于,MGN在res_conv5_1分区块中未进行任何下采样操作,以保留适当的局部特征感受区域,并且每个分支中的输出特征图在水平方向上均匀地分成几个条带,在此基础上,各局部分支中的不同条带独立执行与全局分支相同的后续操作,以学习局部特征表示。这些分支称为Part-N分支,其中N表示未降维特征图上的局部分块数。
在训练阶段,每个独立的全局或局部分支都由以分类学习为目标的交叉熵损失函数(Cross entropy loss)[3],和以度量学习为目标的三元组损失(Triplet loss)[4]共同约束。其中交叉熵损失函数可用公式表述为:
其中N表示训练阶段的批样本大小,C表示训练数据集里的类别数目。
三元组损失(Triplet loss)函数可用公式表述为:
这两种损失函数都广泛用于各种深度人体重识别方法中。在多粒度网络结构中,为避免权重调整问题和收敛困难,提出了度量前分类约束结构。该方法将交叉熵损失函数应用于各局部分支中的256维局部特征(如图1黑色短虚线),以及所有未降维的池化后2 048维全局特征(如图1黑色粗虚线),但是将三元组损失函数应用于所有降维特征(如图1黑色粗实线),这与传统的使用三元组损失函数的训练方式不同。此设置采用了一种从粗到精的机制,即将未降维特征作为学习分类的粗略信息,将降维后特征作为具有学习到的度量指标的精细信息。与在相同级别的降维特征上施加共同约束效果相比,这一设置实现了鲁棒的收敛。此外,局部特征没有进行三元组损失约束,这是由于未对齐或其他问题,局部区域的内容可能会发生巨大变化,从而使三元组损失倾向于在训练过程中破坏模型。在推理阶段,所有降维特征串联为高维最终特征,从而结合全局和局部信息以完善特征表示全面性。
在所有候选数据集上将MGN与当前主流的部分方法进行了比较,结果如表1所示。对于Market-1501数据集[5],由于后处理重排序方法[11]对mAP和Rank-1准确性的改善有特殊效果,结果根据是否进行后处理重排序被划分为两组。在Market-1501单查询模式(SQ)下,MGN在没有后处理重排序的情况下获得了对比中最好的结果,达到了Rank-1/mAP=95.7%/86.9%,比之前性能最优的方法Mancs[10]高出1.9% 的Rank-1精度和5.3%的mAP。在进行后处理重排序后,结果可以提高到Rank-1/mAP=96.6%/94.2%,大大超过了领域里现有的主流方法。MGN在数据规模更大、人体拍摄条件更为复杂的DukeMTMC-ReID数据集上也表现出色,实现了Rank-1/mAP=88.7%/78.4%的最新结果,比Mancs在Rank-1中高出5.4%,mAP提升了9.2%。值得注意的是,该数据集上MGN相比其他方法表现了更大的性能优势,这一定程度说明本方法对更大数据规模场景下的充分实力。MGN在CUHK03数据集[6]的标记设置上达到Rank-1/mAP=68.0%/67.4%,在CUHK03检测设置上达到66.8%/66.0%,大幅优于参与对比的其他公开结果。对比中其他的人体重识别方法也都有自己的特性:PCB+RPP方法同MGN一样采取了基于条带的单粒度局部特征学习,且使用非端到端学习进行后续特征对齐;HA-CNN和Mancs方法利用了注意力机制实现了性能的提升;MLFN则采用了多尺度特征表示方法。MGN仅借助多粒度学习策略和有效的度量学习实现了在主流数据集上,超越其他顶尖方法的检索性能,这充分说明了多粒度策略的有效性。
表1 多粒度网络与其他顶尖方法在主流数据集上的对比
图2 跨境识别系统部署图
利用人体重识别进行跨摄像头人员检索,确定身份后可以实现任意人员在其他镜头中的出现情况,从而大致确定人员出现位置。多粒度网络人体重识别的高精度且鲁棒的识别性能,为构建高精度跨镜识别系统提供了检索层面的基础算法保证。真正实现跨镜识别系统,需要从实战业务出发,集实时监控、轨迹检索、人体属性分析、离线视频快速分析、人体- 人脸一体化应用于一体。下面主要对跨镜识别系统的架构、功能层面进行详细阐述。
跨镜识别系统由流媒体服务、智能解析服务、应用服务、文件存储服务、数据库服务组成,如图2所示。
(1)流媒体服务:支持RTSP直连前端摄像头获取实时视频流,支持以GB/T 28181协议对接视频联网/共享平台,获取实时或回放视频流数据。
(2)智能解析服务:对视频流进行智能解析,从视频流中分析出人体,一并提取出人体结构化属性信息。
(3)应用服务:基于智能解析服务与人体抓拍数据,为用户提供以图搜图、离线视频分析、视频点播等功能的业务系统。
(4)存储服务:存储视频流解析所产生的全景照、人体抓拍照以及用户上传的离线视频数据。
(5)数据库服务:存储人体解析的结构化属性信息以及应用系统产生的业务数据。
系统主要功能包括视频点播、人体属性查询、视频回放、人员踩点分析、离线视频分析、以图搜图、设备管理、人员轨迹展现等。
(1)视频点播:支持对一个或多个摄像头点位进行实时视频或视频录像进行点播;支持对视频播放画面可进行暂停、快播、慢播、人员目标截取等操作;在实时视频播放画面中,实时推送人体解析结果。提供设备资源快速选择工具,如框选、圈选、线选;提供地图全屏、卫星/矢量地图切换、热力图/设备资源切换等工具;丰富用户在地图上操作应用,满足业务图上作战的业务需求。
(2)目标检索:支持人体目标图片进行以图搜图,且可进行多张目标图片的融合检索,还可利用人体结构化信息,如性别、年龄段、衣着颜色、衣服款式等进行组合查询;在展示结果中,支持图片放大,收藏、录像片段调阅、全景图查看、再次检索、图片替换、轨迹查询等操作;当用户检索时,推送与检索图片相似的其他用户的检索记录,并在结果中展示其检索的相关信息。
(3)轨迹检索:支持人体目标图片进行以图搜图,且可进行多张目标图片的融合检索,还可利用人体结构化信息,如性别、年龄段、衣着颜色、衣服款式等进行组合查询;以时间轴与GIS地图相结合,直观展示用户运动轨迹,并可动态对该人员目标运动轨迹进行回放展示。
(4)踩点分析:根据输入的时段与停留时长,从人体抓拍数据中快速分析出长时间停留的人员目标,帮助用户快速进行可疑目标排查,同时,还可对分析的结果进行以图搜图、轨迹检索等操作。
(5)离线分析:用户可批量上传视频文件,支持的视频格式为mp4、avi、rmvb格式,对上传的视频文件进行全量加速分析,并实时推送解析结果,大大提高视频研判效率,在保证视频解析结果质量下,一个小时的高清视频,在几分钟内解析完毕。
(6)录像分析:系统可按照GB/T 28181协议与联网/共享平台进行对接,获取历史录像资源,进行全量加速分析,并实时推送解析结果,大大提高视频研判效率,在保证视频解析结果质量下,一个小时的高清视频,在几分钟内解析完毕。
图3 跨境识别系统界面
本文提出了基于多粒度网络的人体重识别(Re-ID)算法,设计了一种多粒度网络,此网络的一个分支用于全局特征表示,两个分支用于局部特征表示。与从语义区域学习不同,本文将图片平均分为许多个部分,并且在不同的局部分支改变分块的数量,以得到具有多粒度的局部特征表示。在主流数据集包括Market-1501、DukeMTMC-reID和CUHK03中的实验结果表明,此方法实现了超越现有的主流方法的重识别精度。