陈胜杰
摘 要:在智能视频监控场景下,由于摄像机视角、光照条件、姿态的不同,同一行人在不同场景下的外貌出现巨大差异。本文结合深度学习、视觉注意机制、稀疏表示等领域的理论与方法,重点研究视频的视觉特征表示和选择算法以及显著性多特征的融合方法,实现视频数据中视觉特征的多层次、多尺度提取,形成稳定、可靠的视频行人数据处理方法。
关键词:视频检索;深度学习;特征融合
中图分类号:TP391.41文献标识码:A文章编号:1003-5168(2020)05-0055-02
Abstract: In the intelligent video surveillance scene, due to different camera angles, lighting conditions, and attitudes, the appearance of the same pedestrian in different scenes varies greatly. Combining theories and methods in the fields of deep learning, visual attention mechanism, and sparse representation, this paper focused on the visual feature representation and selection algorithm of video and the fusion method of significant multi-feature to achieve the multi-leveland multi-scale extraction of visual features in video data, forming a stable and reliable video pedestrian data processing method.
Keywords: video retrieval;deep learning;feature fusion.
行人重识别[1]是智能视频监控的关键组成部分,目前面临诸多挑战。对于传统视频监控来说,在监控区域多,保存视频数据量大时,视频数据的查询、检索将变得极其复杂。将视觉主观注意模型引入智能视频监控系统中,可以实现对视频场景中感兴趣目标的自动定位、辨识与跟踪,对检测目标的行为实施分析与判断。行人重识别技术是智能视频监控系统中的关键技术之一,当前有必要对行人重识别计算模型进行深入、有效的研究,提高智能视频监控系统的准确性。
“十三五”期间,我国社会经济蓬勃发展,科技创新日新月异,人们大力开展“平安中国”活动,加强视频监控和网络化建设和应用。目前,视频分析和图像检测技术在打击犯罪、安防、智慧城市、民生服务等方面发挥了越来越强大的作用[2]。
特征表示作为智能视频监控、视频分析的关键技术之一,逐渐引起研究者的关注,被广泛地应用于行人重识别、图像检索、图像分类及人脸识别与验证等经典问题中,成为计算机视觉领域中最热门的研究课题之一。另外,受“平安中国”活动推动,智能视频监控得到极大的推广和应用,图像、视频资源变得越来越丰富,海量的图像信号与视频数据势必为图像理解、识别、检索、视频摘要、目标跟踪等系统的执行效率带来挑战。然而,研究人员指出,行人通常只是整个图像或视频帧的一部分。近年来,计算机视觉领域的研究一直致力于如何准确有效地从复杂的图像场景中提取出有用的行人视觉信息,为后续的行人识别提供更加简洁、精细的图像内容表达。众所周知,生物视觉系统具有非常高效的数据筛选能力,能够对复杂场景进行快速分析和理解,这得益于生物视觉的注意机制。目前,关于生物视觉注意的研究已经很多,对人和动物大脑的认知过程进行了分析和讨论。受此启发,计算机视觉通过模拟人的视觉注意机制,能够有效地滤除和检测图像和视频数据中描述行人的重要目标,滤除场景中多余的背景视觉信息[3],从而降低计算机对图像和视频内容理解的复杂度,这是行人识别算法研究的核心目的。本文重點分析了基于视觉注意机制的行人重识别技术。
1 行人视觉特征表示
在行人重识别的应用中,全局的颜色、纹理、形状特征是最常使用的底层图像特征,但不足以表达行人图像局部细节的差异。因此,在本项目中,首先将图像进行超像素划分,针对超像素图像块,一方面利用卷积神经网络(Convolutional Neural Network,CNN)来获取图像全局特征,另一方面采用基于视觉注意机制的深度网络学习超像素块的局部显著特征。此外,考虑到视频中行人图像本身具有的特性,在构建特征描述子时,还将引入申请人提出的局部结构描述子并结合图像显著性检测进行进一步完善,使它适应行人重识别场景,让该描述子可以有效地将颜色、纹理和形状结合在一起表征图像前景目标。上述三种描述子可以起到信息相互补充的作用,有利于提高行人重识别准确度。
训练阶段,首先在图像数据库上选取一定数量的行人图片构成训练样本,然后利用基于视觉注意机制的深度学习模型对训练样本进行全局特征和局部特征学习,从而得到更有区分能力的高级特征。同时,基于局部结构描述子,高级特征和低级特征都将作为显著性候选特征。测试阶段,对于任意一幅测试图像,首先利用训练好的深度模型,提取高级特征,然后提取局部描述子,最后利用显著性多特征融合分类器或距离度量进行行人重识别。
2 视觉注意网络建模
本文利用CNN作为空域特征深度学习网络模型。其中,CNN本质上是为识别二维形状而特殊设计的一个多层感知器,它的结构对平移、比例缩放、倾斜等变形具有高度不变性。这种性能优势对视频行人重识别尤为重要,因为在视频场景下,不同视频帧中的同一行人可能具有不同的角度、位置、姿态等。CNN的结构能够有效克服以上问题,保证所获得特征的鲁棒性和区分能力。因此,笔者将充分借鉴CNN的上述优点及在计算机视觉领域中的成功经验,以经典的Tensorflow或Pytorch神经网络模型为训练和学习平台,构建新的网络模型,完成行人重识别基本特征的学习,开辟一条特征提取及表示的新途径。
3 行人多特征显著性分析与建模
显著性是人类视觉对事物的某种质与量的度量感知。对于行人重识别,显著性特征是待识别行人有别于其他人的最根本特征。显著性意识具有以下特点:一是具有代表性,能使被识别的行人与其他行人具有明显的可分性;二是显著性意识与行人各种特征的测量单位无关,它反映了特征值对正确识别行人的贡献。利用它,行人特征可以分为最显著特征、次显著特征和一般显著特征等。由于行人图像受多种不可控因素影响,显著性度量准则不易采用确定形式的函数表示,应该采用一个统计量表示。也就是说,最显著特征对应最大概率值,次显著特征对应次大概率值,以此类推。因此,课题拟采用最小错误概率度量特征的显著性感知。
4 基于证据理论的决策级融合行人重识别
近年来,多源信息融合技术得到了迅速发展,行人重识别的多源信息融合大多采用像素级、特征级,很少看到决策级多源信息融合的行人重识别报道。DS证据理论是多源信息决策级融合的一种有效方法,本文将获得的显著性特征匹配作为证据,在行人目标集中建立基本可信度,然后在同一决策框架下,用合并规则将不同的特征合并成统一的特征信息表示。实际应用中,DS证据理论按照证据分配置信度函数给命题时,要受多种因素影响,不同方法可能产生不同的基本概率赋值公式,应根据具体情况确定。一般来说,要根据特征对行人目标的度量以及其决策的重要性与可靠性等来构造基本概率赋值。在DS证据组合规则中,各信息源所提出的证据是平等的。事实上,在各组信息源的可靠性、重要性不同的情况下,DS证据组合规则可能给出和客观情况不符合的组合结果。因此,本课题在前面研究特征显著性的基础上给出了基于最小错误概率的加权置信指派函数。
5 结语
本文将深度学习、人类视觉注意机制和图像稀疏性表示等技术引入行人重识别计算模型中,针对现有算法的几个关键问题设计研究方案,提高行人重识别的准确率和效率。其中,在外观特征提取和表示方面,要借鑒传统特征提取方法中的成功经验,结合深度学习算法,通过建立视觉注意卷积神经网络学习出具有良好鲁棒性和区分能力的视觉特征。除了图像理解领域,本文的研究成果也可以在计算机视觉、视频理解、视觉搜索、视频内容的监管和过滤等领域应用。
参考文献:
[1]彭志勇,常发亮,刘洪彬,等.基于HSV模型和特征点匹配的行人重识别算法[J].光电子·激光,2015(8):1575-1582.
[2]中国安全防范产品行业协会.中国安防行业“十三五”(2016—2020年)发展规划[EB/OL].(2015-10-09)[2019-12-28].http://xh.21csp.com.cn/c59/201512/11379782.html.
[3]丁宗元,王洪元,陈付华,等.基于距离中心化与投影向量学习的行人重识别[J].计算机研究与发展,2017(8):1785-1794.