基于轻量孪生网络的目标跟踪算法

2021-12-19 07:38王勇张志腾王瑛

电脑知识与技术 2021年32期

王勇张志腾王瑛

摘要：行人目标跟踪是智能监控领域的一个重要课题。传统的目标跟踪技术，在跟踪精度上没有深度网络高，但深度卷积神经网络计算量极大，导致计算速度缓慢无法实时跟踪。随着卷积网络的不断发展，孪生网络在目标跟踪这一课题上脱颖而出，其根据子网共享权重的特点，可以训练出有效的网络只需要少量的参数，少量的参数也就意味着不易于过拟合以及运行速度快等突出的优点，适用于实时行人目标跟踪。文中采用孪生网络和轻量骨干网络构建目标跟踪网络，实现实时高精度的目标跟踪算法。

关键词;目标跟踪;孪生网络;轻量网络;实时跟踪

中图分类号：TP18 文献标识码：A

文章编号：1009-3044（2021）32-0001-03

Object Tracking Algorithm Based on Lightweight Siamese Network

WANG Yong， ZHANG Zhi-teng， WANG Ying

（School of Computers， Guangdong University of Technology， Guangzhou 510006， China）

Abstract： Pedestrian object tracking is an important subject in the field of intelligent monitoring. The traditional object tracking technology is not as high as the deep network in tracking accuracy， but the deep convolutional neural network has a huge amount of computation， which leads to slow computing speed and unable to track in real time With the continuous development of convolution network， siamese network in object tracking on the subject， according to the characteristics of the subnet Shared weight， can train the effective network only need a small amount of parameters， a small amount of means is not easy to fitting parameters and running speed of such outstanding advantages， suitable for real-time object tracking of pedestrians. In this paper， the siamese network and the lightweight backbone network are used to construct the target tracking network， and the real-time and high precision target tracking algorithm is realized.

Key words：object tracking;siamese network;lightweight network;real-time tracking

现代社会智能化发展飞快，越来越多的监控摄像头以及视频图像分析技术应用于我们的日常生活中[1]。如商场中使用监控摄像头来关注分析顾客行为以防止顾客破坏超市的公共秩序以及道路上的红绿灯处监控摄像头用于监控来往车辆是否违反交通规则以此来约束司机不当行车行为，维护交通秩序。未来监控视频分析技术还可应用于大量聚集人群行为监控分析，实时分析人群行为，当发生暴动及斗殴等不良行为时自动报警以防止大规模冲突斗殴事件发生时未能及时发现并出警的情况发生。

由此可见，监控摄像头将会越来越普及，安装至各个公共场合甚至于各家各户中，其硬件成本随着时间的推移也会越来越低，视频分析技术也将会越来越精进，此时大商场中遍布大量摄像头将是一种必然的趋势。在这种大环境下，如果只将摄像头用于监控顾客是否做出破坏超市公共秩序的行为，未免有点大材小用。沃尔玛、麦德龙以及华润万家这类超级商场巨头都在使用监控视频分析算法来分析顾客購物行为以提升顾客的购物舒适度甚至间接地提升商品的销售额，促进销售业绩上升。如沃尔玛采用监控摄像头来自动分析商品是否正确地摆放在合适的货架上，若不在则自动发出警告及时告知销售员及时将商品正确地放置回合适的货架上，以提升商场的整体整洁度和商品的有序度，方便顾客更好地找到相应的商品进而提升顾客的购物体验。孪生网络以其少量参数计算速度快的优点在近年来的实时目标跟踪领域脱颖而出，本文将通过改进全卷积神经网络SiamFC，以实现一个在商场环境下能够实时跟踪且精度优秀的轻量孪生网络SiamLight，提升商场监控的使用效率。

1 研究现状

视觉目标跟踪算法在广义上可分为两大类[2]：基于生成模型和基于判别模型的算法。第一类，通过历史帧的结果生成一个统计模型用来描述目标特征，能较好地处理目标在被跟踪的过程中丢失的情况，但这类算法忽略目标的背景信息，导致在背景非常混乱时易丢失目标。第二类，基于判别模型的算法主要是通过学习生成一个决策边界，以此来区分背景区域和目标区域。目前较为活跃的目标跟踪算法狭义上也分为两类：基于相关滤波的跟踪算法和基于深度学习的跟踪算法。

第一类目标跟踪算法，以较佳的运行速度和优秀的性能，在工业界和学术界中研究使用频率都较高，发展比较快速。

Bolme等人[3]提出最小平方和跟踪算法，这是相关滤波算法第一次应用在目标跟踪领域，该算法通过将均方误差最小化以达到在后续图像中找到目标的最可能出现的位置。

基于深度学习的目标跟踪算法可以分为基于回归网络、孪生网络和基于其他网络的目标跟踪算法[4]。

Held等人[5]在2016年提出了基于回归网络的目标跟踪算法，该算法第一次在目标跟踪领域使用孪生网络，第一次实现了实时跟踪的深度学习算法。

Bertinetto等人[6]提出全卷积孪生网路SiamFC算法，SiamFC的网络结构如图1所示，SiamFC网络通过骨干网络（AlexNet）对图像提取特征，再将两个特征图做卷积操作，最终得到响应值最高的位置就是要映射出预测框的位置。

Fan等人[7]提出了结构感知视觉跟踪网络SANet该网络基于循环神经网络。SANet在学习过程中对目标的自身结构进行编码，不仅提高了抗同类相似源干扰的能力，也提高了对不同类目标源的鉴别能力。同时，该算法通过采用跳层连接策略融合RNN和CNN的特征，为网络提供了更多的信息，经过验证该算法同样也有较好的跟踪效果。

基于孪生网络的目标追踪器可以克服其他深度学习网络一个重要缺点，即当用预训练网络来提取特征时导致网络速度非常慢的问题。孪生网络在具有较快速度的同时也有较强的跟踪性能，本文也将基于该类目标追踪器开展实验。

2 轻量孪生网络

本文的孪生网络结构如图2所示，该孪生网络由分支t和x组成。分支都使用一个轻量级卷积神经网络，异步通过卷积神经网络进行训练，提取特征，之后对两个分支皆做卷积操作得到两张特征图，再对两张特征图进行卷积操作，得到响应图，响应图中的响应值代表两张图的相似度。最后，目标跟踪的过程可以表示为一个互相关操作，如公式（1）所示：

[ft，x=φx*φt+b] （1）

式子中[φ（?）]表示轻量卷积神经网络，*表示以t的特征图为卷积核的卷积操作，b代表偏置。通过图2可以看到，图像t和x作为网络输入，最终输出为两个图像块所生成的响应图，在响应图中响应值最大的位置映射到待搜索图块中就是跟踪目标的位置。

本章孪生网络中的卷积神经网络使用了一个轻量的网络作为孪生网络跟踪算法的骨干网络。该骨干网络有3个最大池化层（Max pooling）和13个卷积层，采用的是1×1和3×3的两种卷积核，在卷积层之后都进行归一化处理，来达到对模型进行归一化且加速训练模型的效果。本章的卷积神经网络的各层的卷积核、输入输出通道数以及步长等详细信息如表4-1所示，相比于常用作骨干网络的VGGNet和AlexNet，本章的网络结构的特点是频繁地使用了1×1这一小卷积核，它的优势是可以将通道数量压缩变小，有利于提高使用较深的卷积神经网络时的速度，且它也可以减少网络中参数的数量，使得在一些小显存的GPU设备上也能让该目标跟踪算法运行起来，不仅如此，使用1×1卷积核还一个最大的好处是可以提高跨通道信息和非线性表达的混合，从而提高网络的泛化能力。

3 实验

3.1实验环境与网络训练

本文的跟踪算法使用的编程语言是Python语言在操作系统为ubuntu18.04内存为8G、CPU为Intel i7-8750H并搭载GTX1060显卡的个人电脑上进行模型的训练和实验评估。

本文选择中科院发布的一个目标追踪数据集GOT-10k[121]作为训练集，通过随机梯度下降法求解公式3.1来对目标跟踪网络进行训练，训练参数如下：模板图像t和搜索图像x都裁剪缩放成127×127×3和255×255×3。卷积层的初始学习率设置为0.0008，训练过程包括60次迭代，每个迭代包括3000个样本对，每6个次迭代学习率就变成原来的0.89。

3.2实验结果与分析

本文测试数据集使用VOT2019数据集进行实验将本文算法SiamLight与SiamFC和KCF算法进行对比。实验结果如表2所示：

表2可以看出SiamLight的EAO、准确性、鲁棒性都最优，且帧率相比SiamFC提升89.1%。由此我们可以得到本文中所应用的轻量级网络相比于SiamFC中的AlexNet网络有更强的特征提取能力，同时本文算法多次运用1×1的卷积来减少参数数量，使得SiamLight在有较好精度的情况下也有很快的运行速度，同样相比于传统KCF算法性能领先更明显，这表明了本文的改进算法轻量级孪生网络在实时目标跟踪上任务有着优异的表现。

参考文献：

[1] 朱红岷，戴道清，李静正.基于图像处理的变电站视频智能分析研究[J].计算机工程与应用，2018，54（7）：264-270.

[2] 孟琭，杨旭.目标跟踪算法综述[J].自动化学报，2019，45（7）：1244-1260.

[3] Bolme D S，Beveridge J R，Draper B A，et al.Visual object tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.June 13-18，2010，San Francisco，CA，USA.IEEE，2010：2544-2550.

[4] Luo W H，Xing J L，Milan A，et al.Multiple object tracking：a literature review[J].Artificial Intelligence，2021，293：103448.

[5] Held D，Thrun S，Savarese S.Learning to track at 100 FPS with deep regression networks[C]//Computer Vision - ECCV 2016，2016：749-765. DOI：10.1007/978-3-319-46448-0_45.

[6] Bertinetto L，Valmadre J，Henriques J F，et al.Fully-convolutional Siamese networks for object tracking[C]//Computer Vision - ECCV 2016 Workshops，2016：850-865. DOI：10.1007/978-3-319-48881-3_56.

[7] Fan H，Ling H B.SANet：structure-aware network for visual tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops （CVPRW）.July 21-26，2017，Honolulu，HI，USA.IEEE，2017：2217-2224.

【通联编辑：唐一东】

收稿日期：2021-07-25

基金项目：广东省科技研发专项（2015B090923001）

作者简介：王勇（1968—），男，湖南长沙人，博士，教授，研究方向为物联网、非结构化信息处理与智能计算;张志腾（1997—），男，硕士研究生，研究方向为目标跟踪;王瑛（1970—），女，湖南长沙人，高级工程师，研究方向为云计算、大数据、知識工程。