视频监控系统异常目标检测与定位综述

2022-11-11 13:43农健陈伟业

电子技术与软件工程 2022年2期

农健陈伟业

（梧州学院广西壮族自治区梧州市 543000）

1 引言

室内外监控的数量越来越多的，传统的人为检测视频异常的方法的弊端逐渐暴露出来，比如因为工作人员本身的疏忽或者视频信息的繁杂，导致视频监控检测任务的效率不高。因此，采取智能监控视频自动检测异常行为对于维护公共安全和社会秩序有着极其重要的作用。从智能监控系统的需求出发，国外学者Valera归纳总结了自动异常检测监控系统的基本框架，还有许多西方发达国家都非常重视系统结构的公共交通行人监控项目来提升视频监控异常检测的效率，比如CROMATICA和PRISMATICA。我国学者也发起了实时智能视频监控预警系统，在北京地铁13号线得到了成功的应用，这有利于提升视频监控检测异常行为的效率，犯罪率得到了有效的降低。

为了研究清楚视频监控系统异常目标检测与定位，首先就需要明确异常的含义，不同的视频对于异常有着不同的定义，因此异常的定义标准取决于视频监控数据的本身，一般来说，将视频中出现的小概率事件就被称为异常行为。其次异常行为又被分为全局异常和局部异常，全局异常指的是在整个场景里，所有人的行为都是异常的，这类异常是从视频数据的某一帧开始就整个视频场景而言出现的异常行为。比如当商场发生火灾的时候，人们都非常害怕，从四面八方涌向出口。局部异常指的是在视频中个人行为与其他周围人的行为不同，比如有一些人在步行街到骑自行车或者别人都在吃饭的时候，有一个人只是呆呆地坐着玩手机等。视频异常检测就是从大量的视频数据中检测出异常世界，从而能够更好的维护公共安全和社会秩序。一般来说主要包括三个步骤，首先是前景提取检测到运动目标，提取目标的行为特征，根据异常行为识别分类的标准来检测目标的行为是否异常。

2 前景提取和目标检测

一般情况下，视频监控中的异常目标都是运动的物体和目标，但是如果视频中有大面积的背景和静止的物体，这在某种程度上会增加目标异常检测工作的难度，还有监控视频中还有可能会录进去各种各样噪音，这就使得特征提取和行为表示更加困难，这在某种程度上降低了异常检测的效率。因此，运动目标检测是智能异常检测系统的重要组成部分。传统的目标异常检测方法主要有帧差法、光流法等，所谓的侦差法指的是通过相邻帧之间的对比变化来检测运动目标的行为。光流法指的事将一个视频帧在视觉运动传感器的成像平面上的表达，常用的流光法主要有HS和HK。目前，在检测监控视频异常行为的时候，需要用到流光法来剔除视频背景信息得到运动目标的二维图像和三维时空兴趣块，比如Roberto等人对于监控视频进行有效检测，得到相关的二维图像，再进行特征提取和行为表示。还有Zhou Shifu等人采用光流法来提取运动信息的三维时空兴趣块，以此来输入三维卷积网络，这方法能够有效降低背景信息对于行为特征信息的影响，这有利于提升异常行为检测的效率和水平。

3 特征提取和行为表示

在研究监控视频异常行为的时候，高效的行为特征提取以及异常行为的快速检测对于提升视频监控系统异常目标检测与定位效率有着极其重要的作用，因此，国内外许多专家学者也提出各种各样的方法来进行特征提取和行为表示。就目前的情况来看，特征提取主要分为两类:一是通过手动设计的方式来提取特征，包括纹理、空间兴趣点、广流等，二是对于原始视频帧进行深度学习，得到运动目标深度学习特征，两种特征提取方式都以生物神经理论为基础，不同点在于手动设计提取特征是模仿人类视觉框架来实现的，而深度作息特征提取在于对数据本身的规律进行学习。

3.1 人工设计特征行为表示

人工设计特征主要是根据人类视觉特征的敏感度从图像中提取出有区分能力的特征，明确相关的物理含义。目前，常用的视频异常检测的人工设计特征主要包括纹理特征(MDT GLCM)、空间兴趣点(GSTIP MiSIFJ SIFT)等，比如Li Weixin等人用动态纹理混合对于正常人的行为进行建模，在根据异常行为的标准对于运动目标的行为进行判断，如果出现了异常值，就会被称为异常事件。在这一基础之上，Wang J从时空视频的角度出发，构建出一套完整的时空纹理模型，将所有的视频监控数据在人群纹理中的特征空间与模板行为进行比对，以此来实现异常检测的目的。Aravinda.Rao等人从统计学的角度出发对于异常行为的对比度、相关性等进行描述，以此为基础构建起异常行为框架，再将人群中的异常行为进行时空表达。从显著性的角度来说，我国研究学者提出异常事件检测方法。一方面通过对于连续视频帧之间的特征点，来构建起时空异常显著图，另一方面通过颜色对比来构造空间异常显著图，这有利于提升异常事件检测的准确性和有效性。MoSIFT是一种有效的行为特征描述方法，不仅能够检测出异常目标的兴趣点，而且还能够通过兴趣点光流强度来判断行为目标的运动强度，这一方法对于异常行为检测来说，有着极其重要的作用。比如通过MoSIFT算法来提取监控视频的特征，再利用核密度估计对于MoSIFT进行特征选择，以此来更好地消除其它信息对判断结果的影响。从Harris角度出来，对于监控视频中的局部变化的部分建立起时空局部结构，以此来计算时空描述符，将空间兴趣的概念不断向外拓展，从而能够不断提升监控视频异常行为检测的效果。除此之外，针对彩色图像运动行为目标描述的问题，Insaf Bellamine对于监控视频图像进行结构和纹理分析，以此来得到时空兴趣点，对于监控视频中的运动目标进行准确有效的描述。还有异常目标都伴随着运动目标的快速变化，光流法被广泛应用有异常目标检测中，通过光流对于运动粒子来区分运动目标的正常行为和非正常行为，还有采用光流多尺度直方图来提取目标的行为特征，MHOF不仅能够表达目标的运动信息，而且还应该表达目标的空间信息，以此来区分正常事件和非正常事件，在全局检测中取得了良好的效果。还有为了提取监控视频运动目标的局部区域特征，对于视频帧进行分割，得到各个区域空间的光流信息，以此为基础建立MRF模型来检测监控视频中的正常事件和非正常事件。从光流技术的角度出发，研究人员利用SL-HOF和ULGP-OF来提取视频特征，SL-HOF能够捕捉到时空兴趣点，ULGP-OF包含了2D纹理描述符和光流算法，在定位视频前景信息时，光流算法会更加准确，随后再采用OCELM对于两种描述符进行深度学习，以此为基础构建正常事件通用模型。

为了能够更好的进行监控视频异常检测，Reberto Leyva等人通过二进制的方法来检测异常目标的情况，对于视频帧以时间为单位进行分割，找到时空兴趣点，再采用二进制小波差异对于时空兴趣点进行重新编码，利用GMM对于前景占用率、汉明距离进行重新建模，完成异常检测与定位的目标。还有监控目标在运动的过程中会产生轨迹，而运动轨迹主要包含目标的长度、位置、运动程度等，通过将不同长度、位置的运动轨迹进行重新分类，各组各类运动轨迹进行重新建模，以此来区分正常事件和非正常事件。常见的轨迹稀疏重构的异常检测方法是指在监控视频中提取最小二乘三次样条曲线近似值来完成异常事件检测的目的。还有像素检测方法有一定的局限性，没有办法检测到全部的异常行为，只能测出速度和方向的异常，比如其余的车辆都是朝东走，只有一辆车朝西走或者这条路限速80km/h，有一辆车的速度达到了90km/h，但是很难检测到人的肢体动作异常，比如小偷或者恐怖分子相关的运动异常就没有办法检测出来。因此，笔者将两种检测方式融合在一起，从而能够更好的表达出目标物体的运动轨迹，不仅能够检测目标的速度和方向，而且还能够检测目标的局部动作，这有利于提升异常检测的效率，有效减少算法的计算辅导。从轨迹优化的角度来提升目标异常检测系统，这一系统主要分为两个部分，首先对于运动物体的轨迹信息进行有效的异常处理，如果检测出来有异常的行为应该及时报警，其次，采取密集视频分析算法来检测异常事件是否与人有关。

3.2 深度行为特征表示

通过手动设计开提取人工设计特征的方法有众多的理论基础，但是受人为因素的影响比较严重，没有办法客观的描述运动目标的行为。还有这种方法提取特征的方法对于数据库的依赖程度比较好，但是并不是所有的数据都能够被收集到数据库中，对于数据库中没有储存到的视频就没有办法进行比对。随着深度学习理论和卷积神经理论的飞速发展，为计算机视觉领域的研究提供了一个全新的方向，Simonyan Karen等人提出并行双流网络对于RGB图片的空间信息和光流图进行特征学习和行为判断，将两个网络的判别结果进行有效的分类，据大量的实验研究结果表明，双流网络对于特征学习和行为判断有着良好的效果。国内外许多研究学者也从各个角度出发去改良双流网络算法，比如convolutional two-stream network、temproal segment networks等，在双流网络的基础上，对于监控视频单帧进行二维特征学习，再采用光流表达帧与帧之间的关系，以此来弥补时空信息的不足。Tran Du等人提出了深度三维卷积神经网络将视频的连续帧作为输入对象，从而能够更好的获得视频帧的时域信息，有利于解决监控视频运动对象分类的问题。Zhou Shifu等人利用三维卷积神经网络有效解决异常行为检测和定位的们提，将监控视频中存在的时空兴趣块直接作为C3D的输入来进行学习。与此同时，Sabokrou Mohammad等人采取级联三维神经网络的方法，再通过三维自动编码器检测监控视频中的C3D完成对异常目标检测和定没的目标。除此之外，异常目标检测领域的深度学习方法有很多，常见有:SSD、YOLO等，为视频监控异常目标检测提供了一个全新的思路。还有Xu Hujuan等人将Fater-RCNN的思路应用与视频监控网络异常目标的定位，再结合C3D网络得到R-C3D网络，从而能够更好的对监控视频异常目标进行检测与定位。还有对于C3D网络进行检测的还有CDC网络，将卷积、反卷积技术应用到视频监控异常目标检测领域，在端与端学习的时候，能够准确预测监控视频每一帧的信息，取得了良好的异常目标检测与定位效果。

4 异常行为识别分类方法

根据上文我们可以知道异常行为主要包括全局异常和局部异常，根据学习过程中需要用到的样本类型，将异常行为识别分类的方法主要分为监督、半监督、无监督。

4.1 监督异常行为分类方法

在建模之前需要对所有的正常数据和非正常数据进行标记，属于传统的视频分类方法，对于视频异常检测来说就是二分类问题，经典监督分类方法主要包括支持向量机，比如Support Vector提出遗传算法特征选择与支持向量机训练混合优化模型认知，在最短的时间内能够快速获得最优特征子集和SVM参数，这有利于提升监控视频异常检测的准确率，采用自适应模拟退火遗传算法进行特征选择。ASAGA通过模拟退火算法的局部搜索能力有效解决了遗传算法慢收敛度和复杂度比较高的问题。除此之外，Kim H等人利用侧地线图和SVM对于监控视频异常目标行为进行有效研究，通过对人体关节的检测来实现异常检测的目的。近年来，随着深度学习和云计算技术的发展，为计算机视觉领域提供了全新的发展思路，卷积神经网络已经作为一种全新的监督学习方法应用与拥挤场景中的异常行为检测，比如有学者采取监督的方法对于运动目标的时空兴趣块进行标记，将所有的数据作为三维卷积神经网络的连续帧输入进行训练，再根据已有的模型中的时空兴趣块来判别异常行为，这有利于提升异常行为检测的效率。

4.2 半监督异常行为分类方法

工作人员需要对常规的视频数据进行标记，主要分为基于规则和基于模型的方法，具体来说，基于规则的半监督方法只对含有正常样本训练集进行相关的规则学习，如果发现有不符合规则的样本就被判断为异常行为，比如基于规则的稀疏编码方法来检测监控目标的异常行为，这种方法的在很短的时间内就能够完成异常检测，但是对于阈值选择比较敏感。Zhu Xiaobin等人将这一方法带入正常字典来衡量测量样本的异常。为了克服样本缺乏的问题，能够更好的检测目标的异常行为，有专家提出动态更新的双稀疏字典表示方法，先得到正常字典，然后对于需要检测的样本进行分类，如果分类检测出来的结果是正常，就会将这条信息加入正常字典，不断更新正常字典的内容，如果分类检测出来的结果是非正常，就会将这条信息加入异常字典，不断更新异常字典的内容。就目前的情况来看，用于解决异常分类问题在构建字典的时候，忽视了结构信息。Yuan Yuan等人利用正常数据信息来构建结构字典，在后续的测试阶段提出参考事件的概念，两者之间的相似性更强，没有办法再用结构字典来表示异常行为。基于模糊规则Albusac等人通过自动动态地设置正态分量的权重，这有利于提升监控异常目标检测的效率。还有Chen Zhengying等利用模糊聚焦方法和多个自动编码器的框架，通过这一框架对于运动目标的轨迹进行描述，以此来实现异常行为检测与定位的目标。还有在基于模型的方法中，通过正常样本来构成相关的模型，在检测的过程中，将偏离正常模型的数据判断为异常行为。目前常见的模型主要有高斯混合模型、马尔科夫随机场等，比如有专家学者利用人群分布信息和速度信息为基础来构建高斯混合模型，对于监控视频中的人群行为进行有效的检测。除此之外，还有专家学者从社会学的角度出发，提出了社会力模型，这为监控视频异常行为检测和定位提供了一个全新的研究思路。

4.3 无监督异常行为分类方法

无监督异常行为分类方法属于典型的聚类问题，不需要获得先验知识，仅仅单独依靠样本数据之间的连接来完成正常事件的聚类和建模工作，再将相似度比较低的事件判断为异常事件，以此来实现异常目标行为检测和定位的目的。Alvar M等人利用无监督学习框架来提升监控目标异常行为检测的目的，与其它检测方法相比，有着更好的鲁棒性。除此之外，还有专家学者利用非负矩阵分解方法对于特征空间进行学习，通过支持向量数据来检测监控目标的聚类程度。通过深度学习方法来实现无监督学习，Mahdyar Ravanbakhsh等人利用现有的技术生成对抗网络对于生成模型和判别模型以此来实现异常目标行为检测和定位的目的。

4.4 异常行为分类方法的优缺点

基于监督的视频异常检测方法操作和理解起来更加容易，可以利用已有的先验知识来选择训练样本，再通过反复的检验来提升监控视频异常目标检测的精确度。但是监督异常行为分类方法受主观因素的影响比较大，工作人员需要花费大多的时间和精力去选择和评估训练样本，而且这种方法还没有办法自动调整异常数据，因此如果样本数据更换了新的场景，就需要进行重新的设计和检测。基于半监督异常行为分类方法比如稀疏表示法操作起来更加简单，但是计算的过程却非常复杂，需要占用许多内存，对于检测设备本身的容量有着比较高的要求。还有半监督异常行为分类方法的计算速度比较快，很容易构建模型，但是模型分类效果对于样本中的数据参数比较敏感，还有这种方法很容易将没有录入模型的样本数据很容易就被判断为行为异常。基于无监督异常行为分类方法不需要任何先验知识，运算起来能够更加便捷，但是需要大量的分析和处理才能最终获得最可靠的结果，比如GAN网络可以通过无监督方式来表示监控视频的正常行为，但是最终的异常目标检测和定位还是需要依靠与正常视频的数据进行比对才能获得最终的判断结果。

5 视频异常检测数据集

就目前的情况来看，常见的数据集主要有UCSD、UMN、Hockey Fighr以及LV数据集等，本文重点介绍UCSD数据集，UCSD数据集主要包括两个部分ped1和ped2，两者都是通过安装在固定高度的摄像头来获得的视频，视频中人群的密度会随着时间的推移而发生变化，ped1包含34个正常行为视频序列以及36个异常行为视频序列，视频帧长为200，分辨率大约为158×238，它主要用于描绘人群的垂直移动，看到的人群流向是走进摄像头和远离摄像头，呈现出透视畸变的腾飞。ped2主要用于描绘人群的水平移动，包括16个正常行为视频序列以及12个异常行为视频序列，视频帧长在120～170之间，分辨率大约为360×240。还有USD数据集中所有的训练样本都包含了正常行为，测试集中的某一帧可能不存在或者存在1个或者2个异常行为，异常行为的主要类型有:滑冰、自行车、小汽车等。但是UCSD的ped1的物体分辨率非常低、ped2的遮挡问题又比较严重，所以我们说UCSD是一个挑战性比较强的局部异常数据集。

6 结束语

综上所述，本文主要讨论了前景提取和目标检测、特征提取和行为表示和异常行为识别分类方法，随着监控视频异常目标行为检测和定位技术的发展，取得了一定的成效，但是也存在一定的局限，比如在复杂的监控视频背景中，提取异常运动目标的特征比较困难，还有非正常事件的数量比较少，许多非正常事件的识别算法知识针对某一个摄像机，与实际视频监控的情况严重不符。虽然有专家学者将多个摄像头捕捉起来的运动视图进行深入分析，但是整个操作的过程非常复杂。还有某一行为是否异常主要取决去具体的场景、时间和地点等，因此，当更换了一个场景、时间和地点后，就需要进行重新训练建模。随着网络信息技术的飞速发展，对于更多的场景进行建模，以此来增加场景的适应力，这有利于提升监控视频异常行为检测的效率和水平。