周彤彤,彭月平,郑 璐,蒋镕圻
(中国人民武装警察部队工程大学,陕西 西安 710086)
近年来,随着计算机视觉领域的发展,人工智能、模型识别、图像处理及深度学习工具等理论的创新与完善,基于视频的人群异常行为分析成为计算机视觉领域中备受关注的研究方向,主要运用于智能视频监控、人群流量管理、异常行为分析与区域定位、公共安防与预警等。以监控视频中人群的行为分析和检测为研究目的,对输入序列图像中的运动目标进行特征提取、建模、识别与检测。公共场景中较为常见的群体异常行为有:快速移动、拥挤碰撞、四散、聚集、推搡等。本文从目标检测、特征提取与建模、异常行为识别与检测、检测数据集四个角度出发,详细介绍了人群异常行为分析的整个流程及相关算法优缺点,并对未来面临挑战及发展趋势进行展望。
质为分析连续视频帧在帧间执行差分操作,操作前后图像执行阈值处理与比较,从而提取图像中的运动目标。该算法容易实现,计算量小,可快速检测出运动目标。但检测效果易受视频帧率影响,鲁棒性差,通常与其他算法共同使用。背景减除法将当前帧与事先准备好的背景图像帧序列执行差分操作以检测运动目标。该方法简单有效,获得的运动目标准确度高,适用于背景已知的情况下,实际场景中背景图像随时间推移,则易受到外界因素干扰,影响目标检测效果。
运动目标检测是指研究连续的视频帧序列,将变化区域从背景中提取出来,该步骤对于后续的目标特征提取至关重要。近年来,国内外研究人员对目标检测算法已经进行了大量研究。其中,比较经典的算法有光流法[1]、帧间差分法[2]与背景减除法[3]。
光流法通过逐像素计算两个连续图像帧之间的瞬时运动而实现,光流是由目标与观察者之间的运动产生,通过分析当前空间亮度模式下物体的空间速度与变化率(即离散度),可实现对运动区域目标的检测。最经典的光流提取方法包括HS光流法与LK光流法。该算法对光照、图像质量等因素的普适性较强,绝大多数情况下能够较准确地提取出场景中的瞬时运动信息,被广泛应用于人群目标检测中。帧间差分法的实
特征提取是指提取目标关键信息以表征行为的过程,精确区分正、异常行为,将直接影响后续人群异常行为识别与检测的效率。传统方法包括:利用梯度方向直方图(HOG)特征表征静态图像中的人体形状和轮廓信息,但该方法只局限于静态图像,无法满足实时场景下的运动目标特征提取;轨迹用于描述运动目标轨迹,但手工制作的特征无法表征较复杂的行为,且特征泛化能力较弱。近年来,研究学者不断对特征提取算法进行研究与创新,本节将主流方法总结如下。
光流法利用视觉特征进行特征提取,在描述实时场景中的群体流动规律取得了较好的效果。传统光流法,由于实时场景变化,人群结构不稳定的问题,在描述时间相关性以及描述运动流的时间与空间属性时表现不佳。
社会力模型[4]描述了由于个体之间的交互,随机选择的交互作用力的时空域信息被用于对正常的群体行为进行建模,提取存在异常行为的图像帧,并对异常行为区域进行定位。该模型被广泛应用于提取运动特征,或结合词袋等统计学模型用于对视频中异常帧的检测[5]。
基于混沌不变量的特征提取方法为密集轨迹集可用一条轨迹来表征,在混沌不变量的特征中,不同区域的代表性轨迹表示不同的子目标[6]。该方法有效的轨迹模拟复杂的人群运动,引入混沌动力学抽取混沌不变量特征来表征复杂的人群运动,检测人群异常行为。
基于深度学习的特征提取方法是利用深度神经网络直接从图像中学习深度特征,在使用时需设计网络结构并通过训练和学习获得目标特征参数。相比于人工提取特征,深度神经网络提取特征的方法对于实时场景中的光线变化、遮挡等问题具有更好的普适性。常用的深度神经网络包括卷积神经网络、递归神经网络等,已成为近年来的研究热点。
检测异常行为检测方法仅将行为分为正常和异常两个类别,从大量的视频数据中学习经验,实现像素级、帧级或视频级的异常行为判别。针对不同场景,基于不同数据形式,分别为基于视觉技术与基于物理模型两种方法。其中,视觉分析领域应用隐马尔可夫模型、动态纹理、词袋和稀疏表示等模型进行检测,物理模型中,应用社会力、群体能量、场景结构力等模型进行检测。
隐马尔可夫模型作为一种统计分析模型,通过可观察特征的参数确定该过程的隐含参数进行识别,该模型可捕捉学习变化光流,处理多种人群行为类型,对各种场景中的局部时空域运动行为进行建模,最大限度地提高检测率,但该系统的泛化能力较差,对于不同的场景则需要重新分类及训练模型以进行人群异常行为的识别与检测。
动态纹理是一种视频的时空域生成模型,通过构建一个像素级的背景模型或人群行为模板,将视频序列的静态图像特征经过线性动态系统表征,并展现其时空域的稳定属性。该模型可基于多变量马尔可夫模型实现动态纹理分类[8],通过两种模型结合提高异常行为检测的准确率。
BoW模型的本质是一种统计直方图,该模型使用局部时空域视频数据块进行分析处理。通过建立像素级别的背景模型和行为模板以提取局部低级别视觉特征,例如运动和纹理等信息。基于该模型的词袋法可将作用力映射为统一度量的活动烈度[7],对于烈度值超过警戒值的异常行为进行检测和定位。
稀疏表示模型从信号重建的角度建立,将图像本身视为稀疏信号,用一组过完备基将输入的线性信号获得近似于原始图像信号的优化信号,稀疏表达模型使用稀疏重建,根据重构误差判断人群行为是否异常。
社会力模型描述了由于个体之间的相互影响而形成的群体行为。通过网格状采样粒子来进行计算,根据交互作用力对发生异常的区域进行定位,文献[9]利用社会力模型预测行人的运动状态,结合分段颜色直方图信息提出一种行人模型来识别人群异常行为。
场景结构力模型是指目标在特定的场景下移动时受到一个局部的或是全局的作用力,可用表示该场景布局和人群中某些个体行为的函数来定义。训练样本集合中的样本代表的是正常的群体活动,从而造成了测试样本集合中的异常样本的重构误差在原来的基础上进一步增大,提高了群体异常行为检测的准确率。
群体能量模型基于提取到的特征,用动能或势能等能量进行表示,经能量公式计算得到能量波动图,对能量波动图是否有超过平均阈值的能量极大点来判断监控中是否发生了异常事件。该模型能够较好地标示个体之间不同方向的逃散、定位运动信息和交互信息。
随着计算机视觉领域的不断发展,研究者将深度学习算法融入人群异常行为识别与检测。深度学习由于其出色的特征提取效果以及强大的数据拟合能力,达到了较高的检测精度,成为近期的研究热点,包括双流神经网络、脉线流卷积神经网络、三维卷积神经网络与广义回归神经网络等。按照训练神经网络的数据类型及其标签类型可将基于深度学习的异常行为检测分为有监督、弱监督以及无监督3类。
有监督方法即用详细标记的正异常行为样本训练神经网络,提取正常行为与异常行为之间更具区分性的特征。有监督方法利用了充足的先验信息进行训练,该方法识别和检测精度普遍较高,但它只能检测预先设定好的场景下的异常行为,且人工标注较为烦琐而效率较低,对于未知的异常行为种类,则需重新训练神经网络结构模型。
弱监督方法仅给出训练样本视频级的正常或者异常标签,在训练样本阶段只可确定有无异常事件,而不能确定异常事件的具体种类及时间区域,在测试阶段则直接识别异常行为及定位异常区域。弱监督训练数据集更加简便,对异常行为检测更易操作和泛化,大大提升检测流程与效率。
无监督方法无需任何标签信息,该方法通过大量学习正常行为的特征表示,将那些不符合正常特征分布的样本检测为异常,包括基于聚类判别、基于重构判别和基于预测模型3种方法。基于聚类判别的方法通过拟合正常样本空间并对正常样本进行聚类,将远离正常聚类中心的样本识别为异常。基于重构的方法仅在正常数据上学习模型,以重构误差作为异常检测指标。基于预测模型的方法通过对正常行为规律进行分析并预测,而异常行为是不可预测的,通过预测误差即可检测异常行为。
异常行为识别与检测需要获得目标异常行为发生的时空信息,通常从帧级和像素级两个层次评价检测效果。在帧级准则中,当某帧中的一个像素被检测为异常,则判定该帧为异常帧,降低对异常区域定位的精确度。而像素级准则考虑到空间定位精度,只有异常像素覆盖了一定真实异常标记时,才认为出现异常。在异常检测领域,ROC曲线通过对异常分数或异常概率取不同阈值进行绘制,由于该曲线不受正负样本分布的影响,常被用于定性地评估和比较算法性能。其中,ROC曲线下的面积被定义为AUC,由一个0~1数值赋值,AUC值越大表明该模型检测异常行为效果越好。为了比较算法的有效性,还有以下参数均可以从不同角度描述算法性能。精确度ACC=TP/N,其中,TP为被正确识别的样本数,N为样本总数。真正率,即识别率TRP=TP/TP+F N;假正率,即误检率FPR=FP/FP+TN。其中,真正类TP定义为正确识别的异常事件,真负类TN为正确识别的正常事件,假正类FP为被误检测为异常事件的正常事件,假负类FN为被误检测为正常事件的异常事件。
尽管学术界对于异常行为检测的研究上已取得一定进展,但是由于异常检测所要求的实时性、鲁棒性以及高效性,人群异常行为检测在应用领域仍面临挑战。
(1)多信息融合技术在群体行为分析中的应用。由于人群之间存在遮挡问题,综合运用除了音频、电磁波、环境等多种特征进行融合,发挥不同类型数据的优势,克服部分特征的局限,有助于更加综合准确地描述行为。
(2)基于深度学习方法的群体行为分析。在异常检测领域,深度学习方法成为近几年的学术研究热点,但目前大部分的异常检测算法基于闭集测试,即所有异常行为检测模型都需被训练,无法进行泛化能力更强的识别与检测。因此,基于开集训练的算法将是新的研究方向。
(3)异常行为预测。对异常行为的识别与检测多基于视频提取图像数据并对已发生事件进行分析处理,如能在事件发生前实现对异常的预测并报警,将极大扩展该技术的应用领域,目前该方面还具有较大的研究空间。