张 丹,张 悦,藏晓鑫
(吉林通用航空职业技术学院数学系,吉林 吉林 132211)
近年来,监控视频广泛应用于车站、商场、银行等公共场所,对社会治理与公共安全管理起到了至关重要的作用.但是,目前监控视频的查阅主要依赖于人力,而一台摄像机以600×480分辨率进行存储,一周就会产生近100G的数据量.如此庞大的数据由人来查阅,势必会造成人力、物力、财力的巨大浪费.
国内外的学者利用机器视觉、人工智能等技术,对视频监控中的异常检测进行了大量的研究[1-4].Hamasaki使用高维局部自相关性提取行人的正常姿态特征,进而检测出视频图像中的摔倒、急行等异常情况[5].Zhou、Shin等使用深度学习方法训练出视频图像中行人的正常姿态模型,当视频内出现训练数据中不存在的行人姿态时即被认为检测出异常[6-9].近年来,针对车站、商场等多人复杂场景的异常检测成为研究的热点.Duan等利用混合动态上下文提取复杂场景的时空特征,进而检测车辆、行人的异常行为[10,11].上述所提方法,需先利用正常视频图像构建正常行为模型,在检测阶段将视频图像与正常模型相比较,差异大于某一阈值时,即可认为识别出异常.但在现实应用中,经常会出现树木摇动等背景发生变化的情况,此时,事先构建的正常模式无法表达所有正常的场景.因此,应用于视频检测领域中的异常检测方法应具有一定适应背景变化的能力.
针对背景变化问题,Nehmzow提出了一种基于Grow When Requied网络(GWR)的异常检测方法[12].该方法利用Stanley模型依次递减GWR网络的输出参数,从而适应环境的变化.Pitonakova将GWR网络移植于嵌入式设备并搭载在车载机器人平台[13,14].实验证明,当将车载机器人置于不同环境中时,GWR网络能够通过调整输出参数的方式,检测出行人的异常入侵.Li等利用树木摇动等背景变化在混合高斯模型中表现出的多峰特性,提出了基于混合高斯模型的异常检测方法[15-17].该方法对固定镜头摄像机采集的视频图像进行异常入侵检测时有着良好的效果.但是,对使用旋转球机进行视频采集时出现的背景周期性变换,混合高斯模型的多峰特性表现不明显,异常入侵的检测效果显著下降.
针对上述问题,本文提出了一种基于自组织数学模型的异常入侵检测方法.该方法基于背景变化的输入响应,通过生成、更新和删除节点的方式,适应环境的变化,计算视频图像的异常度.实验证明,对固定镜头摄像机和旋转球机拍摄的视频图像,基于自组织数学模型的异常入侵检测方法成功检测出了视频图像中车辆和行人的异常入侵,与常用的GWR网络和混合高斯模型方法相比,具有更显著的效果.
本文把输入图像进行网格化处理,将具有相同行列数的其中一个网格称之为一个自组织数学模型,该模型的构建方法如图1所示.
图1 自组织数学模型构建图
图中将一副M×N个像素的输入图像分割为m行n列,其中一个自组织数学模型具有m×n个像素,整幅图像被分割为L=(M×N)/(m×n)个模型.每个模型由多个节点组成,任意节点i具有权重向量νi,训练系数hi(t)和生存期lifei(t)三个属性.其中权重向量νi与图像的输入激励具有相同的维数,其初始值在[0.0,1.0]闭区间内,训练系数hi(t)与时间t相关,表示输入激励的出现频率,初始值在[0.0,1.0]闭区间内,生存期lifei(t)也与时间相关,其值为非负整数.
如图1所示,将网格化后图像中每个网格内的平均值、最大值、最小值等统计量作为输入激励输入到对应的自组织数学模型中,选中模型内与输入激励具有类似权重向量的节点,更新其训练系数和生存期.依据被选中节点的输入激励相似度和训练系数在模型内增加节点,依据被选中节点的生命期删除节点,进而计算整幅图像的异常度.
自组织数学模型的处理流程如图2所示,详细步骤如下:
图2 自组织数学模型处理流程图
(1)自组织数学模型初始化
(a)自组织数学模型内生成I个节点,I为经验值.
(b)随机选择I个节点中的S个节点计算其权重向量,S为经验值.
(c)各节点的训练系数hi(0)初始化为1.0.
(d)各节点的生命期lifei(0)初始化为0.0.
(2)对视频图像中的每帧图像,按照(a)到(h)的步骤重复计算所有自组织数学模型的各属性值.
(a)计算每个网格内的平均值、最大值、最小值等统计量并进行[0.0,1.0]规格化后作为输入激励输入到对应的自组织数学模型.
(b)将模型内所有节点按照输入激励相似度由大到小的顺序排列,选择其中S个节点.节点i的输入激励类似度由公式1计算得出.
,
(1)
(c) 被选择的S个节点的生命期赋值lifei(t)为0.
(d) 各网格对应自组织数学模型的输出值为被选中S个节点的类似度,其值由公式(2)计算得出.
(2)
公式中:C(i)为以相似度排序后被选中的S个节点中第i个节点的索引值.当自组织数学模型的输出值Ol小于阈值时,被认为网格内出现异常.
(e)模型中具有最大相似度节点的训练系数用公式3更新.
hc(1)(t+1)=hc(1)(t)-γDc(1)
.
(3)
由公式(3)可知,节点的训练系数会不断减小,当训练系数更新后的值小于0时,将其赋值为0后不再更新.
(f) 未被选中的其他节点的生存期用公式4更新.
lifei(t+1)=lifei(t)+1
.
(4)
(g)当公式5成立时,向模型中增加一个新节点.
(5)
新增节点的权重向量为输入激励x和节点c(1)的平均值,训练系数的初始值为1.0,生存期的初始值为0.
(h) 当lifei(t)的值大于阈值lifethr时,则删除该节点.
为验证自组织数学模型的有效性,分别使用GWR神网络方法、混合高斯模型方法和本文提出方法对同一段视频进行检测,利用客观评价指标比较三种方法的异常检测性能.验证实验的实验参数如表1和表2所示.其中,GWR网络方法和混合高斯模型方法的实验参数参考了文献[12]与文献[15],本文所提方法的输入激励为网格内图像的平均值、最大值、最小值、差值范围、中位数、上四分位数和下四分位数7种统计数据组成的7维向量.
表1 本文方法的实验参数
表2 对比方法的实验参数
图3 主观判定异常入侵图像
本文采用准确率、召回率和F值客观评价异常入侵算法的有效性,三种指标的计算方法如下:
(6)
(7)
(8)
公式中:C为被正确检测出的异常网格数,Ca为主观判定的异常网格数,A为被检测为异常的网格数.
为计算异常入侵检测的准确率、召回率与F值,需对视频图像中的异常图像进行主观判定.图4(a)、图4(d)为停车场、校园两个场景下拍摄的图像,图4(b)、图4(e)为两个场景下出现行人和车辆时人为主观判定的异常入侵部分,图4(c)、图4(f)为图4(b)、图4(e)网格化后的图像.以此图为例,公式(6)中的Ca即为图4(c)、图4(f)中的网格数.
图4 异常入侵检测结果
(1) 基于固定镜头摄像机的实验环境
(2) 基于旋转球机的实验环境
本文采用杭州海康威视数字技术股份有限公司生产的DS-2DC4223IW-D型摄像机以 600×480分辨率沿水平方向45°范围内,对校园停车场进行图像采集.为了能够覆盖整个监控区域,球机以帧率25fps、每帧0.5个像素的速度水平方向旋转,采集到的图像如图2(f)所示.与基于固定镜头摄像机的实验环境相同,每帧图像被分割为180个网格,每个网格为GWR网络和本文方法的一个模型.视频开始采集后未出现行人和车辆的前3 000帧图像为各方法的模型构建阶段,3001帧开始进入到异常检测阶段,各实验参数如表1、表2所示.
图4(c)、图4(d)、图4(e)、图4(h)、图4(i)、图4(j)分别为使用GWR网络方法、混合高斯模型方法和本文方法进行异常入侵的检测结果.由结果可知,基于固定镜头摄像机和旋转球机拍摄的视频图像中,当出现树木摇动等背景发生频繁变化的情况下,本文方法在抑制此类噪声干扰的同时,能够精准检测出行人的异常入侵.而混合高斯模型方法错误将树木摇动检测为异常入侵,GWR网络方法虽然未把树木摇动检测为异常,但行人的异常入侵部分存在漏检现象.
三种方法的定量评价如表3.由表3可知,基于固定镜头摄像机和旋转球机两种情况下,本文方法与GWR网络方法相比准确率和召回率均显著提升,与混合高斯模型方法相比在准确率方面有较大提升,但在召回率方面本方法表现稍显不足.这是由于图像中一旦出现与背景颜色相似的异常入侵时,颜色特征不明显导致.今后的研究在输入激励中加入时空特征即可解决此类问题.
表3 异常入侵检测结果的定量评价表
将异常检出率和误检率绘制成ROC曲线如图5所示,图5(a),图5(b)分别为固定镜头摄像机和旋转球机检测的结果.由图5(a)可知,本文方法方法的异常检出性能最高,该方法能够在抑制背景噪声的同时,准确检出异常入侵.而视频中一旦出现树木摇动等频繁变化的背景时,混合高斯模型方法的误检率会明显提高.由图5(b)可知,由于本文方法考虑了环境变化前后的相似性问题,在镜头发生旋转的情况下,与其他两种方法相比具有显著的优越性.
图5 异常入侵检测的ROC曲线
本文提出了一种基于自组织数学模型的异常入侵检测方法,该方法依据环境的输入激励相似性追加、删除、更新节点,通过计算出的输出值表达图像的异常度.方法应用于固定镜头摄像机和旋转球机,都得到了良好的检测效果.与其他常用方法相比,在背景中出现树木摇动、摄像机转动等情况时,异常入侵检出准确率显著提升.
目前,实验使用的参数为经验值,需要大量实验确定.今后,计划将多种参数看做变量,建立参数的微分方程模型,从而确定参数的精确值.同时,考虑将本文方法应用于车站、医院等更为嘈杂的环境中,进一步验证方法的有效性.