刘 倡,胡 滨
贵州大学 计算机科学与技术学院,贵阳 550025
公共场所中的人群突发局部聚集常是非法游行、暴力事件、行人践踏等发生的先兆,易伴随重大灾难事件的发生。研究表明[1],若能对其萌芽状态及时检测,相关部门可提前采取措施消除安全隐患或最大限度降低潜在的生命财产损失。伴随着视频监控设备在公共场所中的普及,为建立基于视频大数据分析的公共安全应急决策智能化、智慧化应用奠定了基础,构建具有自治能力的智能视频监控系统以实时感知人群活动,对其中突发的人群聚集等异常事件的检测与预警成为当前计算机视觉、人工智能、社会公共安全应急管理等众多领域亟需解决的重要科学问题。
基于传统的计算机视觉技术,国内外学者对人群活动中的突发局部聚集行为检测问题开展了探索性研究,并提出相应的计算模型TCBDM(traditional crowd behavior detection models)[2-12]。这些模型可分为两大类:基于数字图像处理技术和基于深度学习的方法。前者使用数字图像处理技术提取图像中的人群局部特征以实现检测,但存在依赖先验规则,场景泛化能力弱的缺点[1];后者基于卷积神经网络模型,采用深度学习分类方法实现检测,但模型特性受制于训练样本且存在计算资源消耗量过大的劣势[1]。由于公共场所中的人群活动随机性强、异常行为前兆特征不明显,现有的传统方法较难有效解决,对此类问题的研究急需借助新技术寻求突破。动物的视觉系统经历亿万年进化,高度成熟可靠,其中存在着对特定运动模式具有特殊偏好响应的视觉神经元。例如,蝗虫视叶中的小叶巨型运动检测器(lobula giant movement detecto,LGMD)对感受野运动目标逼近眼睛的危险行为产生强烈响应[13-14]。近年来,蝗虫视觉神经学家已初步揭示了LGMD神经元的神经环路与响应特性,其被用于构建解决视觉感知难题的新型人工视觉系统[15-23],这为进一步挖掘蝗虫视觉神经理论以探究公共场所人群突发局部聚集检测与预警问题提供了重要的生物启发。
本文基于蝗虫视觉系统神经结构特性与LGMD 神经元危险感知机理,研究了视觉场景下的人群突发局部聚集行为检测与预警问题,主要贡献包括:(1)原创性地提出一种LGMD 改进型的人工视觉神经网络(crowd gathering behavior perception neural network,CGBPNN),用以检测与预警公共场所突发的人群局部聚集行为;(2)CGBPNN从计算机视觉的角度进一步解释了LGMD神经元的危险感知视觉神经机理,为构建公共场所人群活动检测的动态视觉信息加工处理人工视觉系统提供了新思路;(3)基于不同视觉场景下的人群活动视频,开展了系统性的实验并验证了CGBPNN的性能。
需要指出的是,本文提出的CGBPNN 不同于已有的人群活动检测模型,尤其是上文提到的TCBDM[2-12]以及前期的人群逃逸行为检测神经网络(crowd escape behavior detection neural network,CEBDNN)[20]。这几种人群活动检测模型的主要区别如下:(1)TCBDM 基于传统计算机视觉技术构建,使用数字图像处理技术、经典或卷积神经网络以达到对人群行为活动分类的目的;(2)CEBDNN[20]借助LGMD 模型提取人群活动中的视觉运动行为量突变以检测突发的逃逸行为;(3)本文提出的CGBPNN感知人群活动引发的视觉运动行为量突变,并依据其时空收敛变化特性实现对人群局部聚集行为的检测和预警;(4)CGBPNN不依赖先验知识,无需网络训练,其依据蝗虫视觉神经感知机理、LGMD 神经元响应特性加工处理人群活动引发的视觉运动变化线索。
传统的人群活动检测模型通过数字图像处理技术提取人群外形特征或低阶运动特性实现检测,采用人工方式构建特征描述符,或利用机器学习等方法达到行为分类的目的。
借助人群运动光流,Gu 等[3]提出一种粒子熵法,该方法提取光流图像网格表征人群分布的运动粒子,通过计算粒子分布熵描述人群分布信息,并使用高斯混合模型检测突发的人群聚集事件;Wang等[4]介绍了一种基于像素和模式识别的人群异常检测全局框架,该模型利用光流方向直方图编码每一帧图像内运动信息描述符,使用非线性单分类SVM算法检测异常事件;Rao等[5]提出一种基于光流矢量长度OFMs(optical flow manifolds)算法的人群事件分类方法,其利用光流束中的黎曼联络来传送光流向量,从中定位人群群组,并通过群组之间的距离检测人群聚集;Liu等[7]和Yang等[8]基于前景对象和密集光流提取静止和运动的人群特征来计算瞬时人群静止水平,并通过漏桶模型得到人群长期静止水平,最后使用阈值分析检测人群聚集。然而,由于光流法的检测模型存在计算资源消耗量大、光线敏感、难以获得有效光流、检测精度不高的问题,在实际应用场景效果不佳。
除此之外,基于傅里叶域数据属性,Briassouli 等[2]提出一种人群事件检测方法,该方法利用傅里叶变换构建人群运动模型,通过应用统计顺序变化检测技术实时检测人群运动变化;Xu等[6]提出一种基于人数的非监督人群异常行为检测方法,该模型考虑了人群密度信息和人群分布信息,构建图像势能模型进行人群计数,建立前景直方图计算水平、竖直方向上的人群熵,利用人群计数结果和人群熵检测人群聚集行为。上述人群活动检测方法在仿真实验场景能获得较好的效果,但它们需要采用人工描述特征,依赖先验规则,存在泛化能力差、计算开销大等不足。
研究人员也基于深度学习方法对人群活动检测模型开展了研究。例如,黄贺贺等[9]利用扩张因果卷积神经网络和逻辑回归模型,分析群体行为以预测人群中的异常聚集;罗凡波等[10]提出一种基于多尺度卷积神经网络(multi-scale convolutional neural network,MCNN)的人群异常聚集预测模型,模型通过训练人群计数模型来完成人数统计及人群头部坐标点获取,利用人群密度、人群距离势能和人群分布熵三种状态实现预测;Bai等[11]使用多列卷积神经网络(multi-column convolutional neural network,M-CNN)来提取人群的局部密度特征,基于人群聚集模式提出一种人群聚集安全评估方法。基于深度学习方法虽能提取人群活动的高阶特征,但模型的检测性能取决于结构设计和训练效果,需要大量的训练样本和高昂的计算成本,难以适应复杂多变的真实视觉场景。
视觉神经生理学研究表明蝗虫在快速飞行的蝗群中能有效避开彼此之间的碰撞,这源于其视叶中的LGMD神经元[13-14]。英国纽卡斯尔大学的Rind等[15]深入研究了LGMD 神经元的视神经机理与响应特性,初步揭示了视觉信号在蝗虫视觉系统中的加工处理机制。具体而言[15-16,18-20,22,24]:(1)蝗虫复眼采集感受野中光线的流明变化以获得运动目标的视觉信号;(2)视觉信号被分为兴奋和抑制;(3)兴奋和抑制在时空域中相互调谐以提取运动目标的危险运动行为视觉线索;(4)LGMD神经元整合视觉线索并输出强烈激励以响应感知到的危险碰撞行为。
基于LGMD神经元视觉神经机理,Rind等[15]开创性地提出了一种蝗虫LGMD 人工视觉神经网络。近年来,该LGMD 模型被成功应用或扩展到解决不同视觉感知任务的人工视觉系统。例如,Yue等[16]提出了一种基于LGMD模型的汽车碰撞检测神经网络;张国鹏等[17]在简化LGMD模型的基础上设计了一种碰撞预警传感器网络;Zhao等[23]报道了一种用于增强无人机的碰撞检测性能的LGMD 分布式连接模型;Hu 等[18]利用LGMD 神经结构特性提出一种旋转运动感知神经网络以解决视觉感知中的基运动检测难题;Hu 等[20]提出了一种基于LGMD的改进型神经网络CEBDNN用来检测公共场所中的人群逃逸行为。大量实验[16-25]已证明LGMD 模型在解决视觉运动感知问题上的有效性。基于生物学理论,例如蝗虫视觉神经学理论,构建合适的人工视觉系统以解决计算机视觉中的运动感知问题是可行的。
公共场所中的人群聚集行为活动呈现局部中心密度增加、周边区域行人流量下降的运动特性,可表征为视觉运动线索在视野域中的时空能量收敛变化[26-27]。为感知人群活动中的突发局部聚集行为,依据蝗虫视觉系统的神经结构特性[15-16,18-20,22,24],本文构建的人工视觉神经网络对视觉信息的加工处理流程如图1所示,其包括信号采集、运动摄取、收敛感知、视信汇聚和尖峰调谐五个流程模块。具体而言,信号采集模块从输入的视频图像帧中提取每个像素点的亮度变化,并将其传到后续的运动摄取模块;运动摄取模块加工处理接收到的视觉信号,从中提取视野域中的人群运动线索;收敛感知模块接收来自上层的输出,对其处理以感知人群聚集行为在视野域中引发的全局运动收敛变化线索;上述视觉信号被送入后续的视信汇聚模块,由此定位出视野域中人群聚集区域的空间位置信息;最后,尖峰调谐模块向外输出脉冲激励以表征检测到人群活动中的突发局部聚集行为。
图1 视觉信息加工处理流程图Fig.1 Overall flowchart of visual information processing
基于上述视觉信息加工处理流程,本文提出的LGMD改进型神经网络(CGBPNN)如图2所示。图中,CGBPNN包含四个神经网络层和两个功能神经元,分别是感光层(photoreceptor,P)、兴奋层(excitation,E)、求和层(summation,S)、汇聚层(convergence,C)以及聚集神经元(gathering,G)、人群聚集行为感知神经元(crowd gathering behavior perception,CGBP)。在CGBPNN 中,P层与图1 的信号采集模块相对应;与其类似,E 层、S 层对应其中的运动摄取模块,G 神经元对应收敛感知模块,C层对应视信汇聚模块,CGBP神经元对应尖峰调谐模块。神经网络的设计细节如下。
图2 CGBPNN结构示意图Fig.2 Structure diagram of CGBPNN
感光层P 由排列成nc×nr矩阵形式的感光细胞组成,其中nc、nr分别表示输入视频帧的像素列、行数。作为输入端,P层接收视频图像中的像素值信号并将其转化为表征视觉运动信息的亮度变化值。在f时刻帧,细胞(x,y)的亮度变化Pf(x,y)表示为[22]:
式中,Lf(x,y)和Lf-1(x,y)分别表示像素(x,y)在第f和f-1 时刻帧的流明亮度;x(x∈(0,nc])和y(y∈(0,nr])分别表示细胞的列和行坐标。Pf(x,y)由下式[28]处理获得
其中,Tp是细胞膜电位的约束系数。
为过滤视觉信号中的孤立噪声,借助中心环绕机制[29]调谐细胞的输出,即细胞(x,y)邻域内特定数量的细胞产生兴奋时,该细胞向外输出膜电位。具体而言,令Vf(x,y)为:
则P层细胞(x,y)的输出兴奋P^f(x,y)由下式计算:
式中,rw是中心环绕半径;Tr是中心环绕激励强度。P层的输出信号分别传递给E层和S层。
兴奋层E 中,细胞排列成nc×nr矩阵形式,并分别接收来自P层对应位置的细胞输出,对其延迟一个时间步长处理。在第f时刻帧,E 层细胞(x,y)的输出膜电位Ef(x,y)由下式获得[20]:
哺乳动物视网膜中的双极细胞接收来自上层感光细胞和水平细胞的输出,按权重整合以增强视觉信号的信噪比[30]。类似地,求和层S 中的细胞排列成nc×nr形式,分别接收来自P层对应位置细胞以及E层对应位置的邻域细胞的兴奋输出。S 层细胞(x,y)的输出兴奋Sf(x,y)可表示为[20,22]:
式中,wp是P层信号的权值系数;wl(i,j)是E层信号的权值系数矩阵,如下所示[31]:
经过上述处理,S层可感知到视野域中人群活动在空间域中的视觉运动信息。具体而言,那些膜电位值大于0的细胞Sf(x,y)表征着视频图像中对应空间位置存在运动人群。
神经元G接收S层传来的视觉信号,从中获得视野域中人群活动引发的全局运动量和局部运动量视觉信息,对其汇聚并提取出人群运动视觉行为量的全局收敛变化线索。具体来说,神经元G首先接收S层所有细胞的兴奋[22]:
式中,Gf为第f时刻帧S层汇聚到神经元G的视觉信号。
为感知人群活动在时空域中的全局运动量信息,视觉信号Gf作如下处理:
式中,Tm是全局运动量阈值。
人群活动在时空域中的局部运动量信息由下计算。首先计算S层细胞在第f时刻帧的空间聚集量
式中,Tg是局部运动量阈值。
最后,神经元G向外输出的膜电位信号G^f为:
汇聚层C由nc×nr细胞组成,这些细胞分别接收来自S层对应位置的细胞以及神经元G的输出量,即:
式中,Cf(x,y)是汇入C层神经元(x,y)的视觉信号。接着以式(13)的密度中心为基准,依据邻域rc中的细胞膜电位调节神经元(x,y)的输出兴奋,即:
式中,Tc为兴奋阈值;rc为邻域半径;V~f(x,y)由下式确定:
经过以上处理,神经层C中的各个细胞在第f时刻帧的输出膜电位可表征视野域中人群聚集区域的空间位置信息,即若C 层的细胞(x,y)膜电位不为0,则该区域周围存在着局部聚集的运动人群。
CGBP 神经元接收神经层C 的输出兴奋,对其加工处理产生检测和预警人群突发聚集行为的脉冲激励。具体而言,汇入CGBP神经元的视觉信号Φf为:
接着对Φf作如下处理[19]:
式中,τ为C层细胞的总量。
CGBP 神经元的输出膜电位由特定的尖峰阈值机制决定[33]。若,则在第f时刻帧CGBP神经元的内部产生一个尖峰,表示为:
如果在连续输入的npe帧中出现持续的尖峰,Φ~f由下式处理获得
CGBP神经元的输出兴奋,即整个CGBPNN向外输出的放电激励由下式计算[19]:
式中,μ是激励幅值;ν为迭代系数。ΦCGBPf≠0 表明CGBPNN 检测到视野域中的人群突发局部聚集行为并向外输出预警信号。
2.7.1 神经网络算法
基于图2 所示的神经网络结构及第2.1~2.6 节中的设计细节,CGBPNN的算法描述如下:
2.7.2 计算复杂度分析
CGBPNN 复杂度取决于其内部视觉信息的神经计算过程。令N(N=nc×nr)为输入CGBPNN的视频图像帧的像素总量。每一帧时刻,P层共执行次加减运算、N次绝对值运算及3N次条件判断;而E层和S层共提供8N次加减运算、10N次乘除运算和N次逻辑判断操作;神经元G 执行N+10δ-4 次加减运算、16δ+3 次乘除运算、N+δ+7 次条件判断、5δ次指数幂操作和2 次最大值操作;C 层提供次加减运算、4N次乘除运算和2N次条件判断;CGBP神经元作N+npe+2 次加减运算、5 次乘除运算、3 次条件判断及2次指数幂操作。
由此可知,CGBPNN在第f帧需要执行7种不同的操作,它们分别是14N+16δ+8 次乘除运算次加减运算、N次绝对值运算、6N+δ+10 次条件判断、N次逻辑判断、5δ+2 次指数幂操作和2次最大值操作。基于此,CGBPNN在f时刻帧执行的操作数可以表示为:
上式表明CGBPNN的计算效率受多个参数的影响。由于参数npe、δ、rw和rc为常数且取值较小,CGBPNN的计算复杂度由下式决定:
由式(28)可知,视频帧分辨率N直接影响神经网络的计算复杂度。因此,在确保图像质量的情况下,对输入的视频图像帧作降维处理能有效提高CGBPNN的运行效率。
为验证神经网络的有效性,实验使用的测试数据分别来自公共视频数据集和自拍的人群活动视频序列。所使用的公共视频数据包括AGORASET[34]、PETS 2009[35]、UCSD Pedestrian[36]以及Violent-Flows[37]数据集,它们分别记录了人群活动中的各种行为模式。其中,AGORASET模拟了人群活动中的聚集行为事件;PETS 2009包含着真实监控场景中的人群聚集、正常人流、人群逃逸行为活动模式;UCSD Pedestrian 提供了运动人群中的行人逆流;Violent-Flows 拍摄了人群中发生的暴力行为事件;而自拍的人群活动视频序列则记录了人群在视野域不同位置发生的聚集行为活动。
实验在AGORASET、PETS 2009 以及自拍视频序列中验证CGBPNN的有效性;使用不同人群行为模式的视频序列(取自PETS 2009、UCSD Pedestrian和Violent-Flows数据集)挑战CGBPNN对人群活动的偏好响应特性;开展对比实验分析,验证本文提出的CGBPNN相比TCBDM 及LGMD 同源计算模型在执行人群聚集行为检测任务中的优越性。
实验在CPU/3.20 GHz、RAM/16 GB、Win10 的计算机上实现。使用C++并在Visual Studio 2013平台编写程序代码。测试视频帧率规整为30 frame/s,输入神经网络的图像帧规整为140×80 像素的8 位灰度图。根据文献[18-20,22,24]及当前实验,CGBPNN 的参数设置如表1所示。
表1 CGBPNN参数设置Table 1 Parameter settings of CGBPNN
实验中使用误报率(false alarm rate,FAR)、漏报率(missing alarm rate,MAR)、精确率(Precision)作为神经网络的性能评价指标。同时,由于CGBPNN神经层C的输出兴奋携带着视野域中人群聚集的空间位置信息,而CGBP 神经元的输出膜电位表征着CGBPNN 对人群突发聚集行为的检测与预警情况。为便于展示实验结果,对神经层C的放电激励作可视化以显示人群聚集活动在神经网络视野域中的状态,绘制CGBP神经元的输出兴奋值曲线以展示神经网络对人群聚集行为的检测与响应结果。
3.3.1 有效性测试
(1)模拟场景测试
首先使用计算机生成的人群聚集模拟视频测试CGBPNN 的有效性。如图3 所示的视频I 包括1 000 帧图像,来自于AGORASET模拟数据集[34],其完整地模拟了人群从分散活动到聚集的行为过程。视频中,人群在第650 帧开始直至视频结束形成聚集区域并向中心区域逐渐收拢。
图3 模拟场景测试采样帧Fig.3 Example frames from simulated scene test
模拟场景测试的实验结果如表2 和图4、图5 所示。其中,表2展示了实验结果的统计数据;图4呈现了CGBPNN神经层C的输出膜电位可视化图;图5为CGBP神经元的输出兴奋值曲线。表2和图4、图5所示的模拟视频实验结果表明,CGBPNN 能有效检测出视野域中人群活动的聚集行为。伴随着人群从分散活动向聚集行为的转变,CGBP 神经元向外输出强烈的兴奋响应,并且输出的激励一直伴随着整个人群活动的聚集过程。
表2 模拟场景测试的统计结果Table 2 Statistic results of simulated scene test
图4 模拟场景测试的神经层C膜电位可视化Fig.4 Visualization of membrane potentials in neural layer C from simulated scene test
图5 模拟场景测试的神经元CGBP输出曲线Fig.5 Output curve of CGBP neuron from simulated scene test
(2)真实场景测试
真实场景测试使用PETS 2009 数据集[35]和自拍的视频序列挑战CGBPNN的有效性。如图6(a)所示的视频II共260帧,源自PETS 2009,描述了监控区域中行人出现的汇聚过程。视频显示,行人从第1帧开始不断走向聚集中心,在116帧形成聚集区域并在其后的所有视频帧一直保持聚集状态;图6(b)~(d)所示的自拍视频III-V展示了同一监控场景下视野域不同位置发生的人群聚集行为。人群在这三个视频序列中分别于第115、第135 和第112 帧形成聚集,并分别于第159、第160 和第160帧四处散开。图6(e)、(f)所示的视频VI、VII展示了不同场景下的人群突发聚集活动。其中,视频VI 的行人在第170帧形成聚集并在第265帧后散开;视频VII的行人在第73帧形成聚集并持续到视频的最后一帧。
图6 真实场景测试采样帧Fig.6 Example frames from real scene tests
表3和图7、图8 给出了真实场景测试的实验结果。如表3 所示,CGBPNN 在真实的监控视觉场景中能正确检测人群活动中突发的局部聚集行为。图7 展示了CGBPNN神经层C的膜电位可视化图,其表明神经网络能有效感知视野域中出现的人群异常活动区域。图8描绘了CGBP 神经元的输出膜电位曲线,其显示CGBPNN能有效感知视野域中的人群局部聚集并对其发出强烈的预警信号。
图8 真实场景测试的神经元CGBP输出曲线Fig.8 Output curve of CGBP neuron from real scene tests
表3 真实场景测试的统计结果Table 3 Statistic results of real scene tests
图7 真实场景测试的神经层C膜电位可视化Fig.7 Visualization of membrane potentials in neural layer C from real scene tests
本小节分别使用了模拟、真实视觉场景中的人群聚集行为活动视频序列验证CGBPNN的有效性。实验结果表明,本文提出的神经网络在各种视觉场景中都能感知和预警人群活动中突发的局部聚集行为,这些特性与蝗虫LGMD神经元的危险感知视觉响应特性相吻合。
3.3.2 偏好性测试
为验证CGBPNN对人群活动行为模式的偏好响应特性,本小节使用几种不同类型的非人群聚集视频,包括正常人流、人群逃逸、行人逆行、人群暴力事件挑战神经网络。使用的测试视频采样帧如图9所示。
图9(a)、(b)所示的视频VIII、IX 取自PETS 2009数据集[35]。图9(a)包含109帧图像,显示了监控场景中的正常人流运动;图9(b)由66帧图像组成,描述了聚集的人群四处逃逸的行为过程。图9(c)的视频X 取自UCSD Pedestrian[36],包括有100 帧图像,记录了运动人群中的行人逆行活动。图9(d)的视频XI 源自Violent-Flows 数据集[37],包括118 帧图像,描绘了人群中发生的暴力事件。
图9 偏好性测试采样帧Fig.9 Example frames for preferential tests
使用上述视频测试神经网络,获得的实验结果如图10所示。图10展示了神经网络CGBP神经元的输出兴奋值曲线。实验结果表明,本文提出的CGBPNN 对非人群聚集行为的人群活动模式无响应输出。这是因为CGBPNN是通过感知视野域中人群聚集引发的时空域视觉能量收敛变化以达到检测与预警的目的。然而,上述测试的人群活动视频并未存在触发神经网络输出兴奋的条件,因此CGBPNN 对非人群聚集的人群活动模式无响应。
图10 CGBP神经元输出曲线Fig.10 Output curves of CGBP neuron
3.3.3 对比分析
本节使用TCBDM 及LGMD 同源计算模型参与神经网络的对比分析。
(1)TCBDM
选取引言提到的TCBDM[2-8,10,12]参与对比分析,使用第3.3.1节中的真实视觉场景公共视频II[35]开展测试,使用误报率(FAR)、漏报率(MAR)、精确率(Precision)作为评价指标。实验结果如表4所示。
表4的统计数据表明,本文提出的CGBPNN在上述三项评价指标中达到综合最佳,其检测性能优于对比的TCBDM。这是因为,CGBPNN模拟了蝗虫LGMD视觉神经特性与响应机理,从视野域提取人群活动引发的时空能量收敛变化线索以达到检测预警人群突发局部聚集行为的目的。但也发现CGBPNN的漏报率略高于部分TCBDM,这是由于CGBPNN使用了蝗虫LGMD神经元的尖峰响应机制调谐预警输出信号,该机制所具有的生物延迟特性[38]导致神经网络的输出呈现轻微延时。
表4 TCBDM对比实验结果Table 4 Statistic results of contrast experimentswith TCBDM
(2)LGMD同源计算模型
现有的蝗虫LGMD 同源计算模型有三类,分别是LGMD 碰 撞 检 测 模 型[16]、DSNN 模 型[25]和CEBDNN 模型[20]。其中,LGMD碰撞检测模型[16]适用于汽车碰撞预警;DSNN 模型[25]用于感知运动目标的平移方向线索;而CEBDNN[20]对人群活动中的逃逸行为具有偏好响应特性。这里将CGBPNN与上述三种LGMD同源计算模型展开横向对比。实验选择公共视频II[35](见第3.3.1小节)参与测试,实验结果如表5和图11所示。
表5 LGMD同源模型对比实验结果Table 5 Statistic results of contrast experiments with LGMD-basedmodels
图11 LGMD同源模型输出曲线Fig.11 Output curves of LGMD-based models
表5给出了四种LGMD 同源计算模型的实验结果统计数据;图11显示了LGMD、DSNN和CEBDNN模型的输出膜电位曲线图。表5和图11的实验结果表明,参与比较的其他三种LGMD 同源计算模型均无法有效检测人群活动中的突发局部聚集行为。具体而言,由图11(a)获悉,LGMD 碰撞检测模型对人群活动中的突发异常聚集行为无响应,这是因为该模型仅对运动目标逼近眼睛引发的危险视觉刺激产生响应;图11(b)所示,人群活动在视野域中不同方向产生的运动行为能有效触发DSNN产生响应,但该神经网络对人群突发的局部聚集行为并无偏好响应;图11(c)显示,CEBDNN 对视频产生了错误响应,这是由于CEBDNN 对人群中的突发运动行为具有偏好响应特性,但对其后较为平稳的人群聚集无响应。
上述比较分析表明:(1)LGMD 碰撞检测模型适用于汽车碰撞检测,但无法感知人群活动中的突发局部聚集行为;(2)DSNN 能感知人群活动在视野域中四个不同方向引发的运动线索,但对人群突发局部聚集行为无偏好响应特性;(3)CEBDNN模型能感知人群活动引发的时空视觉运动能量突变,但无法检测人群聚集活动引发的收敛变化线索,因此在实验中产生了错误的输出;(4)本文提出的CGBPNN 可有效感知视觉场景中人群活动引发的突发局部聚集行为并对其产生预警。
基于生物启发的视觉信息加工处理机制,本文对公共场所中的人群突发局部聚集行为检测问题进行了研究,提出了一种LGMD 改进型的人工视觉神经网络模型,用以解决构建自治智能视频监控系统中的人群活动检测关键技术问题。该模型基于蝗虫视觉系统的神经结构特性,模拟了LGMD 神经元感知外界目标对象危险运动行为的视觉神经机理,将视野域中采集到的人群活动视觉行为量逐层加工处理转化为全局尖峰响应输出,以检测和预警人群活动中的突发异常事件。基于不同视觉场景下的公共视频数据集AGORASET[34]、PETS 2009[35]、UCSD Pedestrian[36]、Violent-Flows[37]以及自拍的真实视频序列进行实验,实验结果表明所提出的CGBPNN能有效检测人群活动中的突发局部聚集行为并对其预警。尽管通过简单模拟LGMD 神经元的视觉神经特性,CGBPNN 能检测和预警人群中突发的局部聚集行为,但模型仍存在一些不足:(1)CGBPNN 是单目视觉系统,其需要提取人群活动在视野域中的视觉行为量以加工处理。因此,人群中存在的严重遮挡可能会直接影响模型的检测性能。(2)为降低神经网络的计算复杂度,输入CGBPNN的图像序列需做降维处理。在这种低空间图像分辨率的情况下,图像中若存在过多噪声将会干扰神经网络的检测性能。本研究工作涉及生物视觉神经机理启发的人群活动动态视觉信息加工处理,可为构建具有自治能力的人群活动检测与异常行为分析新型人工智能视觉系统提供有力帮助。
未来将进一步扩展本研究工作,提升CGBPNN 的检测性能,以更好适应复杂动态视觉场景中的异常人群活动检测任务。同时将试图把CGBPNN 嵌入MCU,用以构建具有自治能力的新型智能视频监控系统。