崔斌(浙江经济职业技术学院)
视觉采集系统已经在各类经济场景中逐步普及。归纳起来主要有三类应用,首先是各类展馆、会议中心,其中各类论坛、讲座频繁举行。第二是各类市场经营场所,交易人群众多,人流量大。第三是伴随着智能家居、智能办公的推进,各类视频采集设备进入千家万户和办公场所。当前大部分场景下,还是停留在视觉信息采集和存储上,很难实现实时监控异常行为并进行处置。伴随着CNN(卷积神经网络)、LSTM(长短期记忆网络)及深度学习建模等技术的发展,目前已经具备了对异常行为提取、识别、学习及利用的条件,可以对视频监控画面中出现的异常行为,如非安全时段进入、进入限制区域、人员跌倒、人员高速移动等行为进行检测,进而对危险行为进行预警,同时便于进行事后的回溯。
(一)深度学习技术
随着近年来计算能力和计算资源的飞速发展,计算及数据存储的成本大大降低,网络基础设施的不断改善,也为万物互联及高速数据传输提供了必要的条件。通过对问题特诊的抽象总结,建立深度学习模型,进而提出问题解决方案方兴未艾,尤其是在图像识别,智能家居、自动驾驶等领域,已经进行了较多的有益尝试。深度学习使用神经网络模型,将原始信息进行抽象及逐层分解,进而表示为分类及回归,以及其他更高层的特征描述。
在视觉识别领域,对捕捉到的视频行为进行比较及分类一直以来都比较困难。最初采用的是单标签分类法,即某一段视频只会标注一个标签,如攀爬、跳跃、行走等。随着技术的发展,目前较多的采用多标签的技术,同时可以添加时序、场景等维度,从而将视频进行多维度,细化的分类。同时由于一些异常事件的相关的样本较少,即小概率事件样本的采集及数据积累比较困难,需要逐步建立起异常行为数据样本库。
(二)CNN(卷积神经网络)
1998 年,LeCun 等人[1]提出了名为 LeNet-5 的首个卷积神经网络(Convoluted Neural Network,CNN)模型,这个模型涵盖了全连接层、池化层和卷积层,该模型主要应用于从原始数据中进行提取事务特征的场景。随着深度学习应用领域的不断拓展,CNN 成为了该领域使用范围最广、相关支持厂家较多的一种研究模型。Two-Stream CNN 方法[2]最早是 VGG 团队在 NIPS 上提出来的,现在已经成为了动作识别方面研究的一个主流方向。Two-Stream CNN方法如其名字一样由两部分组成,第一部分用于图像处理,第二部分负责处理光流信息,最后将两个部分进行整合、分类并存储。
在双流CNN 基础上,后期又提出了TSN(Temporal Segments Networks),此方法是双流CNN 的改进。TSN 的策略是将视频信息分成 K 个分段,然后对这K 个分段的每个分段都随机的选出一个更短的片段,对这些更短的片段,采用双流CNN 的策略进行特征提取,最后再对这些片段上采集的信息进行进一步的融合,进而提高视频识别的准确性。
(三)LSTM(长短期记忆网络)
随着技术的发展,Hochreiter[3]等人提出了长短期记忆网络(Long-Short Term Memory,LSTM)技术。LSTM 是一种特殊的 RNNs,相对于 RNNs 不会有梯度消失的问题,它能够学习长期依赖。经过相关研究者的不断努力,该技术变得越来越成熟。通过特殊的循环神经网络模型,解决对时间序列的依赖问题。长短时记忆网络由遗忘门、传入门、输出门组成,可以拟合序列数据,通过遗忘门和输出门忘记部分信息来解决梯度消失的问题[4]。
LSTM 非常适合处理与时间序列高度相关的问题,它可以方便的对视频中的短时间和长时间信息进行模拟,但是也存在缺点,即对未来信息未能处理,只能从单一方向学习。双向长短时记忆网络(Bi-LSTM)对传统的LSTM 进行了改进,捕获了相关信息的发生时间,从时间点前后进行了信息的捕获,模拟相反方向的信息,具有更强的针对时序信息的处理能力。
(四)三维卷积及行为预测
三维卷积在CNN 的基础上,进一步采集更多的时间及空间信息。3D 卷积将输入的多个连续帧堆叠成立方体,然后使用 3D卷积在堆叠立方体中执行卷积操作。[5]这种结构,可以进行提取特征的累加,捕获各类运动信息,并对具有近似特种的多个连续图像进行连接,比对,过滤相同特征信息。三维卷积中单次卷积操作则可同时对指定时间长度视频帧的同一个二维局部区域进行卷积,再对提取到的特征进行叠加,针对连续3 张输入图片使用两种卷积核进行三维卷积后可以得到2 张特征图[6]。通过视频检测中捕捉到的信息,需要对后续的行为进行预测,在此方面相关学者也进行了较多的尝试。行为的预测主要分类两个大类,第一类是研究人和空间的关系,并预测在特定空间下,人的后续行为。另一类是研究人与人之间的关系,这类研究难度极大,即判断特定人之间,某个或某类人群的后续行为。由于人员特征识别及分类的困难性,以及特定群体人群定义的复杂性,人类行为中的偶然性,情绪左右的突发性等问题,从而带来预测结果的不确定性和多样性。在异常行为检测方面提出了生成对抗网络(Generative Adversarial Networks,GAN)理论,该理论提出生成器和判别器的概念,通过生成器和判别器的对抗性学习训练。
本次研究主要针对人群异常行为的检测,在正常视频监控及画面录制的基础上,系统对视频画面进行的异常行为进行定位,当人群中出现异常行为时,系统需要能够对异常行为进行详细记录,必要时对异常行为进行报警。对异常行为或异常行为人进行重点的视频画面捕捉,为事后的回溯追踪做准备。该系统原型主要由五部分组成视频信息采集、异常数据资源库、数据处理模块、数据训练模块、异常行为捕获及展示,各模块具体实现细节如下:
(一)视频信息采集
该模块主要完成正常的视频数据信息采集,包括视频录制、分频道存储,云台自动控制、夜视补光、数据网络存储等。目前大部分的人员密集场所室已经具备视频监控条件,但是对部分老旧的设备,如模拟摄像机、非联网摄像机、标清摄像机等设备,还需进行更换,否则无法实现异常行为的检测。同时对于重点区域、重点设备存放处要加大摄像机的布置数量,确保监控无死角,同时对走廊,出入口等位置要配备清晰度高广角摄像机,以便对人群实现高覆盖的监控。
(二)异常数据资源库
对于深度学习来说,其中一个关键点就是如何建立足够丰富的学习资源库,在这里需要引进异常行为数据资源,如各种跳跃、聚集、快速跑动、物品倾覆、火光等,这些数据资源分类存储以后,相关异常事件发生时,可以针对捕捉到的异常行为,在资源库中进行比对,从而快速确定异常事件,并进行必要的操作或预警。
(三)数据处理模块
首先,将视频帧使用双线性差值缩放成图片,将图片处理按照标准化进行。将连续的视频帧作为一个单元,在单元基础上进行叠加,从而使其成为一条训练样本。从而形成一个描述为宽、深、高、频道四个维度的矩阵,各个维度以数字化形式描述特征,如彩色图像描述为1,黑白图像描述为0。
(五)异常行为捕获及展示模块
异常行为捕获及展示模块,主要是在视频监控过程中,对检测画面分帧进行识别及比对,结合预测信息和重构的误差计算出检测行为与深度学习资料库信息中的异常行为相似度得分。进一步生成异常区域视图,异常人群高清晰度面部捕捉、异常行为告警、全局画面人数统计、人群拥堵报警、贵重设备移动警告、红线区域闯入告警灯信息,并可以通过各类终端进行展示。