张海民
(安徽信息工程学院 计算机与软件工程学院,安徽 芜湖 241000)
智能监控系统是人工智能和传统视频监控系统的结合,是计算机图像视觉技术在安防领域应用的形式之一。智能监控系统有效应用了领先的图像处理算法以及日益进步的计算机处理技术,如256色转灰度图、模板卷积运算以及Gamma校正法等[1]。目前,智能监控系统已在机关单位、道路交通、教育机构、社区等领域全面应用,以实现对异常情况的智能监控。
在排除掉视频画面中没有实际用途或者意义很小的信息后,可以获得视频数据中的有效信息,比如行人状态、车辆信息等[2]。根据视频监控所具备的对异常情况的识别能力对可能发生或已经发生的异常情况进行监测、识别和定位。
智慧社区是一种新型的社区管理理念,借助物联网、智能通信、路网监控等技术,整合社区现有的服务资源,为社区民众提供生活、工作、娱乐、教育、医护等多种便捷服务,以提高民众生活质量、提升社区服务品质[3]。智能安全防护是智慧社区的一大特色,将路网监控与视频异常信息识别过程相结合,如利用智慧社区视频监控对人体异常行为进行识别,能够有效实现“指挥安防”,极有效地保证了社区居民的生命财产安全。因此,在智慧社区建设领域,相关的视频监控异常识别方法也受到了广泛关注。
吴沛佶等[4]设计了基于深度网络模型的视频序列中异常行为检测方法,通过卷积神经网络完成特征提取,在此基础上,结合Adam算法,通过引入池化层的方式筛选出待判别的特征信息,实现对视频序列中所存在的异常行为快速识别。胡薰尹等[5]设计了基于3D-LCRN的视频异常行为识别方法,首先分析视频图像帧间的结构相似性并完成背景建模,从而获取矫正光流场与矫正运动历史。针对异常与正常行为视频数据存在的失衡问题,提取并聚类视觉词块,结合3D-CNN模型获取局部短时序时空-域特征用于异常行为识别。胡正平等[6]设计了视频监控系统异常目标行为检测识别与定位方法,在视频帧的基础上提取二维视觉特征并对帧间信息进行学习,然后对含有运动信息的时空块进行3D时空特征学习,并构建视频异常描述和视频异常分类模型,通过模式分类检测识别异常情况及其位置。然而,上述方法在识别精确度方面的效果理想度较差。
王家鹏等[7]设计了视频监控环境下行人异常识别方法,该方法主要针对能够反映行人的局部、全局特征的信息进行检测和识别。首先,根据轮廓特征、运动速度等信息构建行为轮廓变化曲线模型,借助特征信息融合过程和模板库实现对异常行为的检测识别。郑良仁等[8]设计了监控场景下视频中全局移动对象异常行为自动识别方法,通过最小外接矩形框记录对象移动轨迹,根据特征提取结果,通过异常测量函数实现异常行为自动识别。李文等[9]设计了人群监控图像异常轨迹数据聚类识别方法,该方法将监控图像中行人的轨迹数据看作为一个序列,采用最小外接矩形的中心点替代行人重心,通过矩形中心的变化描述行人异常轨迹,根据轨迹连接线的波峰波谷存在性实现异常识别。然而上述方法存在识别过程较长的弊端,导致识别效率较低。
郑浩等[10]设计了视频监控下基于混合算法的人体异常行为检测和识别方法,该方法应用连续自适应均值漂移技术,通过引入校正背景权重直方图过滤掉遮挡和相似颜色对象的干扰,继而采用基于稀疏表达的检测方式对目标对象的异常行为进行检测和识别。赵仁凤[11]设计了视频监控中人体异常行为识别方法,基于运动信息分类方法获得人体行为的特征描述符,利用隐马尔科夫模型学习观察监控视频帧的光流方向,从而判定当前视频帧与现有正常帧之间的差异性,实现异常行为识别。徐蕾等[12]设计了基于改进瞬时能量的人群异常行为识别方法,该方法再将提取到的人群分布信息和运动信息融合后,计算期间的瞬时能量,并将其与预设的异常阈值比较,从而实现对人群异常行为的识别。然而,上述方法难以在短时间内观察到目标运动状态的微小特征,造成识别精准度不高的问题。
深度学习是机器学习领域的一个分支,其目标是为了让机器设备能够具有对数据、图像、音视频分析学习的能力。目前,深度学习过程已在信息搜索、数据挖掘、语言处理个性化服务等领域得以广泛应用,有效推动了人工智能技术的发展。为此,针对传统方法存在识别精度低、识别过程耗时长的问题,该文以深度学习技术为基础,设计一种面向智慧社区的视频监控异常识别方法,以期提升智慧社区指挥安防工作的质量和效果。
深度学习是机器学习的分支,其本质为一种模式分析过程。深度学习主要涉及3类方法,分别为卷积神经网络、自编码神经网络和深度置信网络。本研究应用的是卷积神经网络,即在搭建深度学习网络的基础上,搭配相关层级训练,同时对图像执行预处理操作,运用动态自适应池化获取方式选定目标候选框[13],实现面向智慧社区的视频监控异常识别。
首先,利用卷积神经网络技术构建深度学习网络框架,其优势是可以无需对显示特征进行提取,可直接达成网络各层次中神经元权值参数共享的目的[14-15]。以卷积神经网络技术为依托的深度学习网络模型共包含6层结构,其结构如图1所示。
图 1 深度学习网络结构示意图
如图1所示,所构建的深度学习网络的第1层为数据输入层,所有待处理的数据只有在输入层次执行相应预处理操作后才可以进入下一层;第2层为第一卷积层,此层的作用是获取相同的视频图像特征;第3层为池化层,此层的作用是对目标行为特征进行提取和压缩;第4层为第二卷积层,将第二卷积层与之后的隐藏层想结合,可获取局部检测图的特征信息[16-17],并通过输出层实现特征输出,为后续的智慧社区视频监控异常行为识别奠定基础。
1) 输入层 输入层为深度学习网络的起始层,其主要作用是获得待识别的视频图像数据,并对视频图像数据执行预处理操作,包括图像随机剪裁、尺度缩放、去均值化以及归一化处理等,最后获取有效待测数据。输入层仅包含一个数据输出操作端口,只有经过输入层的预处理后,数据才能被输出至第一卷积层。这一过程中,深度学习网络将输出的图像数据信息称之为特征图,并将数据的特征图作为网络结构层。
2) 卷积层 卷积层是深度学习网络的核心层,借助特殊的卷积核核心结构对接收到的全部数据执行卷积操作,并将卷积结果用特征图的形式输出,从而提取数据特征。深度学习网络中的卷积层借助卷积核执行数据传输及提取的独特卷积形式,具有提取精准、效率高优势,在深度学习网络中的处理中至关重要[18]。
3) 池化层 池化层在深度学习网络中的作用是对输入其中的数据样本执行采样操作,从而有效减小无效特征量,防止数据过度拟合。在池化过程中,一般会对特征图像依据2×2的尺寸进行采样处理,对特殊大区域的特征图也可依据4×4的尺寸进行采样处理,但过大尺寸会使得在池化操作过程中会造成流失信息的现象[19-20]。通常情况下,可选用的池化方法有2种,分别为均值池化法与最大值池化法。
在执行池化操作时,均值池化是把各区域内的元素执行均值计算,并将计算结果充当输出特征值,最大值池化是把区域内每个元素中的最大值充当输出特征值。2种池化方式均可以正确有效提取数据样本的有效特征值[21-22]。
4) 隐藏层 卷积神经网络中的隐藏层是一个统称,除输入层和输出层以外的其他各层均包含在隐藏层内。但是,隐藏层不能直接与外界进行通信。
5) 输出层 隐藏层可以将输入到其中的信息转换为输出层可以接受的格式,输出层也可以将隐藏层内的信息转换为任何比例。
视频和图像的不同点在于图像是静态的数据,而视频是动态的数据,是由互相关联的多帧图像组成的。时间与空间共同组成了视频的维度[23-24]。为此,本研究采用AlexNet网络提取智慧社区监控视频中目标的时空特征。AlexNet网络加深了卷积神经网络的结构,使之能够学习更丰富的图像特征。在这一过程中,利用Relu函数作为激活函数,在双层卷积+池化操作的基础上提取图像的特征。
首先,需对所输入样本数据做如下处理:对样本数据集中的彩色图像数据执行灰度化处理操作,再将图像尺寸规范化并执行多时间采样操作。由于运动目标的运动状态变化是非均匀的,倘若仅仅应用单一的时间间隔对数据集进行采样会造成很多细节信息被忽略,因此,选择不一样的时间间隔执行隔帧采样[25-26],过程如图2所示。
图 2 数据处理过程
在此基础上,假设智慧社区视频的第x帧图像特征为Px,首先选取3帧图像,可得到第一特征集Px,1={px-2,px-1,px},以此作为输入的第一样本;然后每隔1帧选取3帧图像,可得到第二特征集Px,2={px-4,px-2,px},以此作为输入的第二样本;最后每隔2帧选取3帧图像,可得到第三特征集Px,3={px-6,px-3,px},以此作为输入的第三样本,利用第一、第二、第三样本共同组成样本集。
根据时间采样获取3帧图像,与由AlexNet网络输入图像RGB的3个通道数据相对应,使得所形成的输入数据符合网络输入格式。
在轨迹提取过程中,结合稠密轨迹对目标运动行为轨迹进行平滑约束处理。在轨迹跟踪的操作中,轨迹容易从其初始位置生成漂移。为消除该现象,把轨迹长度范围定在t帧内,并建立时空小方块。如果某段轨迹的长度超过t,便将该段轨迹从跟踪的范围中排除。为更有效地提取运动目标轨迹信息,在轨迹周围的时空小方块内需要针对描述子执行迭代操作,直至提取到最优轨迹信息。
应用背景差分与帧差分结合的方式执行运动目标识别任务,并将探测到的运动目标执行阴影消除操作,同时获取运动目标质心。根据质心运动轨迹判断运动目标是否存在异常行为。智慧社区视频监控异常识别过程如下:
1) 将智慧社区监控视频图像读取进Matlab平台中执行处理操作,读取后执行图像预处理操作,为运动目标检测作好铺垫;
2) 结合帧差分法和背景差分法执行运动目标检测工作;
3) 根据目标质心运动轨迹特征判断视频监控中的运动目标是否存在消失、攀爬、跌倒、物体遗留等异常状况。
综上所述,深度学习下智慧社区视频监控异常识别方法的具体识别流程如图3所示。
图 3 智慧社区视频监控异常识别流程
为证明深度学习下智慧社区视频监控异常识别方法的有效性,设计对比检测实验加以验证。
硬件:处理器为i5 9400F 酷睿六核(盒装CPU),GPU为戴尔(DELL)Precision,内存大小为16 GB,并配置GPU加速功能;软件:操作系统为Windows 8,仿真环境为Visual Studio 2013&Open CV,操作语言为C++。
将文献[5]中的基于3D-LCRN视频异常行为识别方法和文献[8]中的监控场景下视频中全局移动对象异常行为自动识别方法作为对照组,将本文方法作为检验组,在相同的实验环境下完成性能验证。
以识别精准度和识别过程耗时作为检测指标:识别精准度用于判断识别能力的强弱,能够直接反映不同识别方法的有效性;识别过程耗时可以反映不同识别方法的识别效率和时效性。
将跌倒、攀爬、跳跃行为确定为视频监控下人体异常行为。由实验人员依次做出上述3种动作(实验人员身高为170 cm,头部往下,重心约在95 cm处),在此基础上,提取原始视频帧图像,在对其进行预处理后,绘制不同行为下人体重心的坐标移动轨迹,即可获取异常行为轨迹目标。对跌倒、攀爬、跳跃行为下人体目标轨迹进行绘制,如图4所示。
(a) 跌倒
(b) 攀爬
(c) 跳跃
由图4可知,在跌倒行为中,人体重心较低,初始重心高度约为95 cm,跌倒后重心前移且高度下降;在攀爬行为中,攀爬人员需爬上一个高和宽均为1 m的高台,初始重心高度约为95 cm,攀爬到指定位置后,重心右移且高度上升;在跳跃行为中,攀爬人员需从高台上跳下,初始重心高度约为195 cm,重心左移且高度下降。
在此基础上,检验不同方法的识别精度。识别精度能够反映不同方法对异常情况的识别效果,识别精度越高表明识别结果有效性越高。
在检验时,分别利用本文方法、文献[5]方法和文献[8]方法对视频中的异常行为进行识别,通过比较识别轨迹与实际轨迹的重合度来计算判断不同方法的识别精度。测试结果如表1所示。
表 1 不同方法识别精准度对比结果
Tab.1 The accuracy of different methods is compared %
识别方法异常行为实验次数1020304050文献[5]跌倒72.475.170.673.275.6 攀爬75.870.778.574.971.8 跳跃73.173.970.570.474.0 文献[8]跌倒83.678.375.585.775.9 攀爬84.176.279.480.675.5 跳跃82.380.881.477.773.8本文 跌倒97.195.095.296.997.1 攀爬97.295.094.396.597.6 跳跃96.896.094.494.096.7
分析表2可知,文献[5]方法的识别精度范围在70.4%~78.5%之间;文献[8]方法的识别精度范围在73.8%~85.7%之间;而本文方法的识别精度范围在94.0%~97.6%之间。相比之下,本文方法对异常行为的识别精度更高,证明该方法的有效识别能力更强。
产生这一结果的原因在于本文方法在信息采样过程中,选择不一样的时间间隔执行隔帧采样操作,从而有效避免了因单一时间间隔采样难以应对运动目标状态的非均匀变化,而导致的视频细节信息被忽略的问题。同时,因本文方法利用了深度学习中的卷积神经网络,借助其卷积层中的卷积核执行数据传输和提取,并将卷积结果用特征图的形式输出,从而提高了对异常行为的识别精度。
进一步测试不同方法的识别过程耗时。识别过程耗时能够反映不同方法的时效性和识别效率。识别过程耗时越短,表明识别方法的时效性和识别效率越高。识别过程耗时结果由操作系统后台自动统计。对比结果如图5所示。
图 5 不同方法识别过程耗时对比结果
从图5可知,随着实验次数的增加,不同方法的识别过程耗时也在不断发生变化。根据图中上限值线段可以看出,文献[5]方法的最大识别过程耗时为2.4 s,文献[8]方法的最大识别过程耗时为4.2 s,本文的最大识别过程耗时为2.1 s。由此可知,本文方法的识别速度最快,证明本文方法具有较高的识别效率和时效性。
产生这一结果的原因在于本文方法在识别异常行为之前,对监控视频图像进行了预处理操作,在保证视频图像尺寸规范化的基础上,将采集到的视频图像数据串联形成时间维度时空块输入数据,与由AlexNet网络输入图像的RGB的3个通道数据相对应,使得输入数据符合网络输入格式,避免格式转化过程耗时过程,从而缩短了异常行为识别过程耗时。
本文算法对异常行为识别有较高的识别精准度和时效性。当有异常或者是有可能异常的情况,智能监控系统的警报装置将被触发,协助安防部门迅速发现异常现象。在研究过程中,发现在提取智慧社区监控视频中目标的时空特征后,可根据时间采样获取帧图像。将获取结果与由AlexNet网络输入图像RGB的3个通道数据相对应,可结合空间阴影消除方法在消除视频图像的阴影部分,使得视频图像预处理过程更便捷。
虽然本文方法获取的检测效果较优,然而因对该方面的研究尚在初级阶段,实际应用时,仍存在一些问题,如能耗大、针对不同数据集的异常行为判定标准未达到多元化等。在未来的研究阶段,将进一步对该方法进行优化,扩大该方法的应用范围和有效性。