李泽华
(武警重庆总队,重庆 401147)
随着科学技术的不断进步和国家平安城市、雪亮工程、智慧城市建设等政策的大力推动,视频监控已经从专业领域普及到大街小巷,被广泛应用于社会治安、道路交通、智能家居等场景,为维护社会稳定、保障安全生产生活提供了有力帮助[1]。根据美国知名研究机构IHS提供的数据,2021年后全世界将有超过10亿支监控摄像头全时工作,其中50%的监控探头坐落在中国[2]。当前部署的视频监控系统具有同步监视和远程控制等功能,可根据时间、地点、人物等信息进行调阅查看,但实时监管、影像回放、发出警报等系列动作一般由专人操作,智能化程度还不够高。随着监控设备和监控对象的不断增加,监控视频数据呈指数级增长,人为操作不仅耗费大量人力、物力和财力,而且极有可能出现迟报、漏报、误报等情况,难以做到全时监控预警,不能满足现代社会对视频监控系统日益增长的需求[3-4]。
近年来,得益于计算机性能、GPU加速技术的快速发展和提升,深度学习网络展现出优异的特性,在自然语言、时间序列、计算机视觉等任务中取得了较好成绩。LeNet、AlexNet、VGG、GoogleNet、ResNet等各种不同结构的深度学习网络被相继提出,网络结构从5层、8层、19层、22层,增加到上百层,大幅提升了学习预测能力,识别精度和时间成本也有了较大改善,特别是CNN模型中手写数字识别准确率最高达到了98%,为实现视频监控全时预警提供了思路[5]。受暴力视频检测启发[6],本文拟将监控视频细分为不同的场景,利用预先训练好的深度学习网络模型对监控视频进行特征提取、分类预测,形成预警信息后推送至监控视频调度中心。
视频监控一般利用安装部署的摄像头采集监控区域内的图像、声音等视频信息,并通过有线或无线等方式将视频信息传输到监控中心。目前,视频监控正朝着数字化、网络化、高清化以及智能化的方向发展,安装、部署和运用涉及计算机多媒体技术、编码压缩技术、网络传输技术、存储技术等多项技术。但监控视频处理面临摄像头质量、存储传输、数据冗余等诸多方面的问题,特别是越来越多的高清摄像头拍摄的监控视频对软硬件条件提出了更高要求,不断考验网络带宽和服务器的承载能力,增加了视频监控系统的安装、部署、使用和维护成本[7-9]。监控视频信息量较大、冗余度较高,存储传输需要占用较大带宽和存储空间。以存储传输为例,一部按PAL制编码记录60分钟的电影,如果分辨率为640X480、场频50Hz、每个像素24bit,则每秒数据量约为369Mb,60分钟电影的数据量高达1 328 400Mb,且60分钟内可能只有几分钟甚至只有几秒钟的信息是需要进行处理的异常情况。加之,受存储介质容量和容易发生故障等因素影响,监控视频需定期覆盖原有存储空间,且必须进行一次或多次备份,后期调阅查看较为困难[10]。
监控视频处理大致可分为视频信号处理和监控视频内容分析。视频信号处理主要对像素或像块进行处理,不涉及视频内容,主要是为视频内容分析提供清晰、连续的高质量信源。目前视频采集、滤波、压缩、存储、去噪、增强、传输等常规处理技术已趋成熟,但供更多图像细节的高动态范围(HDR)视频图像的均衡,提高视频图像空间分辨率的超分辨率重建,对雾天、暗光、遮挡等多种受损图像的处理,去除传输引起的帧间抖动等内容还需进一步完善。监控视频内容分析包括场景分割、前后景分离,目标检测和跟踪,人脸/车牌识别,人流/车流统计等。文献[11-14]中,利用均值漂移算法、卡尔曼滤波算法和粒子滤波算法等方法进行了积极有益的探索,但对包括天气、温度、光线的自然因素干扰,监控视频内画面相互遮挡,不同类型的人和行为姿态等具体问题还需要进一步研究。
深度学习是一种模拟生物大脑运行和处理信息的神经网络算法,主要通过多层网络结构变换,将提取的原始数据或初始特征进行重新组合,形成更加抽象的高层特征,能对数据进行较好的本质刻画、层次化表达与特征提取。Hinton及其合作者设计的深度学习模型AlexNet在2012年ImageNet图像识别大赛中一举夺冠,谷歌公司基于深度学习开发的AlphaGo以4:1的比分战胜世界顶级棋手李世石,吸引了学术界和工业界对于深度学习的广泛关注,并将深度学习的热度推向了高峰。深度学习网络通常包括输入层、隐藏层和输出层等网络结构,输入信息经过每一层网络结构时都做一次数学拟合,通过多层网络叠加后,输出无限逼近目标的结果。目前,卷积神经网络(CNN)[15]、递归神经网络(RNN)[16]、循环神经网络(LSTM)[17]、对抗神经网络(GAN)[18]等深度学习网络被广泛应用于计算机视觉、语音识别、自动驾驶、自然语言处理领域,取得了较高的识别精度,性能远超其他机器学习技术。
不同的深度学习网络内部结构差异较大,适用场景不尽相同。卷积神经网络由多层感知机演 变而来,包括LeNet、AlexNet、ResNet、VGGNet、GoogleNet等典型网络,主要应用于计算机视觉、模式识别等领域。其权值共享和局部连接策略使图像可以直接作为网络的输入,避免传统识别算法中复杂的特征提取和数据重建过程,减少权值数量,降低网络模型的复杂度,但无法对时间序列上的变化进行建模。循环神经网络包括RNN、LSTM、GRU基本类型,在语音识别、语言模型、机器翻译、视频标记等领域表现出较好的特性。其网络结构中包含用于存储前一时刻网络信息的记忆模块,记忆模块中的内容连同输入层数据一起作为下一时刻的网络输入,这一网络结构使得循环神经网络具有记忆能力,能挖掘数据中的时序信息以及语义信息。此外,深度信念网络主要做深度神经网络的权值初始化工作[19],生成对抗网络主要用于样本数据概率分布的建模[20],深度强化学习更加注重基于环境的改变而调整自身的行为[21]。
目前性能表现优异的深度学习网络大多受益于海量数据训练,也依赖于海量数据,需要大量的标注数据,才能训练网络参数,衡量学习性能,导致它存在无法自己推导出规则、无法实现真正的“人工智能”等问题。为解决目前主流深度学习技术所需训练数据量大、训练标注难于获取、无法确定深度神经网络结构和参数的问题,元学习、深度迁移学习、小样本深度学习、神经网络构架搜索、图神经网络等逐渐成为未来发展的新方向。
监控视频应用场景广泛,不同的应用场景在声音、图像、运动方面表现出较大的差异性,为提高预警系统报警准确率,综合社会治安、道路交通、智能家居等应用场景特点,将监控视频区分为盗窃抢劫、打架斗殴、交通事故、非法聚集、应急救援五种具体场景。
盗窃抢劫一般是指犯罪嫌疑人通过门、窗等非法途径闯入他人家中,或在室外通过扒窃、暴力等手段进行盗窃、抢夺他人财物。打架斗殴一般是指犯罪嫌疑人持刀、棍棒等凶器当街行凶,造成被害人流血、昏迷、死亡。交通事故一般是指车辆之间或者车辆与行人之间发生碰撞、擦挂,导致车辆受损、人员受伤。非法聚集一般是指多名人员在同一地点聚集,采取拉横幅、喊口号等方式进行游行、静坐、拦堵党政机关或交通要道。应急救援一般是指对发生的山体滑坡、道路坍塌、交通事故、行人晕倒、高空坠落等实施救援。
为建立用于训练、测试视频监控预警系统的视频数据集,主要采取爬虫系统爬取网络视频和现场录制拍摄两种方式获取相关视频素材。
爬取网络视频,可以选取YouTube、哔哩哔哩、优酷、腾讯等主流视频网站作为爬虫系统爬取的主要来源,区分盗窃抢劫、打架斗殴、交通事故、非法聚集、应急救援五种具体场景,对获取的视频进行人工标注。把人工标注后得到的网络视频数据集作为训练集,用于训练神经网络模型。
录制视频是根据盗窃抢劫、打架斗殴、交通事故、非法聚集、应急救援五种具体场景的特点,现场拍摄具有明显特征的视频。把人工标注后得到的自制视频作为测试集,用于评估预警系统报警准确率。
在制作的网络视频、录制视频数据集训练深度学习网络,训练集用于训练,测试集用于评估深度学习网络效果。每隔0.5秒抽取一次输入视频的帧信息,然后利用深度学习网络模型提取帧一级特征,融合处理帧一级特征后,获取输入视频的视频一级特征,对视频一级特征进行分类预测,区分非法聚集、盗窃抢劫、应急救援、个人极端事件等场景输出,最终预测结果。
使用平均精度(average precision,AP)以及平均精度均值(mean average precision,mAP)作为视频监控预警系统性能评价指标。
平均精度计算公式为:
N代表测试集中所有视频的个数,P(k)表示在能识别出k个视频时候的精确率(Precision)值。Δr(k)表示识别视频个数从k-1变化到k时召回率(Recall)值的变化。
平均精度均值计算公式为:
C代表视频检测的类别数,APi代表第i类视频的平均精度。
基于深度学习的监控视频预警系统部署于服务器端,各监控摄像头向服务器回传实时监控画面。服务器内同步进行监控视频本地存储和实时画面上传,完成监控视频特征提取、分类预测操作后,将报警信号上传至指挥中心,完成报警任务。指挥中心接到报警信息后,及时调阅对应的监控画面进行核查印证,同时将报警情况反馈给相关单位,迅速派出公安、消防、救护等人员进行处置。基于深度学习的视频监控预警系统如图1所示。
图1 基于深度学习的视频监控预警系统
在深度学习技术迅猛发展并不断完善更新的背景下,针对监控视频处理主要依靠人工进行实时监管、影像回放、发出警报的问题,本文将不同类型监控视频区分为盗窃抢劫、打架斗殴、交通事故、非法聚集、应急救援五种具体场景,提出基于深度学习的视频监控预警系统,为实现监控视频自动处理提供了一种有效可行的方法。
为满足人们对视频监控日益增长的要求,未来视频监控仍可能面临诸多挑战。一是目前得益于国家“天网”“雪亮”工程等项目的大力推进,城市监控摄像头数量飞速增长,但仍不同程度地存在盲区死角,特别是经济欠发达地区,农村、水库、国道等人员相对较少的地域,监控摄像头数量还严重不足,需加快推进建设,不断完善补充监控点位。二是不同的深度学习网络各有所长,欠拟合、过拟合、参数调优等方面还有进一步改进的空间,且深度学习网络完全依赖数据,计算量普遍较大,对硬件需求较高,如果训练集出现不平衡的情况,将很大程度上影响预测结果。三是本系统主要区分盗窃抢劫、打架斗殴、交通事故、非法聚集、应急救援五种具体场景,提高行为场景细分程度可以有效提升预测准确率。未来可以在交通、物流、安防、救援等实际应用领域,再具体细分为不同的场景,训练出合适的深度学习网络模型,进一步提高视频监控报警系统的报警准确率。