□ 文/朱秀昌
经过几十年的发展,视频监控已成长为一个新兴的 IT 产业。从技术角度看,视频监控技术经历了模拟方式、数字/网络/高清方式的发展,目前正进入以智能化视频分析为核心的发展新阶段。随着视频的采集、处理、显示和传输技术的快速发展,使视频监控不仅能“看得见”,而且还“看得清”。随着光纤网络、3G/4G、WiFi的普及,今后5G网络的开通,以往的监控视频“看得远”的传输瓶颈问题也得到了进一步缓解。所有的这些,再加上计算机技术、芯片技术和人工智能理论的飞速发展,都为当今监控视频分析技术的智能化奠定了坚实的技术基础。
监控视频处理技术可分为三个层次,如图1所示,从低到高分别为视频处理、视频分析和智能视频分析。三个层次都很重要,都有继续发展的空间,但智能分析这一层的技术成熟度相对较低,目前视频分析技术正处于在向智能化分析发展的阶段。
视频信号处理是基础部分,处理对象为像素或像块,不涉及视频内容,为视频分析提供清晰、连续的高质量信源。除了比较成熟的视频采集、滤波、压缩、存储、去噪、增强、传输等常规处理技术外,为了有助于视频分析,还有不少处理工作必须改进,例如:提供更多图像细节的高动态范围(HDR)视频图像的均衡;提高视频图像空间分辨率的超分辨率重建;对雾天、暗光、遮挡等多种受损图像的处理;去除传输引起的帧间抖动等等。
▲图1 监控视频处理的3个层次
监控视频分析(VA)处理涉及到视频内容。由于应用的场合和目标的不同,监控视频分析包含的内容十分繁杂,如:1)场景分割,特征提取,前后景分离等;2)目标检测和跟踪,人脸/车牌识别等;3)行为识别,异常行为检测,群体行为识别;4)人流/车流统计,入侵检测等。
智能监控视频分析,不仅和视频内容有关,还和视频所表达的语义有关,希望从视频内容分析中得到场景状态、目标类别、动作或场景的含义等信息。总之,希望通过智能分析,由计算机自主得到视频内容的语义结论,或者说用人工智能的方法为人们提供多种“视觉服务”。智能视频分析技术属于人工智能的范畴,实现智能分析的方法有多种,其中“深度学习”(Deep Learning,DL)的方法最为引人瞩目,目前已经取得了长足的进展。
视频监控技术可看作是视觉的浅层效仿,用摄像机模仿人的眼睛,比较容易地实现了人工“监视”和简单的“控制”。要达到用机器分析所监控视频内容,自动进行相应的控制,其中还有一个重要环节,即“智能分析”,即在不需要或很少人工干预的情况下,对视频内容进行处理和分析,得到相应的结论,为控制单元的操作提供依据。近10余年来,如何在模仿视觉的基础上进一步模仿人脑功能,使现有的监控系统具有充分的智能已成为研究和开发的热点问题。系统智能的出现,使传感的内容、含义具有了主观“感觉”,能够给出分析、判断和结论,而并非只是对传感对象的物理量作简单的记录。
目前在监控领域,“智能分析”已经获得了不少比较成功的结果,如对摄像机的自动保护,对入侵目标的检测和跟踪,对简单的人群、车流等目标的正常和异常行为的判断等。这些相对简单的成绩,可看着智能化视频分析的个良好开端,当然,智能视频监控能够做到的远不至这些,今后它可以帮我们做更多更复杂的处理。
目前,许多称之为“智能视频分析”的设备和系统实际上远未能达到智能化的目标,需要完全或部分的人工干预。除了需克服常规视频分析中的不利影响因素以外,如光照变化的无常、目标的运动和遮挡、目标/背景/阴影相互影响等,在智能化视频分析中还存在一系列关键问题需要解决,如在视频分析中自主实现目标图像的特征建模,并保持建模的多样性;在有监督学习时训练样本的选取和标注,无监督学习时的准确聚类;卷积深度学习时卷积核、池化方法的选取,输出层的设计;沉重计算负担的降低,使之适应实时、在线应用等。
▲图2 人工智能中的深度学习
人工智能(AI)是计算机科学的一个分支,它企图模仿人类智能的实质,造出一种新的能以人类智能相似方式工作的智能机器。如图2所示,人工智能的范围很广,如机器人、数据挖掘、计算机视觉/听觉、机器学习、专家系统等。在机器学习的众多方法中,有不少已经在视频分析中广泛采用,如支持向量机(SVM),隐马尔可夫模型(HMM)、条件随机场(CRF)、……。其中,近年来的基于人工神经网络(ANN)的深度学习(DL)是一种新的高效能的视频分析算法,正在逐渐成为视频分析中的主流方法之一。
深度学习采用多层的神经网络的方法来比较、分析(视频)数据,得到有用的结论。它的强大的学习建模和分类比较能力,使它能够用于处理非常复杂多变的实际数据,特别是非结构类视频数据。在多种机器学习方法中,有监督学习的深度学习方法,如卷积神经网络(CNN),在视频分析中已表现出优越的性能。CNN的多层网络结构可以有效地学习输入视频数据与相应输出结果之间的复杂映射,可以自主建立随时间和内容而变化的分析模型。在基本深度学习方法的基础上,多种改进和变形的深度学习算法正在不断涌现,包括多种无监督的学习方法。
深度学习是相对浅层学习而言的,都是基于多层人工神经网络进行的,“深”和“浅”主要指的是神经网络的隐含层的数量而言的。一般含一两个隐含层的人工神经网络(ANN)谓之浅层网络,如图3(a)所示,早期的ANN大抵如此。深度学习网络的常常含有几个、十几个、甚至更多的隐含层,如图3(b)。隐含层数多是深度学习的一个主要结构特点,其优点是通过组合多个低层特征形成更加抽象的视频数据高层属性的类别或特征,从而可以解决复杂的信号处理或分析问题。
根据图像的局部统计特性,深度学习可采取卷积策略,如图3(c)所示的对输入图像进行分块卷积操作,形成卷积深度学习网络(CNN)。卷积生成的图像特征数据还可采用池化(pooling)等精简方法,降低特征的数量,加快深度学习的处理速度。输入视频经过若干层神经网络的处理以后,在输出层输出具有一定语义的处理的结果,如“某个目标”为“异常”目标,视频中的某个群体的行为“正常”,等等。卷积深度学习为监控视频分析中的智能化提供了一条切实可行之路。
基于深度学习的智能视频分析可以硬件或软件方式,前端或后端方式,实时或事后方式来实现。总之可根据实际需要和可能,选择最好的方式进行,或将多种方式结合进行,主要取决于两方面因素,即软件算法和硬件基础。
▲图3 深度学习网络示意图
软件方面最关键的是的深度学习算法的优劣,要求高效、简捷的学习算法,包括有监督学习和无监督学习,基于计算机、云计算和嵌入式的计算方式,合理的学习网络结构,如循环神经网络(RNN)、深度置信网络(DBN)等。比较简单的深度学习可以在远端摄像机内嵌入式实现,复杂的视频分析可以在计算机、工作站,甚至云端计算上实现。现在已出现不少机器学习、深度学习的开源程序、商业和实验软件,为我们迅速入门和应用深度学习技术提供了方便。智能视频分析虽然主要依靠的是软件,但软件的运行基础是硬件结构,因此硬件平台的水平高低直接决定深度学习的能力和速度。
至于智能视频分析在监控方面的应用,可以说几乎目前常见的监控系统都可智能化升级,其主要应用领域包括:
(1)人脸识别,目标检测与跟踪,个体/群体行为判定。
(2)车牌/车型识别,违规车辆识别,人流/车流统计。
(3)智能楼宇,居家养老,库房仓储监管。
▲图4 智能车牌识别一例
(4)公安侦破,防灾救援。
其他应用领域还很多,如教育领域的考试违规识别;公共场所的周界防范,遗留物检测,人群密度检测,烟火检测等。例如,广东迅通科技股份有限公司的视频图像智能分析系统(迅通VAIS)采用深度学习的智能分析的方法进行人脸识别、车牌识别和超分辨率重建等,取得了好于一般视频分析的结果,图4为某一车牌识别结果,曾经用其它方法未能得到完全准确的结果。
人工智能已成为新一轮产业革命的引擎,视频监控产业正在把握这一重大发展机遇,根据自身的特点和需求,把人工智能技术与产业升级改造有机结合起来,给自身技术的智能化发展注入了新的动力。其中,深度学习技术在视频监控领域已经初现风采,应用范围在逐步扩大,分析效果(尤其是准确度)越来越好,可在一定程度上替代人工操作,提高工作效率。但从总体上看,监控视频分析的智能化进程当属起步阶段,智能化程度并不高,尚存在不少制约发展的瓶颈问题,但随着世界范围内对安全防范的重视,随着中国“平安城市”、“科技强警”、“智能交通”等重大工程项目的不断推进,智能化视频监控技术的发展必然会越来越快,其社会效益和市场前景也会越来越好。