冀燕丽 段海涛
随着互联网信息技术的飞速发展,人类进入了网络信息化的新时代。具有时代特征的“互联网+”,大数据和云计算等技术影响着高等教育的发展。而大数据包含大量信息资产,这给教育领域带来了希望和挑战。2011年,教育部下发了《关于做好国家教育考试标准化考点建设工作的通知》,明确规定,省(自治区,直辖市)中央部属高等学校标准化考点的建设任务应纳入地方规划和综合实施,标准化电子考场系统的建设应符合相应的技术规范和标准。在这一背景下,我校于2012年完成了本校标准化考场的基本建设,这也是我校视频监控系统的雏形。
随着高清视频技术的发展和高等教育本科教育教学审核评估的发展,已建有的视频监控系统已不能满足实际教学需求。于是,我校于2018年,在已有的传统视频监控系统的基础上做了升级改造,全校公共教室里配备了高清网络摄像机、现代教育技术中心机房配备了和部署了高清视频监控管理平台、高清视频存储系统、高清NVR和高清解码器等,这些构成了我校目前以高清视频技术和视频图像分析技术为支撑的高清智能视频监控系统。随着高清视频监控的逐步推广和普及应用,视频监控市场朝着“视野清晰,清晰可见”的方向发展。与此同时,随着政府和企业对平安校园和视频监控建设的不断投入,视频和视频数据可谓大规模增长。这使得我们身处一个数据爆炸性增长的“大数据”时代,也为我们的数据处理和驾驭能力带来了新的挑战和机遇。
大数据时代的到来带来了大量的视频图像数据存储,如何更好地挖掘,利用和分析这些视频图像数据是我们的关键思考和研究的方向。智能视频图像分析技术要具备根据分析结果控制整套视频监控系统的能力,就必须借助一系列关键技术来实现,如计算机视觉技术、图像智能分析技术和人工智能技术,借助于这些技术对视频中的序列图像进行检测,分析和理解。它融合了众多领域的先进技术和核心理念,如图像处理,模式识别,人工智能,自动控制和计算机视觉。随着网络,通信和微电子技术的迅速发展,数字视频监控技术已经越来越成熟,并已广泛应用于多领域。因此,研究视频图像智能分析技术具有特殊重要意义。
一、视频图像智能分析技术的内容
被称为第四代视频监控技术的智能视频分析技术是未来视频监控发展的方向,也是视频监控领域最先进的应用模式之一。智能视频监控使用智能视频分析技术来处理,分析和理解视频信号。 IVS结合了多学科研究成果,包括图像处理,目标检测和跟踪技术,模式识别,软件工程和数字信号处理(DSP)。图1为智能视频监控系统的工作流程图。实时的或历史的视频数据流通过视频基础管理单元传输到视频数据中心,然后再通过配置管理服务器,将任务分发到智能分析服务器,经分析后,将分析结果传输至智能监控客户端。
在该视频监控系統中,目标的获取、检测,目标特征的提取、目标的跟踪、分类和识别以及对目标行为的分析和理解是智能视频图像分析技术研究的主要内容,但由于摄像机安装位置、功能的不同以及场景的差异都会对分析结果产生一定的影响。这些都会影响到摄像机对目标的识别准确度。下面我们具体阐述视频图像智能分析技术的研究内容。
(一)目标获取
大多数视频智能分析算法基于未压缩的图像格式,例如RGB或YUV。因此,图像信号被直接发送到视频分析单元而不被压缩。几乎所有的视频分析系统都带有图像采集功能,通常通过BNC(Bayonet Neill Concelman)输入图像信号。我校现有的视频监控系统中的图像信号通常是以压缩图像流的形式存在,可以将图像流解压还原成原始图像格式后再进行分析。
(二)目标检测
实现视频智能监控系统智能化,首先要完成对目标的检测。它通过使用相关的目标检测算法将视频序列中的移动像素和静止像素自动分离。现实环境中,很多目标不是静止不动的,对于移动的目标就要使用“运动”的特征来检测,移动目标检测不注重静态的背景,通过快速的运动检测来提取移动目标,以达到对目标检测的快速和实时。
目前,最常用的检测运动目标的方法有光流法,帧差法和背景差分法。光流法的基本原理是首先对图像中每个像素分配一个速度矢量,在一个特定的运动时刻,被分配速度矢量的像素形成的图像运动场上的点与三维物体上的点一一对应,用于动态分析图像;帧差法的基本原理是检测目标图像中相邻帧或隔帧之间的图像改变,并且利用阈值方法提取图像中的运动区域以进行区分视频序列中的图像;背景差分法,该方法具有较高的鲁棒性,它首先提取基于图像序列的当前图像,然后将图像和实时得到的背景模型或者预先存储的背景图像进行差分,再经过阈值分割提取出运动目标。
具体到我校智能视频监控系统中,目标检测就是教室内学生的人脸检测。这个问题非常复杂,主要是因为检测工作会受到人脸照明,化妆品,头发和光等诸多因素的影响。人脸检测的最终目标是在完整图像中找到人的面部区域,并将输入图像合理地分成两部分,一部分是面部区域,另一部分是非面部区域。
(三)目标跟踪
目标跟踪的本质是按时间顺序连接在每个帧之间找到的相同对象,即跟踪每个运动对象的运动轨迹。在不同场景中由于光照、遮挡、视觉和杂波等干扰就会引起监控系统检测到感兴趣的目标,并对目标在姿势、位置、形状、运动等方面进行匹配,进而达到对动态目标的运动跟踪。
根据运动目标的表达和对先验知识的依赖,常用的跟踪方法如下几种类型:基于区域的目标跟踪。该方法将感兴趣的运动目标的区域与目标模板进行比较,并比较跟踪对象与候选对象之间的相似度,以计算相似度测量函数,以准确定位运动目标;基于活动轮廓的目标跟踪。该方法基于能量最小化原理,能够准确地跟踪目标的轮廓,并且对图像的微小变化具有很强的依赖性,但它对噪声非常敏感,并且当跟踪快速移动的目标时,跟踪效果不是很好;基于特征的目标跟踪。该方法的主要思想是依靠最优匹配原则,专注于对象的多个特征点的集合。它的最大优点是对同一对象多个特征的跟踪,当一个特征被遮挡时,还能通过其他特征来跟踪目标对象。
(四)目标行为识别
目标行为识别的目的是判断检测目标在运动中的行为是否异常,主要检测视频图像中移动,物体行为的变化,从静态目标的姿态识别,运动行为的识别和复杂事件的分析三个方面来对运动目标进行识别,然后进一步对目标行为特征进行分析。目前,典型目标行为识别应用主要有如下几方面:目标分类,缺陷检测,残留检测,人口统计和报警联动等。
二、视频图像智能分析技术的应用难点
虽然视频智能分析技术已经得到了广泛而深入的研究,但在实际应用中仍存在许多困难。它主要包括视频智能监控的实时性,鲁棒性和场景规则确定。
(一)实时性
监控系统自身存在采集,编码和传输等延迟的缺陷,因此要达到对视频场景实时监控的要求,就必须提高对整个智能监控算法系统的实践复杂度的要求。在高分辨率的视频中,虽然视频中的每个像素的处理时间非常短,但一帧图像通常有数十万甚至百万像素,因此目标检测还是整个分析算法中最耗时的部分,为了满足实时监控,智能分析的需要,就要求系统每秒处理十帧以上的图像,每帧的目标检测时间限于几十毫秒,如果没有特殊硬件的帮助很难实现实时的要求,许多目标检测的算法也只能停留在理论层面上。
(二)鲁棒性
由于受到实际环境的影响,视频智能分析相关算法的鲁棒性也是一个亟待解决的问题,其算法参数是以实际环境参数为基础,因此图像本身的清晰度,是否为夜间模式,是否使用广角镜头等复杂的外在因素都会影响智能分析的结果。在室内外不同的环境中,目标检测会受到天气、照明、灯光的反射、阴影,图像噪声等外在因素的影响,甚至由于摄像机安装的位置,拍摄的角度,和焦距的差异都会导致智能监控系统对目标特征的分析判断产生偏差。
如何降低实际环境对视频智能分析的影响是一个鲁棒的视频监控系统需要解决的难题,但我们在提高视频监控系统的鲁棒性的同时,就会增加建模和计算的复杂性,这就一定程度上降低了系统的实时性,因此要求系统设计者要平衡两者之间的关系。
(三)场景规则的确定
在不同的场景中,有些运动目标的行为是正常的,而有些目标的行为是异常的,如何区分不同场景,不同区域的目标行为是否正常,这要求视频智能分析系统依据不同的场景规则来判断。这就需要系统设计者提前在视频智能分析平台中设置好可以作为判断依据的场景规则。
三、我校智能视频监控系统中视频图像分析技术的应用
我校目前建成的智能视频监控系统,全面支持百万像素图像质量和16:9宽屏,使视频更清晰,更开放。同时,该系列高清产品均基于H.264高效编码技术,可占用較少的带宽和存储空间,节省投资。图2为我校建成后的智能高清视频监控系统网络拓扑图。
建成的智能视频监控系统中利用到的视频图像分析技术主要有视频图像采集技术和视频图像目标检测技术。
(一)视频图像采集技术
视频图像采集主要依靠前端设备高清摄像机,它是整个系统的信号源,用于采集每个教室的视频信号,并将信号传输到视频处理设备。 摄像机每天24小时监控,因此使用高清晰度,低照度的摄像机。使用在亮度差异较大的区域支持宽动态功能的摄像机可确保监视场景的任何部分都不会太亮或太暗。
图3即为实时采集到的各个教室视频图像数据信息。
(二)视频图像目标检测技术
通过目标检测来捕获的视频图像中的学生面部检测。通过加载到相应的面部分类器来检测面部,并输出检测到的面部(矩形框标记)和检测到的面部编号。如图4所示:
我们知道人的面部固定特征包括肤色,轮廓,灰度分布,器官的对称性等。 肤色是面部的重要组成部分。在中国,人脸肤色是一种单调的黄色。它不依赖于其他面部细节,具有相对稳定性。无论面部表情如何变化都适用,所以肤色特征是面部检测所需的最常见功能。
首先,根据肤色模型进行肤色检测。在检测到肤色区域之后,根据色度和空间相关性的相似性对可能的面部区域进行分割,然后使用该区域的几何特征或灰度特征来验证该区域是否是一个人的脸,其目的是排除相似肤色的物体。在一些情况下,根据色度和空间距离的一致性将肤色像素聚集成区域,然后逐渐合并,直到获得符合某一先验知识的椭圆区域,最后形成暗区域或空隙。检查该区域的眼睛,嘴巴等,确定它是否是人脸。
人脸的轮廓和灰度分布特征在人脸检测中也起着重要作用。人的面部和面部器官具有典型的边缘和形状特征,例如面部轮廓,眉毛边缘,眼睑轮廓,虹膜轮廓,鼻子线和唇部轮廓,其可近似为简单的椭圆形,圆形,弧形或线段等几何单元。可以基于这些几何特征值来检测人的面部。在实践中,还使用Sobel,Laplacian和Canny等算子,并使用小波变换来提取边缘特征。
四、结语
智能视频监控系统已在许多领域得到广泛应用,其核心技术视频图像分析受到了研究界的高度重视。对视频图像内容分析中包括的目标检测,目标跟踪,目标分类和识别等关键技术进行了广泛而深入的研究,取得了许多成果。然而,在视频分析的高级目标识别和目标跟踪行为分析的研究工作中,仍存在许多实际困难。而且,这些问题仍值得进一步研究和讨论。