文|陕西省电子信息产品监督检验院 王晓玲
陕西省安防协会专家委员会 陈嘉伟
智能视频分析技术起源于计算机视觉技术。美国9·11事件发生后,智能视频分析技术在国内外均得到了很大发展。随着相关软、硬件技术的不断发展,智能视频分析技术已在军事重地,文博、高风险单位以及重要区域、重要交通枢纽、要道、通道等的控制(门禁)方面有了实际应用。
笔者将智能视频监控从功能、发展趋势上划分为视频报警和智能视频分析。
相对于利用主、被动红外和微波、振动、张力、压力、电子声学等原理的报警(均基于模拟信号),视频报警是最近几年报警领域新的发展成果,优势明显——直观、现场感强、令人一目了然,因而便于值班人员判断、处警、决策。早期的视频报警只能做到将画面的某个部位设为禁区(设置虚拟红线),一旦有人进入即报警。目前视频报警的功能和应用已得到很大的扩展,入侵检测报警(翻越、穿越报警)可以做到多目标报警、多目标跟踪;非法停车、滞留检查报警(车辆停入或滞留禁停区即报警)、徘徊检测报警;遗弃物(故意将物体遗弃在公共场合或设定区域的行为)检测报警、物品搬移(在原现场内存在的物体被搬移、丢失)检测报警、游泳溺水检测报警(利用水下、水上摄像机覆盖游泳池水面、水下全景,一旦发现泳者沉于池底或在水中挣扎,立即报警),以及攀爬检测报警、人员聚集检测报警(用于预防群体事件)、流量(车流量、人流量)统计等也都得以实现。
目前智能视频分析有两种模式:一是基于前端DSP的嵌入式,二是后台服务器处理式。两种模式都在发展。早期的智能视频分析应用基本上都采用基于前端DSP的嵌入式模式,该模式在局部、重要点位的应用对人们认识智能视频分析有启蒙、宣传的作用。该模式的优点是仅当有报警触发时才上传信息,无需将画面实时上传至监控中心,因而可以大幅降低对传输带宽的占用,并可大幅节省录像空间,使得同样的存储容量可以支撑更长时间;直接接收模拟图像,因此不存在用于分析的源信号断开及延时的问题。其缺点是单点式工作,系统架构不灵活。
为满足应急联动防控的需要,智能视频分析正在由前端DSP嵌入式向后端服务器架构或两者相结合的方向发展。后端处理模式对网络传输要求较高,其分析会在遇到网络信号不连续时出现误差,也会受到网络信号传输延时的影响。但这种模式强大的源信号处理功能、灵活的信号切换功能、规模和功能扩展的方便性等都促进了其发展,而相关技术的发展以及需求,尤其是大规模、大系统、大范围布局的需求的增长,也使这种模式有了较快的发展。
无论哪种模式,智能视频监控与传统视频监控相比都有着明显的优势:有助于解决保安人员因长时间观看屏幕而疲劳、注意力降低的问题;能真正做到7×24小时全天候监控;能自动进行监控,使值班人员只需对告警图像进行确认和处理,无需时时紧盯多个监控屏幕,提高了监控效率;可以在远距离、光线不足、低对比度、环境伪装等挑战下识别人眼无法分辨的细微变化,从而发现入侵行为;能自动报警,并可自动跟踪、跟踪交接,形成联防,更可贵的是可以起到预防、预警的作用,改变只能在事后分析查证的被动局面。
按照技术原理划分,智能视频分析(行为分析)可分为基于背景建模技术和基于图像光流判断技术的两种。
(1)基于背景建模技术的智能视频分析
基于背景建模技术的智能视频分析,即建立监控区域的静态背景模型;在该模型的基础上检测监控区域内的动态目标,并记录该动态目标的行动轨迹;当该轨迹达到设定报警规则要求时发出相应警报。该技术主要用于对特定区域或特定时间内的入侵事件的监控。
背景建模技术是智能视频分析应用最为成熟,运用历史最长的一种技术,已在国内外得到广泛应用。该技术抓捕目标的灵敏度高,触警规则的设量自由多样,对摄像机架设的要求相对较低。上文所述的视频报警大都运用了该技术。背景模型与真实模型的匹配程度决定着此类检测报警的准确度。偶然的外界影响,如光线变化(如驶过汽车车灯的照射)、飘动的树叶以及突然的天气变化会导致误报。通过引入一些新的提高报警准确率的技术,诸如在原有背景模型基础上加入运动目标轨迹约束,设置景深信息,自学习重复运动物体轨迹等方法,可以滤除车灯照射、树叶摇动、小动物活动等偶然事件的干扰,已取得了较为理想的应用效果。
需要指出的是,由于此类检测报警的准确度取决于静态背景的完整性。故其应用场景应是目标稀少,或是监视时段内目标稀少的场合,例如周界围墙、下班后的工作大楼、重要物资仓库、金库、文博馆、设定的重点区域或高速公路路肩(监控违章停车)、禁区等。而诸如人员拥挤的道路、广场等场景,由于动态目标图像所占面积几乎覆盖了背景面积,计算机无法准确定位静态背景,容易给出错误结果。
(2)基于光流变化的异常事件监测
光流即视频图像的像素运动的瞬时速度。利用图像序列中像素强度数据的时域变化和相关性来确定各像素位置的“运动”,即研究图像灰度在时间上的变化与景象中的物体结构及其运动的关系。比如,斗殴动作会使图像中的光流激烈且杂乱无序地变化;如果系统能够识别这种变化,并在其达到一定阀值时发出相应的警报,即可实现对斗殴行为的报警。奔跑事件与聚集事件报警也是基于对光流异常变化的识别而实现的。
该技术也可运用于公共治安管理中的群体性事件报警;但在舞厅等场合,由于其光流变化与斗殴的表现相似,该技术并不适用。
由于人脸特征统计对摄像机安装角度要求较高,且难以解决人员相互遮挡的问题,因此利用人体特征识别统计场馆各出入口人流数量的应用,在实际工作中主要采用人头特征检测。
人头特征检测有三种检测方法。
(1)基于颜色分割的方法
此方法针对人头颜色特征进行图像分割,算法简单,准确性较低,易受光线变化影响。
(2)基于运动分割和边缘检测的方法
此方法通过在前景或边缘图像上搜索圆弧顶点来寻找人头,结合标定信息对前景进行人头分割。其缺点是运行复杂,不能处理遮挡。
(3)基于样本训练的方法
此方法提取人头共有特征——颜色分布、边缘纹理等,采集大量人头样本进行训练,从而得到人头识别器(识别器的训练方法有基于神经网络、Boosting以及SVM的方法等);用人头识别器在图像中搜索人头,将人头目标检测出来后,结合其他特征,如运动、领域边缘分布等进行后期处理,而后再除去一些误检,最终得到较准确的结果。此方法是目前最常用的客流量统计方法。其优点是:受多人同时通过的影响较小,适用于人流量大的公共场馆;可同时统计双向流量;在固定的出入口使用时,能取得很高的统计准确率;可根据光照情况自动控制补光。
人脸识别涉及人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等一系列相关技术。
目前人脸识别有基于可见光、近红外与三维人脸的三种实现途径,三者的采集手段和优缺点如表1所示。
红外光和三维识别技术都有专门的采集条件;对于大规模应用而言,采用可见光人脸识别技术较为理想。
表1 三种人脸识别技术对比表
人脸识别之所以被普遍看好且已在不同领域(如追逃、门禁以及重点部位、取款机的监控等)运用,主要是因为其具有自然性,不易为被测个体察觉。
(1)自然性
所谓自然性,是指人脸识别所利用的生物特征同人类(甚至其他生物)进行个体识别时所利用的生物特征相同——人类可以通过人脸、语言、体形等进行识别(指纹识别与虹膜识别等不具有自然性,因为人类或者其他生物并不通过此类生物特征区别个体),人脸识别也是通过观察比较人脸来区分和确认身份的。
(2)不被察觉
人脸识别不令人反感,不容易引起被识别人的注意,不容易被伪装欺骗;这与需要利用电子压力传感器采集指纹的指纹识别,以及利用红外线采集虹膜图像的虹膜识别大有不同。
人脸识别被认为是生物特征识别领域,甚至人工智能领域最困难的研究课题,其主要困难来源于人脸的相识性和易变性。
(1)相识性
就人脸而言,人与人之间的区别不大——人脸的结构,甚至各人脸器官的外形都很相似。此特点对于利用人脸进行定位是有利的,但对于利用人脸区分人类个体是不利的。
(2)易变性
人脸的外形很不稳定:人在做出不同表情时,脸部的外形会出现变化;在不同的观察角度上,人脸的视觉图像相差很大;光照条件(如白天、夜晚、室内、室外等)、人脸上的各种遮盖物(如口罩、墨镜、头发、胡须等)以及年龄等多方面因素都增加了人脸区分与识别的困难,提高了产生误报的几率;如果人脸经过整型,就更加难以识别了。
人脸识别需要有一个比较稳定的成像机制。图像中人脸的大小、光照、摄像机与人脸的角度等,都要符合一定的要求。只有这些前提条件得到满足,一个良好的人脸识别系统才有可能实现。
在光线较好的监控环境下,如人脸姿态偏转保持在左右60度,上下30度范围内,人脸抓拍率可以达到95%左右。在人脸部区域的分辨率不低于120×120像素(对于性能较强的系统,此要求可降低至80×80像素)的前提下,人脸建模的成功率在65%左右(建模时必须对抓拍到的人脸进行筛选,建模成功后还应与黑名单中的图像进行比对、识别。成功率的高低与需比对识别的黑名单中存留的人脸图像清晰与否有直接的关系,能达到60%已是较好的结果)。
需说明的是,人脸识别对成像角度、像素数、清晰度、无遮挡等的要求较高,传统的监控摄像机一般不能满足人脸识别系统的成像要求。目前用于工程的人脸抓拍摄像机为高清摄像机,可根据监控范围(监控区域宽度)选用100万像素高清、200万像素高清或500万像素高清摄像机。
智能视频分析正在蓬勃发展,其扩展应用已深入到许多行业和领域。让我们共同期待着高成功率实战应用的不断涌现,让刑侦技术更完备、更神奇!