谢金萍+陈晓平
2016年8月,历时28年的甘肃白银连环杀人案告破,利用指纹和DNA深入侦查,警方最终确定犯罪嫌疑人高承勇,在白银市将其抓获,大快人心。
1988年至2002年,共犯下11宗强奸杀人案,过去20多年,为何迟迟未破案?公众讨论反复提及的一大原因,即是缺乏监控录像。从 1990 年代中期开始,视频监控应用才在大城市开始起步,2002年前的小城白银,未有完善的视频监控系统,影响了案件的侦破进展。
试想一下,如果20多年前即拥有现在的视频侦查技术,或许能阻止白银悲剧的发生,而站在现在的技术起点上,视频监控技术正处于一个质变的前夜,未来发展充满想象、机会以及潜藏的威胁。
2008年有部好莱坞电影《鹰眼》,描述大数据技术运用于视频监控,可从海量影像中捕捉既定目标,而个人在遍布的摄像头前无从遁形,已不再是科幻故事。如今,以深度学习技术为代表的人工智能正开始渗透至视频监控领域,可以更快、更准确地识别、跟踪、检索海量视频中的信息内容,多家安防厂商正投入大量资金,不遗余力研发“视频智能化”相关的技术和产品,部分产品在2017年即可实现商业化应用。
可检索、可追溯、可自动分析、可深度挖掘的视频智能化,正成为现实,以后,只要一张身份证,即可快速检索其在摄像头留存的影像,分析其行动轨迹。无疑,这将创造巨大的社会价值和商业价值,但是,每个人一定更加安全吗?
第四类侦查
2004年,中国政府提出建设“平安城市”,在这一综合性的管理系统中,视频监控扮演着关键的角色,公共场所的摄像头数量开始迅速增长。
东方网力总经理赵永军告诉《二十一世纪商业评论》(下称《21CBR》)记者,视频监控管理系统可分三大部分:第一部分为摄像头,在前段采集信息,记录图像、视频,实现内容可视化;第二部分是联网,借助运营商网络传输回后台各级指挥中心;第三部分为系统管理平台,其存储、分析传输回来的视频信息。
其中,内容可视化、视频联网,只是基本的要求,市政管理部门真正关心的是视频内容及其延伸价值。而核心的信息内容,不外乎是人、车、物,如何将这些关键信息提炼出来并进行分析,成为迫切需求。
“公安等部门要提取视频中成千上万的人、车、物等数据信息,大数据、云计算、云储存等新技术开始广泛应用于视频监控领域。”赵永军解释说,将视频应用与使用者的具体业务结合起来,出现了视频监控管理平台(View Management System,简称VMS)的概念。
东方网力成立于2000年,一直专注VMS的开发与研究,在VMS全球市场占有率中排名第三,现在市值约为200亿元人民币,以其2015年的“视云天下”产品为例,由视云联网、视云图侦、视云实战、视云大数据等产品线构成,前端联网各种各样的摄象头后,即可形成一个统一的大规模资源管理系统。
对于视频信息内容的管理、检索和分析,公安部门的需求尤其旺盛,并形成了一整套的案件侦破方式,比如,针对攀爬入室盗窃的案件,基于视频分析可大大提升侦破的效率。2009 年后,公安部明确提出,图侦(视频图像侦查)成为继技侦、刑侦、网侦之后的第四大侦查技术。
遍布的摄像头,降低了犯罪率,提高了破案率。以福建莆田为例,公开的数据披露,2011年以来,莆田市公安机关全面推进视频监控系统建设,截至2014年底,共建联网视频探头30337个,主要城区视频覆盖率均达90%以上。同期,110报警服务平台中接报的“两抢”案件,从2011年的905起降至2014年的323起,降幅达64.31%;莆田市利用视频破获各类案件4955起,“由像到人”的视频破案成其公安机关最主要的破案手段之一。
政府部门高度重视视频监控,但是,囿于传统分析技术的局限,大量工作只能依赖人工进行,也使其在案件追踪过程中吃尽苦头。
以2012年震惊全国的周克华案件为例,为追踪他的逃亡行踪,公安部门曾安排近1400人观看可能有其行藏的相关视频。彼时,视频监控技术尚未成熟,关键信息的提取和分析只能采用人工观看、排查的方式。而相关视频总量大体相当于500万部高清电影的体量,1000多人观看了整整一个多月,而挖掘出来的线索却非常有限。
人工处理效率较低,尤其人眼睛长时间盯着屏幕,大约每隔15-16 分钟即会视觉疲劳,所追踪的线索,可能在眼睛一睁一闭之间即错过。如何处理大量视频数据,将视频的元素提炼出来,进行结构化处理,成为其亟待解决的痛点。
当前针对海量视频信息内容的筛选,一种解决方案是“视频摘要”技术(即视频浓缩)。商汤科技主任研发工程师闫俊杰博士告诉《21CBR》记者,这种技术主要依赖背景建模和图片拼接两项技术完成,其原理是先通过对视频的分析,提取运动目标,然后对各个目标的运动轨迹进行分析,将不同的目标拼接到一个共同的背景场景中,以某种方式进行组合。
视频摘要技术分为动态和静态两类。前者指的是,在不动的场景下,将不同时间内出现的运动物体提取出来,叠加在同一个场景中,提高寻找目标的速度。比如,一段视频中,一位穿红色衣服的女性是关注对象,可用鼠标锁定此人,双击即能切换到其现身的原始画面;后者则是进行镜头探测、关键帧提取、场景聚类等一系列操作,从原始视频中剪取生成的一系列静止图像的集合,最终生成具有代表性的关键帧序列或缩略视频。
这种摘要技术的出现,极大提高了工作效率,比如,一段24小时不间断的视频内容,可以此进行关键信息浓缩,处理成数小时甚至30分钟,便于快速观看。
闫俊杰告诉《21CBR》记者,虽然视频摘要技术提高了处理速度,但是由于背景建模不是很稳定,比如在风吹动树这种比较明显的动态场景下,或是比较拥挤的场景下对于拥挤物体的区分,背景建模容易失效。另外,视频摘要一般需要离线处理,视频素材的存储空间需求更大,也缺乏实时性,而且大量工作仍然要依靠人工处理。
人会疲劳,会犯错,但是机器不会,那么,有没有更加智能化的技术呢?
解构视频
更彻底的视频分析解决方案,即使以人工智能的方式,实现视频结构化。
“视频结构化是将传统的基于人力查看的视频监控系统,提升成基于智能搜索、主动分析、综合服务的视频大数据智能平台的关键。”商汤科技CEO徐立告诉《21CBR》记者,结构化具有三个重要意义:对视频内容提取关键信息进行存储,基于语义进行自动检索,未来更高层级的搜索以及大数据分析和挖掘。
具体来说,即是针对感兴趣的目标、物体(包括人、车、非机动车、路牌等),可由人工大脑自动逐一检测出来,进行跟踪,厘清其属性。比如,具体到一个人,分析包含年龄、性别、衣着、手提物品等各式各样类型的属性;车可以包含车牌、车型、颜色等一系列的属性。确定属性后,使用者即可进行功能性搜索,比如以图搜图或者文字搜索,在海量的视频信息中找到具体目标。
假设这样一个场景,110接到一个电话报警,“在一个十字街口看到有一辆蓝色的凌志车,撞上了一辆黑色的宝马”,若在传统场景,具体哪个十字街口说不清,要在海量数据中搜索这样一段视频非常困难。若进行结构化后,即可利用关联字——蓝色的凌志、黑色的宝马,以及十字路口,将相关的视频内容检索出来。
再者,无论存储在云端或是本地计算机,传统的视频存储量一直是一个问题。尤其2013年,中国开始实行智慧城市建设,摄像头越来越高清,视频的数据体量越来越大,存储成为重要瓶颈。而若白银案这种连续多年的案件,长时段视频存储对于案件侦破至关重要。
而一旦形成视频的结构化,即可只存储视频中的有效内容,比如集中在人、车、物,这样大大便利于信息的检索。而且,同一段视频内容,各不同部门可各自所需,例如交警部门感兴趣的,主要是视频中的车和非机动车等信息数据。
如此一来,可大量去除没有意义的视频内容,设定关键信息的属性,进行高度压缩的存储,“有可能120G的视频,一些部门需要的信息,可以压缩到几K,”徐立说,这样关键信息将得到永久性的保存。比如白银案,当时若能实现监控且储存结构化信息,那么,一检索作案时段犯罪现场的人员往来关键信息,在多个场合同时出现的犯罪嫌疑人很可能会被锁定,案件侦破可能相对容易很多。
问题是,如何进行视频结构化呢?
闫俊杰解释说,对视频进行结构化数据处理的技术难点在于,一是如何解决视频处理量比较大的问题;二是属性识别的提升、准确率的提升,以及如何覆盖更多的场景(比如晴天、阴天)。解决方案涉及时下流行的一个热词,深度学习技术。
长期以来,计算机遭遇这样的尴尬,数量计算这种人类看似困难的事处理起来非常简单,而如人脸识别这样看似容易的事却非常费劲,因为计算机不同于人脑,比如在识别图片时,其看到的只能是数字,它必须能捕捉这些数字,再识别图片究竟是什么,这牵扯非常复杂的算法。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,可模仿人脑的机制来解释数据,例如图像、声音和文本。
深度学习的技术渊源可追溯至上世纪80年代,只是囿于当时的数据量和计算能力,一直没有得到重视,直到21世纪后,重新为学术界所关注。微软人工智能首席科学家邓力(Li Deng)曾在2009-2010年间与其合作者开发了一套算法,就将语音识别的准确率提高到一个新量级,“当时引爆了学术界,深度学习马上成为大热点,”徐立说,“大量研究开始朝着深度学习方向迅猛推进,技术应用不断拓展,计算准确率大幅度提升。”
近年来,深度学习广泛应用于三大领域:语音识别、自然语言处理(比如“微软小冰”)以及计算机视觉(比如人脸识别)。AlphaGo的底层技术同样是深度学习,这已成为计算机领域的显学。
徐立之所以选择创业,一个诱因是,当年在香港中文大学从事图像处理研究时,香港警方主动上门,他们有一些逃逸车辆视频,车子开太快,识别不清,要求用技术方式复原车辆的信息,警方对成果非常满意,付钱买单了,“当时我们开始意识到,计算机视觉的学术研究已经能够转换为工业应用了。”徐立说。
计算机视觉大体可分为三个层次:图像处理、模式识别和图像理解。而视频是连续的图像,比静态图像中的物体检测复杂度更高。据闫俊杰介绍,基于深度学习的视频识别技术是以图像识别作为基础,就是在图像识别检测、比对、分类的基础上,结合了比如选帧、多帧融合、时序预测、质量评估等多种需要和视频融合的方式。
“计算机视觉用于视频结构化,一个技术成熟的标志在于可被拿出来进行竞赛。”徐立说。他指的是ImageNet竞赛,这是人工智能领域的权威竞技场。2015年,ImageNet竞赛新增一项视频物体检测的任务。
在该项新任务的比拼中,赛事主办方选择了30个类别的物体,商汤科技联合香港中文大学多媒体实验室组成的团队,在28个类别中准确率最高,第二名只赢了两个;商汤科技整体62%的准确率,也高于第二名51%的准确率,最终以11%的压倒性优势领先并夺冠。值得注意的是,国内最大的监控产品供应商海康威视也组队参与了ImageNet竞赛。
东方网力一名技术工程师向《21CBR》记者解释,传统的视频分析方法依赖于人工构建的特征,而深度学习技术则是由算法从数据中去学习特征,特征的鲁棒性(指控制系统在一定的参数摄动下,维持其它某些性能的特性)、泛化能力优于传统方法。基于GPU的深度学习,在实际应用中,其并发处理量和处理速度等性能上,都有明显优势。
赵永军评价,这些学术成果对于视频应用,是一种技术性的“突破”,“深度学习技术引入到了视频的智能化应用,实际上可以理解为让计算机有了思维,让计算机有了思想。”
需求强劲
作为一家技术公司,商汤科技在上游拥有技术资源,需要拓展应用场景,而东方网力在行业内有非常强的客户资源,寻找核心算法能力。“东方网力在视频连接、平台技术等方面有技术储备,我们的核心能力是在海量视频中去捕捉需要的信息。”徐立解释说。两家公司一拍即合,2015年,双方成立合资公司。
视频结构化的第一目标要素是人,而合作已经有实质性的成果。
赵永军向《21CBR》记者举例,东方网力曾与某省公安厅在火车站进行人脸对比的数据测试,选择13路视频监控,即13个场景,在车站内正常流动的环境组织内,每天会组织30个人,都分别在这13个场景下行走一遍,这样要找的目标就是30×13=390人次,在无意识、不配合的情况下,比对后台的人口数据库,基本每天能找到当中的280~330人。
除了准确率,误报率也是一个重要的指标,一套系统如果总是报错的话,就失去了使用价值。徐立表示,人脸识别技术在很长的范围时间内,之所以没能在公安部门等运用起来,就是早期误报率太大,对工作反而形成干扰,“要在公安部门中使用人脸识别技术,一方面要求真正抓取技术准确率要提高,另一个是误报率要很小才行。”据赵永军介绍,上述的火车站测试,误报的数量基本在10个以下,这意味着技术已经有实用价值。
目前,在对象处于静态并主动配合下,人脸识别技术准确率高达95%以上,在实际应用的监控视频中,目标人物处于无意识、非主动的状态,所提取出来的人脸往往难以识别,某些特别复杂的场景下,准确率可能只有40%-50%,这是视频技术应用的一大瓶颈。不过,从动态视频中进行人脸识别的技术难题也已实现突破。
据徐立介绍,市面上流行两种类型摄像机设备,枪机高清摄像机,可提供相当于4K的画面;另外一种是球机,可视作是长焦镜头。在视频提取时,之前往往遇到这样的困境,枪机摄像机200米开外的事物往往是看不清楚的,如果用球机变焦,又只能看到局部,无法看到全部。那么,全部场景提取和局部清晰变焦如何才能兼得呢?
利用人工智能技术,就可实现“枪球联动”,就是用枪机去提取所有的场景,其中检测出来感兴趣的关键信息,借助算法控制,用球机一个个进行变焦扫描,进行车型检测、人脸识别对比。
2016年4月,商汤科技宣布并购新舟锐视,后者创立于2011年,是一家从事制作硬件的科技公司,核心产品是智能摄像头长焦联盟机,并成立“商周锐视”,这家公司融合了商汤在软件和算法方面的领先优势,以及新舟锐视在硬件及市场拓展方面的成熟经验,力求构建拥有计算机视觉和深度学习原创技术的领先智能安防平台,并已经推出了“多目标智能跟踪一体机监控平台”。
不仅是人脸识别,实现数据结构化之后,可以实现更多的智能应用。
以传统的车辆智能监测记录系统(俗称“卡口系统”)为例,它是视频监控中的一种核心应用,主要面向交通管理,现有系统中,通过以车牌为核心,用于提取车牌信息。实际上,对于视频内容而言,大量有效信息卡口系统并没有提取出来,比如车的类别、车型大小、车身颜色,但是,借助数据结构化就能有效提取所有相关信息,比如,通过卡口的车,可以具体到现代汽车品牌、伊兰特系列2007年款。
查处“套牌”是交通部门的一项常规工作,传统的套牌分析方式,是通过视频监控,利用时间、空间分析两个车牌不可能同时出现在不同的地点,才判定它是套牌,非常复杂,现在则不同,“汽车的各种特征都成为数据,一个车牌所对应的汽车特征都有数据,针对这个车的不同特征提取,以判断是否数据套牌,这样会简化很多。”赵永军说。
在侦破案件时,这种车辆信息的作用更大。因为很多案件都是团体作案,几辆车协同进行,那么,如何通过一辆车去判断另一辆车,以确定两者之间存在协同关系嫌疑?这些都可以通过分析车辆的运行轨迹、其常落脚点以及时间等数据,得出正确的结论。甚至在一个小区内,哪些车辆经常出现、哪些比较陌生、哪些是第一次出现,均可以分析出来。
在视频监控领域,商汤科技形成了以深度学习为核心技术的三大技术产品形态,除了人脸布控系统和视频结构化系统,还开发了一套智能人群行为分析系统(SenseCrowd),该系统适用于大量人群的行为分析和管理,通过统计场景内的人数、跟踪人群的移动速度和方向、异常行为分析等,进行实时人群监测,并对人群过密、异常聚集、滞留、逆行、奔跑等多种异常状态,进行智能预警。利用这种系统,2015年元旦上海的踩踏事故,就有可能避免。
赵永军表示,视频监控行业现对深度学习的应用需求非常强劲,“深度学习技术是近些年刚刚引入的技术,在行业内,对深度学习反应程度之热烈,大大地超出了我们意料,”赵永军说,东方网力现在各个项目中,向潜在客户进行演示和人脸测试的高端服务器,就有数百台之多。
徐立告诉《21CBR》记者,深度学习技术在视频的大规模商业化才刚刚开始,行业内一般是第一年看演示、做预算,第二年进行项目实施,现在是未实施先火,是因为所有人都非常看好该技术在行业内的应用,产生大量新的需求,“今年,交通、安防、公安、楼宇安全等行业都提出了很多需求,有很多人看过项目演示,预计明年的话,各行业的需求会更多,最终形成一个较大市场的规模。”
更重要的是,传统的分析方法在数据达到一个量级后,性能提升曲线会变得非常平缓;而深度学习的数据驱动式训练模式,将突破这个瓶颈,在更大量级的训练数据上,仍能保持非常高的性能提升幅度。这意味着,随着各垂直领域拥有的数据量越来越多,未来,算法所展现的结果将越来越准确。
监控升级
视频监控系统以摄像头为前端,摄像头是固定的,也可以是移动的。
安防机器人便可视作一种“移动的摄像头”,是视频监控系统的延伸。东方网力就正在拓展安防机器人领域,参股了美国的安防机器人公司Knightscope。
Knightscope成立于2013年4月,创始团队来自于世界知名机器人公司,具有超过10年多年机器人研发、生产的丰富经验,该公司通过融合音视频、室外定位、避障等传感器技术、物联网技术、大数据技术以及机器人技术,开发可在公共场所采集数据和执行任务的安全警卫机器人,以达到减少和预防犯罪的目的。目前,Knightscope已研发出两款机器人K5和K10,并为客户提供机器人安保服务工作。
赵永军第一次见到Knightscope的机器人,便留下了深刻的印象。“1.5米高,300磅重,俨然大汉的模样,在面前停下来,头部360度高清摄像头对我扫描了一边,还有激光扫描进行身份识别,传送给后台指挥中心。”
当时,赵永军是由美国总经理带领参观的,一行四人,第二天,机器人就向指挥中心发了评估报告,记录了四人的来访时间,其中两人的身份由于后台系统有存储而被识别,赵永军成为最受怀疑的对象,因为他总在机器人身边转来转去,研究他们;而当机器人的电量低到一定程度的时候,会自动回到充电处续能。
赵永军告诉《21CBR》记者,现在美国硅谷一些社区中,已使用安防机器人进行巡逻,“(机器人)起到了威慑作用,同时,在巡逻过程中也进行视频内容的采集,传输给指挥中心以判断是否为异常情况,如果有警情的话,这就是一个移动警报。”东方网力准备在2017年,将这种安防机器人引入中国。
美剧《疑犯追踪》曾虚构了这样的场景:“9.11”事件后,为了防止悲剧再次发生,在政府的支持下研究出一个人工智能系统,它连接了国内所有摄像头,通过抓取所有人的行为进行分析、推荐,包括其过去的所有数据,进行分析,系统变得比人脑还深不可测,能够准确地预测犯罪嫌疑人的下一步动作,以最快的速度调动一切安全部门、警察局资源,在犯罪发生前赶到现场,阻止悲剧发生。
摄像头一直存在,只是过往没有能力将其整合起来,但是,借助人工智能,这些离散的视频将很快可以将一个人的轨迹勾勒出来,无论是否自愿,一个现代人恐怕已真的无所遁形。
对于常年浸润在安保行业的赵永军而言,这一切并非完全不可能,很多技术正逐渐成为了现实,“未来的终极目标,一定可以做到这样的程度,经过授权的执法人员,他可以知道具体某个人每时每刻在哪里,这就是一个时间的问题。”徐立也表示,视频智能化已经到了一个相对较成熟的阶段,“不仅是安防领域,视频的数据结构化接下来会大量运用各行业,数据结构化之后,还会催生更多的是智能应用。”
可以预见,这种技术的进步将大大推动监控力量的扩张。现代社会,犯罪、恐怖袭击等,通过媒体的放大,已在加剧民众的恐惧,有人形容为,“一种普遍的不安全感被生产出来,这导向一种新的消费,即对保护的消费”,相应的,全球监控设备市场在不断膨胀。
据统计,1990年代初,英国CCTV监控系统的市场规模约在在1 亿英镑左右,到1990年代末达到3.61 亿英镑左右,到2002 年以后,年均增长率达到14-18%。根据研究机构IMS Research 的数据,2014年全球视频监控设备市场总额超过140 亿美元,年平均增长率超过30%。可以说,安防监控已成为一个“繁荣的产业”。只要有恐惧,就会有消费,这成为一笔稳赚不赔的买卖。
中国同样如此,以G20峰会举办地杭州为例,公开数据显示,其视频监控规模是全国“平安城市”中最大的单域联网项目之一,至少达到6万路的规模。如今,不光在公共安全领域,百度、奇虎360等公司,还正在将摄像头引入到私人家庭领域,且均投入大量资源用于深度学习技术的研究。
可以预见,借助于视频智能化技术的发展,诸如白银案这样犯罪事件,未来将会更便利地侦破甚至有效预防,同时,也有必要忧虑,语音识别技术的进步,助推了美国的“棱镜”窃听计划,未来,会不会出现视频版的棱镜计划?