基于社区安全的人群甄别视频预警研究

2016-10-15 08:03文贵华李辉辉李丹扬江丽君郇二洋

华南理工大学学报(社会科学版) 2016年4期

文贵华李辉辉李丹扬江丽君郇二洋

摘要：视频监控系统已在社区、火车站、机场、地铁等公共场所安装应用，但主要依靠人工观察监控视频，发现人群甄别，工作强度大，刑侦能力要求高，容易误报和漏报。采用大数据和人工智能技术来实现监控视频中的人群甄别身份及其微表情识别，进而对可疑人群发出安全预警，其意义在于提高社区的安全程度，促进视频监控产业的发展，提升了系统的实用性，不会引起可疑人群的警觉。

关键词：社区安全；人群甄别；微表情识别；视频监控

中图分类号：X924 文献标志码：A 文章编号：1009-055X（2016）04-0079-06

doi：10.19366/j.cnki.1009-055X.2016.04.011

一、引言

随着我国经济和城镇化的高速发展，使得城市人口的密集程度和流动性都大为增加，公共安全面临更严峻的挑战[1]，例如2014年在昆明火车站和广州火车站都发生了严重的暴力安全事件。特别是随着高科技的快速发展，采用高科技实现犯罪的现象层出不穷，犯罪行为的突发性、不可预测性增强，这些给犯罪行为的防范和侦破工作带来极大的困难。公安人员在人工排查犯罪嫌疑人时如大海捞针，成功率很低，效果不明显。社区在应急准备、预测预警、应急处置、恢复重建的过程中发挥着组织、指挥、协调等重要作用。[2]目前大多数社区应对公共安全事件的反应能力普遍较弱，不具备应对突发性事件的基础设施，社区工作人员缺乏必要的公共安全知识，特别是这些问题的解决目前还未提上社区的日常工作安排[3]，因而急需建立面向公共安全的可疑人群的预警与应急处理机制，以预防与控制突发事件的发生，保障公共安全。

视频监控是目前最可靠最有效的安防技术，已在火车站、机场、地铁、社区等公共场所安装和应用，但主要是被动式地事后视频查验，很难满足公共安全要求，主要表现在以下方面：首先在大多数情况下，视频监控系统的视频画面并没有被安防人员全部看到。研究表明，人类在连续监视某个画面22分钟以后，会丢失90%以上的画面信息，即使看到了，安防人员也不可能全部完全记得犯罪嫌疑人的相貌。其次是数据分析困难，传统的视频监控系统没有应用先进的人工智能技术，需要保存完整的24小时录像，不仅占用大量的存储空间，而且录像的视频数据无法自动分类，最多只能打上时间标签，这使得这类数据的分析变得非常耗时、困难。同时，安防监控人员通过不断地观察监控视频来发现可疑人群，工作强度很大，部分安防监控人员也缺乏必要的刑侦能力，容易误报和漏报。例如，为侦破2012年南京发生的“1.6”银行抢劫案，公安局组织大约1500名民警，花一个多月时间查阅了南京的10000 多台摄像头的视频，只查出20多秒与嫌疑人有关的信息。再次，现有视频监控系统是被动的，仅起到一个录像作用，基本上是等待突发事件发生之后，再进行事后查验，但此时损失和影响已经发生，无法挽回。最后，目前有部分人脸视频监控系统能识别黑名单中的嫌疑人[4-5]，但只应用于特定场合，如2008年北京奥运会、2010年上海世博会、深圳罗湖口岸等，这类系统没有实现人群甄别的微表情识别，不能发现黑名单之外的人群甄别。

因此，建立面向社区安全的智能人群甄别视频预警系统有很重要的价值，方法是采用人工智能和大数据技术，通过视频监控中的视频数据来分析过往人群的面部特征，例如身份、性别、情绪等，以更加精准地实现人群甄别的实时追踪和提前预警。

二、人群甄别视频预警的可行性

人群甄别视频预警系统主要通过视频监控系统中的视频对危害社区安全的人群甄别监测预警，采用的主要方法是基于黑名单的人脸识别和过往人群的微表情识别。

（一）黑名单与社区安全

通常，公安的黑名单包括前科人员、吸毒人员及在逃人员等，这些人员对社区安全有潜在威胁。由于这些人员的人脸照片都保存在黑名单数据库中，通过人脸视频监控系统就可以实现黑名单中人群的自动发现。人脸视频监控系统是视频分析、运动跟踪、人脸检测和人脸识别技术在视频监控领域的综合应用，其在前端社区的指定位置安装网络摄像机，对过往人群进行人脸抓拍，然后将抓拍的人脸图像通过互联网传输到监控中心的数据库保存，并与黑名单数据库中的人脸图像比较，当相似度达到预先设定的阈值时，便识别为可疑人群，系统主动发出报警，以多种联动方式通知安防人员处理。除预警功能外，系统实现的功能还有高清人脸图像的抓拍、传输、存储，人脸图像的特征提取和索引，联网布控，快速人脸图像查询，快速视频查询等功能。

（二）通过微表情来实现人群甄别

对于不在黑名单的人群甄别如何实现？可以通过微表情识别来发现。通常人在实施犯罪前，都很清楚被发现后面临的严重惩罚，因此会感到恐惧，会不自觉地表现出恐惧微表情，这就是所谓的做贼心虚。微表情的产生来源于外界的某种刺激所引起的生理反应。艾克曼教授通过大量研究发现，人类有7种不同微表情所反映的情绪：高兴、伤心、害怕、愤怒、厌恶、惊讶、平静。与表情相比，微表情具有客观性，是心理变化在面部上的真实显现，无法控制、隐瞒和伪造[6-7]，而表情是可以伪装的。所以，微表情能够在脸上表现出来，反映人类最真实的心理状态，这为采用人工智能模型分析人脸图像来了解人类内心的真实想法提供了科学依据。同时，微表情的持续时间非常短暂，通常不到 1/5 秒，这使得没有经过专业训练的安防人员很难察觉，无法发现可疑人群。微表情的这些特点使得美国等西方发达国家已将其运用于国家安全、司法侦讯等领域，但在我国起步较晚，在社区安全中的应用基本上还处于空白。中国古代兵法就有“攻心为上，攻城为下，心战为上，兵战为下”之说，强调心理战的重要作用。心理战策略同样适用于侦讯人员同犯罪嫌疑人之间的对抗。大多数犯罪嫌疑人事先都会做好防御计划应对侦讯人员的讯问，以逃脱法律制裁。由于每个侦讯人员的询问策略和方法都可能不同，犯罪嫌疑人事先难以准确预测，因此在整个讯问过程中犯罪嫌疑人的心理会不断变化，这些心理变化会在犯罪嫌疑人的微表情中表现出来，通过分析微表情就能迅速识别犯罪嫌疑人的心理变化，进而发现破绽。[8-9]例如提供一些特定物品给犯罪嫌疑人时，犯罪嫌疑人往往会产生其犯罪证据已被查获的错觉，从而打破了其侥幸逃脱的心理，表现出悲伤微表情。当使用一些证据揭穿嫌疑人谎言的瞬间，犯罪嫌疑人往往会表露出惊奇的微表情。同时，很多犯罪嫌疑人为了证明自己的清白，往往会伪装悲伤博取同情。当审讯人员运用分化瓦解这种离间计审讯犯罪嫌疑人时，嫌疑人往往会不自觉地表现出愤怒微表情，但真正的罪犯可能会伪装愤怒。[8]表情可以伪装，但微表情不能伪装。微表情识别技术的其他价值还表现在讯问方法不依赖于暴力威胁、恐吓等非法途径，避免刑讯逼供，同时可快速排查犯罪嫌疑人、缩小侦查范围，提高侦查效率。与测谎仪相比，微表情识别技术更有优势，主要表现在测谎仪只在特定场所才能使用，操作不方便，使用的审查程序严格，并且需要犯罪嫌疑人配合，这会导致犯罪嫌疑人在测谎之前提前做好准备。微表情技术就没有这些缺点，从而能够更加真实地了解犯罪嫌疑人的心理。[9]

三、人群甄别视频预警技术方案

人群甄别视频预警系统主要采用微表情技术和人脸识别技术，通过视频监控系统中的视频，对威胁社区安全的人群甄别进行监测、询问、预警，进而提出预控对策，确保社区安全。

（一）系统拓扑结构

人群甄别视频预警系统的拓扑结构如图1所示，包括5部分，并通过互联网连成整体。第一部分是安装在社区安全区域的网络摄像机，实时采集过往人群视频。第二部分是流媒体服务器，实时采集视频流，并从中检测出人脸图像。第三部分是可疑人群预警应用服务器，实时调用面部云平台中的人脸识别和微表情识别云服务，判断过往人群是否在黑名单，是否有恐惧、悲伤等异常微表情。此服务器还同时完成预警准备、预警分析、预警管理功能。第四部分是面部云平台，支持人脸图像的各类特征分析，包括人脸身份、微表情、性别、年龄、民族等识别，并以云服务方式对外提供服务。第五部分是计算机和移动设备，以便侦讯和管理人员使用这些设备操作系统提供的各项功能。

（二）系统功能结构

人群甄别视频预警系统包括三部分：预警准备、预警分析、预警管理。

1. 预警准备

第一个准备工作是建立人群甄别视频预警的指标体系，从而确定相关的预警规则，包括人群甄别的判定标准，例如设定相似度阈值，当人脸照片与黑名单中的某个人的相似度超过这个相似度阈值时，这个人即识别为人群甄别。对于没有在黑名单中的人群，也可能对社区安全造成威胁，比如首次盗劫的犯罪嫌疑人，此时需要通过其微表情识别来判别，一般这类人群会出现恐惧微表情。但是这些判断标准是可以动态变化的，可以通过以往犯罪嫌疑人的共性特征通过数据挖掘自动确定。第二个工作是训练大数据的准备。[10]人群甄别的识别包括人脸识别和微表情识别，所采用的机器学习方法属于人工智能中的深度学习，需要海量的训练数据，数据越多，识别越准确。训练数据的采集包括三类，第一类是微表情数据的采集，目前微表情分为7种，但是可将其分为两类，以提高识别的准确率，其中将可疑人群容易产生的各种微表情划为一类，其余的微表请类别为另一类。然后从电影、安防系统、互联网、电视新闻报道中采集每个类别的微表情人脸图像。第二类是人脸识别数据的采集，方法是从互联网上下载人脸大数据，训练深度学习算法，然后对新出现的人脸，只采用少量人脸图像在训练好的模型上再训练，因为采用的学习算法属于增量学习算法。

2.预警分析

预警分析完成对社区安全造成威胁的人群甄别的识别与预警，包括：从监控视频中获取人脸图像；完成黑名单中的人群甄别识别，并预警；完成人群甄别的表情识别，并预警；若预警，则根据人脸身份识别跟踪识别此人群甄别。其中的关键技术解释如下：

（1）视频人脸检测

深度学习算法不需要提取人脸图像的特征，而是直接以像素作为输入，但需要从视频中准确提取人脸图像。目前提取人脸图像的检测算法已十分成熟，也有硬件实现。系统直接采用最流行的Viola人脸检测方法，并采用CamShift算法在短时间范围内局部人脸跟踪目标，具有较好的实时性和鲁棒性。考虑到采集的人脸图像的质量存在一些问题，包括人脸分辨率、姿态、光照等，系统采用大量不同环境下的人脸图像作为训练样本，深度算法能够自动学习到这些不变性特征，以消除这些问题的影响。

（2）人脸识别

系统采用深度学习方法如卷积神经网络实现人群甄别身份（黑名单），判断某个人脸图像是否出现在黑名单数据库中。为防止单张人脸图像识别的不准确性，可以从视频中采集连续小间隔的多幅人脸图像，分别调用深度学习算法识别，最后采用贝叶斯方法融合决策，获得最终的识别结果。

（3）微表情识别

系统采用深度学习方法如稀稀疏编码[11]、卷积神经网络[12]来识别人脸微表情，其他方法还包括集成学习方法[13-15]，其输入为人脸图像，输出为微表情类别。为防止单张人脸图像微表情识别的不准确性，可以从视频中采集连续小间隔的多幅人脸图像，分别调用深度学习算法识别微表情，最后采用贝叶斯方法融合决策，获得最终的微表情识别结果。

（4）人群甄别跟踪

人群甄别发现可疑人群后，希望持续发现他们的行为轨迹。系统采用机器学习方法识别身份，进而实现跟踪。现有少量的视频监控系统能够识别人脸身份，但识别算法属于浅层学习，没有利用大数据优势，识别准确率低。为防止单张人脸图像识别的不准确性，可以从视频中采集连续小间隔的多幅人脸图像，分别调用深度学习算法识别，最后采用贝叶斯方法融合决策，获得最终的识别结果。

3.预警管理

（1）实时报警

提供黑名单管理功能，包括增加、删除和查询黑名单，例如把要布控人员的信息（包含姓名、性别、身份证号、家庭住址、人脸照片等信息）增加到黑名单数据库，然后按照时间、地点、布控等级等信息，对可疑人群布防。最后启动系统，实时监视各个网络摄像机，对人群甄别实时报警，提醒监控人员。监控人员可随时查看报警信息，并通过浏览抓拍的人脸图像和视频进行核实。

（2）历史查询

系统保存了历次报警记录，人脸图像及相关的小段视频。系统根据社区位置和时间段作为查询条件，可查询该位置在设定时间段内所有抓拍的人脸图像及相关的小段视频以及预警详情。此功能可快速查找可疑人群是否进出过某个重点场所。

（3）人脸搜索

当发现人群甄别时，办案人员可能需要知道其最近一段时间内出现的位置，需要对海量视频数据中进行人群甄别目标的查找，这就要用到人脸搜索。人脸搜索也适用于公安部门抓捕到普通案件中嫌疑犯的人脸照片时候，在全国在逃人员库中进行照片检索，帮助民警快速判断该嫌疑犯是否还涉及其他案件的可能性。系统根据输入的人脸照片、位置、时间段以及相似度阈值，自动检索人脸数据库，并将检索出的人脸图像按相似度降序排列显示。

（4）人脸跟踪

人群甄别发现可疑人群后，希望持续发现他们的行为轨迹。系统根据输入待跟踪的人脸照片、位置、时间段以及相似度阀值后，自动跟踪此人在各个位置采集的人脸图像及视频，以实现可疑人群位置的快速跟踪。

（5）辅助侦讯

系统支持安防人员通过智能终端对人群甄别现场讯问，例如将被预警的嫌疑人叫到办公室问讯，系统提供问讯的辅助手段，例如预先设置的询问问题，办公室摄像机现场分析微表情，观察人群甄别是否在说谎等方法，帮助安防人员及时确认可疑人群，此功能类似于建立一个侦讯辅助专家系统。

四、人群甄别视频预警系统应用

人群甄别视频预警系统在特定场合及社区安全的应用有着重要的意义，有助于打击违法犯罪和消除治安隐患，减轻公安人员和服务人员的日常工作量，有效提高工作效率和服务质量。它弥补了传统方式的不足，例如单纯依靠安检人员查验身份证核实身份，工作量大、繁琐、速度慢。通常抽检方式还有可能造成不法分子逃之夭夭，对人民生命财产安全造成极大的威胁。

（一）人群甄别视频预警系统优势

人群甄别视频预警系统的优势很多，首先系统采用了深度学习方法，减少了误报和漏报，提高了安全威胁的预报正确率。其次，系统通过视频采集人脸图像，是非接触性的，无需人群甄别配合，实用性强，嫌疑人无察觉。再次，系统使用时无须工作人员干预，减少了安防人员的工作量。一旦有事件发生，也有利于侦讯人员人工判断，因为判断一个人是谁，人脸最直观，不像指掌纹、虹膜需要相关领域专家才可以判别。最后，系统的可扩展性好，其前端的人脸采集完全可以采用现有视频监控系统的摄像设备，也可以增加新的摄像设备。后端应用可扩展到出入控制（如门禁系统）、黑名单监控、人脸照片搜索、视频搜索等多领域。同时，系统可同时识别性别、年龄、民族等，辐射性强，可推广到海关、情绪健康等其他行业。

（二）人群甄别视频预警系统部署

人群甄别视频预警系统由多台摄像机、桌面电脑、智能终端和多台带GPU电脑构成的面部云平台组成。摄像机采用1080P高清摄像机采集各类情况下视频的人脸图像。系统采用云平台体系结构，数据库采用Mysql。人群甄别视频预警系统的一个运行效果如图3所示，实现了视频人脸的身份、性别、年龄、民族等识别。

人群甄别视频预警系统在社区的关键位置如出入口安装网络摄像机，后端安装流媒体服务器、可疑人群预警应用服务器、面部云平台、数据库服务器等实现对过往人群的视频捕获，人群甄别实时识别与预警。同时提供预警管理、人脸搜索、辅助侦讯等功能。对带宽有限的情况，可将人脸检测功能前置到前端摄像机，实现人脸图像的检测和上传，上传信息包括人脸照片、抓拍地点、抓拍时间等压缩信息，减轻网络带宽传输压力。

五、结论

人群甄别视频预警系统采用人工智能最新技术，实现了人群甄别的人脸识别和微表情识别，识别性能和速度优于现有方法，具有非常重要的应用价值。首先，符合技术和行业的发展趋势，提升了市场巨大的视频监控产业。其次，该技术填补了国内空白，减少了误报和漏报，提高了安全威胁的预报正确率。再次，系统实用性强，嫌疑人无察觉。最后，系统及技术的辐射性强，可推广到海关、情绪健康等其他行业。

除了微表情外，其他面部特征还可以用于人群甄别的识别与预警。研究表明，性别、年龄与犯罪倾向之间有相关性[16]，未来的工作将融合这些面部特征构造更加准确的人群甄别预警系统。

参考文献：

[1]李岩，陈翔.广州市小城镇社区安全预警系统构建[J].今日湖北（下旬刊），2014（1）： 144-145.

[2]余树华，周林生.社区应急管理的定位研究[J]. 华南理工大学学报（社会科学版），2016（1）：46-56.

[3]王颖. 城市社区治理中的公共安全保障问题研究[J]. 发展，2015（3）：97-98.

[4]桑海峰，吴丹阳，王会.视频监控下的人脸跟踪与识别系统[J].计算机工程与应用， 2014（12）： 175-179.

[5]王炜，田野. 人像识别系统在视频监控领域的应用[J].警察技术，2014（5）：12-15.

[6]Bernard Fong， Joyce Westerink. Affective Computing in Consumer Electronics[J]. IEEE transactions on affective computing， 2012， 3（2）：129-131.

[7]S L Happy，Aurobinda Routray. Automatic Facial Expression Recognition Using Features of Salient Facial Patches[J]. IEEE Trans. Affective Computing， 2015， 6（1）：1-12.

[8]胡建伟.浅析公安机关侦查审讯中犯罪嫌疑人的微表情[J].北京警察学院学报， 2014（1）：66-70.

[9]徐良峰.微表情——讯问僵局下新的突破口[J]. 犯罪研究， 2015（4）：47-52.

[10]C Mayer， M Eggers，B Radig. Cross-database evaluation for facial expression[J]. Pattern Recognition and Image Analysis，2014， 24（1）：124-132.

[11]ChenYing， Zhang Shiqing， Zhao Xiaoming. Facial expression recognition via non-negative least-squares sparse coding[J]. Information （Switzerland），2014，5（2）： 305-318.

[12]Samira Ebrahimi Kahou，Xavier Bouthillier， Pascal Lamblin，et al. EmoNets： Multimodal deep learning approaches for emotion recognition in video[J].Journal on Multimodal User Interfaces，2016，10（2）：99-111.

[13]Tariq U， Kai-Hsiang Lin， Zhen Li，et al. Recognizing Emotions From an Ensemble of Features[J]. IEEE Transactions on Systems， Man， and Cybernetics， Part B： Cybernetics， 2012，42（4）：1017-1026.

[14]Jia Xibin ， Zhang Yanhua， PowersDavid，Ali，et al. Multi-classifier fusion based facial expression recognition approach[J]. KSII Transactions on Internet and Information Systems， 2014，8（1）：196-212.

[15]R Mousavia， M Eftekhari. A new ensemble learning methodology based on hybridization of classifier ensemble selection approaches[J].Applied Soft Computing，2015， 37（C）： 652-666.

[16]熊谋林，江立华，陈树娇.生命周期研究：性别、年龄与犯罪[J].青少年犯罪问题，2013（1）：75-82 .

Abstract： Video surveillance systems have been applied to the community， railway station， airport， subway and the other public places， where the crowd screening is now finished mainly through manually observing surveillance video. In such case， the larger working intensity and nice ability for criminal investigation are required， while the false positives and negative recognition easly happen. This paper applies the big data and artificial intelligence technologies to perform crowd screening and micro expression recognition based on surveillance video， and then issues the safety warning for risk crowd. It has the significant value in improving the community safety degree， enhancing the video surveillance industry， and enhancing the practicability due to without interfering the suspect.

Keywords：community safety； crowd screening； micro expression recognition；video surveillance