实时大数据挖掘系统的设计与实现

2020-03-13 10:55孔华锋
计算机应用与软件 2020年3期
关键词:车牌异构海量

罗 俊 于 水 杨 维 孔华锋

1(公安部第三研究所 上海 201203)2(上海铱芯信息科技有限公司 上海 201206)3(武汉商学院 湖北 武汉 430056)

0 引 言

公共安全新形势下,诸多单一的数据采集、跟踪、分析手段急需整合梳理以便发挥综合效益。实时大数据碰撞系统通过对海量异构数据的收集、整理、归档、分析、预测,从复杂的数据中挖掘出各类数据背后所蕴含的、必然的因果关系,找到隐含的规律,促使这些数据从量变到质变,实现对各类采集数据的深度应用、综合应用和高端应用。

目前建设的数据系统,还是以视频分析(主要是人脸识别)为核心,辅助以户籍身份、物流地址等数据源进行综合分析。在嫌犯反侦破意识普遍增强的新形势下,仅利用传统手段取得理想效果的难度越来越大。

得益于人工智能技术的突破和大数据基础技术的发展,机器对人的识别能力达到了一个新的高度[1]。但是,一方面这些新兴技术仍有其固有的操作盲点和缺陷,另一方面执法部门掌握的传统数据往往呈现出烟囱式孤岛效应,相互之间有着巨大的关联价值却不能得到充分利用。

随着人和社会的爆炸式网络化、电子化,越来越多的社会活动和个体行为体现为数字化存在。手机实名制强制推广之后,智能终端日趋成为人的第二身份索引,在专门机关掌握的各项大数据中,手机特征码是最接近于身份证的精确信息,这使得电子世界中识别追踪精确目标人群不仅成为可能,而且成为必然。若能综合利用关联于个人的电子特征(手机IMSI、MAC等)、人体特征(人脸特征、姿态特征、衣着特征等)、出行工具(车牌、车型等)以及其他特征数据(居住餐饮、物流快递、金融记录、上网痕迹等),势必极大提高专门机关对刑事案件的研判能力和效率。

针对人脸、视频流、车牌、手机特征码这些数据孤岛,如果能用机器学习和数据挖掘将其联系起来进行综合挖掘和分析,可以构建目标个体的物理特征和电子特征之间的强映射关系,这是单一数据来源所不能比拟的优势。对这些海量大数据进行综合后,警员可以不必穿插于各个平台间进行繁琐的操作,而是通过直接融合各项数据实现战法,破案效率和成功率有直接的提升[2-3]。

另一方面,大数据综合之后,可以实时动态地把控社会事态,异常人口聚集、流动人口突发事件、重点区域来人预警、新进外来人口识别等智能化分析需求也可以落地,无需社区警力实地排查,既省时又省力。

多种异构大数据如图1所示。

图1 多种异构大数据

目前专门机关领域多维数据融合已有一些解决方案,但都聚焦于IMSI和车牌或者IMSI和MAC地址之间的碰撞融合。相比于IMSI、MAC和车牌数据,人脸数据具有高度复杂和非结构化的特点,因而实现人脸数据融合是一个难度较高的任务。人脸识别领域常用的1∶1和1∶N模型并不能适用于大规模人脸数据融合的场景。对于人脸、IMSI、车牌、MAC这样的大面积密集采集场景,需要实时碰撞比对,目前的人脸对比模型很难胜任。1∶1人证合一模型仅适用于1对1的静态配合场景,1∶N黑名单模型仅适用于对已知人脸库的实时比对。实际的大规模部署中,需要实现海量日常人脸之间以及人脸数据和其他维度数据之间的实时在线碰撞比对,并快速动态更新人脸、IMSI、MAC、车牌的映射关系。目前市场上各种解决方案动辄需要上千万投资,且不支持在线实时挖掘,限制了大规模系统的部署和实施。怎样用合理可行的算力实现大规模人脸数据融合是一个有技术含量的任务[4]。

本系统的先进性在于突破1∶N的人脸模型,实现海量人脸(非静态人脸库)和其他多维数据的融合,所有查询均为实时结果,所有查询均在1秒之内完成,在充分利用所有可用的计算资源的同时,提供高伸缩性、高性价比的实时大数据挖掘解决方案。

1 系统架构

整个大数据系统从逻辑上分为网络拓扑、硬件架构和软件架构三部分。网络拓扑解决特定行业大数据部署的基本架构问题,公共安全行业的大数据网络拓扑有其特定限制,对网络隔离等安全性要求很高;硬件架构上充分考虑伸缩性和性价比,利用先进成熟的开源理念,以分层可扩展为核心,构建可动态扩展的硬件部署方案;软件架构上利用成熟的大数据构建组件,嵌入专有的异构数据实时挖掘算法,达到对大规模多维数据实时处理的效果。

1.1 网络拓扑结构

根据专门机关对内部各项专网安全性的要求,充分考虑落地建设的实际情况,在有视频专网的地方尽量用视频专网接入采集设备;在没有视频专网的地方依靠互联网接入,但同时大力加强安全审计工作。除了系统本身内置的各种安全措施,还要采取边界隔离措施来确保数据的安全接入和严格保密,确保数据采集通道的接入不影响内部各专网的安全性。网络拓扑结构如图2所示。

图2 网络拓扑结构示意图

为防止未知的网络漏洞或者操作系统漏洞造成损失,网与网之间的采集数据交换尽量采取文件交换的方式,杜绝一切网络协议实现上的隐患,再通过安全检测软件和防火墙来控制端口访问,必要的地方使用网闸来进行物理隔离。

1.2 硬件架构

系统从硬件架构上分为五层,分别是采集接入层、数据存储层、实时计算层、应用服务层和用户访问层,如图3所示。

图3 硬件架构示意图

采集接入层包括各种采集设备,主要有综合采集IMSI和MAC的热点、人脸抓拍摄像机、车牌抓拍摄像机等。此外,该层还提供数据适配模块以支持第三方数据的接入。第三方数据可以是快递数据、人口数据、社交数据等一切有利于综合分析比对挖掘的大数据源。

多样化的场地为定向越野运动提供了充足的乐趣,如果校区在开展定向越野运动中受到场地的制约,那么就要立足于本校的实际情况,充分挖掘校内现有的资源条件,有选择地选用器材,建立适合本校的运动方式。同时,要加强与其他学校的联系,多组织跨校训练,实现资源互通,从而解决场地受限的问题。

数据存储层主要提供分布式大数据存储功能。一方面相对于传统的单点数据库,该层具有分布式和冗余备份两大功能。另一方面作为典型的大数据存储系统,该层还提供了节点线性拓展的可伸缩能力,帮助用户从繁琐的系统维护中解脱出来。

实时计算层主要提供分布式实时计算引擎。该层提供亿级别的数据查询与碰撞,具有极高的性能,所有查询均以秒级返回结果。

应用服务层主要向上提供各种服务接口,所有服务均以分布式拓展的方式组织起来,充分利用系统的资源,且各种服务均可以动态删减和加载。

用户访问层主要提供用户http访问系统服务的能力,提供各种查询和操作功能。在该层还有安全审计模块,提供必要的审计、鉴权、授权功能。

1.3 软件架构

如图4所示,本系统软件架构遵循大数据系统的最新设计理念,充分利用成熟先进的分布式组件搭建,在此基础上又有独到的创新。主要使用到的软件组件技术、模块包括:分布式消息队列ActiveMQ[5]、分布式列式存储数据库Clickhouse[6]、分布式缓存Redis[7]、分布式服务注册与发现Zookeeper[8]、分布式任务调度TBSchedule[9]、大规模分布式计算引擎(基于自研算法)、分布式日志系统Kafka[10]。

图4 软件系统架构

2 关键技术

本系统针对行业痛点,设计了若干关键创新技术,主要包括海量人脸特征的快速比对、异构数据结构化交叉索引、高频数据的多维度去重碰撞以及多重安全审计。

2.1 海量人脸特征比对

人脸识别算法日趋成熟,在公共安全行业内有很多知名厂商,目前在人脸识别领域处于国际领先地位。但是行业内均针对1∶N的模型进行商业化运作,底库数量级一般达到100万左右。这对于黑名单应用来说已经足够,但是对于超大规模的实时人脸采集和比对没有实用方案。经过分析,深度学习的推理部分可以采用基于CPU的分布式比对方案,这样可以充分利用CPU集群以及现代CPU多核技术,实现性能上的伸缩性。

与一般的SoftMax判别算法不同,本系统采取了google的triplets算子[11],将人脸特征向量嵌入欧式空间,然后把特征向量以100万为单位分配到每个CPU核上去,可实现并发比对,按照相似度提取人脸识别结果后再通过分布式缓存系统汇总。这一做法大大提高了处理效率和系统扩展性,保证了亿级人脸的秒级查询,是系统的关键技术之一。

2.2 异构数据结构化交叉索引

提取人脸特征向量的同时,还需要和同一时空点上的其他异构数据进行数据比对、聚类、排序。同一GPS坐标上的IMSI、MAC或者车牌采集信息都需要和人脸进行互相标记,并实时地与分布式数据库中的历史数据进行聚类和比对。为此需要设计高效、容错的异构数据索引方法,让算法引擎迅速完成数据的查找、比对和计算。

本系统设计了两两交叉的Hash索引,以IMSI、MAC、车牌为主索引,人脸特征聚类中心为辅索引,所有关联结果计算均在200毫秒内完成。这一性能指标符合实际应用场景,有力保证了最终后台实现秒级查询的效果。

2.3 高频数据的多维度去重

目前抓拍机本身已经能够保证10秒左右的人脸去重,但是MAC采集的重复率非常高,是典型的高频数据。对于时间和空间上相互关联的多维数据,不能简单地去重,需要综合考虑异构数据之间的潜在关联关系。此外,鉴于采集设备本身的稳定性和采集能力限制,还要考虑部分数据缺失时的算法处理,不能因此去掉了不该去掉的数据。

实践中还发现,不同采集设备还受到供电、安装位置、时钟对齐等众多因素的影响,这些都是海量数据清洗、使用过程中必须重视的问题。

2.4 层次化安全审计

系统安全性包括两大方面,设备安全控制和访问安全控制。为此系统设计了分层次的安全审计架构,如表1所示。

表1 层次化安全审计

不同于IT互联网行业,公共安全行业大数据系统特别强调安全性。本系统中把安全审计作为一个特殊的关键技术来设计,从设备、传输、接入、访问诸多方面设计了种种安全手段,有力地保证了整个大数据系统的安全保密性能。

3 实施效果

以江苏某地级市为例,系统设计部署的处理能力如下:车牌抓拍一周的数据量为1 800万条,一年存量数据约10亿条;200个高清摄像头,一天捕获人脸数量约为200万,3个月存量数据为1.8亿;IMSI采集一天约100万,一年存量数据为3.5亿;MAC采集100个点,一天数据量为4 000万条,一年存量数据约150亿条。所有的查询必须在1秒内完成,这要求大数据系统必须实现实时数据的在线处理功能,否则一处积压、处处积压。

人脸采集索引运行效果图如图5所示。

图5 人脸采集索引运行效果图

多维异构数据挖掘实时查询效果如图6所示。

图6 多维异构数据挖掘实时查询效果

系统在实际运行中效果良好,人脸、车牌、IMSI、MAC的交叉索引、快速查询、聚类收敛等各项动态指标均达到设计预期,秒级响应、实时挖掘的创新特性得到用户的好评。

4 结 语

本文通过使用多项大数据关键技术,针对行业实际情况设计架构和算法,解决了当前公共安全行业中大数据落地的一些痛点问题。海量异构数据的实时挖 掘和用户体验上的快捷需求,把政法行业各个数据孤 岛联系起来,真正发挥出了大数据的威力。所设计和 实现的大数据系统已经成为多个实际政府部门的运作 平台,为社会安全治理、反恐、案件侦办、情报分析等诸 多领域作出了重要贡献。

下一步演进方向是考虑未来的5G物联网,接入更多的海量异构数据,实时挖掘更大量、更多类数据之间的普遍联系和规律以便更好地为公共安全服务。

猜你喜欢
车牌异构海量
ETC拓展应用场景下的多源异构交易系统
一种傅里叶域海量数据高速谱聚类方法
离散异构线性多智能体系统的输出一致性
试论同课异构之“同”与“异”
海量GNSS数据产品的一站式快速获取方法
车牌颜色里的秘密
海量快递垃圾正在“围城”——“绿色快递”势在必行
凝聚与铺张——孙绍振教授《以丑、呆为美》两岸同课异构教学观摩后记
第一张车牌
一种侧向插装型车牌架