杜庆灵,李洪波,赵 凯
(1.河南警察学院 信息安全系,河南 郑州 450046;2.开封市公安局 科通处,河南 开封 475000)
道路交通智能监测系统(简称智能卡口)是治安防控的重要技术手段,也是“平安中国”的重要组成部分,它是采用计算机、网络、智能视频等技术实现对车辆信息的获取,如车辆牌照号、车身、车型、车的颜色、某时通过某地点等信息。利用这些信息,公安机关可对车辆实施有效的管控,同时可与政府其他部门共享这些信息。各级公安机关在省界、市界、县界、乡界、重点路口、城市出入口及高速公路安装了数量众多的智能卡口系统,对公安机关打防管控工作提供了强有力的支撑。在“平安城市”“平安乡镇”的建设过程中,各级公安机关也建设了许多微卡口,这些微卡口尽管不如标准的智能卡口系统在车辆信息获取方面功能强大,但也提供了非常有用的车辆信息。智能卡口(含微卡口)获取的车辆信息有两大类:一类是抓拍的车辆图片,另一类是从图片中提取的信息。如前面提到的车辆牌照号等,这些信息可为结构化或非结构化信息,车辆图片是非结构化信息,而从车辆图片中提取的车辆牌照号以及具有测速功能的智能卡口系统测到的通过某一点的车速,则是结构化信息。如何更好地挖掘利用这些结构化、非结构化信息,一直是智能卡口应用部门,尤其是公安机关研究的重要内容。[1]
近年来,各级公安机关进行了智能卡口系统的大规模建设,开展了基本的应用,取得了一定的成绩,但这些结构化、非结构化的信息不能得到充分的利用,没有发挥它们应有的价值。随着智能卡口系统建设规模的扩大及工作需求,各智能卡口系统之间需要进行联网,实现省、市、县之间车辆信息的共享,并得到深度挖掘、分析和应用。原有的智能卡口系统对车辆信息的管理方式已不能适应新的需求,这就促使各级公安机关采用新的技术,实施对智能卡口信息的有效管理与应用。智能卡口系统产生的是海量数量,且各智能卡口系统分布在不同地点,以省辖市为例,有市本级自建的智能卡口系统,也有所属各县建设的智能卡口系统,有的数据可以在市、县两级存储(如结构化数据),而图片信息因其量太大,不宜汇总到市级存储,存储在县本级即可,但市级应能统一管理、调度这些图片信息,同时省级公安机关也应能管理、调度本省的智能卡口信息。基于实际工作需求,结合智能卡口特点,大数据技术是对智能卡口信息管理的比较理想的技术,有的公安机关利用大数据技术,构建了智能卡口信息管理系统,但那是初步的,并没有充分利用大数据技术各组件,在应用层面仅提高了信息查询速度,并没有真正实现分布式管理及深度应用。[2]本文以省辖市级公安机关为研究对象,研究利用大数据技术构建智能卡口信息管理平台的问题,给出平台的具体设计,包括功能、体系结构等,并分析其性能。
大数据技术包括基础技术和应用技术。基础技术主要指构建大数据处理的各个基本组件,如数据库、流计算、内存计算等;应用技术主要是指结合行业应用的各种算法、模型等。下面给出大数据平台通用架构和关键技术。
大数据平台通用架构主要包括数据采集、分布式数据库、数据索引、数据分析等模块,如图1所示。
图1 大数据平台通用架构图
数据采集: 主要通过采集工具采集历史数据,通过高速数据总线采集实时数据,进入大数据平台。
分布式数据库: 主要管理结构化、非结构化、半结构化数据,并具有扩展性。
数据索引:采用高速搜索引擎对数据进行快速检索、统计分析等。
数据处理分析:基于分布式计算、集群处理,实现流式计算及大规模数据计算。
大数据平台是数据的存储、计算中心,具有分布式、统一管理等特点,可汇集各种类型的数据,为大数据的综合应用提供支撑。大数据平台技术架构如图2所示。
图2 大数据平台技术架构图
分布式文件系统:负责大数据的存储,将数据分别存储在多台独立的存储设备,实现统一的管理和调度,是分布式计算的基础。
分布式资源管理:基于Hadoop分布式资源管理架构,负责存储、计算等资源的管理。
分布式数据库:是分布式、按列存储、多维度结构的实时分布式数据库,适合构建低延时的数据服务系统。
内存计算引擎:是一种分布式的计算框架,其核心是弹性分布式数据集,可快速在内存中对数据集进行多次迭代,支持复杂的数据挖掘算法和图形计算算法。
分布式协作:是对大型分布式系统的可靠协调系统,提供集群节点间的资源协调服务,保证分布式系统的可靠运行。
分布式数据总线:负责数据的采集、整合与交互,基于发布/订阅的分布式消息系统。
利用大数据技术,可以构建省辖市级智能卡口信息综合应用平台[3-5]。
平台整体拓扑结构如图3所示。
图3 平台整体结构拓扑结构图
图3表明,省辖市级智能卡口信息综合应用平台可布署在视频卡口专网侧,公安业务专网侧也可通过安全边界利用卡口的信息开展应用。这样布署的好处在于许多应用可直接在视频卡口专网侧展开,不需要通过边界,只有当与其他公安业务结合应用时才通过边界。同时,县级公安机关只建智能卡口管理系统开展本级应用,并将卡口数据上传至所属市级平台,也可共享本市、省的联网卡口信息。省级公安机关构建智能卡口信息综合应用平台,联网全省卡口信息,并为全省智能卡口信息应用服务。
基于智能卡口信息,应用大数据技术,解决传统的数据管理系统难以支撑海量机动车过往信息的接收、存储、处理分析等问题,构建智能卡口信息综合应用平台,平台采用分布式架构,实现实时流式计算、分布式数据存储、计算及数据挖掘等。平台逻辑架构图见图4。
图4 平台逻辑架构
该平台逻辑上可分为4层:数据资源、数据存储、数据计算、业务应用。
数据资源层:接收来自智能卡口、电子警察(灯控路口闯红灯自动抓拍系统)、微卡口、视频监控等系统的车辆及相关信息,经预处理后送向数据存储层。
数据存储:数据资源送来的数据有视频、图片等,这些数据有结构化的,也有半结构化和非结构化的,可根据数据的特征及应用采用不同的数据库方式存储。
数据计算:包括动态数据计算和静态数据计算。静态数据计算主要是总线计算,对实时要求不高,可屏蔽SQL和NOSQL调用。动态数据技术对实时要求较高,如报警处理和车辆布控等,要求利用大数据的高并发、高强度的计算能力。
业务应用:大数据技术采用分布存储实现对海量数据的管理,利用高效的搜索引擎可实现对各种查询的秒级响应,利用各种算法模型可对海量数据实现深入挖掘。结合公安业务,可实现车辆轨迹分析、套牌分析、稽查布控等应用。
省辖市级智能卡口信息综合应用平台根据业务需求应具有多种功能,各功能模块如图5所示。
卡口联网:具有汇聚联接本级及全市所属各县智能卡口并上联至全省的功能,它是卡口信息综合应用的基础。
数据汇聚:根据资源共享、分级管理的要求,汇聚所属县级所有卡口数据,包括实时过车数据、卡口图片二次分析数据等。
图5 平台功能模块示意图
车辆布控警告:平台具有布控和撤控功能,能响应各级智能卡口管理平台(系统)的布控、撤控指令,根据用户需求,可按车牌号码、车辆颜色、车辆类型、布控的有效时间段等条件对车辆进行布控。
卡口图片二次分析:前端卡口抓拍的图片,在进行了一次分析抓到过车的基本信息后,该平台可对图片进行二次分析,以获取更多的有用信息,这些信息包括车身颜色、车型识别、车标识别、车辆品牌识别、遮阳板识别、安全带,以及司机接打电话等状态的智能识别和检测。
以图搜图:根据目标车辆的特征,平台自动分析照片中的目标车辆特征,进而在系统中进行筛迭、检索符合条件的处理轨迹。具体过程如下:图片二次识别服务器从卡口图片中提取车辆特征信息,并将该信息存储到卡口大数据集群中,当需要时,导入一张目标图片,平台根据图片中车辆的特征信息,查询目标车辆,对指定时间段内的卡口图片进行查找,结果按相似度从高到低进行排列显示。
大数据挖掘: 该模块提供全省、全市道路、车辆、车流、卡口等相关信息的数据挖掘分析,包括按时间、车型、车辆属地、道路车流等信息进行多维度数据挖掘统计分析。
由于平台采用HDFS和HBase等成熟的分布式系统框架,确保了系统的扩展性和稳定性,具有海量接入和大并发量访问的能力。平台利用分布式计算技术,可提供快捷的数据分析、挖掘能力,支持费结构数据的结构化处理,可进行智能研判;平台采用全文检索技术,通过对海量的视频图像建立结构化信息索引,实现对视频图像数据的快速查询,结合智能技术,实现以图搜图方式的搜索视频和图像,采用全分布式系统架构,提供海量数据的存储能力,包括分布式文件系统和分布式数据库系统,用于存储非结构、半结构化数据。
智能卡口产生的信息具有大数据的特征,属大数据范畴。由于智能卡口分布广泛,数据存储分散,为了更好地管理、应用这些信息,大数据技术是必然选择。大数据技术分为基础技术和应用技术,本文主要利用大数据基础技术,结合公安、政法及政府其他部门行业的应用,研究大数据在处理智能卡口信息的应用技术,属大数据应用技术领域。在大数据技术架构下,给出了省辖市级智能卡口信息综合应用平台的设计,本文的讨论可为省级、省辖市公安机关建设智能卡口信息综合应用平台提供参考。