徐耀勇 陈建逢
(广州市公安局荔湾区分局指挥中心,广东 广州510100)
随着信息海量化、多元化时代的到来,传统方式的治安防控体系和侦察破案体系已逐渐被以大数据为核心的信息化新技术所取代。大数据已经成为公安警务工作中各类业务数据、案件线索、电子证据的重要来源之一。分析大数据应用的特点,拓展大数据应用领域可以进一步从效率、质量、动力等方面推进公安警务工作的变革。
国务院2015年印发的《促进大数据发展行动纲要》指出,大数据(Big Data)是以容量大、类型多、存取速度快、应用价值高为主要特征的数据整合,对应4V特性,即规模性(volume)、多样性(variety)、高速性(velocity)和价值性(value)。大数据是传统数据资源的扩展,是不同来源的基础数据积累发展到一定的程度,形成的海量数据,并利用现有的技术和手段实现数据的快速分析和处理。大数据是数据、技术与应用三者的结合,通过采集汇聚更新海量数据,建立数据资源库,进一步应用各种数据库和程序分析处理技术,关联查询、分析、统计,深入挖掘数据潜在价值。
近几年,大数据的发展和应用在逐步推动公安机关重新构建立体化现代化社会治安防控体系,为现代警务机制的转型升级带来新的契机,其深度应用也将给公安工作带来前所未有的机遇。利用大数据,能够转变传统的数据决策模式,推动公安管理模式越趋智能化,能够支撑事后被动处置到事先主动管理、静态管理到动态管理方式、从简单决定到科学决策的根本转变,能够促进社会治理体制从碎片化到集成化转变。
Z-Suite技术具有高性能的大数据分析能力,完全摒弃了向上升级(Scale-Up),全面支持横向扩展(Scale-Out)。Z-Suite主要通过以下核心技术来支撑PB级的大数据:
(1) 跨粒度计算(In-Database Computing)。Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数。得益于跨粒度计算技术,Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算。这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。
(2)并行计算(MPP Computing)。Z-Suite是基于MPP架构的商业智能平台,能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源,充分发挥各个节点的计算能力,轻松实现针对TB/PB级数据分析的秒级响应。
(3)列存储(Column-Based)。Z-Suite是列存储的。不读取无关数据,降低读写开销,同时提高I/O的效率,从而大大提高查询性能。另外,压缩数据,一般压缩比在5~10倍之间,数据占有空间降低到传统存储的1/5到1/10。良好的数据压缩技术,节省了存储设备和内存的开销,却大大提升了计算性能。
(4)内存计算。得益于列存储技术和并行计算技术,Z-Suite能够大大压缩数据,并同时利用多个节点的计算能力和内存容量。内存计算是对传统数据处理方式的一种加速。
大数据本质是应用多种现代信息化技术手段,实现对海量数据资源的采集、存储、分析和应用管理,主要采用以下几种技术手段:
(1)云技术。大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。如今出现了一种行之有效的模式:云计算提供基础架构平台,大数据应用运行在这个平台上。云计算技术包括:虚拟化技术、布式处理技术、海量数据的存储和管理技术、NoSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理解)等等。
(2)分布式处理技术。分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务。例如淘宝的海量数据产品技术架构分为五个层次:数据源、计算层、存储层、询层和产品层,这五个层次拥有不同数据,具有不同功能,在控制系统指令下,统一、协调完成各项数据的处理任务。
(3)存储技术。大数据可以抽象的分为大数据存储和大数据分析,这是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注在最短时间内处理大量不同类型的数据集。
(4)感知技术。大数据的采集和感知技术的发展是紧密联系的。以传感器技术、指纹识别技术、RFID技术、坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。这些感知被逐渐捕获的过程就是世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。
当前公安大数据广泛应用于打击防范和治安管理等方面,具体涉及查询分析、案件侦办以及信息预警等业务。
统计查询是公安大数据应用最传统和最基础的应用方式。主要利用历史信息和现实数据,了解当前某一领域的现实状况。
关联分析可以看成是数据挖掘的一种,是目前公安大数据的重要应用方式,其重点不在于发现因果要素,而是发现数据之间的关联关系,从而进行深度分析应用。
预测预判预警是公安大数据应用的发展方向。可以通过数据的采集、分析、统计、挖掘等等,建立起合适的数据应用模型,从数据的关联关系入手,推导出事件和数据的相关以及因果关系,从而实现针对某项数据一定时期内的趋势走向做出预测,对危险信号提前做出预警,指导预防工作的走向。
大数据应用并不局限于原有的基础信息采集、户政出入境、单一统计查询、联网办公办案等传统业务,同时也催生了警务管理和实战方式的变革,不断完善大数据架构和应用体系。
随着高清视频监控和智能监控的应用普及,现有的公安大数据资源已从传统的基于人、屋、单位等类别的结构化数据到混合了机构化和视频图片等非结构化数据的海量数据转变,数据种类越趋多样化,这对当前公安信息化存储应用体系提出了挑战,原有的大容量存储技术方案已经不适合海量数据高速读写的要求。对这些海量数据进行全方位的存储和利用必须要进行存储架构的升级,建立应用分布式存储和分布式执行引擎等大数据技术的专门的高性能数据中心,通过对物理资源(CPU、存储、网络等)虚拟化和资源池,对资源进行整合利用。当前比较流行的Hadoop、MPP数据库、内存计算、流式计算、搜索都属于大数据技术的范畴。
数据价值挖掘首先需要对现有的信息化业务系统的数据进行技术重构,将基于传统数据库SQL语句查询的数据分析方式转变为基于大数据查询的方式,并将非结构化数据如视频数据转化为结构化数据等方式,解决大数据请求服务响应速度慢的问题,确保业务系统数据的高效流转,从而为公安大数据的数据价值发现和挖掘奠定基础。深化数据挖掘一方面是针对结构化的公安业务类数据进行综合利用,通过深度挖掘关联数据模型,如同类案件发案时间段出入人员车辆轨迹,数据上升下降趋势预测发展方向等,从而发现数据的潜在价值。另一方面是针对非结构化数据如视频、图片等,在转化为结构化数据后进行数据的碰撞和比对,发现关联数据等。
传统的公安业务数据资源加上社会资源数据,构成了多种相互关联的数据资源,为数据创新应用打下了基础。大数据的一个重要特点就是价值密度低,单一类型的数据是无法发挥出其应有的潜在价值的,只有将不同的数据放在一起相互碰撞,才能体现其数据价值。如在管控工作领域,利用某类重点人员居住登记地,分析人员关系发现潜在人员;利用金融银行数据发现频繁开户和注销的异常的人员数据发现犯罪线索;利用供电用电数据发现用电异常的场所;利用通信运营商数据和公安业务数据碰撞发现非实名登记人员情况;利用实有人口数据协助城市管理规划等。