蔡朝辉
新智认知数据服务有限公司,上海 200433
随着全球信息技术高速发展,信息化已经成为促进经济社会发展的强大动力,人们在社会生活的各个方面每时每刻产生着海量的数据信息。新形势、新任务下,城市公共安全需要充分利用、甚至主动捕获信息社会产生的海量数据,通过整合共享、实时分析和深度挖掘,积极应对日益复杂的城市公共安全和国家反恐维稳形势。与时俱进,城市安全相关数据已经具备典型的大数据特质:
(1) 数据体量(Volume)大,1个警用高清视频监控探头1个月就将占用2.5TB的存储空间,500个探头将轻易突破PB级存储需求,1个交通卡口断面1d生成的数据就能达到1~2万多条,几百路卡口1年将生成数十亿条数据。
(2) 数据类别(Variety)多,公安数据源种类繁多,结构不一,冲破了以往所限定的结构化数据范畴,警务数据的70%~85%的数据都是图片、视频、音频、网页、文本等半结构化和非结构化数据。
(3) 数据价值 (Value) 密度低,在系统存储的海量数据中,真正对于公安部门有用的信息如同沙里淘金,需要通过数据的深度关联分析,挖掘其中价值和潜力。
(4) 数据处理速度 (Velocity) 要求快,时效性高,警务工作对时间相当敏感,战机往往稍纵即逝。因此,在对海量数据进行挖掘分析时,要求尽可能的秒级响应。
显而易见,传统的网络、存储和计算架构已经不能适应城市公共安全对于海量数据快速处理的实战要求,开启公安大数据创新应用,对于解决公安信息化的技术瓶颈问题,推动公安信息化向深度和广度迈进,进一步提升公安机关核心战斗力,有着极其重要的意义。
公安大数据在实战过程中主要面临“存、管、用”三方面的困难与挑战。首先是“存”,即数据量急剧增长带来的系统扩展问题。当今城市公共安全数据呈“爆炸性”增长,若单纯依靠少数几台高端设备的升级更换(scale-up纵向扩展),已难以满足数据量的爆炸式增长,只有通过不断平行扩大系统规模(scale-out横向扩展) 才有可能予以应对。
其次是“管”,也就是数据结构多样化带来的管理问题。公安部门拥有大量结构化、非结构化混合型数据,如视频、图片、测量、日志等。传统关系型数据库仅擅长集中式的结构化数据管理,这为公安大数据中分散分布的结构化、非结构化数据的统一管理带来了困扰。
最后是“用”,即大规模分布式数据带来的分析处理问题。暴增的数据量不仅仅带来存储的问题,也为网络传输和计算分析带来了新的挑战。公安机关多年信息系统建设形成了众多数据孤岛,已经不是简单的数据交换或数据代理能够打通,数据获取难、数据计算慢等一系列技术瓶颈随之出现。
大数据首先是体量大,集中存放在一台机器上是不可能的,当体量达到一定程度,集中存放于一个数据中心都会是奢望,因此“分开存储”是非常自然的解决方案。为保证大数据存储的高可用、高可靠和经济型,我们必须化整为零:采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,以高可靠软件来弥补硬件的不可靠,从而提供廉价可靠的大数据存储系统。
“分开存储”并不意味着用户希望“分开管理”,“物理上分布,逻辑上统一”,用户希望从外面看进去,依然还是统一的大数据存储池,无论查询读取还是统计分析,都在一个抽象的完整数据集上操作,这就要求我们设计一个特殊的网络文件系统,能够同时协调管理多台服务器、甚至多个数据中心的文件读写操作,从而将多台服务器或多个数据中心虚拟连接为一个整体。大数据的网络存储需求,催生了许多优秀的分布式文件系统和云存储服务,最典型的分布式文件系统是Google的GFS和Hadoop的HDFS,而存储虚拟化加上存储自动化、网络化就是云存储,如Amazon的S3、Openstack的Swift。
传统关系型数据库一般装载于一台服务器或若干台服务器集群之上,库表主要用于存储一些结构化的数据内容,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库也会为每个元组分配所有的字段,这样的结构利于快速索引,也便于表与表之间进行连接操作,但从另一个角度来说它也是性能瓶颈的一个因素,尤其是面对稀疏数据矩阵。
非关系型数据库在大数据存取上具备关系型数据库无法比拟的性能优势。这种数据库能在许多服务器之间延展,允许用户在必要时平行扩大运算规模,同时还具备一定的开源性,允许用户按自己喜欢的方式来架构数据,例如,以Lotus Notes为代表的文件数据库存储模型、以HBase为代表的Key-Value键值对存储模型、以MongoDB为代表的“面向集合”存储模型等。其中,键/值数据库是目前最为主流的非关系型数据库,它可以灵活存放各类结构化或非结构化数据,可以灵活加列 (列式数据库),可以灵活组合为列族,还可以灵活为键值保存多个历史版本,是一种非常适合大数据管理的多维数据库模型。
并行计算是相对于串行计算来说的,具体分为时间上的并行和空间上的并行,大数据并行计算主要遇到的是空间并行问题,也就是说,如何利用多个处理器或多台计算机来并发的执行计算,从而高效地对大数据进行挖掘应用,使用户能更轻松的享受大数据带来的大智慧和大价值。
面向大数据最典型的分布式并行计算模式是MapReduce编程模型,MapReduce将大型任务分成很多细粒度的子任务,这些子任务分布式地在多个计算节点上进行调度和计算,从而在整体上获得对大数据的秒级处理能力。在大数据的应用场景下,再高端、再昂贵的小型机,也许还比不上若干台普通服务器的并机处理能力。参考MapReduce的原理,面向公安部门的众多数据孤岛,我们也许不再需要高负载的数据交换总线,而是“数据不动、计算动”,让分布式计算去找分布式数据,通过灵活的计算任务调度,全面提升警务大数据的挖掘分析速度。
随着AI人工智能技术的日益成熟,海量的公共安全视频图像可以通过视频智能解析技术,由非结构化数据转换为结构化数据,并同步生成索引关系,以此为基础构建图像大数据应用服务。
在未来的应用场景中,公安干警们不再需要人工调取海量的视频录像,如同大海捞针般在PB级的视频影像中发现那一闪而逝的嫌疑目标,只要简单的输入嫌疑人的颜色、交通工具、体貌特征等文字描述,或者上传该嫌疑人的照片或视频截图,即可以依托公安图像大数据应用平台,秒级响应,快速地搜索出嫌疑人曾经出现过的视频片段和过车图片,并连点成线构建破案线索,快速破获案件。
当前面向道路车辆的智能卡口或智能电警系统,多建设于各个地市公安局,或者是下面的分县公安局,数据分散,难以统一利用,而采用逐级上传的方式向上汇聚,又对网络和存储设备带来很大压力,让用户进退两难。在未来的卡口大数据应用场景中,卡口数据无需上传就可进行统一查询、统计和访问应用,跨市布控和全省统计不再困难,甚至跨省追逃都能轻易实现。这是因为未来卡口大数据平台采用了跨数据中心的非关系型数据库,多个分中心库表可以虚拟成一个非关系型大表,用户直接访问虚拟大表,卡口大数据平台则自动分配任务给多个物理分中心,并将结果合并后统一返回,应用管理十分便捷。
犯罪分子在没有落入法网之前,常常会多起作案或流窜作案,因此侦查警员往往要在海量的案事件视频图片中去比对发现相似的作案手段或涉案物品,从而将多案并为一案,丰富案情线索,加快破案的速度。在未来的情报大数据应用场景中,人们不仅可以对案事件的人工标注信息和自动标注信息进行统一汇总管理,还能智能化的完成跨省市的大数据筛选比对,如果利用公安图像大数据平台的高效运算能力,还能直接在图片等非结构化数据中进行智能特征比对,快速发现相似线索。所有的比对搜索工作,无论是标注信息匹配,还是图片特征比对,都可以在几秒或几分钟内完成。
大数据“存管用”技术在城市公共安全领域的创新应用,仅仅是一个起步,只有充分运用“大数据”思维,才能全面促进公安部门运用全量数据去认知过去、把握现在和预测未来。本文因篇幅原因,无法进一步展开城市公共安全的大数据综合治理和大数据资源即服务等深入环节,稍有遗憾。
城市公共安全是国家社会稳定、人民美好生活的基础,大数据时代的到来拓宽了我们的视野,笔者认为,不是我们现在掌握的数据太多,而是远远不足,物联网的快速发展有所弥补,而虚拟世界的社交网络、电商平台也需要加入公共安全的大数据采集与智能防范体系,从而实现虚实两面的全方位打防管控。
可以预见的是,大数据的积累还将催生城市公共安全的人工智能平台,创建24小时全天候值守的公安智慧大脑,将公安干警从日复一日的重复性体力劳动和脑力劳动中解放出来,大幅提高城市安全的整体运作效率。
[1] 马奔,毛庆铎. 大数据在应急管理中的应用[J]. 中国行政管理. 2015(3).
[2] 黄全义,夏金超,杨秀中,等. 城市公共安全大数据[J]. 地理空间信息,2017.
[3] 孙粤文. 大数据:现代城市公共安全治理的新策略[J]. 城市发展研究,2017(2).