黄祥胜 汪清 杨乐 江苏省南京市公安局
近年来,全国公安机关都在认真贯彻中央有关大数据智能化建设的相关决策,加快推进智慧警务建设工作。公安智慧警务建设紧跟大数据、人工智能等技术发展趋势,涉及警务工作方方面面,但各类智慧警务应用都需要以一个“架构合理、技术先进、特色鲜明”的公安“智慧大脑”为基础和核心。“智慧大脑”的能力输出将直接决定警务现代化的成效与发展。本文以公安“智慧大脑”建设为主线,研究探讨其技术架构、功能组成及设计实践等方面内容。
“智慧大脑”是开展智慧应用的“神经中枢”,是核心基础设施、海量数据资源、强大信息化能力的总集成。它需要构建相当规模的存储、运算、自学习、创造等多种能力,具备“可用、可扩、可思考”的智慧特性。“智慧大脑”是一个庞大且复杂的体系,其外延往往涵盖网络传输能力、运营运维能力、安全防护能力等。谈到公安“智慧大脑”建设,从网络运算、存储、数据、算法等方面都已具备日趋成熟的技术条件。
公安“智慧大脑”作为“神经中枢”,是开展大数据智能化和智慧警务建设的基石。笔者综合公安“智慧大脑”的层级范围、地域属性、建设模式、应用规模等各方面因素,建议在地市级以上公安机关构建“智慧大脑”。本文主要研究如何开展地市级公安“智慧大脑”建设。
建设总目标是按照“六统一”原则和“四化”要求,依托新一代公安信息网,构建以统一调度的计算能力体系、全网融合的数据资源体系、安全共享的资源服务体系为一体的公安核心智慧能力支撑平台,实现集约化建设、融合式发展、扁平化服务的目标。具体涵盖以下四方面内容:
1. 构建数据汇聚的网络节点
依托“新一代公安信息网”,充分利用网络基础,基于IPv6,建成结构精简、智能运维的数据汇聚节点,实现用户数据分离、多业务承载。
2. 建设一定规模的警务云计算平台
按照分层解耦、异构兼容、灵活可控的原则,建设能够支撑本地公安大数据智能化应用的警务云计算平台。
3. 搭建架构合理的大数据平台
针对本地数据资源体量和智能化应用需求,建设组件丰富、灵活扩展的大数据平台,为全警智慧应用提供统一的服务资源支撑。
4. 提升警用算法模型支撑能力
开展包括可视化建模、模型共享等各类模型智力工具的建设,为业务应用提供强大的算法模型支撑。
1. 网络架构
按照公安部大数据智能化的建设要求,公安“智慧大脑”应运行在“新一代公安信息网”的数据节点中,提供各项云平台基础设施服务(虚拟化资源池服务、物理资源池服务、GPU资源池、大数据资源池服务、存储资源池服务等),网络架构如图1所示。
2. 技术架构
公安“智慧大脑”总体技术架构采用分层模块化体系建设,具体如图2所示。
它应该是一个物理分散、逻辑统一、业务驱动、云管协同的能力支撑体系。自下而上,包括基础设施服务、平台服务、模型工具三部分内容。
其中,基础设施服务部分包括基础资源提供、资源池管理、资源服务能力建设;平台服务部分包括数据存储服务、数据计算服务、应用中间件服务以及应用开发服务;最上层模型工具部分包括可视化建模工具、模型共享工具、跨区域警务协作系统以及各类算法引擎工具等。
公安“智慧大脑”囊括了丰富的建设内容和功能组成,主要涉及网络、机房、计算、存储、数据、模型算法等几方面。
在网络建设方面,公安“智慧大脑”应构建在“新一代公安信息网”数据节点上,建设分别负责业务、存储、集群管理的核心交换机,连接各类服务器。同时,建设独立的带外设备管理网,完成主机虚拟化、设备管理等功能。还应包括流量控制、IP地址、网络安全、授时服务、域名解析等内容。
在机房建设方面,“智慧大脑”机房建设根据各地实际情况差异,内容不尽相同。从网络带宽、传输能力、运算要求、存储方式等各方面综合考虑,建议选择建设或租赁独立机房的方式。
在计算能力建设方面,在分布式架构下,服务器是“智慧大脑”基础设施层的主要计算设备。按承载的应用服务类型不同,可分为通用型服务器、计算I/O型服务器、计算存储型服务器等。
在存储建设方面,“智慧大脑”应能提供海量存储资源池。一方面构建一定规模的存储服务器作为云计算平台存储节点;另一方面提供满足小照片或文件的对象存储和实现非结构化数据存储的归档数据存储这两种类型的分布式存储。
在数据资源建设方面,海量数据资源是“智慧大脑”的基础。“大脑”数据资源层按照公安部大数据平台建设规范建设,包括数据接入、数据处理、数据治理、数据组织、数据服务等部分。
在算法模型建设方面,“智慧大脑”重点建设满足智慧警务应用的算法模型体系。以可视化数据挖掘为抓手,强化机器学习算法在公安实战场景的推广应用,建设场景化的可视化关系挖掘分析模型。
南京市局作为全国公安科技信息化先进地市之一,一直在科技强警和信息化建设方面创新求进。面对艰巨的公安大数据智能化及智慧警务建设任务,逐步开展了相关建设应用探索,并被公安部列为全国公安大数据智能化建设应用地市级试点单位。在公安“智慧大脑”建设方面,南京公安已具备了一定的实践经验,并取得了初步应用成效。以下是具体的做法和经验。
市局按照统一管理、分层解耦、双活备份等原则,统一规划全局机房建设工作。从城市规模来测算,2019年新租用专业机房,提供400个机柜,用以搭建新一代公安信息网数据节点,构建公安“智慧大脑”机房环境。
专用机房整体采用横向扩展能力强的Spine-leaf网络架构,支持未来业务演进。划分为核心交换区、数据域访问控制平台、计算资源池、存储资源池、运维安全管理区。网络拓扑如图3所示。
其中,网络平台主要包括防火墙、入侵防御、沙箱、WAF。防火墙和入侵检测采用双机热备,串接在出口路由器和DCN网络之间。Spine为核心转发节点,采用高性能路由交换设备。Border-leaf是边界接入交换机,通过数据域访问控制平台接入用户域网络。Service-leaf是业务接入交换机,接核心防火墙及负载均衡、核心防火墙。Serverleaf为服务器接入交换机,接各种物理服务器及虚拟化服务器。FI-leaf接采集器和分析器集群,实现大数据智能运维。
“智慧大脑”支持对异构基础资源统一调度,通过物理服务器、KVM、VMware以及Docker等低损耗容器技术实现统一计算能力支撑。南京公安计算资源池根据业务场景划分为虚拟化资源池、物理机资源池、容器资源池和大数据资源池。
南京市局构建的计算资源池总共381个节点,其中50个MPP数据库节点、57个实时计算节点、125个离线计算节点和149个全文检索节点。同时,还建设了能够提供1000台虚拟机的虚拟化资源池。包括:(1)虚拟化资源池,应对会话量小、复杂度低的业务。“智慧大脑”中大部分轻量级应用服务场景构建在虚拟化资源池上。(2)由实时、离线计算节点组成的物理机资源池,应对部分对服务器运算性能要求特别高的智能化应用。(3)由实时、离线计算及MPP全文检索节点构建的大数据资源池,应对分布式架构的数据存储和计算能力需求。(4)由虚拟机组成的容器资源池,主要用于Web应用场景或者移动警务终端上的App应用。
南京公安“智慧大脑”为满足不同业务场景需求,配置多种形态的存储系统,主要包括分布式云存储和集中式SAN存储等,云平台存储系统需要支持多种存储形态的融合管理,如图4所示。
1. 分布式云存储
南京公安结合不同类型的存储应用场景,提供分布式块存储、分布式对象存储能力。分布式块存储满足虚拟机、OA办公、OLAP分析型数据库、开发测试云等场景的块存储需求;分布式对象存储应用于备份、归档和海量文件共享应用。
2. 集中式存储
南京公安搭建了基于光纤或IP的SAN和NAS(网络附加存储)的集中式存储环境。许多大并发、低时延的核心业务系统(如警综平台等)部署在集中式关系数据库上。
南京公安“智慧大脑”实现数据资源的搜集、获取、加工、存储、使用、共享等一系列流程,不断夯实全局数据资源基础。
1. 统一数据汇聚
近年来,市局以警务大数据工程、“空中三道防线”建设为依托,获取政府部门、行业单位、互联网企业等数据资源,形成统一的数据资源池,为警务大数据智能化应用提供多维度、全方位的数据支撑。目前,汇聚数据资源千余类,约1.5万亿条。
2. 构建数据治理体系
市局严格对标公安部大数据处理技术标准,开展数据融合治理,建设原始库、资源库、主题库、知识库、业务库、业务要素索引库等六大库,实现对人、地、事、物、关系的全面刻画,为上层应用提供统一的数据支撑。现已建成人员主题库3亿条、车辆主题库786万条、案件主题库2807万条、关系专题库47亿条、轨迹主题库20亿条。
3. 完善数据处理流程
开展标准化数据处理,对汇聚的各类数据资源进行注册、授权、发布,提供统一、标准数据服务。南京公安数据资源处理流程如图5所示。
同时,南京公安“智慧大脑”数据资源层还实现与PaaS层能力需求解耦设计和对SaaS服务能力解耦设计。此处不再详细阐述。
南京市局持续推进可视化建模平台“数模空间”系统建设,不断完善“智慧大脑”模型算法。该系统基于分布式、云计算、大数据等技术,实现海量警务资源的纵横联通、共建共享、深度融合,采用组件化建设模式,为警种智能化应用提供统一标准化环境下的组件支撑。系统架构如图6所示。
系统主要功能包括可视化数据建模功能、数据采集与管理工具、模型共享发布、数据挖掘分析算法、智能图形化数据比对等。其中,数据挖掘分析算法充分体现“智慧大脑”价值能力。南京公安结合实战场景,开展了基于人工智能技术高级数据挖掘分析算法应用的探索。
1. K-means聚类算法实践
使用聚类+统计分析对侵财类前科人员探索式数据挖掘,发现该类人群的隐性特征。
2. 逻辑回归算法实践
应用水电气数据和节假日天气等数据,通过使用逻辑回归建模,提前预判房屋内人员在位情况。据测算,判断准确率在80%以上,大幅度提高管控效率。
3. 线性回归算法实践
选取一段连续时间接警量数据,做时间序列处理后,快速使用线性回归建立基于时间序列的线性回归模型,预测下一日的接警数量。
4. 贝叶斯分类算法实践
使用朴素贝叶斯分类算法对犯罪趋势预测,提取主观因素(性别、年龄、心理因素等)和外界因素(时间、地点、文化程度等),再以出所原因为分类标签,预测不同人的犯罪结果,准确率可达到80%。
同时,为最大限度发挥公安“智慧大脑”价值,南京市局已经尝试建立跨区域智力共享平台,重点解决跨区域交互协作程度低、公安行业经验无法有效分享等问题。平台采用去中心化、分布式数据存储的体系框架,如图7所示。
系统实现了计算架构、服务模式以及数据融合安全三方面的内容:(1)构建跨区域警务协作计算架构。地市跨区域警务协作是对公安大数据中心集中式服务模式的有效补充和完善。(2)建立模型驱动的跨区域警务协作和知识共享模式。系统支撑各地市差异化的异构平台和应用以及个性化灵活协作模式,同时确保跨区域警务协作高可用、负载均衡以及动态部署。(3)提高跨区域数据融合安全机制。基于管道的模型碰撞实现安全的跨区域数据融合,实现跨域数据不落地。
经过以上机房网络、计算能力、存储能力、数据汇聚、模型算法、智力共享能力的建设实践,南京市局基本构建了公安“智慧大脑”的初步体系,并持续规划拓展。市局依托600多公里主干光缆信息网络高速公路,逐步建成800多节点、1.8万核、200多TB内存、30PB存储裸容量的支撑能力,面向上层数据和应用提供计算、存储等基础设施服务和分布式文件系统、关系型数据库、分布式并行数据库、离线计算、实时计算、流式计算等平台服务,同时,汇聚千余类、1.5万亿条海量数据资源,搭建智力共享、跨区域警务协作等智联系统,为全局核心智慧应用(警综平台、信息资源服务平台、大数据实战应用系统等)提供全面支撑,顺利打造集“运力、存力、算力、智力”于一体的“智慧大脑”,为南京市局“一网一中心三平台”的智慧警务总体架构夯实基础。
智慧警务整体建设成为公安机关未来发展的趋势。各地公安“智慧大脑”已经在悄然孕育,并逐渐强壮起来。它将伴随着技术的不断更迭,持续发展,并在广大公安科技工作者的不懈努力下,为公安信息化实现跨越式发展提供重要支撑。