李 悦
(甘肃警察职业学院法律系 甘肃 兰州 730046)
目前,数据资源已经成为重要的公安战斗力要素,公安信息化建设的迅猛发展,使得公安领域迅速产生了海量的结构化和非结构化数据,包括视频监控信息、轨迹运行信息、人口场所信息等。传统的单机处理模式早已无法满足公安大数据深度应用要求,在这种情势下,各级各地公安机关加快构建警务云平台以期解决目前面临的数据挑战。云计算的引入在公安海量数据的处理上的确有应用优势,然而存在对大数据的智能化运用水平偏低、数据密集型计算能力偏低的问题。具体表现在:对数据信息处理能力上欠佳,数据分析方法过于滞后无法挖掘海量数据潜在价值和规律,对犯罪数据的预警模型构建方面上尚处于空白状态。在识别分析异常特征数据、视频信息分析比对、数据模拟可视化、目标检索速度等方面也无法满足公安信息化发展的深度要求,在警务工作中仍以被动应对为主,在主动预防、扁平化管理等方面不够深入。而这些问题化解需要探索引入公安高性能计算平台加以解决。平台的探索与构建将辅助公安机关提高对犯罪和社会风险预测能力,同时基于云计算、大数据、高性能计算形成公安大数据应用生态圈,为打造智慧警务提供有效解决方案。
高性能计算(HPC)泛指快速、量大和高性能的一类并行计算,是高性能计算机连同有效应用,诸如向量计算、并行与分布式计算、网格计算等,需要大量计算能力和强大的计算设施在很短的时间周期内完成的计算[1]。迄今为止,我国HPC技术发展已经获得了显著的成就,由国内科研人员独立研发并制造的高性能计算机神威·太湖之光摘得全球超算500强(2017年)桂冠。
纵观计算技术的演变历程,云计算只是高性能计算的发展新形态,其实质是“资源虚拟化+并行计算”。云计算体现的是对传统的高性能计算的延伸。目前的云计算尚不能支持HPC服务,因而让HPC用户使用云计算被形象比喻为如同F1赛车手搭乘公交车一般,一个追求顶尖速度,一个追求弹性的空间。换言之,HPC追求的是计算力并行的紧耦合,把一个任务做到极致;云计算追求的是计算力分布的松耦合,把池化资源的平均利用率做到最高。但是,如果将云计算和高性能计算结合在一起,形成“高性能计算云”则可以弥补单一使用云计算所带来的不足,满足大规模数据密集型计算所需的大容量、低延迟和高带宽等要求。
国家973计划和863计划均有对高性能计算方面的大量投入,如“天河2号”超级计算机系统就是国家 863 计划重大专项的标志性成果。国家863计划中连续10年支持了3期围绕高性能计算的研发项目。以北上广为牵头的超级计算机中心已经成为国家信息化建设的重要组成。2017年7月国务院印发《新一代人工智能发展规划》中明确提到要让人工智能促使智能社会建设取得积极进展。
目前高性能计算无论从硬件平台还是软件系统技术都基本成熟,稳定性和安全性能够得到有效的保障。为解决高性能计算机成本高昂,占用空间大的问题,目前以深圳大学和中国科学技术大学为牵头的团队领导下,已经成功研发出面向个人应用的高性能计算机。解决了高性能计算机体积由大变小的问题,解决了个人PC机计算能力由小到大的转变,做到了高性能计算机硬件平台和系统软件的协同优化,使得国产高性能计算机逐步具备了低功耗、小型化和高安全性等优势特点。
随着人工智能技术的兴起,智慧城市是未来城市发展的重要趋势,智慧城市就是感知社会中发生的一切,而感知就是通过数据收集,分析大数据的过程。人工智能技术的实现首先需要通过强大的计算能力作为支撑保证。当前人工智能技术的的实现主要依靠3种途径:高性能计算、神经拟态计算和量子计算。由于后两种技术尚未成熟,可以说高性能计算是目前唯一可商业化为人工智能应用的技术。可见,未来智慧警务模式的快速转变离不开人工智能技术,而人工智能技术目前的核心关键正是高性能计算。要实现从海量公安大数据中提取、挖掘、整合、掌控有价值的经验规律,做到对敏感的犯罪信息的提前预警和掌握[2],必须依托高性能计算机强大的分析计算能力。
目前,基于国家超算中心和北上广深等具有代表性的超算中心已初具规模,关于公安高性能计算平台的构建路径可选择:一是公安部门应该结合自身实际与高性能领域具备资质的中心平台合作接洽(比如国家超级计算广州中心、国家超级计算深圳中心、国家超级计算济南中心等),借助中心的高性能计算平台达成灵活多样适用于公安机关自身业务需求的合作方式。二是由公安部科技信息业务部门牵头,对相关技术研发公司进行咨询、论证达成平台搭建协议,购置适合自身需求和应用的高性能计算机群,完成超级计算系统的预研、架构、测评、超级计算中心运维服务体系及运维平台的建立。
公安高性能计算平台着力打造集警务数据分析、智能二次开发工具、高密度计算等能力于一体的智慧警务平台。在数据标准化前提下,平台的实现可以提高公安机关海量大数据的潜在价值利用率,提高公安信息化业务处理效益。公安高性能计算平台架构,如图1所示。
图1 公安高性能计算平台架构图
平台采用分层、分模块的设计原则,有利于系统的运维和实现,由下到上共分为5层:
数据来源层:数据来源层是平台的建设基础,功能在于数据的接入、存储和访问,整合处理公安内外部所有为高性能计算所利用的数据资源。内部资源包括PGIS、人口、车辆、视频、地址等关联基础警务数据库资源。其中人口库包括常住人口、流动人口、寄宿人口、外籍人口的登记住址;车辆库包括车驾管库、盗抢库、布控车辆库、涉案车辆库等;标准地址库包括门牌、建筑物、房屋地理位置信息;公安管理机构库包括各级各地公安局、派出所、警务站、辖区检查站等位置;视频库包括车辆卡口、电子警察、治安监控、道路监控等。外部资源包括社交网络平台数据、交通数据、国土地形数据、社会资源数据等。在数据接入方面,采用Kafka流处理接收多源轨迹类数据。在数据存储上,采用Oracle方式进行存放,数据通过Kafka接入后,传入至Spark平台,用于数据分析比对,通过MapReduce进行处理。
基础设施层:基础设施层主要有机房、机柜、供配电、空调、消防报警、视频监控、温湿度调控设备等组成,为上层应用提供硬件支撑。高性能计算集群系统布局图,如图2所示。
图2 高性能计算集群系统布局图
硬件资源层:高性能计算平台配置有高性能的硬件架构资源,可以满足不同的计算要求。平台由CPU集群、GPU集群、交换机、胖节点、SMP大型机、存储系统、用户账号系统、作业管理系统等构成,集群存有上百个节点,需要专业的运维技术控制。平台网络拓扑图,如图3所示。
图3 平台网络拓扑图
基础软件层:建立丰富、完备的软件资源可以迅速提高平台使用效率,为用户提供方便、友好的平台使用环境。平台除了安装了高性能计算必需的编译器、数学库、并行库以外,还应该把能够适合公安领域用户使用的开源、商用软件分类部署到集群系统中[3]。按照公安信息化业务需求,建议部署安装基础软件,如表所示。
平台基础软件安装配置表
应用服务层:将平台处理的数据结果和服务以特色应用方式进行展现,体现平台所具备的数据分析、数据模型定制、数据可视化等功能。平台的定位不是简单的系统查询,而是综合应用平台,为办案民警提供大数据分析业务模块,通过组合灵活运用。同时整合了平台的外部访问,提供统一的用户登录管理模式,考虑到日后与警务云平台的对接,可以融合对接其他应用系统。
4.2.1 平台运维和服务
公安高性能计算平台的构建是在深化公安信息改革浪潮中为提高大数据价值性服务的重要战略性基础设施。为提升平台的高效运维和服务管理能力,拟建设下列组织机构:①筹建公安高性能计算中心。筹建公安高性能计算中心是作为公安高性能计算平台的管理和运维部门。其职能制定高性能计算集群软件、硬件实施计划,提出新建、扩建、改建计划和实施方案;负责高性能计算集群的日常管理和运行维护;提供高性能计算咨询服务,解决公安终端用户在使用中遇到的各类问题;负责公安高性能计算用户账号管理及运营成本管理;开展与高性能计算相关、解决公安信息化实际瓶颈问题的科研活动,用户培训、技术交流和对外合作;负责公安高性能计算门户网站的建设与管理,研发适用于公安实战业务的高性能计算软件,提供资源下载与更新。②筹建高性能计算专家委员会。由公安部牵头,会同高性能计算领域相关专家学者组成,对高性能计算环境建设的技术路线、方案和产品选型等重点技术问题进行咨询、评估、论证和指导;协调、组织高性能计算领域技术合作、技术交流及人才培养工作等。
科学的平台管理和监控机制是平台建设和发展的核心要务。一是机制创新。首先要注重提高计算资源的使用效益,注重设备使用效率和质量,鼓励和优先支持公安信息科技当前急需的业务发展项目,获得与投入相称的高水平科研成果。同时考虑到平台设备更新速度相对较快的问题,要合理有序的扩充平台计算资源,发挥平台应有的价值,以公安机关根本需求为导向,分步建设,实行资源和需求的同步化配置,避免计算资源的浪费。二是分层设置准入优先权限。为保障计算资源被合理高效的使用,提高用户的使用积极性,平台的使用应当预设条件,合理的解决途径就是设置准入优先级、高优先级的用户拥有平台准入的高级权限,建议高优先级用户为部、省、市、区4级公安信息化部门主要负责人及高级技术人员,他们对平台计算资源的需求更高、更迫切,其登录平台使用资源的时间更长、涵盖软件使用范围更广、数据库资源提供量更深。低优先级的用户拥有平台准入的一般权限,建议设置为不常使用计算资源的用户,低优先级用户被限制权限,使用资源时间较高优先级用户更短、涵盖软件使用范围更少、数据资源提供量更浅。平台建成后要考虑运维成本,公安实战要求,综合划定平台准入优先权限。尝试给出参考优先级划分因子α:α=上一年用户利用平台侦办案件成果数量/上一年该用户使用平台的时间。三是优化平台的智能监控系统。集群硬件设备配有监控和报警系统,能够保证集群24h不间断正常服务,同时为方便集群硬件资源合理分配,集群配置Gridview管理工具和LSF作业调度系统。Gridview集群管理软件对实时运行的各节点状态进行监控和管理,有助于管理人员掌控集群整体作业状态。LSF系统可以自动选择当前资源中利用率较低的节点分配作业,对没有被调度的节点进行自动休眠,降低系统能耗[4]。
4.2.2 数据标准化设计
数据标准化的目的是将不同性质、不同量级的数据进行指数化处理,调整到可以类比的范围,是平台使用的数据进行预处理的前期环节,也是实现数据共享应用的前提,可以简化数据转换、清洗、分析应用的流程,让数据分析结果更加准确,降低数据应用、传输的成本。目前,公安信息资源存在大量的异构数据,在概念、编码、数据库设计等存在较大差异化。以甘肃省敦煌市公安局肃州派出所机构代码为例,同一机构在人训处的标识代码为“620982980000”,在警务综合平台上标识代码为“620982740000”,在治安管理中标识为“620982009000”。组织机构代码的差异化导致实时部署警力的滞后性,延误侦查战机。亟需按照国家和公安业务标准,结合实际需求规范和完善信息资源描述逻辑,形成全国基本统一的公安数据元、标准代码、资源目录、数据交换等标准,剔除不必要的信息,转化为标准数据格式,打破信息不共享的壁垒,加速数据的处理进程。
4.2.3 部省市对接方案
为加快实现对海量数据信息的应用并结合当下警务云平台建设的实际情况,公安高性能计算平台建设之初应着眼于未来打造上下级联、横向贯通、逻辑顺畅的智慧警务一体化模式。
该模式要实现由上而下从部、省、市三级互联融通、信息共享。平台的三级对接方案构想:平台主体由公安部筹建的高性能计算中心设立为一级单位,省厅信息化中心为二级单位,各地市局信息化中心为三级单位。通过架设服务总线实现各级中心的对接,服务总线分别独立且又互联共通,呈现树形结构。第一级服务总线连接公安部和各省厅信息中心;第二级服务总线连接省厅与各地市州市局信息中心;第一级服务总线和第二级服务总线不完全独立,通过接口实现互联,使公安部和各地市州信息中心在必要时可以实现直接数据任务提交与服务[5]。公安终端用户无需自购计算和存储等硬件设施,仅需借助公安专用网络登录账号,获取所需服务。同时要事先预留出云平台用户的专用端口,方便日后警务云平台与公安高性能计算平台的对接。
4.3.1 高性能数据分析
数据分析是深挖海量公安大数据价值的核心环节,也是数据模型建立和选择的前提。数据深度分析是一个数据建模和大规模计算的过程。包括①向公安业务各部门进行调研,了解公安实战业务需要解决的问题,将业务问题映射成数据分析工作和任务。②关联提供公安业务领域内外部数据,找到分析需要的数据,将数据汇聚到一个特定的区域,数据集或数据仓库,进行初步探索性分析。③数据预处理包括数据清洗,检查数据的一致性,处理异常值和缺失值,删除重复数据等;数据转换,如数据分箱,将字符型变量转化为数字型变量,按照数据所需维度进行汇总;数据标准化等。④建立模型[6],执行计算流程,得到最终的结果集和基础库。按照公安业务需求建立数据模型,可以组合不同的模型综合计算,提高模型输出值的准确性。⑤输出结果的解释和评估。以智能视频分析为例,智能视频分析依赖于视频算法对视频内容进行分析,通过提取视频中关键信息,进行标记或者相关处理,民警可以通过各种属性描述进行快速检索[7]。智能分析目前主要应用在人脸采集识别、人员特征识别、区域入侵检测、物品遗留检测、人群聚集识别、自动跟踪等领域。智能视频分析技术背后正需要借助高性能计算机集群这样超高计算性能的硬件设备来支撑,通过集群化的计算方式,呈几何倍数的快速提升数据分析能力。并通过优化深度学习模型、对海量视频数据进行高速分析,获取有价值的信息。
4.3.2 数据定制化建模
平台提供符合公安实战所需的模型个性化定制功能。数据通过数据模型进行处理,生成期望的分析结果。数据模型可以支持“贝叶斯模型”“决策树”“Logistic回归模型”“支持向量机”等算法。数据建模的目的围绕公安实战需求建立各类模型对海量信息数据进行处理。数据建模流程图 ,如图4所示。
图4 数据建模流程图
4.3.3 犯罪预测功能
深挖公安大数据的实质在于通过对已获取的数据进行归类和划分,了解和掌握犯罪规律,为公安工作提供灵活可靠的信息环境,实现警力前置,防范在先。犯罪预测的方法包括经验法和数理法。传统犯罪预测方法难以落实盖因计算能力的限制,以及犯罪属于社会现象数值化转换较为困难。公安高性能计算平台的设立可充分发挥高性能计算的优势所在,提高数据大规模计算和智能分析能力,让传统弱化的数理化预测方法真正落实。
犯罪预测模型通常的应用领域:一是实现警力快速动态调整。决策者改变传统依据经验开展被动部署,依据公安高性能计算平台以犯罪时空条件与特征形成的犯罪热力图、人口密度渲染图对犯罪事件提前预警,对犯罪热点地区提前布控警力。二是预防发生公共安全危机。通过预测模型可以分析一定时空范围内犯罪行为的发生地,受害人类型,引发犯罪发生的风险地域环境因素等,通过主动预测确定犯罪风险因子,可以有效降低公共安全事件的发生率。
依托公安高性能计算平台对数据的深度运算和应用,可以实现社区的数字化模拟,帮助公安机关定位分析社区治安近期形势;通过对以往犯罪数据的挖掘和统计分析,依托定制化的公安业务专用模型,以可视化的方式直观掌控该地区犯罪发生率、犯罪类型及犯罪的季节性或短期呈现的态势,改变传统的“回溯性侦查”模式,让预测型侦查机制真正落地。同时为平台对接公安反恐信息数据资源,依托高性能计算能力可助力实现暴恐情景模拟(定制化的VR实景模拟),为民警处置暴恐犯罪现场提供前期的全景实战化的模拟训练,提高民警实战处置暴恐案件的能力,消除不必要的紧张情绪。
大数据时代,公安工作必然朝向“智慧”的方向发展,高性能计算、云计算、大数据“三位一体”是打造智慧城市、智慧警务的共同支撑。让云成为连接高性能计算和大数据之间的纽带为公安工作迈入智能化时代提供保障性技术。把高性能计算引入到公安领域当中,与目前已经开展使用的公安云平台对接,为使用者专门制定更加系统化、公开化的技术规划,云计算同高性能计算有机结合形成公安云超算平台将更加适用于公安领域多样化工作要求,也是警务云发展变革中的必然一环。从源头上解决当下公安数据资源不共享,警务云平台构建各自为战,从顶层设计上解决数据源头统一的问题,构建起公安大数据应用生态圈。对资源进行合理分配,简化各级公安信息中心的建设规模且在空间运营及维护成本上将最大程度上限缩,如图5所示。
图5 公安大数据应用生态圈
人工智能的演进,给公安工作带来新的机遇和挑战,如何构建起公安高性能计算平台与云计算,解决好智慧警务中关于存储和利用公安海量大数据问题,在公安信息化中具有重要的战略意义。同时也为日后构建云超算平台奠定前期基础,从应用需求出发,未来公安云超算平台的建立正是从源头上打破信息壁垒,解决公安数据资源互融互通、地方警务信息化建设各自为政,多头建设、系统林立等问题。真正实现顶层设计数据入池,大整合高共享,统一标准,才能扎实推进智慧警务的早日实现。