基于数据中心的公安大数据应用研究

2017-11-08 00:40王海燕胡婷刘际鹏谢燕
智能计算机与应用 2017年5期
关键词:数据挖掘数据中心大数据

王海燕+胡婷+刘际鹏+谢燕

摘要:面对公安业务产生的海量结构化和非结构化数据,需要研究新型的大数据处理方法。按照公安行业技术规范,研究数据中心平台架构,并完成平台设计与实现。针对各警种业务对大数据定制服务、模型研发的需求,构建匹配公安业务场景的大数据系统。结合应用实例,构建基础设施云环境和混合存储环境,实现对大数据资源存储、整合、管控、共享服务及应用的支撑,并通过大数据资源服务对内外部数据资源进行汇聚、清洗、管理、挖掘分析。最终实现公安大数据的智能信息处理,达到公安大数据实战应用的目的。该研究成果已成功应用于全国公安数据标准化试点城市河北省邯郸市公安局大数据平台建设项目,能够为公安大数据应用提供借鉴。

关键词: 数据中心; 大数据; 数据挖掘; 资源融合

中图分类号: TP391

[KG3]文献标志码: A

文章编号: 2095-2163(2017)05-0060-06

Abstract:The public security business generates massive amounts of structured and unstructured data, so a new method of big data processing is needed. According to the technical specifications of the public security industry, research data center platform architecture, and complete the platform design and implementation. In view of the demand for the customized service and model research of the various police services, build a big data system matching the police business scene. Combining application examples, build an infrastructure cloud environment and a mixed storage environment, realize the support for storage, integration, control, sharing service and application of big data resources. After that, Gather, clean, manage and mine to analyze the internal and external data resource through large data resource service, finally achieve the intelligent information processing and reach the goal of practical application in public security big data. The results of this research have been successfully applied to Handan city, which is a pilot city of national public security data standardization. The results of this study can be used to provide reference for the big data application of public security.

Keywords: data center; big data; data mining; resource integration

0引言

大数据是以容量大、类型多、存取速度快和应用价值高为主要特征的数据集合,正快速发展为数量巨大、来源分散、格式多样的数据,对其进行采集、存储和关联分析可从中发现新知识、创造新价值和提升新能力,逐渐成为新一代信息计算和服务业态。近年来,公安行业大力实施“科技强警”战略,产生了海量的结构化和非结构化数据,包括轨迹信息、工作信息、多媒体信息等。公安数据中蕴藏着人、事、物、组织和案件等丰富的信息,充分利用这些信息,挖掘海量数据背后隐藏的关联关系,对于维护社会大局稳定、预防和打击犯罪、辅助指挥决策都具有重要的价值。

隨着公安业务对前端采集的大数据的存储和计算能力需求以及应用系统整合需求不断提高,基于数据中心平台,大力加强大数据时代公安基层基础工作,将能够不断提高维护公共安全和服务人民群众的能力水平。

1研究目标

公安大数据系统是面向各警种的大数据管理和分析平台,通过对海量数据的收集、整理、归档、分析、预测,从复杂的数据中挖掘出各类数据背后所蕴含的、内在的、必然的因果关系,找到隐秘的规律,促使这些数据从量变到质变,实现对海量数据的深度应用、综合应用和高端应用。依托数据中心构建基于全警采集、全警共享的统一的能够匹配公安业务场景的大数据系统,实现PB级数据存储管理、多种数据类型与协议支持、高质量的数据整合、高效的数据分析能力、可管理和开放性、安全可靠及自主可控[1]。

2数据中心平台设计

2.1总体架构

遵循公安部《公安信息中心技术建设总体框架》、《资源服务平台建设任务书》,确保与省级数据中心平台技术路线相同。总体架构如图1所示。

2.2功能设计

数据中心平台由基础支撑层、数据资源层、服务资源层、资源应用层、标准规范体系、安全保障体系等6部分组成。平台功能架构如图2所示。endprint

2.2.1基础支撑层设计

基于OpenStack规范对云平台各类虚拟化资源进行分配管理,使信息资源服务平台能够支撑复杂多变的应用部署场景[2]。

2.2.2数据资源层设计

信息资源目录建设是平台数据体系建设的核心,从3个方面进行信息资源库数据资源目录建设。对其可做阐释表述如下。

1)部门资源目录。以数据获取来源部门组织数据目录,分为警综平台数据、情报平台数据、各业务系统数据、社会数据,并且一次进行子目录和划分。其中,警综、情报和业务系统数据子目录完全依照来源数据的目录结构进行组织;社会数据根据数据来源单位进行子目录划分设计。

2)主题数据目录。整合基础数据是信息资源库对外提供数据和服务的核心数据库。依据公安五要素组织原则,进行数据资源目录建设,以“人、地、事、物、组织”进行二次目录划分,三级目录根据不同的数据业务特征进一步划分。

3)专题数据目录。平台面向不同业务警种提供的各类数据,其以各业务警种类型进行二级目录组织,如、治安、刑侦、交通、案件等。三级资源目录根据各业务警种的实际业务内容进行细化分类。

资源体系目录如图3所示。

2.2.3服务资源层设计

平台通过统一的接入请求服务,经过内部平台数据和功能分析,提供多种方式的结果返回,如离线数据文件、在线的XML数据等。针对平台直接具备通用和专业服务,经过使用授权,可以通过直接调用平台服务接口实现应用。针对较个性化的需求,平台通过提供基础的元服务集,应用系统通过对元服务集内的服务进行灵活自主的编排,形成基于元服务的自定义服务流程,满足个性化业务需求。服务结构总体设计如图4所示。

服务接口整体架构分为负载均衡服务器集群、服务接口服务器、内存数据库、数据库和缓存数据库中间件层、数据库层。基于服务接口系统,大量增加了缓存设计,并使用分布式缓存系统MemCache来加大缓存空间,提高缓存命中率。

遵循《资源服务总线系列标准》,主要包括接入适配、授权管理、访问控制、路由调度、数据交换、资源同步、日志采集分析等功能。采用基于动态可插拔组件的先进系统架构,提供开放的、有针对性的二次开发API接口。

2.2.4平台管理层设计

服务资源管理子系统主要为服务使用者提供服务共享、数据交换的便捷平台,可让用户及时了解最新发布服务。

服务资源监控子系统实现对资源服务总线、服务接口等相关资源的运行状态监控、性能监控、负载监控及异常自动告警;实现对服务接口的可用性、性能等服务质量指标的评价;采集资源服务总线、服务接口的日志,支持日志审计及运行统计。主要由3部分构成,监控Agent、监控Server、监控Web。3个组成部分采用分布式部署,逐级递进式的监控,通过状态巡检机制,实现各类资源状态的实时监控,并且对发生故障或者超过报警预警阈值信息进行邮件、短信等多种方式进行报警。

资源服务总线通过级联组件和注册中心使用树状拓扑实现多级互联访问功能,支持多个总线系统的互联部署,形成服务共享网络。应用系统可从一个总线系统上访问另外一个总线系统共享的服务,服务级联可组织成多级互联。在系统中,存在公安部->省厅->市这3级行政组织架构,系统数据交换支持级联架构。

统一用户权限管理。具体包括统一用户认证和统一用户授权两个功能。其中,统一用户认证基于公安部PKI证书体系。统一用户授权管理是以资源的授权、访问决策控制集中管理为目标,以资源的访问控制为导向,以资源的安全、防扩散为前提,将各个应用系统的所有受控资源进行统一授权,不仅可以保护应用系统的信息安全、建立全面的信息保密制度,同时满足对系统文档加密和授权需求,构建安全可控的文档安全、防扩散管理系统[3]。

实时采集平台应用及数据的访问日志,建立面向终端用户及对接应用系统的资源应用审计功能,实现用户和应用行为的全程记录,实现异常行为审计追踪及预警提示。

2.2.5平台门户设计

面向公安内网用户,提供内网统一登录功能、导航功能,信息推送、集成各类前台应用系统、发布预警信息、平台内网公告以及以图表方式发布平台数据、应用、效益等信息。平台门户网站的栏目划分为信息资讯类、数据统计类、共享服务类、分析类、个性化服务、互动交流类、辅助类、应用系统访问入口等几大模块。

提供快速开发平台。主要包括应用开发框架、Web应用引擎、流程引擎、建模设计工具以及二次开发接口等部分,基于SOA体系架构及BPMN2.0国际标准,通过应用服务组件化的开发模式,能够提升开发效率、降低维护复杂度、规范开发过程。支持各种集群、多数据库以及多Web服务器的部署环境。设计器基于Eclipse平臺图形化开发,方便了代码的编写与调试查询[4]。

2.2.6智能搜索子系统

智能全文检索应用是基于成熟的全文检索产品,结合公安实际的检索业务需求,提供综合检索,以及“人”、“地”、“案”、“物”、“组织”等多种专题检索功能。智能全文检索应用主要包括索引管理、检索服务和前端检索应用三大组成部分。实现对结构化和非结构化的数据构建索引,并根据给定条件进行查询。可处理的数据来源包括数据库中的数据、远程FTP上的数据以及本地文件系统中的数据;可处理的数据类型包括txt、doc、pdf、html/htm、xml等,还可以使用增强功能对一些特殊的pdf、wps、s2文件和ceb文件做处理。全文索引库可以存储在HDFS中,在节点内的所有服务都可以去共享一套索引资料信息,实现全网分布信息查询[5]。

2.3非功能设计

平台命名、主要功能和界面设计遵循《信息服务应用门户界面设计规范》。采用主流、稳定的开发技术,兼容 IE6 等主流浏览器,适应 PC 终端接入和主流移动终端接入。引入 HTML5 技术提高可用性和用户体验;采用 JQuery 框架实现前端页面的交互,轻量级别 JS 封装;采用 DIV+CSS 架构 WEB 设计标准,实现网页的合理、优化布局。endprint

平台性能主要考虑查准率、查全率和系统响应时间等指标。一方面确保数据采集、转换、整合的过程数据准确无误,另一方面模糊查询、检索查询等应用功能尽可能人性化,返回的结果能够符合查询用户本意;对每一次查询操作,要尽可能返回与权限对应的全部数据;从系统架构、数据库、应用服务器、代码优化等方面确保系统响应时间。

严格遵循安全保密工作规范,在满足应用需求的同时,防止信息滥用,有效保护公民隐私和警务秘密,按照安全保障体系建设的具体要求,分类建设安全防护设施和容灾备份机制,确保数据安全[6]。

接口相对稳定;明确接口语义,包括接口调用方法、接口名称、参数的类型和名称;采用版本定义来区分接口差异。接口设计遵循公安部制订、发布的《公安资源服务总线体系架构标准》,接口对接遵循公安部制订的《全网资源服务总线对接标准(待发布)》。接口定义时需要严格控制接口的访问权限,以免出现非法授权使用。对接口进行扩充时须保证能够兼容前一版本,否则就应定义为新的服务接口。

3公安大数据应用实践

在未建设数据中心平台之前,河北省邯郸市公安局拥有几十个公安业务系统,各系统资源相对独立,基层民警使用起来也极为不便,原有的系统已经不能满足当前数层民警的办公需要,各类海量信息资源也有待整合共享,基于此开展大数据平台建设,大数据平台由科信部门牵头,协调各警种共同参与建设的平台。按照公安信息资源服务平台的总体规划,结合全国公安数据标准化试点的建设要求,深度整合公安及社会数据资源,以建成的云平台为基础构建公安大数据资源库,再通过大数据资源服务及应用体系面向业务警种提供全方位支撑。

邯郸市局通过构建基础设施云环境,部署并建设由Oracle关系数据库、Hadoop分布式存储环境、全文索引库、MPP等构成的混合存储环境。以基础云平台实现对大数据资源进行存储、整合、管控、共享服务及应用的支撑。平台依托云计算环境,以应用商店为主建立开放式应用生态环境,以大数据分析挖掘为主的全文智能检索、人员车辆电子档案、电话号码专题应用,对接场所无线WIFI大数据、实名制信息采集、视频侦察平台,全面支撑警务实战平台应用,通过统一门户登录,实现对公安内部和社会信息资源的有效整合,实现对全警信息化应用提供全方位的服务支撑,发挥平台应用价值。

3.1整合硬件资源,实现计算资源和网络资源的共享

本次数据中心建设包括Hadoop大数据集群、全文索引集群、虚拟机硬件资源,其中Hadoop大數据集群由3台管理节点,14台数据节点组成,共计300 T存储空间。全文索引4台集群,共计64T存储空间。其它应用服务器所需硬件均为虚拟化资源,包括数据管控服务器、数据交接服务器、门户运维服务器、服务集、应用集等共计10台。可以满足全局警务实战未来3~5年的应用计算能力。

采用混合存储体系,将一般的关系数据放到Oracle数据库中,海量的流式数据及非结构化数据放到HBase中。集成Apache开源社区Hadoop多种版本,内置Hadoop基础软件,包括:Hive、Zookeeper、Oozie、Flume、Kafka等,组件内核与Hadoop开源社区版本保持兼容。支持最新版本的HDFS;支持统一调度管理系统YARN;支持对HBase和Hive中的数据进行快速查询,分组统计等;支持多计算框架融合,包括流式计算、内存计算、M/R离线计算等;支持分布式消息队列来进行数据摄取等[7]。

3.2开展全局数据标准化工作

借助大数据平台建设的契机对全局公安数据标准体系开展建设工作,建设数据标准体系及相应的管理系统,并在全局范围组建数据标准化机构,制定公安信息化应用建设的标准对标与审核流程及规范,从源头上保障数据资源的质量和规范性,实现数据资源的持续优化和不断提升。

3.3建立大数据关联库

覆盖之前多个业务系统的数据资源,并建立关联关系,使得基层民警从之前的面向多个数据查询系统的困境中解脱出来,转而面向大数据平台以关联库为核心的更高质量的数据资源,关联库是平台数据资源建设的核心和重点,本平台中关联库的建设,不但实现数据资源质量和规范性的提升,而且实现与基础库数十亿数据资源的关联,形成以“人、地、事、物、组织”五要素为核心的主数据资源,是实现“数据”向“信息”转变、从“信息”向“知识”提升的关键,也是发挥信息资源实战价值的关键,其直接支撑电子档案等应用,并通过服务接口面向业务警种提供数据查询访问能力[8]。

3.4建立数据清洗整合机制

通过对数据资源进行清洗整合,对数据资源的冗余情况、可信性、完整性、数据来源进行全面分析,并通过主数据整合提供对不同数据来源的数据质量实施评核和监控,构筑对数据采集单位的数据质量整治机制,从工作机制上促进数据质量由来源获得提升。大数据平台通过对不同数据来源的质量评分整合主数据,使业务警种在应用中能获取可信度高、完整精确、符合标准的数据资源[9]。

3.5整合对接各类数据资源

数据中心平台实现与室内外场所无线WIFI数据、视频侦查卡口数据、实名制采集数据,以及现有警综业务系统等进行资源对接,通过对数据的标准化和清洗、抽取、整合建库,目前,公安和社会数据资源共计320种,共计约300亿条,其中公安资源约20亿条,社会资源约280亿条。

3.6为警务实战数据提供全面支撑

公安大数据平台对外发挥价值的核心是提供种类丰富、类型多样的服务接口和服务能力。从服务类型来看,可分为通用类服务、研判类服务和智能类服务。针对各类服务给出功能概述如下。

1)通用类服务。在大数据平台提供的数据资源基础上,结合分布式计算、可视化分析和展现等技术,可实现综合查询、搜索引擎、数据比对、布控预警、分类统计等常用功能,以及趋势分析、异常分析、相关性分析等挖掘功能[10]。endprint

2)研判类服务。基于大数据分析挖掘,实现各类战法集市、积分预警模型、全要素分析工具、社交网络分析、隐性重点人挖掘、治安态势分析等综合情报研判功能。

3)智能类服务。综合情报研判功能,实现案件多维分析、人流激增预警、犯罪预测模型、人员智能画像、涉恐系数分析、人员亲密度模型分析等功能。

数据中心汇集警综、网监无线WIFI上网,实名制采集,视频卡口以及大量社会数据资源,给警务实战应用平台提供一手数据,为警务实战平台比对碰撞、智能研判、轨迹分析等起重要数据支撑。资源服务平台提供数据访问查询、大数据平台、资源服务总线等服务接口和专题应用接口,给警务实战应用提供服务支撑[11]。

3.7建设大数据平台的服务总线

聚合PGIS平台的地图服务接口、业务数据资源的查询访问接口、数据分析接口以及人员、机动车档案页面接口等各类服务资源,在警务实战应用系统过程中发挥重要作用,初步建立基础开发体系,显著降低开发、协调的成本。并且在基于服务总线建立的数据密级等安全机制支撑之上,实现基层对数据资源的可控访问。

采用数据缓存、多级缓存、分布式缓存设计、LRU替代算法、B+树磁盘索引技术、日志结构合并树(LSM Tree)批量转储技术等进行快速响应设计[12]。使用多线程技术与多核CPU技术联合、IO与计算的并行化、分布式系统架构设计等高并发设计。能够确保每个请求平均返回时间在1 s内,每个请求数据吞吐量小于等于10 K,使用硬件资源在4核双线程CPU/32 G内存的情况下,资源服务总线的并发能力大于5 k/s;每个请求的平均响应时间小于2秒;资源服务总线正常运行率大于99%[13]。

3.8开发高效率智能全文索引应用,实现各类信息一键搜索

在数据整合的基础上,对各类信息资源进行分类和建立索引,使用全文检索的技术,利用中文分词和倒排索引的方式进行大数据信息的快速检索,实现通过一个输入框的形式向民警提供全数据搜索功能。

3.9开发电话号码等特色专题查询应用

整合各类公安信息资源、社会资源、互联网虚拟身份资源和各类办理业务信息,从中提取人员的电话信息包括:固定电话信息、移动电话信息,根据各类业务系统登记的电话信息和人员信息进行整合绑定,将所有和某一电话有关联的信息提取,并建立电话专题档案,利用大数据的手段实现电话号码的分析研判功能。

3.10开发基于无线WIFI轨迹查询应用

通过获取的无线上网终端信息,數据中心系统关联网监特征库,可通过手机号码、手机MAC地址等条件,查询终端上网轨迹到PGIS地图中[14]。

4结束语

按照公安行业技术规范搭建以云计算为基础支撑,以大数据为核心特点的新一代公安数据中心,通过对公安内外部数据资源进行汇聚、清洗、管理、挖掘分析等大数据应用,能够为各警种提供高质量、有针对性的大数据定制服务。该研究成果已成功应用于全国公安数据标准化试点城市邯郸市公安局大数据平台建设项目,对公安大数据分析与实战综合应用意义深远。

参考文献

张兆端. 关于公安大数据建设的战略思考[J]. 中国人民公安大学学报(社会科学版),2014,30(4):17-23.

[2] 杨宏亮. 公安机关大数据平台构建研究[D]. 长春:吉林大学,2016:20-25.

[3] 张文元,马丽雅. 警务大数据在公安实践中的应用[J]. 中国人民公安大学学报(自然科学版),2016,22(2):51-54.

[4] 赵源泉. 公安工作大数据管理平台数据管理系统设计与实现[D]. 上海:东华大学,2016:32-36.

[5] 刘海英. 数据挖掘技术在警务数据分析系统的应用研究[D]. 长春:吉林大学,2015:28-33.

[6] 李栋科. 基于大数据的智慧公安系统研究与应用[J]. 网络与信息安全学报,2016,2(12):63-68.

[7] 刘云恒,刘耀宗. 基于Hadoop的公安视频大数据的处理方法[J]. 计算机科学,2016,43(S1):448-451,475.

[8] 张明旺. 基于大数据的公安情报工作研究[J]. 现代计算机(专业版),2017(7):34-37.

[9] 彭知辉. 论大数据环境下公安情报流程的优化[J]. 情报杂志,2016,35(4):15-20.

[10]Agrawal D,Bernstein P,Bertino E,et al.Challenges and opportunities with big data[R/OL].[2016- 01-26].http://cra.org/ccc/docs/init/bigdatawhitepaper.

[11]沈晓磊. 基于“大数据”的重点人员管控系统的设计与实现[D]. 苏州:苏州大学,2014:40-45.

[12]Manyika J,Chui M,Brown B, et al. Big data: The next frontier for innovation,competition and productivity[R/OL].[2011- 05].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation.

[13][美]HURWITZ J, NUGENT A, HALPER F, et al.写给大家看的大数据[M]. 麦秆创智, 译. 北京: 人民邮电出版社,2014: 162-165.

[14]向庭勇,向庭波. 用大数据技术构建公安wifi侦测系统的研究与应用[J]. 中国公共安全,2016(13):75-81.endprint

猜你喜欢
数据挖掘数据中心大数据
关于间接蒸发冷机组在数据中心中应用的节能分析
2018年数据中心支出创新高
2017第十届中国数据中心大会榜单
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于大数据背景下的智慧城市建设研究
基于R的医学大数据挖掘系统研究
一本面向中高级读者的数据挖掘好书