基于云计算的边防信息资源管理服务平台架构设计

2017-10-19 05:47
计算机时代 2017年10期
关键词:边防海量结构化

陆 兵

(江苏省公安边防总队信息化处,江苏 南京 210036)

基于云计算的边防信息资源管理服务平台架构设计

陆 兵

(江苏省公安边防总队信息化处,江苏 南京 210036)

针对边防信息资源的汇聚、整合、管理和挖掘应用需求,设计了基于云计算的边防信息资源管理服务平台架构。引入新型分布式文件系统、并行计算框架等云计算技术,以支持对TB、PB级数据的实时、近实时处理和快速并行存储;整合异构数据源,构建支持非(半)结构化数据的边防海量信息资源共享库;建立各类数据分析模型,提供数据挖掘、检索、统计和对比等服务,为各类应用开发提供信息资源服务支撑。

云计算;信息资源;云架构;边防

0 引言

近年来,公安边防部门先后开展了出入境边防检查系统、出海渔船民管理系统、视频监控联网平台、边防应用软件一体化平台等应用系统建设,积累了大量的数据信息资源。文本、地理空间、视频图像等半结构化、非结构化数据的快速扩展和急速增长,传统的关系型数据关联存储结构一定程度上已成为制约海量数据集成整合和关联应用的瓶颈,现有的以单项业务为主导的建设发展模式也不能适应以共享服务为特征的新的应用需求。因此,有必要采用云计算、大数据等新技术,以应对数据资源海量化、异构化,以及应用需求多样化、复杂化等带来的挑战,需要建设新型边防云数据中心,构建边防海量信息资源库及其管理服务平台,实现对各类信息资源的汇聚、整合、共享、管理、挖掘和应用。

1 云计算关键技术分析

云计算[1]是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云计算具有“按需自服务、广泛的网络接入、资源池化、快速伸缩、可计量”五大特征[1],以及“基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)”[1]三大典型服务模式,在数据整合、节约运行成本、降低运维难度等方面,存在很多优势。目前,该项技术已在多个行业中得到很好的应用,也取得了很好的实际应用效果。

云计算的关键技术包括虚拟化技术、分布式存储、并行计算等,其分布式存储和并行计算技术成功解决了海量数据的存储、检索和分析挖掘等难题。

对于大数据处理问题,分布式存储和并行处理是有效手段。当前有效的做法是采用分布式文件系统/分布式数据库结合作分布式并行处理。

目前基于开源的Hadoop平台[2-3]是业界采用较为广泛的一个实现方案。Hadoop的核心思想是基于Hadoop分布式文件系统(HDFS)存储文件或者基于HBase数据库(也是基于HDFS),使用分布式并行计算框架MapReduce来执行分发Map操作以及Reduce归约操作。在Hadoop的计算模型中,计算节点与存储节点合一,在存储数据的普通PC服务器上也可以执行MapReduce的任务,大大地降低了设备成本。

2 平台架构设计

各类信息资源的共享管理是实现边防信息化管理应用的基础。目前,边防一体化平台全域数据库主要基于关系型数据库,难以存取半结构、非结构数据。此外,全域数据库中没有建立专门的统计分析库,在大数据量的情况下,如果过多地直接对各业务数据库进行查询、统计分析,会严重影响业务数据库的性能,同时也不方便开展数据关联整合、分析挖掘等高端应用。因此,有必要对边防全域数据库进行改造,构建一个基于云计算架构的、支持非(半)结构化数据的边防海量信息资源共享库,汇聚、整合边防内部、公安机关及相关部门的各类数据信息资源,进行数据深度挖掘应用。

2.1 平台总体框架模型

基于云架构的边防信息资源管理服务平台总体框架模型[4-5]如图1所示。

图1 边防信息资源管理服务平台总体架构

总体框架模型分为基础支撑环境、数据资源整合、数据资源库、资源服务、资源应用等五层,以及各项标准规范、安全与运维保障支撑体系。基础支撑环境依托边防云数据中心的计算、存储和网络资源等基础设施,为平台提供基础的软硬件运行环境;数据资源整合汇集边防内、外部共享数据;数据资源库包括基础信息库、服务应用的专题库和进行数据获取、加工、资源管理、数据编目和数据质量管理的系列工具;资源服务包括资源服务总线、各类服务接口和资源服务引擎;资源应用层提供授权访问的查询比对、专题应用和数据分析专业工具。

2.2 基础支撑环境

基础支撑环境为上层资源整合、资源库、资源服务及应用提供软、硬件支撑。在传统的Web服务、中间件服务、关系型数据库服务等技术架构基础之上,应重点引入基于云计算技术的新型分布式文件系统、NoSQL数据库、NewSQL数据库、并行计算框架等新型系统软件,提供超强计算与存储能力以支持对TB、PB级数据的实时、近实时处理和快速并行存储。

⑴ 采用新型分布式文件系统,实现海量非结构化、半结构化数据的分布式存储。

分布式系统底层采用分布式文件系统(如Hadoop的HDFS),以支持上层分布式数据库、并行计算框架等并行处理需求,在此基础上实现面向用户随机访问的新型分布式文件系统并提供基于文件存储、读取的服务接口,满足用户对边防信息资源的实时获取需求(如对视频监控、图片信息等数据的访问)。

分布式文件系统由两台管理节点服务器、若干网络交换机以及大量存储服务器构成,存储服务器可用普通PC服务器配置多块SAS/SATA磁盘组成。其中管理节点服务器采用热备份技术保障系统稳定运行,存储节点并发实现视频、图片、网页等非结构化、半结构化业务数据的快速存储和读取。

⑵ 采用NoSQL分布式数据库,支持海量结构化、半结构化数据的分布式组织和管理。

采用Hadoop的HBase等NoSQL数据库,实现对业务应用系统、视频监控平台、数据交换平台等途径获取的结构化、半结构化数据以及分析处理中产生的各类中间结果数据的存储和管理,在此基础上依托并行计算框架分析各类数据之间的关联关系。

⑶ 采用NewSQL数据库,支持海量高度结构化(关系型)数据分布式存储和传统的联机事务处理。

目前,边防业务应用系统多采用DB2、Oracle数据库存储各类关系型数据,以提供事务处理、检索与基础分析功能。然而,随着数据量和处理事务量的极速增长,基于传统架构的关系型数据库已无法满足针对海量高度结构化数据(关系型数据)的处理要求,需要采用对等、分布式架构的NewSQL数据库,实现高速事务处理、海量数据快速检索统计、架构灵活扩展的平台功能,并支持关系型数据SQL事务处理。

⑷ 采用MapReduce并行计算框架,支持海量数据复杂分析和处理。

通过在NoSQL数据库之上部署MapReduce并行处理框架,以迭代执行模式实现对多元数据的快速访问和并行处理,实现关联分析、挖掘分析等复杂处理。结合底层的持久化分布式文件系统以及MapReduce并行处理框架,实现对边防信息资源的多元化应用和深度挖掘,可提供高效研判、轨迹搜索、智能预警等应用功能。

2.3 数据资源整合

主要实现多源异构数据整合,采用ETL等主流的数据集成系统工具,对大量分散异构的信息资源进行分类抽取、清洗、转换,从各个数据源抽取数据,装载到基础数据资源库中,实现数据汇聚集成。为此需要设计并建立一套面向异构数据源的数据预处理接口,实现对异构数据的分类预处理,以保证入库数据的有效性、可用性与真实性。

依托MapReduce并行处理框架,实现海量数据的高效预处理。首先整合异构数据源,对公安网以及各个业务专网的各类多样化数据进行汇总交换,形成最终的待入库数据;其次依据接入数据源的保密级别、总量大小等相关因素设计相应的数据接入模式;最后根据待入库数据的数据规模、重复程度、数据分散程度等因素设计相应的数据提取、清洗、关联以及标识等方法,进行统一的数据预处理操作,实现对重复数据的删除、无关数据的过滤、数据格式的统一、相关信息的关联、涉密信息的标识等基本数据组织功能。

2.4 数据资源库

数据资源库汇集整合各类边防业务应用系统产生的业务数据,以及公安警综平台、其他部门交换过来的与边防工作相关各类数据。数据资源库包括基础数据资源库、应用服务资源库、数据元资源库、数据资源目录、数据资源管理工具等五部分。

⑴ 基础数据资源库

基础数据资源库通过抽取整合边防内部数据、外部数据、多媒体数据等实体数据,经规范化清洗、转换后形成,并根据源数据库的数据结构和存储方式确定数据同步方式,以确保基础数据资源库数据与源头数据一致。

⑵ 应用服务资源库

以基础数据资源库为基础,通过二次抽取、索引化整合、逻辑关联等方式形成应用服务资源库,包括关联库、专题库、全文库等。

在基础数据资源库和应用服务资源库建库过程中,应根据数据类型、数据规模、使用频率等关键要素,分类研究制定不同的数据存储结构和存储策略。对当前在用的结构化基础业务数据,应保持现有关系型数据库存储管理模式;对视频、图像、文本等海量非结构化、半结构化数据和车(船)辆轨迹等总量巨大的结构化数据,应使用基于分布式计算技术的非关系型数据库。

⑶ 数据元资源库

数据标准化是解决信息共享的关键,在边防资源库建设过程中,要注重构建以数据元标准为核心,数据项、数据代码、限定词、数据交换格式为辅助的数据标准技术体系,建设边防数据元资源库,以保证资源的规范性。

⑷ 数据资源目录

建立数据资源目录,对数据资源名称、数据资源摘要、数据资源提供方、数据资源分类、数据资源共享属性、数据资源公开属性、数据资源标识符、元数据标识符、数据项描述等元数据信息进行明确,对已注册的基础数据按照业务、层级等进行编目、发布,形成数据资源目录。

⑸ 数据资源管理工具

主要包括数据标准管理、数据整合管理、数据质量检测、数据资源监测等功能。数据标准管理汇集整理数据资源管理所需的标准规范信息,建立数据标准数据库、字典代码实体数据库。数据整合管理可采用数据同步工具或ETL工具完成数据抽取、同步等整合工作,通过任务调度管理实现对整合工具的集中管理和执行。数据质量检测利用技术监测和业务逻辑校验,进行数据源头采集、传输、应用全流程的规范性、一致性、准确性检查,实现基于不同来源数据的逻辑校验和监测管理。数据资源监测建设数据资源监测功能,实现平台数据变化、数据库系统状态和数据整合及质量检测工具运行状态等方面的集中监测。

2.5 数据资源服务

建立数据服务引擎,依托SOA服务总线,提供相应的挖掘、检索、统计和对比等服务,为上层应用提供简单易用的统一调用接口。包括数据服务接口和应用服务接口,数据服务接口主要包含数据查询、数据比对和数据统计等服务接口。应用服务接口主要包含模型服务、搜索、PGIS服务等多种接口,为各类应用开发提供应用服务支撑,通过接口调用实现对应用资源库的访问。

2.6 信息资源应用

在做好数据资源汇聚整合的同时,逐步建立深度分析挖掘应用工作机制,形成一系列公安边防研判、分析应用体系,通过公安网络向边防用户提供基础应用、综合应用、个性化应用及移动应用。

按照不同的数据应用需求,提供不同的数据服务方式:对数据查询类的应用需求,以查询服务接口的方式,统一对外提供访问接口;对数据分析挖掘类应用需求,由业务部门推送具体分析模型,数据资源库中按照模型完成数据分析挖掘后再以服务的方式向业务部门推送具体分析结果。引入基于MapReduce等并行算法设计的大数据分析工具,建设图像、视频比对分析、地理空间分析工具,为开展数据分析服务提供基础工具支撑,在提高数据分析效率和准确率的同时,方便分析模型的积累固化。

数据资源应用主要包括:综合查询、搜索引擎、数据比对、布控预警、分类统计等常用功能以及趋势分析、异常分析、相关性分析等挖掘功能。

3 结束语

本文基于云计算的理念和技术方法,设计了基于云架构的边防信息资源管理服务平台的架构模型。引入分布式文件系统、并行计算框架等云计算技术,实现对边防海量数据的汇聚整合、快速访问和并行处理,解决数据资源海量化、异构化及应用需求多样化、复杂化等问题,探索了一条“云计算架构”模式应用的建设路径,为边防大数据、边境防控等平台建设提供了借鉴经验。

[1]顾炯炯.云计算架构技术与实践[M].清华大学出版社,2016

[2]洪沙,杨深远.云计算关键技术及基于Hadoop的云计算模型研究[J].软件导刊,2010.9:9-11

[3]丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013.19(1):53-56

[4]陆兵.基于云架构的边防视频监控数据整合与智能化应用平台研究[J].软件导刊,2016.15(7):149-151

[5]汪清,蒋平.城市大数据警务云计算平台设计与建设——以南京公安大数据警务云计算平台为例[J].警察技术,2016.5:12-15

Architecture design of frontier defense information resource management service platform based on cloud computing

Lu Bing
(Jiangsu Province Public Security Frontier Corps,Nanjing,Jiangsu 210036,China)

Aiming atthe convergence,integration,managementand application requirementsoffrontierdefense information resources,the architecture of frontier defense information resource management service platform based on cloud computing is designed. New distributed file systems and parallel computing frameworks of cloud computing technology are introduced to support real-time,near real-time processing and fast parallel storage of TB and PB level data;Integrating heterogeneous data sources,constructing a large database of frontier defense information resources supporting non(semi)structured data; Establish various data analysis models,provide data mining,retrieval,statistics and comparison services,and provide information resources service support for various application development.

cloud computing;information resources;cloud architecture;frontier defense

TP319

A

1006-8228(2017)10-40-04

2017-09-04

陆兵(1968-),男,江苏宿迁人,硕士,高级工程师,主要研究方向:计算机应用。

10.16644/j.cnki.cn33-1094/tp.2017.10.012

猜你喜欢
边防海量结构化
一种傅里叶域海量数据高速谱聚类方法
守卫边防的“帕米尔雄鹰”
促进知识结构化的主题式复习初探
金鸡山上守边防
结构化面试方法在研究生复试中的应用
海量快递垃圾正在“围城”——“绿色快递”势在必行
走边防
基于图模型的通用半结构化数据检索
基于软信息的结构化转换
基于文件系统的分布式海量空间数据高效存储与组织研究