自然灾害智能化应急救援信息系统关键技术研究

2018-10-31 05:46刘锡铃张世良
韶关学院学报 2018年9期
关键词:数据源分布式聚类

刘锡铃,张世良

(宁德师范学院 计算机系,福建 宁德352100)

自然灾害日益严重的问题已引起了我国政府和学术界的高度重视.由于城市地形分异明显,地质环境复杂,气候频繁,各类自然灾害频繁发生,尤其是洪水和干旱每年都会发生.台风,冰雹,暴风雪,沙尘暴,山崩,山体滑坡,泥石流等地质灾害,风暴潮,海啸等海洋灾害,森林大火,重大生物灾害等自然灾害造成的气象灾害伤亡事故,经济损失高达数十亿元,对城市的生命财产造成了严重破坏.自然灾害通常是暴力的,破坏力巨大,带来破坏的持续时间长.自然灾害可能会造成伤亡,对财产造成巨大损失,并造成相当程度的混乱.灾难事件持续的时间越长,对受害者的威胁越大,事件的影响也越大[1].

灾害影响的程度与人们能否收到足够的预警有关.构建一个具有智能决策功能的自然灾害应急平台,形成一套标准化的应急救援平台变得十分重要.随着大数据时代的到来,数据体现了时空动态性、复杂性、多尺度性、不确定性、复杂和多用户态,传统系统中的分析方法无法满足大数据的处理,结合当前主流技术,提出构建应急救援系统智能处理通用库算法、多源、异构空间数据的集成、融合与共享以及嵌入时空信息到地图的无盲点时空数据可视化等关键技术,依据不同用户形态,不同数据形式以及不同应用需求,通过选择不同处理算法,实现不同服务应用的智能化处理.

1 多源异构数据集成与融合技术

由于自然灾害时空数据来源广泛,数据源结构变化多样,没有统一的标准,具有很大不确定性;数据源随着时间变化,增加、变更或者修改数据源的时候,要求系统能够适应这样的变化;数据量巨大,处理需要占用大量系统资源,如何应用来自多部门的异构数据是一个需要解决的问题.数据融合方法和元数据提供了持续可靠地应用多源数据的手段,需要设计一种可注册的自然灾害异构数据源集成策略,可以方便集成各种结构、半结构或者非结构数据源;发挥 Hadoop的集群优势,为不同客户端提供统一的Web Service 接口[2].

自然灾害数据源加载程序可以完成自然灾害数据源的集成,包括数据源注册,数据提取,数据清理,数据模型统一和数据存储.自然灾害数据源加载器采用策略模型,解释器模型和工厂方法模式设计,可以根据不同的数据源动态调整加载策略,也可以适应数据源的变化,满足需求不同的事件加载和异构数据源的集成[3-4].该模型采用分层体系结构,将系统划分为数据源层(文件,数据库和其他形式),数据加载层(ETL工具),数据管理层,业务逻辑层和表示层等功能类别.模型框架结构见图1.数据源层向系统提供数据.这些数据不能直接使用.数据加载层需要被提取,清理,转换并加载到ODS中.ODS以增量的方式向数据仓库提供历史数据.业务逻辑层为数据访问提供Web服务接口,并完成数据查询,修改和处理任务.表示层提供了不同的客户端来根据用户需求查询、分析、下载和可视化数据.解决多源异构地理大数据建立自然灾害和大数据集成的统一框架,建立高度可扩展的数据集成模型,实现数据源的“即插即用”,实现软件模块化的目标模型;从基础数据模型层面,统一自然灾害大数据的表达,组织和管理;为多源异构地理数据提供统一的参考,一致的访问模型和集成处理机制.

图1 多源数据集成融合

2 空间信息服务云数据管理技术

自然灾害拥有大量的数据.数据处理需要大量的系统资源.传统的单节点计算机或服务器无法完成处理海量数据的任务.自然灾害数据处理需要确保数据处理的响应时间,并且尽可能缩短用户的等待时间.用户体验.基于云计算模型的开源Hadoop被用于通过Map Reduce操作将任务分发到不同的计算节点,并且使用并行计算来提高数据处理效率.该框架极大地简化了分布式计算的复杂性并确保了数据处理的响应时间.为了消除不同应用服务在实施和访问方面的差异,降低数据存储和维护成本,服务器的S端结合云服务的虚拟化和分布特性,并使用数据资源标识符HGML和行业身份XXML在应用程序服务层.实现空间信息的统一交换与描述,并实现空间信息资源管理与集成云服务架构.在空间信息服务云中,其数据资源由“物理云”,“网络云”和“存储云”组成,并通过数据注册中心向G端用户提供数据访问服务[5-6].空间信息服务云的体系架构见图2.

图2 数据获取流程

由于大数据资源数据涉及国家安全,数据保密等级要求高,为此在公共服务平台提供大数据资源和数据服务时需要考虑访问者身份的安全性、数据交换的安全性和数据存储的安全性.针对大数据资源数据安全问题,采用基于粒计算的大数据资源数据安全服务框架,通过双向虚拟身份(Virtual Identities,简称VID)的细粒度访问控制保证数据的安全和用户访问行为的限制.高安全等级的大数据资源数据通过数据粒化分类成数据块以VID的形式呈现给用户.用户通过系统安全认证后获得VID,与数据实体的VID之间通过角色细粒度访问控制机制建立连接.系统提供认证、授权、统计、审计和计费的A4C(Authentication,Authorization,Accounting,Auditing&Charging)服务框架,运行数据对象的粒化与角色属性粒化的安全机制,保证大数据资源和数据服务的安全性.

3 无盲点时空数据可视化技术

开发一种全新的能够把时间显示无缝集成到地图的无盲点的时空数据可视化技术.总的目标是支持在保存空间信息的路网图上做时空格局分析.为了更加精确,在分析某个道路的属性的时间模式时,希望能够考虑到的邻域信息,例如是否该小区道路贯穿的是商业或住宅,以及周边道路网络的拓扑结构.这个目标适用于不同类型的任务和用户.例如,调查交通阻塞的分析师可能希望查明当拥塞发生时的情况,加上了解到的周围基础设施信息来推测为什么拥塞发生.计划跨越城市旅行的人可能在他们出发的时候,希望找到最不塞车的路线而且沿线有加油站.对于在电视上发表对现在正在变化事件的记者来说,他们可能要在空间路网地图上显示一些收集的图片.需要同时分析空间和时间的应用.应用4种类型的时空任务:天气表征估计在一个大空间区域不同时间段的属性的趋势和变化;本地表征估计在局部区域不同时间段的属性的趋势和变化;模式检测定位在其发生的时间和空间位置的属性的一个特定的图案;图案的比较在不同的时间和空间区域比较的属性值的模式.

新技术的开发将遵循可视化的原则“首先概述,缩放和过滤,然后根据需要提供详细信息”.概览首先向用户提供在地图上显示的各种数据的分布.用户可以直接在地图上滑动并放大一条或多条道路.将在地图上使用稀疏的道路空间,同时最大限度地减少其他扭曲.将开发用于扩大缝焊的算法,以扩大道路的选定部分并引入足够的空间以在地图上嵌入时间显示.也将研究编码时间方向的选择,因为道路可以是任何坡度,方向总是从左到右或从下到上,但这些方法在这里不适用.有很多方法来表示时间的方向,例如文本标签,视觉符号,颜色,甚至动画.我们将进行研究,比较各种方法,并评估其有效性和效率.为了评估内联视图的优缺点,我们必须将此方法与传统的链接视图进行比较.最后,我们将新的可视化工具应用于不同应用程序的各种分析任务.

4 建立通用算法库

对自然灾害资源数据的特点建立其对应的数据智能处理算法库,利用聚类算法实现分布式处理节点的选择,数据子集的划分,用户的分群,数据质量的提升等数据处理过程;利用分类算法实现用户的分群,用户行为的判别,用户服务的决策,高维数据属性的约简等处理过程;利用数据属性降维方法去除数据的冗余属性和决策不相关属性,并通过属性降维得到数据的主要特征,加快数据后续处理的过程的同时,提供决策对间的准确性;利用矩阵分解技术进行高维数据稀疏,数据的特征选择,高维数据隐藏信息发现等方面;基于负载均衡理论的大数据分割算法实现负载均衡理论为基础,研究最佳的数据分配方案,使得多个节点能够在同样的时间内完成任务,避免因为单个任务的拖延,导致整体任务实时性减低等算法.通过粒化把大量复杂信息按照其各自的特征和属性划分成块,方便管理控制,这些块称之为粒[7-8].智能算法库依据所提取或学习到的数据特征和属性构建准则进行.

针对大数据资源大数据自身以及其应用的特点,提出针对资源特定应用的新方法.通过MapReduce分布式处理框架,实现聚类、分类等现有算法的分布式处理,加快算法的执行速度.基于分布式减法聚类的不完整数据填充算法,利用改进的减法聚类算法对整个数据集进行聚类.为了提高聚类算法的效率,利用云计算技术对聚类算法进行优化,实现基于多级MapReduce的分布式减法聚类算法.然后根据聚类结果和加权距离对缺失值进行填充,在保证数据填充精度的同时大幅度降低了填充过程的处理时间.此种离线的数据质量提升算法,能够为其他数据处理过程提供准确的结果支撑.考虑分布式处理模型的调度机制,以最少的模型开销,达到最优的数据处理结果.对于离线数据(变为单层选择机制),通过数据分类选取基于数据主题(矿产、耕地、商业用地等)的分布式数据存储节点,然后对特定主题数据进行分布式处理;关于在线数据,首先根据离线方法选择分布式数据存储节点,然后通过存储节点的特征标签与新到在线数据比对,选取最终的数据服务节点,中间过程包括数据标签的更新、重构.通过张量网络统一表示资源结构化数据和文本、图片等非结构化数据,利用高阶SVD分解等相关技术降低数据维度,并利用深度计算方法综合挖掘分析数据隐藏的潜在价值.

5 结论

针对目前自然灾害还没有较高通用性的城市智能化应急救援信息系统的现状,立足于满足日益增长的应急救援数字化、智能化管理的需要,进行可复用的面向大数据智能决策的自然灾害救援信息系统所需的关键技术的研究.提出了自然灾害基础数据获取、整合与标准化机制,通过研究数据的标准和结构,把握数据的基本情况,把自然灾害观测数据、业务管理数据、办公数据、历史档案数据等自然灾害数据中可利用的部分抽取出来,进行各种加工转换整合,然后对经过“粗加工”的数据进行深层“清洗”,最后装载到统一的“数据仓库”上,进行数据应用与服务;提出了适应于结构化、半结构化及非结构化数据的可靠存储系统,可以为多源异构自然灾害大数据任务提供后台存储系统在读写效率、速度及吞吐率上的重要支撑;针对不同用户形态,不同数据形式,以及不同应用需求,选择不同处理算法,达到不同服务应用的自然灾害大数据智能处理技术算法库,可以为自然灾害大数据的服务应用提供多选择、多匹配、实时快速的响应需求.

猜你喜欢
数据源分布式聚类
基于K-means聚类的车-地无线通信场强研究
Web 大数据系统数据源选择*
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
基于不同网络数据源的期刊评价研究
基于高斯混合聚类的阵列干涉SAR三维成像
基于DDS的分布式三维协同仿真研究
基于真值发现的冲突数据源质量评价算法
一种层次初始的聚类个数自适应的聚类方法研究
西门子 分布式I/O Simatic ET 200AL