Hadoop平台下突发水污染应急预案并行化处置

2015-01-01 03:14:40李维乾张晓滨
西安工程大学学报 2015年6期
关键词:预案突发事件检索

李维乾,李 莉,张晓滨,吴 涛

(西安工程大学 计算机科学学院,陕西 西安710048)

0 引 言

近年来,随着经济社会的快速发展,水污染等环境问题日益突出,特别是突发水污染事件更是呈现出一种高发态势.为了有效应对突发水污染事件,最大限度降低突发水污染事件对人类带来的危害.一方面,政府部门相继出台了《国家突发环境事件应急预案》、《重大水污染事件报告暂行办法》、《黄河流域省际水事纠纷预防调处预案》、《陕西省防御洪水灾害应急预案》、《陕西省水利系统应对突发水污染事件应急预案》等各种各样的政策法规;另一方面,相关学者对突发事件的机理、应急预案的表达和生成等进行了深入的研究,其中应急预案生成方法的研究逐渐成为学者们关注的焦点.文献[1]根据应急预案中包含的应急事件以及与处置相关的组织、规则和预定义的流程,给出了数字预案的定义,并以此为基础,在应急处置流程构造过程中为用户推荐应急响应级别和应急活动,形成一种以用户为中心、预案辅助决策的应急处置流程构造方法;文献[2]着重介绍了层次化的分级分类数字化方案,并将其应用到停电事故中;而文献[3-7]基于CBR设计了应急方案的生成方法,所不同的是文献[4]综合考虑了结构相似度和属性相似度双层结构的案例整体相似度,文献[5]在数字应急方案生成方法中考虑了应急方案的实施效果,而文献[6]则从案例匹配和方案生成的角度出发,提出了考虑多种应急证据的决策方法来生成最有效的方案,并且将这些方法应用于环境、铁路、煤矿等不同领域.

尽管关于应急预案生成方法的研究取得了一定的成果,然而在水污染事件中,突发事件的增加导致应急预案愈来愈多,且突发水污染事件应急管理过程中涉及到的基础数据、水质数据、空间数据、应急数据、资源库数据等5类数据更多地呈现出大数据特征,传统的应急预案处置方式已无法满足现代应急管理的需要,特别是在处理应急预案方面显得有些不足.为此,基于Hadoop框架,采用CBR理论设计特征匹配的并行化应急预案的生成方法,利用MapReduce框架实现应急预案特征数据入库和应急预案检索匹配的功能,通过构建分级索引从分布式HDFS数据库中快速匹配到最为接近的预案,提升应急预案的生成效率,便于管理者和决策者有效应对突发水污染事件.

1 关键技术

1.1 Hadoop框架

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台[8],以HDFS和MapReduce为核心,采用了主从式的架构技术,屏蔽了底层的复杂结构,向用户提供方便的文件目录映射.其中,HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,通过主节点NameNode和子节点Data-Node的结合及多备份机制[9],形成了一个满足海量数据计算和可伸缩扩展的分布式系统.HDFS中,文件通常是以相同大小的Block块方式存在,主节点NameNode通常管理多个DataNode,并保存HDFS文件系统中关于文件分布的元数据信息.子节点DataNode主要用来存取需要访问的Block文件块.当客户端发出读取数据请求后,NameNode检测空闲的DataNode,并将数据调入到空闲的DataNode中,同时对数据进行复制,最后客户端可直接与需要访问的DataNode建立起连接,并将这一信息告知主节点NameNode.而MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,它通过管理并行任务的执行和协调来管理多个计算过程,并能够保障系统对硬件故障的容错性[10].MapReduce可以处理各种非结构化大规模文本数据,将这些数据处理抽象成Map和Reduce两个阶段,由Map阶段负责 “(键,值)”对的数据映射,而Reduce阶段则负责将“(键,值)”对按照“键”进行简化合并,还可增加一个Merge阶段扩展现有MapReduce的功能,使其具有将非结构化数据转换为结构化数据进行处理的能力[11].MapReduce的主节点叫做JobTracker,从节点叫做TaskTracker,JobTracker起管理的作用,TaskTracker则是任务的具体执行者.

因而,可利用Hadoop架构有效地组织本地计算机资源搭建分布式计算平台,充分利用集群的计算和存储能力,完成与突发水污染事件相关的数据处理任务,为应急管理及决策提供高效服务,增强决策部门的决策能力.

1.2 应急预案数字化处置

图1 CBR案例推理过程图Fig.1 The CBR diagram

应急预案数字化处置流程包含历史预案数字化处理和历史案例库的建立,以及新突发事件特征属性的提取和匹配.在应急预案应用之前,需要对历史突发事件及其预案数据的特征进行数字化处理,将数字化后的特征属性类数据存入案例库,并建立特征索引.当突发水污染事件发生后,对当前应急事件进行数字化,利用索引进行特征匹配,从案例库中检索到最为相似的应急预案,最终通过专家修正以使其适用于当前突发事件.其中,从历史案例库中匹配新的案例时,最常用的方法是CBR方法,包含检索、重用、修正、保存4个步骤,如图1所示.

1.2.1 突发水污染事件案例特征抽取 突发水污染事件案例的结构包含有预案编号、预案名称、属性列表、应急小组、解决方案、结果评价、预案有效性等特征,为能够快速处理这些数据,均要依据其数据类型进行特征抽取.其中,预案编号为数值型属性;预案名称为字符型属性,其包含事故单位、事故类型、污染物种类;属性列表中包含时间、地点、原因、类型、污染物排放量、污染物在水体中的浓度、污染物毒性、污染物溶解性、污染物沉降性、污染物挥发性、污染物光解性、污染物扩散介质、事件等级、受污对象、影响范围、气象条件、爆炸性、着火性、人员伤亡、经济损失、其他情况描述;应急小组是来自多个部门的成员,是应急预案中实施任务的主要人员;解决方案中有目标、决策信息、应急措施、应急物资、任务分配、力量部署、注意事项;结果评价包含有文字描述、效果等级;预案有效性包含应用次数、成功次数.其地点描述的是距水源地距离、区块属性(社会关注区、生态敏感区、特殊保护目标);受污对象指的是大气、水体、土壤、生态、动植物;气象条件包含风向、水流、天气;决策信息用属性来表示;应急措施包含有前期处置、事故控制、应急救援、人员疏散、事后恢复;任务分配和力量部署中有队伍名称、负责人、联系人、联系方式、任务类型、位置、起止时间等属性信息;注意事项、事故单位、事故类型、污染物种类、目标、距水源地距离、区块属性、风向、水流、天气、前期处置、事故控制、应急救援、人员疏散、事后恢复、队伍名称、负责人、联系人、联系方式、任务类型、位置由关键词来描述;预案时间为年月日日期时间型属性.通过对预案特征的抽取,将其归类存入历史案例库,供检索时使用.

1.2.2 突发水污染事件案例检索匹配 (1)案例相似特征分类.制定突发事件应急预案前,需要先根据抽取到的预案特征、描述或取值确定特征的类型,然后再依据特征类型选择与其相适应的匹配方法.经过分类汇总,突发水污染事件中预案特征类型分为数值型、枚举型、区间型和模糊型共4类.表1为部分应急预案的特征及其类型.假设Xi和Yi分别为事件案例X和历史案例Y的第i个特征属性值,那么Xi和Yi特征匹配的方法对应为4类.

① 数值型.采用海明距离来计算特征属性之间的相似度,其公式为sim(Xi,Yi)=1-dist(Xi,Yi)=1-|Xi-Yi|/|max(i)-min(i)|,其中,max(i)和 min(i)分别为第i个属性的最大值和最小值.

② 枚举型.其列举了该属性所有可能的取值,属性值之间不存在实际意义的量的关系,相似度计算公式为sim(Xi,Yi)=num(Xi∩Yi)/num(Xi∪Yi),g为第i个特征属性值个数,num(Xi∩Yi)、num(Xi∪Yi)分别为Xi、Yi交集和并集的个数.

③ 模糊型.采用三角模糊数表示,其相似度计算可采用文献[12]中的计算方法,即sim(Xi,Yi)=1-dist(Xi,Yi),其中为三角模糊数.

表1 部分案例特征类型Table 1 Part of characteristics type about case

(2)KNN近邻算法.在案例推理系统中最常用的是最近相邻法,而该方法以KNN近邻算法最为经典,由于其概念清晰、计算简便而被广泛采用.KNN近邻算法的工作策略流程见图2.

图2 KNN近邻策略的一般工作流程Fig.2 Working flow of the KNN nearest neighbor method

2 基于Hadoop的应急预案并行化处置框架

基于Hadoop的应急预案并行化处置框架如图3所示,包含预案特征数字化入库及应急预案分级化检索2部分内容.

考虑到突发水污染事件的大数据特征,借助MapReduce框架对历史预案特征属性进行并行化编码入库,并建立预案特征一级索引,同时实现KNN算法的并行化编程,提升应急预案的生成效率.另外,根据HDFS技术特点将数字预案按照特征分块处理,便于对其进行搜索匹配.

2.1 预案特征数字化入库

图3 基于Hadoop的突发水污染应急预案并行化处置框架Fig.3 Parallelize disposal framework of emergency plan about the sudden water pollution incidents based on the Hadoop

应急预案的数字化入库包含有3个步骤.① 应急预案特征抽象.用一个五元组来抽象应急预案特征数据,表示为:EPF=(EPID,FID,MM,FV,L).其中,EPID为应急预案ID,用来唯一标识应急预案;FID为应急预案特征ID,一个应急预案包含多个特征ID,即从不同方面刻画应急预案;MM为应急预案特征匹配计算方法,如水污染事件的溢油量采用数值型匹配方法,事故等级、污染物采用枚举型匹配方法等;FV为特征向量,它是特征的取值集合;L为该突发事件原始应急预案存储位置.② 特征属性数字化编码.为提高应急预案的检索效率,对应急预案EPF中EPID、FID和MM采用二进制方式进行编码,根据数据量大小确定EPID、FID和MM的取值范围,如EPID用20位二进制数表示、FID用5位二进制数表示、MM用2位二进制数表示,则EPID、FID和MM的取值范围分别为220,25和22,并记MT=(EPID,FID,MM).在编码时,将EPID、FID和MM的值分别对220,25和22进行求模,根据求得的结果进行拼接,从而形成一个长度为27位的二进制编码数BC,随后和FV组合在一起形成分块(BC,FV)对,再利用MapReduce框架中的Map函数将其映射至中间数据集,形成多个Key-value对,然后使用全局分块排序机制按照BC大小在全局进行排序,并通过Reduce模块合并在一起形成应急预案的索引并入库.基于MapReduce的特征索引构建流程见图4.为加快应急方案搜索效率,参照《国家突发环境应急预案》分级标准,提取重要城市主要水源地取水中断、人员伤亡、中毒人数、疏散群众、直接经济损失、生态功能污染程度、事件影响范围等特征属性作为一级索引.③ 数据存储.数据存储采用HDFS分布式存储方式,文件以block单元格式存储,用NameNode存储应急预案原始数据,用DataNode存储预案特征数据.实际存储时,将多行绑定在一起作为DataNode节点中的一个block文件,并用BC编码的最值作为编码名称,如BC_min_max的表示形式.

图4 基于MapReduce的特征索引构建流程图Fig.4 The flowchart of index about characteristic based on MapReduce

2.2 应急预案分级化检索

首先按照水污染事件的严重程度、事件发生地、污染物毒性、进入水体的污染物量及浓度等信息,抽取事件的特征信息,然后根据特征信息与建立的一级特征索引进行匹配,定位HDFS中某个特定的区间,缩小特征数据的检索范围.在此基础上,采用MapReduce框架设计并行KNN算法.算法步骤可描述为:Map阶段,将提取到的突发事件的特征属性信息按照EPID、FID和MM二进制编码方式组合,并传递到各个计算节点,与block单元中的编码信息进行比对,计算出突发事件案例与历史案例库中各特征之间的距离sim(Xi,Yi),并将其作为 Map阶段的输出;Reduce阶段,在各个节点中,依据sim(Xi,Yi)值收集各个节点的距离值,根据sim(XY)值选择出与历史案例库中最近的k个应急预案,将其作为该次突发事件所采用的案例,并在专家指导下根据Block存储的信息,从原始应急预案中筛选出合适的几组预案,并对其修改供应急管理者选择.

3 实例应用

为验证本文构建方案的正确性和有效性,利用4个IBM System x3650机架式服务器,基于Hadoop平台搭建本文所构建的应急预案并行化处置平台.其中1台服务器作为NameNode节点,其余3台服务器作为DataNode节点.部署的应急预案并行化处置平台界面如图5所示.

从图5(a)~(d)可以看出,经过对突发水污染事件的特征提取、预案匹配,可以检索到预案的匹配结果.利用该系统对陕西渭河的突发水污染事件应急决策过程进行了模拟,经过多次操作,系统以秒级速度匹配到该事件预案,同时还支持多用户、多方案比较操作,满足突发水污染事件应急管理高响应速率的要求.

图5 突发水污染事件应急预案并行化处置平台Fig.5 The platform of parallelization emergency plan in sudden water pollution incidents

4 结束语

基于Hadoop平台按照CBR理论推理流程设计了突发水污染事件应急预案的并行化处置方案,利用MapReduce框架实现了并行化预案特征数据入库和应急预案检索匹配的功能,并将应急预案的特征数据及原始数据分储在HDFS分布式存文件系统中,同时通过建立的一级特征索引加快了应急预案特征的检索速度,能够有效处理突发水污染事件中的大数据,提升了应急预案的生成效率,便于管理者和决策者有效地应对突发事件,降低了突发事件的危害.

[1] 张峰,韩燕波,陈欣,等.基于数字预案的应急处置流程构造方法[J].计算机集成制造系统,2013,19(8):1802-1909.ZHANG Feng,HAN Yanbo,CHEN Xin,et al.Emergency response process construction based on digital plans[J].Computer Integrated Manufacturing Systems,2013,19(8):1802-1909.

[2] 李从善,刘天琪,李兴源.停电应急预案快速匹配与智能生成方法[J].电力自动化设备,2014,34(1):32-36.LI Congshan,LIU Tianqi,LI Xingyuan.Fast matching of power outage event and intelligent generation of power recovery plan[J].Electric Power Automation Equipment,2014,34(1):32-36.

[3] LIAO Z,MAO X,HANNAM P M,et al.Adaptation methodology of CBR for environmental emergency preparedness system based on an improved genetic algorithm[J].Expert Systems with Applications,2012,39(8):7029-7040.

[4] 张振海,王晓明,党建武,等.基于整体相似度的铁路应急救援预案推理决策方法研究[J].铁道学报,2012,34(11):49-53.ZHANG Zhenhai,WANG Xiaoming,DANG Jianwu,et al.Research on CBR decision method of railway emergency rescure based on integral similarity degree[J].Journal of the China Railway Society,2012,34(11):49-53.

[5] 李永海,樊治平,袁媛.考虑应急方案实施效果的突发事件应急方案生成方法[J].控制与决策,2014,29(2):275-280.LI Yonghai,FAN Zhiping,YUAN Yuan.Method for generating emergency alternative with considering implementation effects of emergency alternatives[J].Control and Decision,2014,29(2):275-280.

[6] 郑晶,王应明,叶歆.考虑应急方案总体优势度的决策方法[J].控制与决策,2015,30(7):1239-1244.ZHENG Jing,WANG Yingming,YE Xin.Decision method for emergency alternative with considering total superiority degree[J].Control and Decision,2015,30(7):1239-1244.

[7] SCHANK,ROGER C.Dynamic memory:A theory of reminding and learning in computers and people[M].New York:Cambridge University Press,1982:1-75.

[8] 陈宁,柴向阳,孙勇.基于 Hadoop的海运业分布式搜索引擎的应用研究[J].西安工程大学学报,2015,29(1):73-77.CHEN Ning,CHAI Xiangyang,SUN Yong.Application research on distributed search engine for ocean shipping service based on Hadoop[J].Journal of Xi′an Polytechnic University,2015,29(1):73-77.

[9] HANSON J J.Hadoop distributed file system[EB/OL].(2012-01-19)[2015-8-25].http://www.ibm.com/developerworks/cn/web/wa-introhdfs/.

[10] ANAND R,JEFFREY D U.Mining of massive datasets[M].Cambridge:Cambridge University Press,2011.

[11] YANG H,DASDAN A,HSIAO R,et al.Map-reduce-merge:simplified relational data processing on large clusters[C]//Proceedings of the 2007ACM SIGMOD international conference on Management of data,New York:ACM,2007:1029-1049.

[12] ZARANDI M H F,RAZAEE Z S,KARBASIAN M.A fuzzy case based reasoning approach to value engineering[J].Expert Systems with Applications,2011,38(8):9334-9339.

[13] 许瑞丽,徐泽水.区间数相似度研究[J].数学的实践与认识,2007,37(24):1-8.XU Ruili,XU Zeshui.On similarity degrees of interval numbers[J].Mathematics in Practice and Theory,2007,37(24):1-8.

[14] COVER T,HART P.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.

猜你喜欢
预案突发事件检索
启东市强化预案演练
核电网络安全应急预案考虑
2019年第4-6期便捷检索目录
突发事件的舆论引导
专利检索中“语义”的表现
专利代理(2016年1期)2016-05-17 06:14:36
2016年版《国家自然灾害救助应急预案》解读
中国民政(2016年9期)2016-05-17 04:51:33
紧急预案
清朝三起突发事件的处置
文史春秋(2016年8期)2016-02-28 17:41:32
突发事件
小说月刊(2014年10期)2014-04-23 08:53:40
国际标准检索