基于共现分析的历史自然灾害关联研究

2013-09-08 10:18胡明生贾志娟雷利利
计算机工程与设计 2013年6期
关键词:旱灾灾害次数

胡明生,贾志娟,3,雷利利,洪 流

(1.郑州师范学院 软件研究所,河南 郑州450044;2.华中科技大学 系统工程研究所,湖北 武汉430074;3.武汉理工大学 计算机科学与技术学院,湖北 武汉430070)

0 引 言

自然灾害的频繁发生给人类社会带来了很大的影响,在现实世界中,很多自然灾害事件都不是孤立的、静止的,一种灾害事件总是会引发一系列次生、衍生灾害事件。由此可见,研究自然灾害的内部引发、转化规律具有很大的意义,它能够为灾害预警提供理论依据与决策支持,帮助阻断自然灾害链,以避免更大的损失。

目前,对自然灾害的共现分析主要基于近现代灾害记录,通过统计灾害记录来获得灾害事件独发或者共现的概率,并以此研究自然灾害事件内部引发、转化等规律[1],但是这种研究方法存在两个弊端,一是中国历史文化悠久,如果仅通过近现代的灾害记录来对整体自然灾害进行共现分析,其精确度将受到质疑;二是灾害发生时间相隔越久,它们间的关联度则越低,而目前的研究方法忽略了时间因素的影响。本文针对上述不足,根据中国历史朝代的灾害记录数据库的数据来统计自然灾害间相互引发、转化的时间跨距,并以此来构造自然灾害的共现矩阵,通过共现矩阵来研究自然灾害之间的内部规律,以提高灾害预警的准确度。

1 共现分析方法

1.1 构造共现矩阵

共现分析自然灾害事件的首要步骤就是构造共现矩阵,要构造共现矩阵,首先必须得到不同灾种同时发生或者在一定时间范围内相继发生的次数。本文的数据来源于中国历史朝代的灾害记录数据库,该数据库分别记录了先秦、秦汉、魏晋、南北朝、隋唐五代、宋、元、明、清时期的自然灾害,每条记录中包含了灾害具体发生的时间、地点、灾种等。

不同自然灾害事件相隔越远,它们之间的相关度就越低,根据史料统计,有关联的灾害事件的时间跨距基本上都在三年之内,所以设定时间跨距为三年,根据数据库内的记录,统计三年内不同自然灾害共现的次数和每种自然灾害发生的次数,以此构造灾害的共现矩阵。

以往的共现分析方法往往通过对知网等近现代数据库的搜索结果得到相关联的文章数量并以此作为共现次数,由于历史灾害数据库的特殊性,它的每条记录为一个自然灾害事件,且要统计三年内不同灾害事件的共现次数,这就需要统计每条灾害记录在其发生的三年内是否有其它灾害出现,并防止重复统计。例如要统计自然灾害A与自然灾害B共现的次数,具体算法步骤如下:

步骤1 初始化灾害共现次数num=0,将自然灾害记录按时间顺序升序排列,令指针m指向第一条自然灾害记录;

步骤2 判定m指向的记录是否为空,如果为空,结束;否则转至步骤3;

步骤3 判定m指向记录的灾种是否为A,如果为A则转至步骤4;否则,m指向下一条记录,转至步骤2;

步骤4 ①判定m的上一条记录的灾种是否也是A,②m指向记录的时间是否与上一条相同,③m指向记录的地点是否与上一条地点相近,如果满足这3个条件,认定这两个灾害为同一个灾害事件,令m指向下一条灾害记录,转至步骤2;否则只要有一个条件不满足,则转至步骤5;

步骤5 得到m指向记录的时间T,寻找在时间区间[T-3,T+3]年内是否存在灾害记录B,如果存在,num++,m指向下一个灾害记录,转至步骤2;否则,m指向下一个灾害记录,转至步骤2。

根据中国历史朝代的灾害记录数据库,将自然灾害大致归为36种,由于一些自然灾害记录过少,本文只列出地震、旱灾、水灾、霜冻、沙尘、虫灾、雹灾、风灾、疫灾这九种自然灾害的统计结果。根据上述算法,自然灾害的共现矩阵见表1。

表1 9种自然灾害的共现矩阵

共现矩阵的对角线为每种灾害单独发生的次数,其它非对角线上的数字表示它所对应行与列上的灾害的共现次数,由表1得知共现次数比较高的有地震与水灾、干旱与地震、风灾与地震等。

1.2 Jaccard指数

共现矩阵存储的是两两灾害共现的次数,共现次数多并不代表两种自然灾害的相关度高,相关度是指两个事物间存在相互联系的百分比,可以根据共现率来表示灾害间的相关度。共现率的计算方法很多,如早期的相似指数、包容指数、等价指数,后来的Jaccard指数、Salton指数等,文献[1]分析认为Jaccard指数最适合用于计算事件的共现率。Jaccard指数的公式为

式中:JAB——灾害A和灾害B的Jaccard指数,CAB——灾害A与B在三年内同时发生或者相继发生的共现次数,CA——灾害A发生的总数,CB——灾害B发生的总数。

由共现矩阵表1可以得知,两种灾害的共现次数远远小于其独自发生的次数,Jaccard指数的计算结果将过小,需对Jaccard指数进行归一化处理,方法如式 (2)所示

式中:Jmax和Jmin——所得Jaccard指数中的最大值和最小值。根据式 (1)与式 (2)得到这九种自然灾害的Jaccard指数与归一化值,部分结果见表2。

由表2得知,旱灾与虫灾的归一化值最高,旱灾水灾排在第二,接着依次为雹灾风灾、地震风灾、地震水灾,地震疫灾、旱灾地震等。水灾与旱灾显然不可能同时发生,也不能相互引发,它们之间的共现率本应很低,但是实验结果却很高,由此可见,仅根据Jaccard指数计算共现率显然存在误差。

表2 灾害的Jaccard指数与归一化值

2 基于时间跨距的共现分析

2.1 CO指数

不同灾害事件间隔越久,它们间的相关度将越低,灾害事件相隔时间的长短对灾害的相关度有很大的影响,计算共现率必须引入灾害事件的时间跨距。本文提出一种新的灾害共现率的计算方法——CO指数,它是在Jaccard指数的基础上引入灾害事件的时间跨距,根据时间跨距的长短来计算灾害共现率。

由于历史灾害记录记载时间的不精确性,以及灾害事件相互引发的滞后性,本文以季度为单位将时间跨距三年平均划分为12个区间,统计每个区间内灾害事件共现的次数,CO指数的计算方法如下列公式所示

其中CO(A,B)为自然灾害A与自然灾害B的CO指数,而式 (4)中的CABm为自然灾害A与B在相隔区间 [3(m-1),3m]月内共现的次数,CA为自然灾害A发生的总数,CB为自然灾害B发生的总数。这种计算方法不仅能够统计所有自然灾害的共现率,还能够统计一定时期或者一定区域内自然灾害的共现率。

利用地震与旱灾来验证CO指数,地震旱灾在固定时间区域内共现次数见表3。

表3 地震旱灾的时间共现矩阵表

根据式 (3)与式 (4)可以得到地震干旱的共现率为

此处地震与旱灾的共现率为0.003661,它远小于Jaccard指数0.010504(见表2),原因有两点:①距离时间越远的共现灾害事件,它们对相关度的影响将降低,共现率也随之降低,而Jaccard指数没有考虑时间因素,各个时间段内的共现结果对相关度的影响相同;②每个时间段内自然灾害的统计都是基于总体,所以基数变大,但是统计的共现次数却比原来小,因此计算结果比Jaccard指数小。

2.2 自然灾害之间的引发率

研究发现,不同灾害之间不仅能够相互促进,也能够相互抑制,如旱灾能够引发地震,地震能够引发水灾,但是干旱不能引发水灾,所以对自然灾害的分析除了要考虑时间因素,还需要考虑时间的方向性,发生时间较早的自然灾害有引发时间较晚的灾害的可能性,但反过来,发生时间较晚的自然灾害却不可能是时间较早的自然灾害的诱导因素。根据共现分析的结果,引入灾害发生时间的方向性,就能够根据共现率来计算自然灾害的引发率。下面提出引发率的概念:

定义1 引发率:一种自然灾害引发另一种自然灾害的概率。

根据CO指数,计算灾害之间的引发概率,修正公式如下

式 (5)内I(A→B)指自然灾害A引发灾害B的概率,计算方法与CO指数相同,但计算JABm的式 (3)对CABm的统计方法却有所不同,此处CABm为在第m个时间区间内,灾害A发生在前,灾害B发生在后,并且两个灾害事件的时间差距在 [3(m-1),3m]月内,灾害共现的次数。

根据式 (5)计算这九种自然灾害间的引发率,由于引发率过低,为此对引发率进行归一化处理,部分结果见表4。

表4 部分灾害间的引发率

表4为灾害A引发灾害B的概率,由上表得知地震引发疫灾的可能性最高,而水灾与旱灾之间的引发率很低,与以往的共现分析方法相比,考虑灾害事件的时间跨距以及时间的先后顺序对自然灾害进行共现分析显然更为科学。

3 自然灾害的危害度

灾害共现分析的最大目的就是为灾害预警提供决策支持,当一种自然灾害发生时,可以根据自然灾害之间的引发率,得到它能够引发的灾害的集合,通常的做法是按照引发率高低作为预警的先后次序,但是这种做法忽略了灾害的危害程度,对于那些引发率不高,但是危害程度大的自然灾害也应该引起重视。

自然灾害的危害程度不是它能够引起的金钱损失,而是综合它能够被引发的概率与它能引发其它自然灾害的概率来计算次生灾害的危害程度。如当自然灾害A发生时,它可能引发的自然灾害B的危害度如式 (6)所示

式 (6)中I(A→B)与I(B→Bn)为归一化后自然灾害的引发率,α为主特征系数,β为辅特征系数,k为自然灾害B能够引发其它灾害的总数,Bn表示灾害B引发的第n个自然灾害。当自然灾害A发生时,可以根据灾害A引发的所有次生灾害的危害度,有侧重点的进行灾害预防工作。

当旱灾发生时,根据式 (6)的计算方法得到旱灾引发的其它次生灾害的危害度,结果如图1所示。

图1 旱灾引发次生灾害的危害度

由图得知旱灾引发危害度最高的是地震,其后依次是疫灾、沙尘、虫灾等,地震之所以最高不仅是因为旱灾引发地震的概率高,还因为地震能够引发更多的次生灾害,如水灾、疫灾等。次生灾害的危害度给灾害预警提供了依据,但是在实际过程中,还需要综合考虑自然灾害的孕灾环境等其它因素。

4 结束语

本文提出了一种新的自然灾害的共现分析方法,即基于时间跨距来研究中国历史灾害的共现率与灾害之间的引发率,根据自然灾害的引发率求解自然灾害的危害度,为灾害预警提供决策支持,并根据9种常见自然灾害的历史记录验证这些算法的合理性。

由于本文数据库是人工整理并入库,完整性与精确度有待进一步提高,所以需要进一步完善算法,挖掘历史灾害的规则,利用统计与规则相结合的方法对自然灾害进行共现分析。

[1]WANG Duo.Network model of emergency events based on correlation [D]. Dalian: Dalian University of Technology,Masters Thesis,2010 (in Chinese).[王铎.基于关联度的突发事件网络模型研究 [D].大连:大连理工大学硕士学位论文,2010.]

[2]CHEN Yang,ZHAO Yuehua,CHENG Xianyi.Automatic identification of transliterated name based on cooccurrence frequency statistics of words[J].Computer Engineering and Design,2012,33 (1):362-366 (in Chinese). [陈阳,赵跃华,程显毅.基于用字共现频率统计的外国译名自动识别 [J].计算机工程与设计,2012,33 (1):362-366.]

[3]JIA Zhijuan,HU Mingsheng,LIU Si.Historical disaster classification method based on ant colony clustering [J].Journal of Computer Applications,2012,32 (4):1030-1032 (in Chinese).[贾志娟,胡明生,刘思.基于蚁群聚类的历史灾害分级方法 [J].计算机应用,2012,32 (4):1030-1032.]

[4]CHANG Peng,FENG Nan,MA Hui.Document clustering algorithm based on word cooccurrence [J].Computer Engineering,2012,38 (2):213-220 (in Chinese).[常鹏,冯楠,马辉.一种基于词共现的文档聚类算法 [J].计算机工程,2012,38 (2):213-220.]

[5]HU Mingsheng,JIA Zhijuan,DONG Xiangying,et al.A historical epidemic classification method based on simulated annealing and ACO [J].International Journal of Advancements in Computing Technology,2011,3 (11):47-54.

[6]HU Mingsheng,LV Guoning.Anticollision algorithm for RFID based on dynamic packet query tree [J].Advanced Materials Research,2011,159 (11):550-555.

[7]WU Shaochun,WU Gengfeng,WANG Wei,et al.A time-sequence similarity matching algorithm for seismological relevant zones[J].Journal of Software,2006,17 (2):185-191 (in Chinese).[吴绍春,吴耿峰,王炜,等.寻找地震相关地区的时间序列相似度匹配算法 [J].软件学报,2006,17(2):185-191.]

[8]LIU Xinglin,ZHENG Qilun,MA Qianli.Chinese compound word extraction algorithm based on word cooccurrence directed graph[J].Computer Engineering,2011,37 (23):177-180(in Chinese).[刘兴林,郑启伦,马千里.基于词共现有向图的中文合成词提取算法 [J].计算机工程,2011,37(23):177-180.]

[9]JI Xuewei,WENG Wenguo,ZHAO Qiansheng.Quantitative disaster chain risk analysis[J].Journal of Tsinghua Universuty(Science and Technology),2009,49 (11):1749-1756 (in Chinese).[季学伟,翁文国,赵前胜.突发事件链的定向风险分析方法 [J].清华大学学报 (自然科学版),2009,49 (11):1749-1756.]

[10]HUANG Rui,SANG Nong,LUO Dapeng,et al.Method to evaluate image segmentation via fused perceptual consistency degree[J].Journal of Huazhong University of Science and Technology(Natural Science Edition),2010,38 (10):52-56(in Chinese).[黄锐,桑农,罗大鹏,等.融合感知一致程度的图像分割评价方法 [J].华中科技大学学报 (自然科学版),2010,38 (10):52-56.]

[11]HU Mingsheng,JIA Zhijuan,LIU Si.Approach for historical disaster correlation analysis based on ant colony optimization[J].Computer Applications and Software,2012,29 (10):62-64(in Chinese).[胡明生,贾志娟,刘思.基于蚁群优化的历史灾害关联分析方法 [J].计算机应用与软件,2012,29 (10):62-64.]

猜你喜欢
旱灾灾害次数
河南郑州“7·20”特大暴雨灾害的警示及应对
机场航站楼年雷击次数计算
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
蝗虫灾害的暴发与危害
板栗“旱灾”后生产管理技术
基于切削次数的FANUC刀具寿命管理
明代江西地区旱灾发生频次分析
地球变暖——最大的气象灾害
依据“次数”求概率
德州市2014年旱灾应对措施与经验分析