徐绪堪,王 京
(1.河海大学 企业管理学院,江苏 常州,213000;2.南京大学 信息管理学院,江苏 南京,210023)
近年来,国内自然灾害、事故灾害等突发事件频发,如2013年10月发生的“余姚水灾”、2015年6月发生的“常州特大暴雨”、2015年8月发生的“8·12天津滨海新区爆炸事故”等,随着各类突发事件风险的日益增多,相关应急管理工作面临着更高的要求和更大的挑战。而在实际应急管理工作中,突发事件的分级是快速响应和有效应对的基础,如果应急决策者无法快速、有效地识别突发事件的级别,在应急预案和处置方案的选择上,将缺乏针对性,甚至延误救援时机[1]。目前,我国已初步建立起突发事件“四类四级”的总体框架,在《特别重大、重大突发公共事件分级标准》中,对自然灾害、事故灾害、公共卫生事件和社会安全事件分级处置标准也做了相应的规定。如在水旱灾害中,符合特别重大的情况为:一个流域发生特大洪水,或多个流域同时发生大水;大江大河干流重要河段堤防发生决口;重点大型水库发生垮堤等。而特别重大地震灾害则为:造成300人以上死亡,直接经济损失占该省(区、市)上年国内生产总值1%以上的地震;发生在人口较密集地区7.0级以上地震。从以上内容可以看出,目前针对不同类型的突发事件,分级评估指标也不相同,而对于水旱灾害,其分级标准仍以 “多个”、“重点”等模糊性描述词为主,缺乏量化指标,操作性不强,加之突发事件爆发本身具有的不确定性、动态性和复杂性等特点,突发事件分级面临着分级宽泛、主观性强、过程繁杂和动态适应性弱等问题。一旦发生突发事件,难以快速、准确地定位到相应的突发事件级别,难以达到针对性地响应和应对。因此,本文尝试通过建立相应的突发事件分级模型,用以快速识别突发事件的级别,进而在界定突发事件自身级别的基础上,提升突发事件快速响应和应急的有效性。
在突发事件分级方面,国内外学者已经开展相关工作。国外方面,Dragan,Vladimir[2]指出,结合原因、后果、强度等标准可以完成突发事件分级;Kuma等[3]提出多维度突发事件分级方法;Schulz等[4]基于控制理论,设计能源类突发事件分类分级。国内方面,薛澜和钟开斌[5]系统地探讨了我国应急管理体制框架的建立,在突发事件分级的问题上,指出分级标准需要依据事件的性质、严重程度、可控性和影响范围等4个要素加以确定和细化;宋莎莎等[6]将模糊层次法和聚类分析结合,以旱灾为例,确定了突发事件分级的度量指标,完成了自动分级;吴凤平、程铁军[7]在聚类分析方法的基础上,提出了基于三角模糊数的灰色定权聚类方法,用以实现具有不确定性和模糊性的突发事件的分级;钟茂华、陈宝智[8]采用神经网络分类方法,训练出重大危险源分类器;徐国等[9]以洪涝灾害应急响应级别为研究对象,基于C4.5算法获得分级结果;商丽媛、谭清美[10]借助支持向量机在小样本、高维和非线性样本中的分类优势,将其引入突发事件分级研究中,并通过地震样本数据加以验证。
从以上现有研究可以看出,学者们借助统计学习理论中聚类和分类方法,在突发事件分级标准定量化和分级过程动态化上,取得了一定的成果。但就研究内容而言,根据事后统计,分析事件严重程度或影响范围,属于静态评估,在统计所耗时间和精确度上存在不足;就研究方法而言,一方面,聚类分析不依赖于预先定义的类别标签,这使得不同聚类分析方法下,突发事件分级结果存在差异;另一方面,由于目前突发事件在分级问题上多采用单分类器,导致突发事件分级结果面临样本拟合过度和分类精度低等风险,为了避免聚类分析中分类标准的不确定性,改善单分类器在样本选择和参数设定上的局限,提高分类准确率,采用多个分类器组合进行分类,在机器学习领域得到了应用[11]。随机森林[12](Random Forest,RF)是一种组合分类器,它能很好的容忍异常值和噪声,且不容易出现过度拟合,在分类精度上高于单分类器,目前已经在多个领域得到应用研究,如:Chen[13]基于随机森林模型分析基因组数据;蔡加欣等[14]基于局部轮廓和随机森林,完成人体行为识别;赖成光等[15]基于随机森林,构建风险评价模型,并应用于洪涝灾害评估领域。在分类分级的问题上,随机森林也取得了一定的成果,郭东锋等[16]实现了烤烟香型分类;马玥等[17]研究了农耕区土地利用分类;Dong等[18]使用随机森林预测岩爆事件分级。因此,本文基于随机森林方法在分类精度、拟合程度和样本参数设定上的优势以及在多领域的应用实践,将其引入突发事件分级的问题中,以洪涝灾害事件为例,探索实现突发事件分级标准定量化和分级过程动态化的新途径。
随机森林是由多个决策树{h(x,θn)}组成的分类器,其中x是输入向量;θn是独立同分布的随机向量,n是分类树个数。
随机森林模型的构建步骤如图1所示:
1)随机、有放回地从训练集S中抽取n个子训练样本集组成分类树,未被抽到的样本组成袋外数据。
2)在n棵分类树中,每1个分类树节点处有m个特征指标,从特征指标中抽取变量mtry,其中mtry≤m,选择最具有分类能力的变量完成分类树的分裂。
3)不修剪分类树,实现其最大限度地生长。
4)随机森林分类器就由这些生长的分类树组成,最终可获得分类结果。
图1 随机森林模型Fig.1 Random forest model
突发事件的分级是依据事件类别属性而建立的。因此在选择分级特征指标时,需要立足于突发事件的共有特性,如事件性质、严重程度和影响范围等,形成随机森林预测所需的属性训练集。基于随机森林的突发事件分级过程如图2所示。
图2 基于随机森林的突发事件分级过程Fig.2 Emergency classification process based on random forests
1) 依据突发事件类别属性挖掘共有特征,提取分级指标,以洪涝灾害为例,依据事件性质、严重程度和影响范围等,选择含受灾人口(万人)、死亡人口(人)、房屋倒塌(万间)、房屋损坏(万间)、农作物受灾面积(千公顷)、农作物绝收面积(千公顷)和直接经济损失(亿元)等7个特征变量。
2)根据分级指标采集突发事件数据信息,构成训练样本集,本文主要从中华人民共和国民政部网站获取2012—2016年洪涝灾害事件信息,以事件发生时间作为划分训练样本和待分级样本依据,将2012—2015年洪涝事件划分为训练数据,2016年洪涝事件则为待分级样本。
3)借助随机森林模型,输入待分级对象指标,主要借助R语言实现随机森林参数设置和模型构建。
4)完成分类学习,得到突发事件分级结果。
随着国家自然灾害管理系统在我国灾情管理工作中日益普及,各省民政部门近年来已能够较好地按照《自然灾害情况统计制度》中的时间节点规定进行报送,从而在报灾系统中形成较为完整的灾情指标时间序列,为研究洪涝灾害提供了必要的数据支撑和基础[19]。因此,本文以中华人民共和国民政部门网站提供的洪涝灾害事件为例,选取了2012-2016年210个洪涝灾害数据,其中205个作为训练数据,5个作为测试数据,以此验证随机森林模型下突发事件分级方法的可行性。选取的洪涝灾害数据包括特征属性7个:受灾人口(万人)、死亡人口(人)、房屋倒塌(万间)、房屋损坏(万间)、农作物受灾面积(千公顷)、农作物绝收面积(千公顷)和直接经济损失(亿元),分别由a~g字母表示。由于我国特大洪涝灾害数据样本较少,本文仅选取等级为严重、中等和一般3个级别的数据,分别以Ⅰ、Ⅱ、Ⅲ表示。部分数据如表1所示。
表1 2014—2016年部分洪涝灾害数据
资料来源:中华人民共和国民政部
借助开源软件R语言附带的软件程序包randomForest,对所构建的随机森林方法模型进行分类预测。建立模型需要对参数mtry和ntree进行设定。其中,参数mtry表示在分割数据时,抽取的变量数据,通常选择解释变量数目的平方根,本文输入变量有7个,所以参数设置为2;ntree表示模型中包括的单棵树数量,数量过多并不会对模型造成影响,一般建议不要小于100,本文将其设为10 000。
使用上述参数mtry=2,ntree=10 000,对205个样本进行训练,得到随机模型分类结果。同时,基于R语言附带的e1071软件程序包,实现支持向量机下样本分类,得到2种方法下分类测试精度评估,如表2所示。
表2 测试精度评估
由表2可以看出,支持向量机方法下,Ⅰ类误判数为26,Ⅱ类误判数为14,Ⅲ类错判数为24,总体分类精度为68.78%;随机森林方法下,突发事件Ⅰ类误判数为1,Ⅱ类误判数为2,Ⅲ类误判数为2,总体袋外数据误差率为2.44%,总体精度为97.56%。与支持向量机相比,随机森林误判率低,总体分类精度高,在洪涝灾害事件分级上效果更为理想。
随机森林的每棵分类树都是有放回的重抽样后生成,本身算法类似于交叉验证,因此其结果内含判别函数,可以直接使用R语言中的Predict函数,基于历史数据对新的数据进行判别和分类,实现突发事件分级问题的快速识别和实时更新。以“2016年4月20日强降雨致南方9省区15人死亡失踪”为例,借助Predict函数实现预测,判别为Ⅰ,Ⅱ和Ⅲ的概率分别为88.68%,11.26%和0.06%,最终判别结果为Ⅰ。基于此对5个测试样本进行分级预测,预测结果如表3所示。
表3 对测试样本的分级结果
由表3可知,5个测试样本中有3个测试结果与实际结果相同,结果表明:基于随机森林多分类器的分级可较好地避免主观性和随意性,能快速有效识别突发事件,并完成动态分级,分级结果可为应急决策部门提供信息支撑和参考。
1)随机森林作为机器学习的一种,其模型构建的关键在于特征指标的选择。在洪涝灾害突发事件分级中,选用事件性质、严重程度和影响范围等共有特征提取分级指标,完成洪涝灾害分级。
2)以洪涝灾害事件为例,基于随机森林模型对样本数据进行处理和测试,结果表明其能较好地容忍异常值和噪声,预测精度高于支持向量机,其在突发事件分级标准定量化和分级上是可行的。
3)借助随机森林分类器,应急决策部门可以根据采集到的事件数据信息,实时分析、更新事件级别,并采取相应的措施,达到科学、合理地配置应急资源的目的,最终降低突发事件带来的损失和危害。
[1]杨静,陈建明,赵红. 应急管理中的突发事件分类分级研究[J]. 管理评论,2005,17(4):37-41.
YANG Jing,CHEN Jianming,ZHAO Hong. Research on emergency classification in emergency management[J]. Journal of management review,2005,17(4):37-41.
[3]KUMAR V,MOVAHEDI B M,MOVAHEDI K M. E-Marketplace Emergence: Evolution,Developments and Classification[J]. Journal of Electronic Commerce in Organizations,2012,10(1):14-32.
[4]SCHULZ R P,PRICE W W. Classification and identification of power system emergencies[J]. IEEE Transactions on Power Apparatus & Systems,1984,PAS-103(12):3470-3479.
[5]薛澜,钟开斌. 突发公共事件分类、分级与分期:应急体制的管理基础[J]. 中国行政管理,2005(2):102-107.
XUE Lan,ZHONG Kaibin. Classification of types,levels and stages for emergencies: managerial foundation of government emergency response system[J]. Chinese Public Administration,2005(2):102-107.
[6]宋莎莎,戴锋,卫保璐. 基于模糊层次分析法和聚类分析的突发事件分级研究[J]. 科学决策,2010(10):68-72.
SONG Shasha,DAI Feng,WEI Baolu. A research of emergency classification based fuzzy AHP and cluster analysis[J]. Scientific Decision Making,2010(10):68-72.
[7]吴凤平,程铁军. 基于改进的灰色定权聚类分析的突发事件分级研究[J]. 中国管理科学,2013(s1):110-113.
WU Fengping,CHENG Tiejun. The classification of emergency based on improved gray clustering model[J]. Chinese journal of management Science,2013(s1):110-113.
[8]钟茂华,陈宝智. 基于神经网络的重大危险源动态分级研究[J]. 中国安全科学学报,1997(2):6-9.
ZHONG Maohua,CHEN Baozhi. Study in dynamic risk classification of major hazards based on neural networks[J]. China Safety Science Journal,1997(2):6-9.
[9]徐国,乌云,王儒敬,等. 基于C4.5算法的洪涝灾害应急响应级别分析[J]. 计算机系统应用,2012,21(4):55-58.
XU Guo,WU Yun,WANG Rujing,et al. Flood disaster emergency response level analysis based on C4.5 algorithm[J]. Computer systems and application,2012,21(4):55-58.
[10]商丽媛,谭清美. 基于支持向量机的突发事件分级研究[J]. 管理工程学报,2014,28(1):119-123.
SHANG Liyuan,TAN Qingmei. Emergency classification based on support vector machine[J]. Journal of management engineering,2014,28(1):119-123.
[11]DIETTERICH T G. Ensemble methods in machine learning[J]. Proc. 1st International Workshgp on Multiple Classifier Systems,2000,1857(1):1-15.
[12]BREIMAN L. Random Forests[J]. Machine Learning,2001,45(1):5-32.
[13]CHEN X,ISHWARAN H. Random forests for genomic data analysis[J]. Genomics,2012,99(6):323-329.
[14]蔡加欣,冯国灿,汤鑫,等. 基于局部轮廓和随机森林的人体行为识别[J]. 光学学报,2014,34(10):204-213.
CAI Jiaxin,FENG Guocan,TANG Xin,et al. Human action recognition based on local image contour and random forest[J]. Acta Optica Sinica,2014,34(10):204-213.
[15]赖成光,陈晓宏,赵仕威,等. 基于随机森林的洪灾风险评价模型及其应用[J]. 水利学报,2015,46(1):58-66.
LAI Chengguang,CHEN Xiaohong,ZHAO Shiwei,et al. A flood risk assessment model based on random forest and its application[J]. Journal of Hydraulic Engineering,2015,46(1):58-66.
[16]郭东锋,胡海洲,汪季涛,等. 基于随机森林的烤烟香型分类研究[J]. 中国农学通报,2015,31(6):241-246.
GUO Dongfeng,HU Haizhou,WANG Jitao,et al. Study on the classification of flue-cured tobacco based on the random forest algorithm[J].Chinese Agricultural Science Bulletin,2015,31(6):241-246.
[17]马玥,姜琦刚,孟治国,等. 基于随机森林算法的农耕区土地利用分类研究[J]. 农业机械学报,2016(1):297-303.
MA Yue,JIANG Qigang,MENG Zhiguo,et al. Classification of land use in farming area based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery,2016(1):297-303.
[18]DONG L J,L I X B,PENG K. Prediction of rockburst classification using Random Forest[J]. Transactions of Nonferrous Metals Society of China,2013,23(2):472-477.
[19]张鹏,郭邵俊,刘哲,等. 重大洪涝灾害过程灾情时变模式挖掘[J].自然灾害学报,2014,23(4):13-18.
ZHANG Peng,GUO Shaojun,LIU Zhe,et al.Tapping the temporal pattern of diaster loss data on critical floods[J].Journal of natrual of natrual diaseters,2014,23(4):13-18.