刘红, 何鹏
(上海海事大学 交通运输学院,上海 201306)
船舶海事事故的发生会造成人员和财产的重大损失,研究船舶发生海事事故的影响因素,对避免和减少船舶海事事故的发生有重要的理论和现实意义.国外最新研究关注于机舱火灾及爆炸中的组织因素影响和人为因素对海事安全的影响[1-2];采用的方法主要有模糊故障树分析法[3]和分类树模型[4],重点研究受限水域中的海事安全问题.我国学者对海事事故影响因素的研究则主要集中在碰撞事故与人为失误的关联性分析[5-6]、船舶机损事故人为失误分析[7]、海船船员适任性评价[8]、船舶碰撞危险度评价[9]及船员驾驶行为的研究[10]上.
粗糙集理论是PAWLAK[11]于1982年提出的一种能够定量分析不精确、不一致、不完整信息和知识的数据处理工具.它无须先验知识,可从样本数据中提取简明、直接、易于理解的决策规则,进而计算各属性对决策的重要度,是目前数据挖掘和知识发现的有力工具之一,在模式识别、机器学习、决策分析、知识获取及知识发现等领域有广泛应用.
目前全球海上事故频发,事故原因多样.本文尝试通过对近年来国内外船舶海事事故的调查与数据统计,运用粗糙集理论挖掘船舶海事事故中人、船及环境因素的深层次影响及关联程度,为海事监管部门和航运企业避免海事事故的发生提供参考.
对一个给定的决策系统S=(U,C∪D),条件属性集合C的约简是C的一个非空子集C′,满足(1)I(C′,D)=I(C,D);(2)不存在C″,使I(C″,D)=I(C′,D).称C的所有约简的集合为C的核,记作o(C),即o(C)=∩r(C),其中r(C)是C的所有简化簇.[13]设P⊂A=C∪D,xi,xj∈U,定义I(P)={(xi,xj)∈U×U|∀p∈P,p(xi)=p(xj)}为不可区分(不分明)关系.
设全集U按决策属性D被分成不相交的类族,即D={X1,X2,…,Xm},则U中C的区分矩阵记作M(C)={mi,j}n×n.其中,当xi,xj∈D的同一等价类时,mi,j=φ;xi,xj∈D的不同等价类时,mi,j={c∈C:f(c,xi)≠f(c,xj)},11.4 属性重要度与属性值隶属度
在粗糙集中,使用信息表描述论域中的数据集合.信息表的行代表对象,列代表属性,一个属性对应一个等价关系.为了找出某些属性(集)的重要性,从表中去掉一些属性后考察没有该属性后分类会如何变化.如果去掉该属性,相应分类变化较大,则说明该属性的强度大,即重要性高;反之,说明该属性重要性低.因此,对于一个区分矩阵M(C)={mi,j}n×n,相应的属性a的重要性计算公式为
(1)
式中:λij为属性出现在区分矩阵的长度;C(mi,j)为mi,j包含属性的个数.
为提取具有较多共同特性的重要规则,必须对约简后生成的大量规则集进行优化运算.针对提取出的条件规则,进行属性值的计算.条件属性值的隶属度表示决策事件(决策属性值)Dj依赖于条件事件Cij(条件属性值)的程度,属性值的隶属度(可信度)Fij可定义为
(2)
式中:Ci,j∩Dj≠φ,0 基于粗糙集理论的数据挖掘一般需要经过数据预处理、求核属性、属性约简、规则生成及分析解释结果等几个步骤完成. 在遵循海事事故统计数据筛选的完整性、可靠性、时效性、足量性原则的前提下共搜集到国内外168份海事事故报告,这些事故的原始资料分别来自:中国(中国交通运输部海事局网站、中国交通运输部海事局编写的《水上交通事故调查报告》、上海海事局编写的《海事案例集》)、英国海事调查委员会(MAIB,Marine Accident Investigation Bureau)、澳大利亚运输安全委员会(ATSB,Australian Transport Safety Bureau)、美国国家运输安全委员会(NTSB,National Transportation Safety Board of United States)、美国海岸警卫队(USCG,US Coast Guard)、加拿大运输安全委员会(TSB, Transportation Safety Board of Canada)和新西兰运输事故调查委员会(TAIC,Transport Accident Investigation Commission of New Zealand). 在168份海事事故报告中,依据数据的完整性、可靠性、实效性原则,最终确定100份作为研究样本.这100份样本来源于世界主要海运国家的海事事故调查机构对2000—2011年共12年间发生在其管辖水域中的海事事故所做的调查报告,详见表1. 表1 事故样本统计 影响海事事故的因素主要是人、船、环境和管理等.本文通过分析影响海事事故的因素及所搜集到的国内外100份海事事故报告,从人、船和环境的角度提取影响海事事故的主要因素,选择事故类型、事故发生时间、船旗国、吨位、船型、船龄、气象、人为因素、事故等级等9个因素建立决策表:论域U={1,2,3,…,100},条件属性集合C={A,T,F,G,S,E,W,H}.具体说明如下: A为事故类型,VA={1,2,3,4,5,6},其中1={碰撞},2={火灾或爆炸},3={设备机器故障},4={搁浅或沉船},5={自然灾害},6={其他}. T为事故发生时间,VT={1,2,3,4,5,6},其中1=[0000,0400],2=[0400,0800],3=[0800,1200],4=[1200,1600],5=[1600,2000],6=[2000,2400]. F为事故船舶的船旗国,VF={1,2,3,4,5},其中,1={亚洲},2={欧洲},3={美洲},4={非洲},5={其他}. G为事故船舶吨位,VG={1,2,3,4,5},其中,1=[0,500],2=(500,3 000],3=(3 000,10 000],4=(10 000,30 000],5=(30 000,+∞). S为事故船型,VS={1,2,3,4,5,6},其中,1={渔船、游艇等小型船舶},2={干散货船,杂货船},3={油船、化学品等液货船},4={集装箱船},5={客船,滚装船,多用途船},6={其他船型}. E为事故船舶船龄,VE={1,2,3,4,5},其中,1=[0,5),2=[5,10),3=[10,20),4=[20,30),5=[30,+∞). W为事故发生时的天气,VW={1,2,3,4},其中,1={良好},2={大风或大浪},3={大雾或能见度低},4={其他恶劣天气}. H为事故发生的人为因素,VH={1,2,3},其中,1={人为处置得当或无明显失误},2={一般性失误},3={严重或重大失误}. 决策属性D为事故等级,是事故造成的影响,依据伤亡人数、经济损失、环境污染等因素确定.划分为一级和二级.一级表示大事故及以上事故,二级表示一般及以下事故.VD={1,2},其中,1={一般及以下事故},2={大事故及以上事故}. 利用华沙大学的粗糙集数据处理系统RSES[14]导入经过离散化处理的船舶事故等级决策表,共100条记录、9个属性,前面8个为条件属性,最后一个为决策属性.利用粗糙集理论中常见的数据约简和规则生成算法——基因遗传算法,进行属性约简.通过基因遗传算法约简共产生15个约简集,各自包含不同的属性. 条件属性集的核为 o(C)={A,T,G,W}∩{A,T,F,S}∩{A,T,F,E,W}∩{H,G,S,E}∩{A,T,W,H}∩{A,T,S,E}∩{A,F,S,E,H}∩{A,F,S,W,H}∩{H,G,S,W}∩{T,G,S,E,H}∩{T,F,G,S,H}∩{A,S,E,W,H}∩{T,F,G,E,W,H}∩{F,G,S,E,H}∩{T,G,S,W,H}={φ} 根据式(1)分别对8个属性的重要度进行计算,结果见图1. 图1显示:船舶类型的影响程度最大,其次是人为因素,再次是事故发生时间段、天气、事故类型、吨位、船龄和船旗国.船旗国对事故的影响程度最小. 图1 各条件属性与重要度 15个约简后的集合对应产生不相同的916条规则,与没有约简的决策规则集相比扩大近9倍.规则集样本的扩大提高了决策规则的可靠性. 在已得到的决策规则基础上,运用粗糙集的属性值的隶属度公式(2),计算出决策表中各条件属性相对于不同决策属性值的隶属度.图2为各人为因素与不同等级海事事故的隶属度关系曲线. 图2 不同人为因素相对事故等级的隶属度 3.2.1 人为影响因素数据挖掘结果分析 由图2可知:不管是重大事故还是一般事故,人为因素与事故发生的隶属度成正比,即失误程度越大,发生事故的可能性越大,造成的损失也越大.但人为处理得当或无明显失误对重大事故的影响比对一般性事故的影响更大,反映出人员处理事故的能力对事故损失影响的重要性.因此,提高人员对事故的应变能力对避免重大事故的发生有重要作用.船公司应对船上人员进行安全培训,提高业务处理水平和安全意识,减少重大人为失误的发生. 3.2.2 船舶影响因素数据挖掘结果及分析 (1)事故船舶类型因素.图3显示:干散货船、油船和集装箱船发生重大事故与一般事故的隶属度趋势基本一致.大型集装箱船与油船等专业性船舶发生大事故及以上事故的隶属度相对较低,也就是发生事故后出现严重受损的可能性较低.由此可见提升船舶的专业化有助于提高船舶的安全性.其中集装箱船发生事故的隶属度在这3类船舶中最低,反映出集装箱船的安全性能较好.而渔船、游艇等小型船、客船及滚装船、多用途船舶发生重大事故的隶属度明显高于其他船型,极易发生船舶全损及沉没等大事故及以上事故,因此应加强这类船舶的安全管理. (2)船龄因素的隶属度.图4显示:船龄在5~10年的船舶发生事故的隶属度最低,表明这一船龄段船舶与人员环境等磨合得较好,发生事故的概率较低.新船船龄在0~5年的船舶比5~10年船龄的船舶更易发生事故.随着船龄增大、船体腐蚀、设备老化等,大事故及以上事故的隶属度呈逐渐增大的趋势.船龄在30年及以上船舶发生大事故及以上等级事故的隶属度接近0.6,表明老龄船舶发生严重事故的危险度比较高.船龄在10~20年时船舶发生一般及以下等级事故的隶属度稍高,0~5年船舶发生一般及以下等级事故的隶属度稍低. 图3 不同船舶类型相对事故等级的隶属度 图4 船龄因素相对事故等级的隶属度 (3)船舶吨位的隶属度.图5显示:船舶小于500总吨时,发生事故的危险程度明显高于其他吨位级别的船舶,极易发生船舶全损的危险事故.船舶吨位在30 000总吨以上的船舶发生大事故及以上等级事故的隶属度明显低于中等及以下吨位船舶的隶属度.由此可见船舶的大型化有助于提高船舶的安全性.船舶吨位在500~10 000总吨时发生一般及以下等级事故的隶属度比较高,明显高于其他吨位船舶.大于30 000总吨时发生一般及以下等级事故的隶属度最低. 图5 船舶吨位因素相对事故等级的隶属度 (4)船旗国的隶属度.图6显示:船旗国为美洲国家时船舶发生大事故及以上等级事故的隶属度最高.可能主要源于很多船公司为节省费用挂南美洲国家如巴拿马及其他国家的船旗有关.欧洲船旗国的事故隶属度较低.船旗国属于美洲和亚洲国家的船舶发生一般及以下等级事故的隶属度明显高于其他各洲,且美洲稍高于亚洲. 图6 船旗国因素相对事故等级的隶属度 3.2.3 外部环境影响因素数据挖掘结果及分析 (1)事故发生时间因素的隶属度.图7显示:在[0000,0400],[0400,0800],[2000,2400]时间段发生大事故及以上事故的隶属度较高,尤其在[0000,0400]时间段达到最高,即该时间段最易发生大事故,可能是因为船员疲劳造成的.同时可以看出夜晚发生事故的概率明显大于白天.这可能是因为在夜晚航行中,发生突发事件时,人的视觉、注意力和反应判断能力受到影响所致.在[1600,2000]时间段发生一般及以下等级事故的隶属度高于其他时间段,[0800,1200]发生事故的隶属度最低. 图7 事故发生时间因素相对事故等级的隶属度 (2)事故类型的隶属度.图8显示:船舶碰撞情况下发生大事故或以上事故的隶属度最高;火灾或爆炸、设备机器故障、搁浅或沉没情况下发生大事故或以上事故的隶属度大体相当.而对于一般及以下等级事故碰撞及搁浅或沉没的隶属度较高.搁浅或沉没情况下发生大事故或以上事故与发生一般及以下等级事故的隶属度大体相当. 图8 事故类型相对事故等级的隶属度 (3)气象因素的隶属度.图9显示:大雾、能见度低情况下发生大事故或以上事故的隶属度稍高于大风或大浪,可能是因为大雾或其他恶劣天气的能见度低,导致船舶碰撞、搁浅及触礁的事故更容易发生.而一旦发生此类事故很可能造成船舶人员伤亡及经济损失.大风或大浪条件下发生一般及以下等级事故的隶属度最高,天气良好时发生一般及以下等级事故的隶属度最低. 图9 气象因素相对事故等级的隶属度 以国内外最新的100份海事事故报告为样本,运用粗糙集理论从人、船、环境的角度研究事故类型、事故发生时间、船旗国、吨位、船型、船龄、气象、人为因素与事故等级之间的重要性隶属度关系,克服主观影响,所得结论具有一定的普遍性. 本文的研究结论在人为因素、事故类型、天气因素及船旗国因素对事故等级的影响方面与以往学者的研究结论基本一致:即人为因素与事故发生的隶属度成正比;碰撞型事故类型在各事故中隶属度最高;天气越恶劣,事故发生隶属度越高;船旗国为美洲国家的船舶发生大事故及以上等级事故的隶属度最高. 在事故发生时间、船龄、船舶类型及船舶吨位与海事事故的关系方面,本文的研究结论与以往学者的研究结论有所不同,结果显示: (1)在[0000,0400]时间段发生大事故及以上等级海事事故的概率较高,与闫化然[6]对碰撞事故的研究结论有所不同,表明不同类型事故的高发时间段存在差异. (2)5~10年船龄的船舶事故隶属度最低.0~5年船龄的船舶比5~10年船龄的船舶事故隶属度高,说明新船比5~10年船龄的船舶更易发生事故.原因可能在于新船需要在人、船舶、环境和管理上更好地磨合,但在磨合中比较容易出现事故.这点在海事事故以往的研究中未有体现. (3)总体上事故碰撞率与船舶吨位大小成反比,但500总吨以下小船的碰撞危险度最高. (4)渔船、游艇、杂货船发生事故的隶属度较高,比较容易引发大事故及以上等级事故.集装箱船等大型专业化船舶发生事故的隶属度较低,不易发生重大事故,但三大主力船型中的散货船发生一般事故的隶属度最高,更易发生事故. 参考文献: [1] SCHRÖDER-HINRICHS J U, BALDAUF M, GHIRXI K T. Accident investigation reporting deficiencies related to organizational factors in machinery space fires and explosions[J]. Accident Anal & Prevention, 2011, 43(3): 1187-1196. [2] LENNÉ M G, SALMON P M, LIU C C,etal. A systems approach to accident causation in mining: an application of the HFACS method[J]. Accident Anal & Prevention, 2012, (48): 111-117. [3] CELIK M, LAVASANI S M, WANG J. A risk-based modeling approach to enhance shipping accident investigation[J]. Safety Sci, 2010, 48(1): 18-27. [4] KOKOTOS D X, LINARDATOS D S. An application of data mining tools for the study of shipping safety in restricted waters[J]. Safety Sci, 2011, 49(2): 192-197. [5] 刘正江, 吴兆麟. 基于船舶碰撞事故调查报告的人的因素数据挖掘[J]. 中国航海, 2004, 59(2): 1-6. [6] 闫化然. 基于粗糙集的船舶碰撞受损的影响因素分析研究[D]. 大连: 大连海事大学, 2011. [7] 邹建军, 胡以怀. 船舶机损事故中人为失误的分析[J]. 上海海运学院学报, 2003, 24(2): 119-123. [8] 徐东华, 吴兆麟. 基于粗糙集数据约简的海事事故致因研究[J]. 大连海事大学学报, 2009, 35(3): 37-39. [9] 刘茹茹,胡勤友.一种主观的船舶碰撞危险度评价模型[J]. 上海海事大学学报, 2012, 33(1): 41-44. [10] 郑滨, 金永兴. 基于属性约简的海事人为失误致因分析[J]. 上海海事大学学报, 2010, 31(1): 91-94. [11] PAWLAK Z. Rough set[J]. Int J Comput & Inform Sci, 1982, 11(5): 341-356 [12] 张文修, 吴伟志, 梁吉业, 等. 粗糙集理论与方法[M]. 北京: 科学出版社, 2001. [13] PAWLAK Z. Rough sets: theoretical aspects of reasoning about data[M]. Dordrecht: Kluwer Academic Publishers, 1991. [14] University of Warsaw. RSES 2.2 User’s Guide[G/OL]. (2005-01-19)[2012-04-06]. http://logic.mimuw.edu.pl/~rses.2 基于粗糙集的海事事故影响因素分析的数据预处理
2.1 海事事故统计数据的来源及筛选
2.2 海事事故统计数据的预处理
3 基于粗糙集的海事事故影响因素数据挖掘与分析
3.1 决策表生成、约简及属性重要度
3.2 海事事故主要影响因素数据挖掘结果分析
4 结 论