张晓东, 张浩, 陈亮, 肖英杰
(1.上海海事大学 商船学院,上海 201306; 2. 上海海事局,上海 200086)
船舶事故的分析、预测、评价技术已成为现代船舶安全管理的核心.水上交通事故预测根据过去和现在的事故统计资料,分析近期和未来的事故发展态势.事故预测的精确性[1]主要基于两个基本前提:一是可知的信息;二是正确的事故预测方法.近年来,事故调查分析技术与方法逐渐成为研究的热点.国内外学者对水上交通事故的分析和预测已取得一些重要研究成果.常用事故预测方法有回归预测法、时间序列预测法、马尔可夫预测法、灰色预测法、贝叶斯网络预测法、人工神经网络预测法、支持向量机预测法等.张玲等[2]提出考虑事件次序及其影响因素的多种调查技术组合分析法.杨家轩等[3]提出采用电子海图技术建立水上交通事故信息系统.黄志[4]采用灰色系统理论中的关联分析原理,对台湾海峡发生事故的特点及规律进行分析.徐国裕等[5]运用灰色关联系统分别分析300总吨及以上船舶在台湾海峡及其附近水域中发生的海难事故.熊清平等[6]指出目前我国对事故的分类和统计不规范、不完善,缺乏可比性和准确性.何易培等[7]构建宁波—舟山海区涉渔碰撞事故多发原因结构模型,提出针对性的预警预防预控措施.牟军敏等[8]提出应用数据挖掘技术全面整理、分析内河船舶交通事故的思想.刘正江等[9]利用数据挖掘技术确定船舶避碰过程中人失误与引发因素之间的对应关系.王凤武等[10]提出针对大风浪天气发生的海损事故,运用灰色系统理论中的关联分析方法,得出造成海损事故的主因是船舶不适航和人为因素. 张欣欣等[11]基于HFACS对水上交通事故原因进行系统分析.周伟等[12]提出舱面集装箱坠海事故再现仿真方法.陈咫宇等[13]提出基于分形理论的水上交通事故预测模型.于卫红等[14]提出海难数据仓库的雪花模型. 钟连德等[15]在路段划分和影响因素分析的基础上,利用收集的多条高速公路数据建立基于广义线性回归的高速公路事故预测模型.以上研究对事故致因进行较详尽的阐述,本文从我国海事局的事故统计调查和回归分析的角度对水上交通事故进行预测.
对事故进行分类是分析事故发生内在规律的一项重要内容,目前在各国的海难统计法规中,大多数国家按事故的直接原因对船舶航行事故进行分类.本文以国内某港区航道及附近水域为例进行事故统计分析.
该水域船舶交通流量大,船舶大小和类型多样,航道曲折狭窄,多条航道连通港口,含有单点和双点系泊浮筒,船舶事故时有发生.不同类型船舶发生事故统计结果见表1.
表1 事故船型分布百分比 %
通过对近几年(2002—2007年)水上交通事故的收集和整理,按事故类型和事故船舶类型统计的结果见图1.
图1 事故类型统计
由图1可知,该水域事故种类主要为碰撞、触碰或浪损事故,其次是沉没事故,其他类型的事故则相对较少.碰撞、触碰或浪损事故主要涉及到大船与大船、大船与小船、小船与小船之间发生的水上交通事故,事故中的小型船舶包括渔船、工程船、交通船、小型运输船等,该类事故严重时会造成受损船舶的沉没.
事故发生水域位置的百分比见表2.
表2 事故发生位置百分比 %
图2 事故地点分布
从事故地点可以看出:在主航道和警戒区等交叉航道较多水域易发生事故,这与该水域通航环境复杂、交通流拥挤和冲突相一致.
2002—2007年有记录时间的部分水上交通事故按时间统计见图3.
图3 事故发生时间统计图
从图3可以看出,船上大副、二副、三副值班的班次都有事故发生,但根据时间节点分析,大多数事故发生在白天,而且基本集中在日出和日落期间.由于大船的航行通常不太注重白天黑夜的影响,而在该水域航行的一些小船一般白天开航、夜间停航休息,加上日出和日落期间往往是驾引人员心理疲惫和烦躁的时间段,如果上述两方面正好相遇,则将在此时间、空间发生事故.
通过以上对事故数据的统计分析,可以对事故发生的原因进行定性分析,为定量分析提供依据.
在建模之前进行一系列描述性的统计和相关分析,确定可能影响事故发生的最为基本和最为重要的因素,最终确定可以进入模型的若干个相互独立的变量,根据因变量和自变量的特点选择计数模型. EViews软件提供计数数据的多种估计方法[16],有标准泊松和负二项极大似然法(ML)及拟极大似然法(QML).
定性变量的常见分布类型有二项分布、多项分布、泊松分布、负二项分布等.事故数量、死亡和失踪人数、受伤人数是任意非负整数,是典型的计数数据,不服从正态分布,而可能服从泊松分布或负二项分布,所以在计量分析时采用计数模型比线性模型更合适.假定被解释变量的离散取值服从某种泊松分布[17],其分布函数为
(1)
式中:λ=E(yi),λ=Var(yi),即随机变量y的均值与方差均为λ;若以X=(x1,x2,…,xm)表示影响λ的m个自变量,泊松回归模型就是描述服从泊松分布的目标变量y的均值λ与解释变量X之间关系的回归模型,可以表示为
logλ=Xβ
(2)
式中:β为待估计的参数,它可以采用迭代非线性加权最小二乘法或极大似然法估算.在给定xi的条件下,yi的条件密度为
(3)
如果随机变量yi的均值等于方差,那么泊松最大似然估计就是一致和有效的.而实际上的事故数量数据往往具有过离散特征,如果在随机变量yi过度发散(即方差大于均值)的情况下仍然使用泊松回归模型,可能会低估参数的标准误差,高估其显著性水平,从而在模型中保留多余的解释变量,最终导致不合理的结果.为消除这种不利影响,使用负二项回归模型代替泊松回归模型进行估计,通过引入伽马分布的误差项构建负二项分布,负二项回归模型在条件均值μ中引入一个独立的随机效应u,从而扩展泊松回归模型,即logμi=logλi+logui,则负二项回归模型的回归形式[15]为
logμi=xiβ+ei
(4)
式中:ei为随机误差(exp(ei)服从Γ分布).在负二项回归模型中,yi对xi,ui的条件分布仍为泊松分布:
f(yi|xi,ui)=(exp(-λiui)(λiui)yi)/yi!
(5)
此时,随机变量yi的条件均值和方差分别为λ和λ(1+η2λ),其中η2=1/yi,是对条件方差超出条件均值程度即发散程度的衡量.
(1)用QML进行参数估计.QML是在一系列分布假定下才能实现的,它的估计比较稳健,即使分布指定错误也能产生正确定义条件均值参数的一致估计.结果这种稳健性类似于普通回归:即使残差分布非正态,ML估计也是一致的.普通最小二乘法中,一致性要求是条件均值m(x,β)=x′β,而在QML中,一致性要求有m(x,β)=exp(x′β).估计标准差的方法是用信息矩阵的逆计算得到,但不具备一致性,除非y的条件分布指定正确.然而即使指定错误,用一种稳健的方式估计标准差仍是可能的.
(2)参数估计检验.离散数据计数模型的参数估计是通过极大似然估计实现的,估计参数的检验主要通过Wald检验完成.参数检验有助于对抽样总体的均值作出一些推断,Wald检验类似于线性回归模型中的t检验,因此常被称为广义t检验.Wald检验的假设为H0:βj=0.建立t统计量为
(6)
(3)按如下准则进行模型的拟合优度校准、验证和变量的引入判别:①PesudoR2统计量对模型进行拟合优度检验,R2值较大说明拟合得较好;②log likelihood(LL)对数极大似然函数值是基于极大似然估计得到的统计量,对数似然值用于说明模型的精确性,越大说明模型越精确;③t估计参数的显著性在5%水平;④Pearson卡方值和自由度的比值在0.8~1.2之间;⑤Akaike’s Information Criteria (AIC)准则,用于评价模型的好坏,一般要求AIC值越小越好.
使用上述技术方案得到分析预测模型.由于建模过程中引入模型拟合优度校准、验证和变量引入判别规则,使最终获得的预测模型具有较好的拟合优度,从而使模型的预测精度得以提高.
水上交通事故的发生是多种因素综合作用的结果,各个影响因素相互关联,而相关性较大的自变量不能同时加入模型.因此,在建模之前进行一系列描述性的统计和相关分析,最终确定12个相互独立的变量,见表3.从海事事故数据的特点和海事局事故数据统计的规律,以及便于获取、统计和分析的角度,选取伤亡数作为输出变量,选取影响事故发生的参数(船舶注册地、事故类型、事故船舶类型、事故发生位置和事故发生时间)作为解释变量,这5个解释变量分别有2个、3个、3个、2个和2个风险水平,共72个风险水平,针对以上风险水平运用EViews软件对数据进行拟合.
首先采用负二项分布形式进行回归预测,把全部自变量代入模型.回归结果表明:有些变量在统计模型上是不显著的,不能拒绝其系数为0的假设;有些变量的回归系数有悖于常理;同时,发现因为定性指标过多而出现多重共线性.采取逐步回归消除多重共线性,分别拟合被解释变量相对于每个解释变量的一元回归,并将各回归方程的拟合优度R2按照大小顺序进行排序;然后将R2大的解释变量加入模型中进行估计,根据模型估计结果进行参数估计值的t检验,若t检验显著,则保留,否则剔除该变量,不断重复该过程直到加入所有显著的变量.最终保留船舶注册地a1,2个事故类型变量b1和b3,2个船舶类型变量c2和c3,2个事故水域位置变量d1和d2,事故发生时间e1,重新建立模型.运用EViews软件对数据进行拟合,拟合结果见表4.
表3 统计和相关分析变量
EViews软件拟合结果为:@EXP(-0.271 933 715 6c+1.042 835 302a1-1.079 165 854b1-0.956 563 531 9b3+2.152 955 984c2+2.347 856 323c3+2.619 790 039d1+1.864 938 605d2-0.323 531 493 4e1)其中,@EXP表示返回指数值.
α是负二项分布的回归参数,用来表示数据的过离散程度,α越大数据越离散(方差大于均值),α为0时,数据服从泊松分布.模型间的优劣比选以AIC统计量、log likelihood 为判定标准, 通过比较表4中2种分布模型的回归指标,可以看出负二项分布形式的预测模型较好.比较两个模型的拟合情况,表明负二项回归模型的拟合优度好于泊松回归模型. 事故伤亡数的残差值、实际值和预测值结果见图4.
建立基于负二项回归的事故预测模型,选取伤亡数作为输出变量,选取影响事故发生的参数(船舶注册地、事故类型、事故船舶类型、事故发生位置等)作为解释变量,分析发现事故船舶类型和事故类型对模型的影响显著.从变量的显著性看,各个变量都比较显著,它们对事故受伤人数的影响较大.估计结果显示在表示船舶注册地的2个属性中,1.042 835表示来自国内注册的船舶对事故发生产生较大影响,伤亡数更多,这反映国内注册船舶与国外还注册船舶存在较大差距;在表示事故类型的3个属性变量中,船舶发生碰撞比沉没情况下伤亡数要少;在表示船型的3个属性变量中,渔船和驳船上船员人数较多、保障措施比集装箱船和油船差(模型中未引入,相当于0),发生的伤亡数明显大.因为渔船和客船等在白天航行,夜间通航视线较差,船员易出现疲劳等,所以夜间发生伤亡数比白天多.研究结果与国内外学者的研究成果相一致,对防范我国水上交通事故具有参考意义.
表4 回归结果比较
图4 事故伤亡数的残差值、实际值和预测值
参考文献:
[1] 郑小平, 高金吉, 刘梦婷. 事故预测理论与方法[M]. 北京: 清华大学出版社, 2009.
[2] 张玲, 陈国华. 事故调查分析方法与技术述评[J]. 中国安全科学学报, 2009, 19(4): 169-176.
[3] 杨家轩, 史国友, 贾传荧. 水上交通事故管理系统设计与实现[J]. 中国航海, 2008, 31(4): 375-378.
[4] 黄志. 福建沿海船舶事故的灰色关联分析[J]. 上海海事大学学报, 2006, 27(1): 21-25.
[5] 徐国裕, 张运杰, 吴兆麟. 台湾海峡及附近水域海难事故的灰色关联分析[J]. 中国航海, 2007(1): 25-28.
[6] 熊清平, 孙清. 水上交通事故分类与统计方法探讨[J]. 天津航海, 2009(2): 39-42.
[7] 何易培, 池方庆, 戴东起. 舟山外海区涉渔碰撞事故原因分析与对策研究[J]. 中国航海, 2008, 31(4): 400-404.
[8] 牟军敏, 邹早建, 齐传新. 数据挖掘技术在内河交通事故分析和预防中的应用[J]. 中国航海, 2004 (1): 27-29.
[9] 刘正江, 吴兆麟. 基于船舶碰撞事故调查报告的人的因素数据挖掘[J]. 中国航海, 2004(2): 1-6.
[10] 王凤武, 吴兆麟, 郑中义. 大风浪海损事故的灰色关联分析[J]. 大连海事大学学报, 2003, 29(4): 31-34.
[11] 张欣欣, 轩少永, 席永涛, 胡甚平. 基于 HFACS 的海上交通事故原因系统分析[J]. 上海海事大学学报, 2012, 33(4): 15-19.
[12] 周伟, 吴善刚, 肖英杰, 等. 舱面集装箱坠海事故再现仿真[J]. 上海海事大学学报, 2011, 32(2): 47-51.
[13] 陈咫宇, 胡甚平, 郝严斌. 基于分形理论的水上交通事故预测[J]. 上海海事大学学报, 2009, 30(3): 18-21.
[14] 于卫红, 贾传荧. 海难事故的数据挖掘[J]. 计算机工程, 2007, 33(11): 34-36.
[15] 钟连德, 孙小端, 陈永胜. 高速公路事故预测模型[J]. 北京工业大学学报, 2009, 35(7): 966-971.
[16] 易丹辉. 数据分析与 EViews 应用[M]. 北京: 中国统计出版社, 2012.
[17] 谢建国. 经济影响、政治分歧与制度摩擦——美国对华贸易反倾销实证研究[J]. 管理世界, 2006(12): 8-16.
[18] 徐飞. 负二项回归模型在过离散型索赔次数中的应用研究[J]. 统计教育, 2009(4): 53-55.