基于ARIMA-BP神经网络的船舶交通事故预测

2020-10-20 05:43张逸飞付玉慧
上海海事大学学报 2020年3期

张逸飞 付玉慧

摘要:为提高船舶交通事故的预测精度,提出将自回归综合移动平均(autoregressive integrated moving average, ARIMA) 模型与BP神经网络组合的船舶交通事故预测方法。该方法考虑船舶交通事故的复杂性和非线性因素,充分结合ARIMA模型与BP神经网络的优势,分别从简单加权和残差优化角度对ARIMA模型与BP神经网络的不同组合方法进行比较研究,并将其应用于2000—2018年英国籍船舶交通事故预测中。结果表明:与ARIMA模型、BP神经网络和ARIMA-BP的简单加权组合预测方法进行对比,ARIMA-BP的残差优化组合预测方法的预测精度最高,其均方根误差、平均绝对误差和平均绝对百分比误差分别为7.16、6.0和4.9%。本文提出的船舶交通事故预测方法可以为相关人员的决策提供指导。

关键词:船舶交通事故; 组合预测方法; 简单加权; 残差优化

中图分类号:  U698.6

文献标志码:

Prediction of ship traffic accidents based on ARIMA-BP neural network

ZHANG Yifei, FU Yuhui

(Navigation College, Dalian Maritime University, Dalian 116026, Liaoning, China)

Abstract:

To improve the prediction accuracy of ship traffic accidents, a prediction method of ship traffic accidents is proposed, which combines the autoregressive integrated moving average (ARIMA) model with BP neural network. In this method, the complexity and nonlinear factors of ship traffic accidents are considered, the advantages of ARIMA model and BP neural network are combined fully, and the different combination methods of ARIMA model and BP neural network are compared from the perspective of simple weighting and residual optimization, respectively. Traffic accidents of British ships from 2000 to 2018 are predicted by different methods. The results show that, compared with ARIMA model, BP neural network and the simple weighted combination prediction method of ARIMA-BP, the residual optimization combination prediction method of ARIMA-BP is of the highest prediction accuracy, and the root mean square error, the mean absolute error and the mean absolute percentage error are 7.16, 6.0 and 4.9%, respectively. The ship traffic accident prediction method proposed in this paper can provide guidance for the decision-making of the related personnel.

Key words:

ship traffic accident; combined prediction method; simple weighting; residual optimization

0 引 言

船舶交通事故數的预测是在对相关资料进行分析、处理、提炼和概括的基础上,利用模型刻画出船舶交通事故率的基本演变规律,根据对未来条件的了解和分析,推测或计算出船舶交通事故数在未来可能表现的状况。[1]目前,学者们常用的事故预测方法主要有灰色理论、马尔科夫链、回归分析、支持向量回归[2]等方法。沈坤[3]采用多元线性回归方法,构建了由交通事故导致的死亡人数预测模型并加以优化;陈咫宇等[4]将分形理论运用于水上交通事故预测中;RAHMAN[5]引入贝叶斯网络分析水上交通事故影响因素与事故概率之间的关系,并对事故数进行了较好的预测;李金珂[6]采用先进的混沌理论,对船舶的时空距离和运动趋势进行了预测;陈昌源等[7]为提高海上交通事故的预测精度设计了一种改进的灰色预测模型,在很大程度上提高了传统灰色预测模型的精度;REKHA等[8]采用支持向量机仅对筛选得到的少量船舶搁浅事故进行预测,其预测精度高达98.25%。也有不少学者利用自回归综合移动平均(autoregressive integrated moving average, ARIMA)模型、BP神经网络等单个模型对交通事故进行了预测,如:张艳艳等[9]利用ARIMA模型对福建水域水上交通事故进行了预测;DEBNATH等[10]利用时间序列预测方法对新加坡航道内事故进行了定量分析;童飞[11]利用BP神经网络对水上交通事故进行了预测,并证明了预测方法的可行性。

总结国内外学者的研究现状,大部分学者选用时间序列ARIMA模型和BP神经网络均得到了一定的研究成果,但每种类型的模型并不是在所有情况下都表现良好。为克服单个模型的局限性,有学者提出组合预测方法,旨在利用每种模型的独特优势。其常见做法是把时间序列分解为线性和非线性两种形式,然后分别对其运用适当的模型,如文献[12-15]均在某种程度上克服了单一预测方法的局限性,取得了良好效果。本文所选取的ARIMA模型和BP神经网络分别是线性研究理论和复杂性研究理论的经典模型。因此,本文搜集整理了2000—2018年英国籍船舶交通事故数据,提出了ARIMA模型与BP神经网络的简单加权组合预测方法和残差优化组合预测方法,构建基于两种理论模型的不同组合方式的船舶交通事故预测模型,并通过与两种基础理论模型进行对比分析验证本文方法的可行性;探究船舶交通事故数随年份变化的规律,以期控制事故的发生,同时为相关人员的决策提供参考。

1 理论模型

1.1 ARIMA模型

在时间序列ARIMA(p,d,q)模型中,p、q、d分别是模型的自回归项阶数、移动平均项阶数、为使非平稳序列成为平稳序列所做的差分阶数。其实质就是在自回归移动平均(autoregressive moving average,ARMA)模型的基础上针对最原始的非平稳序列做d阶差分,使其表现出平稳特性,达到提升预测精度的效果。

若判断原始时间序列表现为非平稳特性,则首先对其进行差分处理直至序列表现为平稳特性(此时差分阶数d确定),然后对模型进行定阶,找出最优的p和q。ARIMA模型的形式如下:

式中:B为滞后算子;Φ(B)=1-φ1B-φ2B2-…-φpBp为模型的自回归相关系数多项式,φi(i=1,2,…,p)为自相关系数;Δd=(1-B)d为高阶差分;Xt为时间序列;Θ(B)=1-θ1B-θ2B2-…-θqBq为模型的移动平均系数多项式,θi(i=1,2,…,q)为移动平均系数;at和as分别为t时刻和s时刻的残差项;Var(at)为残差序列的方差;σ2at为残差项方差的数学表达形式;E(atas)为t时刻和s时刻残差项的期望值;E(Xsat)为时间序列与残差项的期望值。

1.2 BP神经网络

BP神经网络是一种按照误差逆向传播算法训练的多层神经网络,其学习思想为:信号的前向传播和误差的逆向回馈。输入层、隐含层和输出层构成BP神经网络的结构,这3层的神经元依次连接在一起,但同一层的神经元没有关联。增加隐含层神经元的数量可以提高模型的准确性,但不可避免地会增加计算负担。BP神经网络的核心是误差的逆向传播,当信息由输入层经过隐含层最后到达输出层后,比较并计算输出值与期望值的误差,若满足要求则学习结束,否则误差会逐层逆向传播到输入层,同时调整各参数的值,不断迭代上述过程,直至收敛。

BP神经网络形式如下:

式中:Xi代表输入量;Yk代表输出量;ωij(i=1,2,…,N1;j=1,2,…,N2)为输入层与隐含层之间的权值,ωjk(k=1,2,…,N3)为隐含层与输出层之间的权值;f1和f2均为BP神经网络激活函数。

2 两种组合预测方法

以往的研究表明,时间序列ARIMA模型高度适合用于提取序列中的线性部分,BP神经网络对数据中的非线性因素极其敏感[12-15]。由此来看,如果能够结合两个模型的优点,则可以达到提高预测精度的目的。影响船舶交通事故规模的因素包括一些非线性因素(海事规则生效、人为失误等),故本文从简单加权预测组合[16]和残差优化预测组合[17]两个角度构建船舶交通事故组合预测模型,并将其应用到船舶交通事故预测研究中。

2.1 简单加权组合预测模型

利用两种模型分别对船舶交通事故数进行拟合分析,求出组合预测模型中的每种模型预测值的权重,通过简单加权法[16]得到船舶交通事故预测值。简单加权的实质就是将各单一模型的预测结果误差的方差按照大小进行排列,方差越大的模型,其权重越低,反之越高。简单加权的基本过程为:若船舶交通事故数有m组,Xt(t=1,2,…,m)为搜集整理得到的船舶事故数据序列,X1t和X2t(t=1,2,…,m)分别为基于ARIMA模型和BP神经网络的船舶交通事故数预测值,Yt(t=1,2,…,m)为基于简单加权组合预测方法的船舶交通事故数最终预测值,E1t和E2t分别为基于ARIMA模型和BP神经网络的船舶交通事故数预测误差值,即Ejt=Xt-Xjt(t=1,2,…,m;j=1,2),则基于ARIMA模型和BP神经网络的简单加权组合预测模型(简称为ARIMA-BP加权模型)的船舶交通事故数最终预测值为

计算ARIMA-BP加权模型中ARIMA模型和BP神经网络预测值的权重k1和k2,ARIMA-BP加权模型预测船舶交通事故流程见图1,具体如下:

(1)首先,对船舶交通事故数据序列进行平稳性检验,确定差分阶数d,然后采用AIC(Akaike information criterion)給模型定阶,用ARIMA模型对船舶交通事故进行预测,得到船舶交通事故数预测结果。

(2)其次,确定BP神经网络的结构(神经网络层数、传递函数、激活函数),以第一年和第二年的事故数作为输入,第三年的事故数作为输出,进行滚动式训练,以最大训练次数和最大误差作为理论依据不断调整BP神经网络的相关参数,构建基于BP神经网络的船舶交通事故预测模型,利用该模型预测船舶交通事故数。

(3)通过简单加权法确定ARIMA模型和BP神经网络预测结果的最佳权重值k1和k2,得出船舶交通事故数的最终预测值Yt=k1X1t+k2X2t,实现ARIMA-BP加权模型对船舶交通事故的预测。

2.2 残差优化组合预测模型

利用ARIMA模型提取船舶交通事故数据序列中的线性部分,通过搜集整理得到的船舶交通事故数序列为Xt,假设船舶交通事故预测值为F′1t,船舶交通事故預测误差为et,即et=Xt-F′1t。预测误差et中包含海事规则生效、人为失误和恶劣天气等一系列非线性因素对船舶交通事故数的影响。利用BP神经网络提取船舶交通事故数据序列中的非线性部分,得到预测结果F′2t,则用BP神经网络进行残差优化后的组合模型(简称为ARIMA-BP残差优化模型)的最终预测结果为Yt=F′2t。ARIMA-BP残差优化模型预测船舶交通事故流程见图2,具体如下:

(1)首先,对船舶交通事故数据序列进行平稳性检验,确定差分阶数d,然后采用AIC给模型定阶,用此模型对船舶交通事故进行预测,得到船舶交通事故预测结果。

(2)其次,将ARIMA模型预测值与搜集整理得到的船舶交通事故数真实值Xt比较,计算其预测误差et。

(3)利用BP神经网络对预测误差et进行优化,以最大训练次数和最大误差为依据不断调整BP神经网络的相关参数,得到经BP神经网络残差优化后的船舶交通事故最终预测值Yt=F′2t,实现ARIMA-BP残差优化模型对船舶交通事故数的预测。

2.3 预测结果评价方法

为评价所提出的组合预测方法的合理性并比较4种预测方法的有效性,采用均方根误差(root mean square error, RMSE)、平均绝对误差(mean absolute error, MAE)和平均绝对百分比误差(mean absolute percentage error, MAPE)等3项统计学误差指标来评判各模型的预测结果。各项误差指标越小,其预测精度越高,即模型预测效果越佳。

3 实例验证

3.1 数据来源

根据英国海事调查局(MAIB)官方网站所发布的年度报告(所统计的数据为100总吨及以上的英国籍商船数据),整理出2000—2018年英国籍船舶交通事故数[18],见表1。

3.2 数据分析与预处理

查阅英国海事调查局2000—2018年的事故年报,发现2005年船舶交通事故数急剧增加的原因是修订的《2005年商船(意外报告及调查)规例》于2005年4月正式生效,它将事故的责任范围扩大到更广的范围。考虑到ARIMA模型的建立对数据平稳性的严重依赖,选用拉依达法则对搜集整理出的信息进行预处理,预处理原则为:如果某年的船舶交通事故数据与其时间序列数据的平均值之差的绝对值大于其标准差的3倍,则将该事故数据作为异常数据处理,将该年的事故数据替换为其前后两年事故数据的平均值。

3.3 船舶交通事故的预测

如图3所示对经过预处理后的船舶交通事故时间序列数据进行预测。从图3可以看出,事故数整体上呈下降趋势,具有不平稳性。

多次实验表明,ARIMA(0,1,1)模型中的参数是最佳的。用ARIMA(0,1,1)模型对船舶交通事故数进行拟合,获得船舶交通事故预测数据和残差数据。关于BP神经网络的构建,首先采用试算法确定隐含层节点最优数量为5,查看精度的变化来确定隐含层层数。设定学习速率为0.1,最大误差为0.000 5,确立2-5-1的BP神经网络结构,以第一年和第二年的船舶交通事故数为输入,第三年的船舶交通事故数为输出,即为最终的船舶交通事故数预测值。最优权重模型中权重的确定根据第2.1节所示将各单一模型预测结果的误差方差从大到小排序,确定ARIMA模型预测数据权重为2/3,BP神经网络模型预测数据权重为1/3。

为比较分析所提出的两种组合预测方法的有效性,分别采用所选用的两种理论模型和本文提出的两种组合预测模型对2000—2018年英国籍船舶交通事故数进行预测并加以分析。如图4~7所示,ARIMA模型的船舶交通事故数预测结果明显呈现线性下降趋势;BP神经网络的船舶交通事故数预测值与真实值变化趋势基本一致,但存在明显的滞后性;误差评价指标RMSE、MAE、MAPE较高,但同样可以比较出ARIMA模型比BP神经网络的预测效果好。图6表明,ARIMA-BP加权模型的预测结果较BP神经网络的预测结果的准确性和精度有明显提高,但与ARIMA模型的预测结果大体上一致,并没有明显的优势。从图7可看出:本文所提出的ARIMA-BP残差优化模型的预测结果基本与真实值保持一致,能够较好地预测船舶交通事故数变化趋势,但在2007年、2010年和2012年仍存在较大误差;整体上看,ARIMA-BP残差优化模型的3种误差评价指标RMSE、MAE、MAPE也表明其预测效果较好,MAPE被控制在5%以内。

从图8可以看出,BP神经网络的预测误差最大,效果最不理想。ARIMA模型与ARIMA-BP加权模型的预测误差基本一致,均比BP神经网络的预测效果好;两种组合预测模型相比,ARIMA-BP残差优化模型更具优势,其预测误差在5%以内。

3.4 模型评价

表2为4种模型的误差指标RMSE、MAE、MAPE的统计结果。由表2可知:4种预测模型相比,ARIMA-BP残差优化模型预测误差小,预测精度最高,其预测误差指标RMSE、MAE和MAPE分别为7.16、6.00和4.92%,比ARIMA模型的分别低1.49、0.78和0.64个百分点,比BP神经网络的分别低4.14、3.86和3.53个百分点;ARIMA-BP加权模型的RMSE、MAE和MAPE比BP神经网络的分别低2.63、3.04和2.73个百分点,但是比ARIMA模型的分别高0.02、0.04和0.16个百分点(基本上是一致的);两种组合预测模型相比,ARIMA-BP残差优化模型的RMSE、MAE和MAPE比ARIMA-BP加权模型的分别低1.51、0.82和0.8个百分点。通过比较预测结果及误差评价指标可知:所提出的两种组合预测方法,在英国籍船舶交通事故预测中,基于残差优化的组合预测方法表现最为优异,基于简单加权的组合预测方法优于BP神经网络预测方法,ARIMA预测方法优于BP神经网络预测方法。

从整体上看,基于组合预测模型的船舶交通事故预测结果准确性高。其中,基于残差优化的组合预测方法预测船舶交通事故数的精度最高,误差最小,平均绝对百分比误差(MAPE)控制在5%以内。

4 结 论

本文将ARIMA模型和BP神经网络通过不同的方式进行组合,得到ARIMA-BP加权模型和ARIMA-BP残差优化模型,并分别应用ARIMA模型、BP神经网络、ARIMA-BP加权模型和ARIMA-BP残差优化模型对英国籍船舶交通事故数进行预测对比。结果表明,ARIMA-BP殘差优化模型对英国籍船舶交通事故数具有较好的预测效果。结果分析也表明,船舶交通事故时间序列数据确实既存在线性部分,也存在非线性部分,因为无论是预测结果还是选取的误差评价指标均表明,ARIMA-BP残差优化模型的预测效果优于其他3种模型的预测效果,同样也验证了将ARIMA模型与BP神经网络组合用于船舶交通事故预测的合理性。

参考文献:

[1]吴兆麟, 朱军. 海上交通工程[M]. 大连: 大连海事大学出版社, 2004: 306-312.

[2]孙墨林, 郑中义. 基于时间窗口选择和SVR的船舶交通事故率预测[J]. 中国航海, 2019, 42(1): 47-51.

[3]沈坤. 我国道路交通事故死亡人数预测与管理对策[J]. 安全与环境工程, 2017, 24(5): 138-144. DOI: 10.13578/j.cnki.issn.1671-1556.2017.05.025.

[4]陈咫宇, 胡甚平, 郝严斌. 基于分形理论的水上交通事故预测[J]. 上海海事大学学报, 2009, 30(3): 18-21.

[5]RAHMAN S. Introduction of Bayesian network in risk analysis of maritime accidents in Bangladesh[C]//AIP Conference Proceedings 1919. American Institute of Physics, 2017: 020024. DOI: 10.1063/1.5018542.

[6]李金珂. 利用混沌理论进行船舶交通事故预测[J]. 舰船科学技术, 2017, 39(1A): 180-182. DOI: 10.3404/j.issn.1672-7619.2017.1A.061.

[7]陈昌源, 戴冉, 牛佳伟, 等. 改进灰色理论在海上交通事故预测中的应用[J]. 船海工程, 2016, 45(6): 67-71. DOI: 10.3963/j.issn.1671-7953.2016.06.015.

[8]REKHA A G, PONNAMBALAM L, ABDULLA M S. Predicting maritime groundings using support vector data description model[J]. Communications in Computer and Information Science, 2016, 575: 329-334. DOI: 10.1007/978-981-10-0356-1_34.

[9]张艳艳, 刘晓佳, 熊子龙, 等. 基于ARIMA模型的水上交通事故预测[J]. 中国水运, 2017, 17(2): 51-54.

[10]DEBNATH A K, CHIN H C. Navigational traffic conflict technique: a proactive approach to quantitative measurement of collision risks in port waters[J]. Journal of Navigation, 2010, 63(1): 137-152. DOI: 10.1017/S0373463309990233.

[11]童飞. 基于BP神经网络的水上交通事故预测及MATLAB实现[D]. 武汉: 武汉理工大学, 2005.

[12]ZHANG G P. Time series forecasting using a hybrid ARIMA and neural network model[J]. Neurocomputing, 2003, 50: 159-175. DOI: 10.1016/s0925-2312(01)00702-0.

[13]KHASHEI M, BIJARI M. A novel hybridization of artificial neural networks and ARIMA models for time series forecasting[J]. Applied Soft Computing, 2011, 11: 2664-2675. DOI: 10.1016/j.asoc.2010.10.015.

[14]BABU C N, REDDY B E. A moving-average filter based hybrid ARIMA-ANN model for forecasting time series data[J]. Applied Soft Computing, 2014, 23: 27-38. DOI: 10.1016/j.asoc.2014.05.028.

[15]BYK瘙塁AHIN, ERTEKIN瘙塁. Improving forecasting accuracy of time series data using a new ARIMA-ANN hybrid method and empirical mode decomposition[J]. Neurocomputing, 2019, 361: 151-163. DOI: 10.1016/j.neucom.2019.05.099.

[16]王冬冬. 基于ARIMA和BP神经网络模型的重庆市GDP实证分析[D]. 桂林: 广西师范大学, 2019.

[17]刘春红, 杨亮, 邓河, 等. 基于ARIMA和BP神经网络的猪舍氨气浓度预测[J]. 中国环境科学, 2019, 39(6): 2320-2327. DOI: 10.19674/j.cnki.issn1000-6923.2019.0276.

[18]Marine Accident Investigation Branch (MAIB). MAIB annual report 2018[EB/OL]. [2019-12-20]. https://www.gov.uk/govern-ment/publications/2019-Annual-Report-2018.

(编辑 贾裙平)

收稿日期: 2020-01-23

修回日期: 2020-06-01

作者简介:

张逸飞(1997—),男,河北石家庄人,硕士研究生,研究方向为海上事故调查与分析,(E-mail)yifeizhanger@163.com;

付玉慧(1963—),男,辽宁大连人,教授,研究方向为海上事故调查与分析,(E-mail)fuyhui@aliyun.com