基于梯度提升决策树分位数回归的船舶能耗区间预测

2022-06-26 15:53李天笑周田瑞胡勤友郝清晏
上海海事大学学报 2022年2期
关键词:分位数回归

李天笑  周田瑞 胡勤友  郝清晏

摘要:针对目前船舶能耗预测方法仅仅能进行单点预测的问题,提出一种梯度提升决策树分位数回归方法对船舶能耗区间进行预测。对船舶能耗及其影响因素数据进行预处理(空值、异常值删除等),获得更加准确的船舶能耗数据集。结合相关领域知识,确定对地航速、艏艉吃水、左右吃水、风速等9个影响因素进行建模。以区间覆盖率和平均带宽作为该方法的性能评价指标。实验结果表明,该方法能有效获取船舶能耗区间值,与分位数回归森林(quantile regression forest,QRF)、普通线性分位数回归(quantile regression, QR)相比,其预测性能更佳。提出的方法可为智能船舶能耗状态实时监测、异常识别等提供参考。

关键词:  船舶能耗; 区间预测; 梯度提升决策树; 分位数回归

中图分类号:  U676.3文献标志码:  A

Ship energy consumption interval prediction based on gradient

boosting decision tree quantile regression

Abstract: Aiming at the problem that the current ship energy consumption prediction methods can only make a single point prediction, a gradient boosting decision tree quantile regression method is proposed to predict the interval of ship energy consumption. The data of the ship energy consumption and its influence factors are preprocessed to obtain a more accurate data set of ship energy efficiency (null, outlier deletion, etc.). Combined with the knowledge of relevant fields, 9 influence factors are determined for modeling, such as the speed over ground, the fore and aft draft, the left and right draft, and the wind speed. The interval coverage and the mean bandwidth are used as performance evaluation indices of the proposed method. The experimental results show that, the proposed method can effectively obtain the ship energy consumption interval values, and have better prediction performance compared with the quantile regression forest (QRF) and the ordinary linear quantile regression (QR). The proposed method can provide reference for realtime monitoring of energy consumption status and abnormal identification of intelligent ships.

Key words: ship energy consumption; interval prediction; gradient boosting decision tree; quantile regression

引言

船舶是全球贸易商品不可或缺的运输工具,承担了全球80%货物的运输,但巨大的运输量也带来了众多的环境问题[1]。根据国际海事组织2014年发布的温室气体报告,2007—2012年全球航运业每年的二氧化碳排放量为1 015万t。若不采取相关控制措施,到2050年二氧化碳排放总量将比2012年提高50%~250%。为达到节能减排的目的,国际海事组织采取了一系列相关措施,如要求新船能够满足船舶能效设计指数(energy efficiency design index, EEDI)[2],并强制实施船舶能效管理计划(ship energy efficiency management plan,SEEMP),利用船舶能效营运指数(energy efficiency operational indicator,EEOI)评判船舶的营运能效水平。

目前船舶能耗模型的建立主要有3种方法:(1)基于经验公式,将船舶阻力划分为静水阻力和风浪引起的附加阻力,建立主机与螺旋桨之间的能量传递关系。(2)利用计算流体力学(computational fluid dynamics, CFD)或MATLAB等仿真软件模拟船舶不同状态,进而获得不同航速与阻力之间的关系,并在此基础上获得航速与单位时间主机油耗(即船舶能耗)的函数关系。(3)基于机器学习,根据船舶的航行数据、主机燃油数据等,通过求取各个影响因素与能耗的相关系数大小确定影响能耗的主要因素,利用人工神经网络、支持向量机、随机森林(random forest,RF)等机器学习算法建立船舶能耗模型。HOLTROP[3]通过将船舶阻力划分为若干个相加的成分,利用船模实验获得不同航速下船舶阻力情况,并结合大量的实船数据最终获得了功率与航速的回归模型。LEIFSSON等[4]考虑风阻、船舶主机、螺旋桨的工作性能,结合经验公式建立主机油耗灰箱模型,获得经验公式的最佳参数值,并利用神经网络对其预测结果进行校正。张伟等[5]基于船舶主机与螺旋桨之间的能量传递关系并结合理论公式建立了航速与船舶能耗之间的数学关系。SALA等[6]使用可调螺旋桨,通过调整螺距建立了主机转速与船舶能耗的关系。范爱龙等[7]和孙星等[8]考虑通航环境的影响,利用MATLAB/Simulink建立内河主机能耗模型。PARKES等[9]基于3艘大型姐妹商船的航行数据,建立了基于反向传播(back propagation,BP)神經网络的能耗预测模型,通过求取各个影响因素与主机油耗的斯皮尔曼等级相关系数,确定输入变量,结果显示这个模型的预测精度高于线性回归模型的预测精度。BUIDUY等[10]基于集装箱实时传感器数据,提出一种基于深度学习的船舶能耗预测模型,结果显示,在考虑载重吨、风速、风向等影响因素后,模型的预测精度得到提高。WANG等[11]针对主机油耗影响因素较多,且部分影响因素之间存在一定的相关性,提出了一种基于最小绝对收缩选择算子(least absolute shrinkage and selection operator, LASSO)的能耗回归模型。1074B629-AF89-4C87-B546-7BAB15150F23

目前的船舶能耗预测主要是基于传感器数据、午时报告数据等,先采用特征工程或结合领域知识确定影响能耗的主要因素,然后使用人工神经网络、支持向量机、LASSO等机器学习算法获得不同输入变量与能耗的映射关系。通过这种预测主要获取的是点与点之间的映射关系,然而在确定船舶能耗影响因素时不可能考虑到所有的因素,因此考虑重要因素影响的船舶能耗预测值并不能反映其他非重要因素对能耗的影响,故提出通过能耗区间预测来反映未被考虑因素对能耗的影响。一方面能耗区间预测保留了船舶能耗的波动性,为各种未被考虑的影响因素预留空间;另一方面,区间预测有利于识别船舶能耗异常值,方便对其动态分布进行分析。本研究通过在船上安装各种传感器,采集相关能耗数据,并对采集的数据进行预处理,建立能耗数据集,结合分位数回归(quantile regression, QR)与梯度提升决策树(gradient boosting decision tree,GBDT),最终建立基于GBDTQR的船舶能耗区间预测模型。

1船舶能耗数据采集及预处理

1.1数据采集

在某一货船上安装传感器(如AIS、GPS、油耗监测仪等)采集数据。采集时间为2018年3月2日至4月19日 ,采集的数据包括船舶经纬度、对地航速、对水航速、艏艉向、艏吃水、艉吃水、左吃水、右吃水风速、风向、流速、流向、主机油耗等。

1.2数据预处理

在数据采集过程中由于设备损坏、传输过程信号较差等,数据会发生错误、缺失等,从而数据质量受到影响。若将含有噪声的数据直接用于模型训练,训练结果并不能反映潜在的知识规律。本文根据船舶能耗区间预测需要,基于已有文献,最终提取对地航速、艏吃水、艉吃水、左吃水、右吃水、风速、风向、流速、流向共9个影响因素,每个样本数据均由这9个影响因素数据与主机油耗数据构成。对这些数据进行预处理:(1)该船为远洋船,其航速处于一定范围内,根据其历史航速数据,该船航速大部分处于[4, 16]kn范围内,将航速不在此范围内的样本删除。(2)该船吃水在[9, 15]m范围内,将吃水不在此范围内的样本删除。(3)将流向、风向不在[0°,360°]范围内的样本删除。(4)将主机油耗小于0的样本删除。经过数据预处理后,数据样本从12 975个减少至12 729个。

1'3数据转化

由于采集主机油耗数据的时间间隔是5 min,为方便研究,将其换算成每日油耗量:(1)式中:M为主机5 min的油耗量。

采集的风向、流向数据为绝对风向、流向数据,而风向、流向对船舶能耗影响的研究是建立在相对风向、流向的基础上的,故需将绝对风向、流向数据换算成相对风向、流向数据:

(2)

(3)

式中:θRW为相对风向;θW为绝对风向;θS为船艏向;θRC为相对流向;θC为绝对流向。绝对风向和绝对流向都以真北方向作为衡量标准,顺时针方向为正。

2模型建立

21GBDT原理

GBDT是基于集成学习Boosting方式建立的[12]。它要经过多次迭代并构建多个决策树来组成集成模型。在每次迭代过程中,各决策树学习器沿着梯度下降最快的方向降低残差。该算法因具有解释性强、预测速度快、预测时能自由组合多个影响因素等优点[13]而被广泛应用。

在构建模型时,各决策树之间具有很强的关联性,下棵决策树根据上棵决策树的训练结果不断调整自身权重,依次不断迭代,直到达到期望残差或设定的最大迭代次数。GBDT预测过程见图1。

预测模型为(4)式中:F(x)为输入变量x的响应值;ωk和φk分别为第k棵决策树的权重和参数;g(x,φk)为第k棵决策树的预测值。

基于样本数据(xi,yi),通过下式求得ωk和φk的最优值:

(5)

式中:yi为因变量;FK-1(xi)为经K-1轮迭代后得到的预测结果。

22基于GBDTQR的船舶能耗模型

QR用于估计自变量对不同分布的因变量产生的不同影响。假设因变量yi受到m个自变量xi,1,xi,2,…,xi,m的影响,则QR模型可表示为

(6)

式中:α0(τ)为误差项;系数α1(τ),α2(τ),…,αm(τ)可通過式(8)求得,其值随着τ的变化而变化,τ∈[0,1]。

(7)

式中:xi=(xi,1,xi,2,…,xi,m),α=(α1(τ),α2(τ),…,αm(τ))T。若u<0,则损失函数ρτ(u)=u(τ-1);若u≥0,则ρτ(u)=uτ。

由式(6)可知,QR是一种线性回归,然而船舶能耗与各影响因素之间的关系并不是简单的线性关系,因此结合GBDT提出一种GBDTQR方法,其各参数估计值可通过式(8)求得:

(8)

将k(τ)和k(τ)代入式(4)即可得到yi的τ分位数估计值。

不同概率的预测区间可通过设置不同的置信水平获取。若置信水平为1-β,则它的上分位点为1-β/2,对应的预测值为U1-β/2i;下分位点为β/2,对应的预测值为Lβ/2i;预测区间为[Lβ/2i,U1-β/2i]。GBDTQR方法的运算过程见图2。

3算例分析

3.1实验条件

本文所涉及实验均是在Window 10、64位操作系统、8 GB内存、Inter Core i5处理器、基于Spyder的集成开发环境Python 37或MATLAB 下完成的。其GBDT调用ScikitGarden库,其参数见表1,没有涉及的参数一律采用库中默认值。

3.2不同预测方法对船舶能耗的单值预测1074B629-AF89-4C87-B546-7BAB15150F23

先比較GBDT和RF对船舶能耗的单值预测,以90%的数据作为训练集,剩下的10%的数据作为测试集。由图3可以看出,RF和GBDT对船舶能耗的预测值都能较好地契合船舶能耗实际值,而RF在对船舶能耗的局部极值进行预测时过度拟合情况出现的频率是明显高于GBDT的。GBDT的均方误差为317,小于RF的均方误差(595);GBDT的运算时间要远远小于RF的:这说明GBDT比RF的性能优。

3.3不同置信水平下的预测结果分析

为研究不同置信水平下的船舶能耗区间,将置信水平分别设置为95%、90%、85%、80%。以90%的数据作为训练集,剩余的10%的数据作为测试集。各置信水平下的船舶能耗区间预测结果见图4,由于测试样本数量较多,仅选取200个样本进行展示。

图4显示了测试样本的船舶能耗预测区间上下限和实际值。从图4可知:大部分实际值均能落在预测区间内,且预测区间上下限整体变化趋势与实际值保持一致;当实际值较大或较小时,其预测区间并不能很精准地覆盖实际值,这是因为这些实际值本身存在误差或其数据集中与其相似的样本较少,从而导致预测区间上下限波动较大;对于波动较小的实际值,其预测区间基本能覆盖大量的实际值,且随着置信水平的增加,预测区间上下限波动范围减小。

3.4不同方法性能对比

为验证本文提出的GBDTQR方法的优越性,将其与分位数回归森林(quantile regression forest,QRF)、普通线性分位数回归(QR)进行对比。为评估所提出方法的优劣,将区间覆盖率(BP)和相对带宽(BW)作为性能评价指标:(9)

(10)

式中:T为样本量;U1-β/2i和Lβ/2i分别为β置信水平下预测区间的上限和下限。

(11)由式(9)~(11)可知,当BP相同时,BW越小表明该方法预测性能越好;当BW相同时,BP越大表明该方法预测性能越好。3种方法的BP和BW值见表2。从表2可知:比较 BP值,QR的最高,GBDTQR的次之,QRF的最小,这是因为船舶能耗与航速具有高度相关性,且速度相对集中,变化范围较小,通过QR能相对准确地获得各个输入变量与船舶能耗的映射关系;比较BW值,QRF的最小,GBDTQR的次之,QR的最大;GBDTQR与QR的BP值在不同置信水平下相差不大,但这2种方法的BW值相差较大。为更加直观地比较不同方法的预测性能,将3种方法的BP、BW值绘制成折线图,见图5。

从图5可知,3种方法的BP和BW值均随置信

水平的增加而增加,这是因为提高BP值必然是以牺牲BW为代价的。然而,各个方法BP和BW的提高幅度并不一致,GBDTQR的BP值提高幅度最大;QR的BW值提高幅度最大,且在同一置信水平下,GBDTQR与QRF的BW值相差不大。通过对比发现,当置信水平为95%时,GBDTQR与QR的BP值相差不大,但BW值却相差较大,QR的BW值约是GBDTQR的两倍。对比GBDTQR与QRF两种方法:在同一置信水平下,两种方法的BP的差值大于BW的差值,且这两种方法的BW值都比较小;当置信水平为95%时,两种方法的BW值均低于015,而此时两者的BW值竟相差02。因此,当设置置信区间为95%时,综合分析BP和BW值得出,提出的GBDTQR优于QRF和QR。

4结论

本文提出一种梯度提升决策树分位数回归方法(GBDTQR)对船舶能耗区间进行预测。通过多源传感器采集船舶能耗及其影响因素数据,并对采集到的数据进行空值、异常值删除等预处理,建立船舶能耗数据库。提取主机油耗、对地航速、艏吃水、艉吃水、风速、风向、流速、流向等10类数据进行建模。在80%、85%、90%和95%置信水平下对船舶能耗区间进行预测,结果显示大部分船舶能耗实际值均能落在预测区间内,整体上预测区间比较稳定,验证了模型的有效性,并且随着置信水平的增加,落入预测区间的样本数增加。为评估该方法的优劣,使用区间覆盖率(BP)和平均带宽(BW)作为评价指标,并与分位数回归森林(QRF)、普通线性分位数回归(QR)进行对比。在95%置信水平下,GBDTQR与QR的BP值差别不大,QRF的BP值最小,但QR的BW值是GBDTQR的两倍,因此GBDTQR优于QRF和QR。本文仅对船舶能耗区间进行了预测,并未对船舶能耗异常值进行识别。未来将利用GBDTQR进行在航船舶能耗实时监测和船舶能耗异常值识别,为智能船舶能耗管理及优化提供指导。

参考文献:

[1]Marine Environment Protection Committee. Prevention of airpollution from ships (Second IMO GHG Study 2009)[R]. London: International Maritime Organization, 2009.

[2]Marine Environment Protection Committee. Prevention of airpollutionfrom ships (Third IMO GHG Study 2014)[R].London: International Maritime Organization, 2014.

[3]HOLTROP J. A statistical reanalysis of resistance and propulsion data[J]. International Ship Building Progress, 1984, 31: 272276.

[4]LEIFSSON I , SVARSTTIR H, SIGURDSSON S , et al. Greybox modeling of an ocean vessel for operational optimization[J]. Simulation Modelling Practice and Theory, 2008, 16(8): 923932. DOI: 101016/j.simpat.200803006.1074B629-AF89-4C87-B546-7BAB15150F23

[5]张伟, 王红, 张澍宁, 等. 内河船舶主机动态油耗模型的研究与建立[J]. 交通标准化, 2013(22): 9597. DOI: 1016503/J.CNKI.20959931201322041.

[6]SALA A, DE CARLO F,BUGLIONI G, et al. Energy performance evaluation of fishing vessels by fuel mass flow measuring system[J]. Ocean Engineering, 2011, 38(5/6): 804809. DOI: 101016/j.oceaneng.201102004.

[7]范愛龙, 严新平, 尹奇志, 等. 船舶主机能效模型[J]. 交通运输工程学报, 2015, 15(4): 6976. DOI: 1019818/j.cnki.16711637201504009.

[8]孙星, 严新平, 尹奇志, 等. 考虑通航环境要素的内河船舶主机营运能效模型[J]. 武汉理工大学学报(交通科学与工程版), 2015, 39(2): 264267. DOI: 103963/j.issn.20953844201502008.

[9]PARKES A I, SOBEY A J, HUDSON D A. Physicsbased shaft power prediction for large merchant ships using neural networks[J]. Ocean Engineering, 2018, 166: 92104. DOI: 101016/j.oceaneng.201807060.

[10]BUIDUY L, VUTHIMINH N. Utilization of a deep learningbased fuel consumption model in choosing a liner shipping route for container ships in Asia[J].The Asian Journal of Shipping and Logistics, 2020, 37(1): 111. DOI: 101016/j.ajsl.202004003.

[11]WANG S Z, JI B X, ZHAO J S, et al. Predicting ship fuel consumption based on LASSO regression[J]. Transportation Research Part D: Transport and Environment, 2018, 65: 817824. DOI: 101016/j.trd.201709014.

[12]王慧君, 胡定玉, 方宇, 等. 基于梯度提升决策树的车轮轮缘厚度磨耗预测[J]. 测控技术, 2020, 39(11): 8084. DOI: 1019708/j.ckjs.202011015.

[13]杨锡运, 邢国通, 马雪, 等. 一种核极限学习机分位数回归模型及风电功率区间预测[J]. 太阳能学报, 2020, 41(11): 300306.

(编辑赵勉)

收稿日期: 20210307修回日期: 20210906

基金项目: 上海市科学技术委员会重大项目(18DZ1206300)

作者简介: 李天笑(1995—),女,江苏扬州人,硕士研究生,研究方向为海上交通系统的优化方法与智能化,(Email)598018282@qq.com;

周田瑞(1991—),男,江西吉安人,博士研究生,研究方向为船舶能效提升,(Email)1241514977@qq.com;

胡勤友(1974—),男,安徽舒城人,教授,博士,研究方向为智能船舶与海事信息处理,( Email)qyhu@shmtu.edu.cn1074B629-AF89-4C87-B546-7BAB15150F23

猜你喜欢
分位数回归
新常态下我国城乡居民代际收入流动性分析
县域产业园区经济发展对城镇化的影响
中国农村居民消费函数的实证研究
支农贷款影响农户收入增长的路径分析
家庭债务变动对婚姻不稳定性的影响
制度软化、公众认同对大气污染治理效率的影响
流动人口家庭与城镇家庭的消费差异
税收政策影响居民消费水平的区域效应研究基于省级面板数据的分位数回归分析
我国城乡居民收入不平等的演变特征
人力资本投资与经济增长