多维关联规则数据挖掘在船舶价格影响因素分析中的应用

2013-04-08 06:45刘红吴四
上海海事大学学报 2013年4期
关键词:船龄贸易量海运

刘红, 吴四

(上海海事大学 交通运输学院,上海 201306)

0 引 言

研究船舶价格的影响因素、掌握船价波动规律对航运企业的船队更新和船舶投资有重要的理论和现实意义.对船舶价格的研究,国外起步较早[1-5],我国近年来也取得一些可喜的研究成果[6-9].BEENSTOCK[1]首次提出利用传统的供需理论对船舶市场进行分析并不适用,并基于资本组合理论构造相应的模型.随后BEENSTOCK等[2]扩展上述研究,提出运价市场与船舶市场相互关联的理论模型,对世界干散货市场与油船市场分别进行预测.KAVUSSANOS[3]和TSOLAKIS等[4]分别对干散货市场和油船市场的动态性和二手散货船价格采用时间序列模型、非理论自回归条件异变模型及计量经济模型进行研究.LUN等[5]针对贸易、航运与船舶市场建立经验模型,指出船价与运价有直接相关性,而与船队规模和贸易没有直接相关性.李升江[6]认为影响新造船价格的因素主要包括:船用钢板价格、手持订单量、成交量、完工量、拆解量、航运指数、海运量、世界宏观环境、国家宏观政策等,研究结果显示:综合考虑影响供需变化的手持订单量和影响造船成本的船用钢板价格能够较好地反映船价的变化.蔡立明[7]基于计量经济学理论对新造油船和散货船价格进行研究,指出影响新造船价格的主要因素有:与资产定价法相关的变量,即二手船价格、期租费率;与基于成本法相关的.变量,即造船成本、汇率;与供应-需求法相关的变量,即供应量占船队的比例、造船厂生产量.王建华等[8]研究巴拿马型船舶航运市场的期租水平与其他相关市场的相互影响.朱墨等[9]则运用双对数回归模型研究新造好望角型散货船价格的影响因素,结果表明:二手船价格、新造船成本以及手持订单量与船队规模的比值对新造船价格影响显著.以上文献对船价影响因素的研究,从单一的新造船市场、航运市场入手分析的较多,从综合新造船市场、二手船市场及拆船市场入手研究船价之间相互联系的较少.

数据挖掘中的多维关联规则相对于数理统计方法更适用于船价诱因的分析.关联规则的概念首先由AGRAWAL等[10]提出.BHANDARI[11]采用数据挖掘技术对NBA数据进行处理,成功挖掘出有价值的商业情报.寇宇[12]利用关联规则数据挖掘对电信客户数据进行分析.王宏雁等[13]将多层多维关联规则应用在交通事故的研究中.郑滨等[14]、宓为建等[15]及甘辉兵等[16]分别将数据挖掘技术应用于海事人为失误致因分析、港口机械结构应力分析及船舶机舱监控系统中.本文尝试运用多维关联规则的数据挖掘技术,对1980—2011年的二手船价格、新造船价格、拆船价格等数据进行深度挖掘,分析3种市场下船舶价格影响因素间的内在联系.

1 多维关联规则数据挖掘理论

1.1 关联规则的含义

关联规则[10]的实质是分析数据项集在事务集合中出现的频度关系,一般定义如下:设I={i1,i2,…,im}是一项目集,D是一事务数据库,其中每个事务T⊆I.每个事务都有一个标志符,称之为TID.若A是一项目集,当且仅当A⊆T时,称事务T包含A.一条关联规则就是形如A⟹B的蕴含关系,其中A⊂I,B⊂I且A∩B=φ.简单地说,数据挖掘中的关联规则技术能推导出一种A⟹B的模式,即当A事件发生时,B事件会伴随发生,称为一种A与B的关联关系.

1.2 多维关联规则

单维关联规则只涉及数据的一个维度(蕴含式中的每个不同的谓词都称作维).如对某商场的事务数据库,buys(X,“IBM desktop computer”) ⟹buys(X,“Sony printer”),表示客户购买IBM笔记本电脑与购买Sony打印机之间的关系,只涉及客户X的一个维度,若引进新的谓词age和occupation,并使用age(X,“20,…,29”)^occupation(X,“student”) ⟹buys(X,“laptop”)(其中X是变量,其后跟的引号部分内容为其值,含义为年龄在20至29岁的学生倾向于买笔记本电脑),则涉及客户的多个维度,即为多维关联规则.

1.3 支持度和置信度

关联规则设定两项约束,最小支持度(Minsup)和最小可信度(Minconf).

对于A⊆I,如果D中包含A的事务数为s,则称s为A的支持度.若用S(A)表示A的支持度,则S(A)=s.

关联规则A⟹B在D中具有大小为s的支持度,定义为事物集中包含A和B的事物数与所有事物数之比,记为S(A⟹B),S(A⟹B)=S(A∪B)=P(A∪B).

关联规则A⟹B在事物集中的置信度(Confidence)指包含A和B的事物数与包含A的事物数之比.如果D中支持项集A的事务中有C%的事务同时也支持项集B,则称关联规则A⟹B在事务数据库D中具有大小为C的置信度,记为C(A⟹B),C(A⟹B)=P(B|A)=S(A∪B)/S(A).

关联规则的挖掘就是发现数据库中支持度和可信度大于最小支持度和最小可信度的全部规则.

2 船舶价格多维数据模型的建立

以Clarksons发布的1980—2011年数据为基础,分别建立新造船价格、二手船价格、拆船价格及船舶市场综合价格多维数据模型.

2.1 船舶价格综合数据属性的定义

价格属性指一条船舶价格记录所包含的基本信息以及影响价格的主要因素,这些属性可以通过定性和定量分析得出.

2.1.1 新造船价格属性

考虑到新造船市场、二手船市场和拆船市场数据的可得性及一致性,选择世界GDP、海运贸易量、运价(或期租费率)、主要造船国汇率、世界钢材价格、船型、载质量和船舶价格因素,对1980—2011年的上述属性数据进行相关性检验,结果显示:在上述影响因素中,世界GDP与新造船价格的相关性最弱,海运贸易量、钢材价格和运价与新造船价格有强相关性,说明世界GDP的变化对新造船价格的影响不如海运贸易量明显;汇率与新造船价格呈负相关性,说明汇率对船价有反作用.因此,新造船价格属性定义为:世界海运贸易量、运价(或期租费率)、钢材价格、船型、载质量、新造船价格和汇率.

2.1.2 二手船价格属性

影响二手船价格的主要因素:从船舶自身看有船龄、船舶设备、技术性能;从二手船市场看主要有GDP、世界海运贸易量、运价、新造船价格等.选取GDP、世界海运贸易量、运价、船型、船龄、载质量、新造船价格、二手船价格等8种可量化因素,对1980—2011年数据进行相关性检验,结果显示:GDP与二手船价格弱相关,应剔除;世界海运贸易量、运价和新造船价格与二手船价格有强相关性.因此,二手船价格属性可定义为:船型、船龄、载质量、世界海运贸易量、运价、新造船价格和二手船价格.

2.1.3 拆船价格属性

与二手船一样,拆船价格主要受船舶自身状况及外部市场两大因素影响.船舶自身状况包括船舶种类及其老旧程度、船舶技术状态等;外部市场包括船舶市场拆船数量、钢铁行业对拆船钢铁的需求、航运市场需求状况(如运价)等因素.因此,从定性角度分析选取GDP、世界海运贸易量、运价、船型、船龄、拆船价格和钢材价格因素作为拆船价格属性,对1980—2011年数据进行相关性检验,结果显示:GDP与拆船价格呈弱相关性,其他属性均与拆船价格呈强相关性.因此,建模时拆船价格属性选为:船型、船龄、运价、钢材价格、世界海运贸易量和拆船价格.

2.1.4 船舶价格综合数据属性

将船舶市场看成一个包含二手船市场、新造船市场以及拆船市场的综合船舶价格系统.船舶价格综合数据模型的属性选取主要考虑3种船舶价格影响因素的共性.从宏观市场看,运价和世界海运贸易量这2个属性对3种船舶市场的船价都有影响,钢材价格属性对新造船价格和拆船价格都有一定的影响.从船舶自身情况看,3种船舶市场的船舶价格都受船型属性影响,载货量属性对新造船价格和二手船价格都有影响,船龄属性也与二手船价格和拆船价格息息相关.因此,船舶价格综合数据模型的属性选取为:船型、船龄、载质量、世界海运贸易量、运价、钢材价格、拆船价格、新造船价格和二手船价格.

2.2 新造船、二手船、拆船及船舶综合市场价格多维数据模型的建立

2.2.1 概念分层

多维模型中的概念分层定义一个映射序列,将低层概念映射到高层概念上,这样,数据挖掘系统在多个抽象层挖掘关联规则,且容易在不同的抽象空间转换.

概念分层通常采用概念层次树方法.概念层次树是数据库中各属性值及其概念依据抽象程度不同而构成的层次结构.新造船价格属性PONB(Property Of NewBuilding Ship Price)、二手船价格属性POSH(Property Of SecondHand Ship Price)、拆船价格属性POSC(Property Of SCrap Ship Price)及船舶价格综合数据属性POSP(Property Of Ship Price)的概念层次树分别见图1~4.

图1 新造船价格属性概念层次树

图2 二手船价格属性概念层次树

图3 拆船价格属性概念层次树

图4 船舶价格综合数据属性概念层次树

图1~4中概念层次树分两层.第一层中:ShipType为船型属性、Load Capacity 为载质量属性、FreightRate为运价属性、Seaborne Trade 为世界海运贸易量属性、SteelPrice为钢材价格属性、ExRate为主要造船国汇率属性、NBPrice为新造船价格属性、ShipAge为船龄属性、SHPrice为二手船价格属性、SCPrice为拆船价格属性.第二层中:船舶类型属性分为TK(油船),BK(散货船),CT(集装箱船);载质量属性,其中油船分为T1,T2,T3,T4,散货船分为B1,B2,B3,B4,集装箱船分为C1,C2,…,C6;运价属性,其中油船分为TFR1,TFR2,…,TFR9,散货船分为BFR1,BFR2,…,BFR9,集装箱船分为CFR1,CFR2,…,CFR8;世界海运贸易量属性,其中石油贸易分为OSBT1,OSBT2,…,OSBT9,干散货贸易分为DSBT1,DSBT2,…,DSBT9,集装箱贸易分为CSBT1,CSBT2,…,CSBT9;钢材价格属性分为ST1,ST2,…,ST8;主要造船国汇率属性分为ER1,ER2,…,ER6;新造船价格属性分为NBP1,NBP2,…,NBP9;船龄属性分为AG1,AG2,…,AG6;二手船价格属性分为SHP1,SHP2,…,SHP9;拆船价格属性分为SCP1,SCP2,…,SCP9.

2.2.2 多维数据模型

采用大多数数据仓库都采用的“星型模型”进行建模,它由事实表和维表组成.事实表中存放大量关于事务的事实数据,维度表是围绕事实表建立的存放描述性数据的表.基于对新造船、二手船、拆船价格属性数据的分析,建立全星型连接结构的数据模型见图5.

(a)新造船价格属性

(b)二手船价格属性

(c)拆船价格属性 (d)船舶价格综合数据属性

图5全星型连接结构的数据模型

图5(a)中以新造船价格本身属性为事实表,维度表有运价、世界海运贸易量、主要造船国汇率、钢材价格、船型、载质量和新造船价格属性维度.图5(b)中以二手船价格本身属性为事实表,维度表有世界海运贸易量、运价、船龄、船型、载质量、二手船价格和新造船价格属性维度.图5(c)中以拆船价格本身属性为事实表,维度表有世界海运贸易量、运价、钢材价格、船龄、船型和拆船价格属性维度.图5(d)以船舶综合价格本身属性为事实表,维度表有世界海运贸易量、运价、钢材价格、船龄、船型、载质量、拆船价格、新造船价格和二手船价格属性维度.

3 基于多维关联规则的船舶价格数据挖掘

3.1 数据准备

选择载质量为120 000~199 999 t的油船价格数据进行关联规则挖掘,其中运价数据为油船一年期期租费率,海运贸易量数据为世界历年原油贸易量.数据来源为Clarksons和世界银行网站,时间跨度为1980—2011年的月度船舶价格数据,总记录为384条.为防止数据过于离散化而影响挖掘结果,对多维船舶价格数据模型的具体数据进行分类处理,得到的部分结果见表1.

3.2 船舶价格影响因素数据挖掘

运用SQL Server 2005提供的数据挖掘工具实现关联规则挖掘,系统默认的挖掘参数最小支持度为3%,但在数据量较大、关联性较高时,此值偏小,为此,设置挖掘参数最小支持度为5%,最小置信度为40%.选取世界海运贸易量、钢材价格、运价、新造船价格、二手船价格和拆船价格等维度进行初步挖掘,见图6.其中挖掘参数概率即为置信度,重要性指标定义如下:Importance(X⟹Y)=lg(P(XY)/P(X)P(Y)),其中P(X)表示事务中X发生的概率,P(Y)表示事务中Y发生的概率,P(XY)表示事务中X和Y同时发生的概率.由此可知,重要性为正值表示一旦拥有X则再拥有Y的概率会增长,负值表示一旦拥有X则再拥有Y的概率会降低.

图6 挖掘结果示意图

3.3 关联规则解释与分析

数据挖掘得出的结果为大量的关联规则,本文主要利用关联规则的解释与依赖关系网络相结合的方法对挖掘结果进行解释和分析.由于实验挖掘生成的关联规则较多,为便于分析,以下从二手船价格影响因素、新造船价格影响因素与拆船价格影响因素等3方面对挖掘的关联规则进行解释和分析.

表1 油船价格分类数据

3.3.1 二手船价格影响因素分析

由二手船价格影响因素的依赖关系网络(见图7),得到载质量为120 000~199 999 t的二手油船价格影响因素由强到弱排列为:期租费率、船龄、拆船价格、石油海运贸易量和新造船价格.具体的量化影响通过关联规则数据挖掘得出,其结果见表2.

图7 船舶价格依赖关系网络图例

规则1,2,3分别表示:当船龄为26~30年时,二手船价格为(0,2 000)万美元的概率为100%;当船龄为16~25年时,二手船价格为[2 000,4 000)万美元的概率为100%;当船龄为11~15年时,二手船价格为[4 000,6 000)万美元的概率为65%.对比这3条规则可知,船龄与二手船价格呈负相关性,船龄越大,二手船价格越低.从重要性指标看,二手船价格对船龄大的船的重要性较高(为1.26).这说明二手船价格虽与船龄呈负相关性,却对船龄越大的船舶越敏感,显示船龄与二手船价格之间的复杂关系.

表2 二手船价格影响因素的关联规则

规则4,5,6分别表示:当期租费率为[4 000,10 000)美元/d时,二手船价格为(0,2 000)万美元的概率为96%;当期租费率为[10 000,20 000)美元/d时,二手船价格为[2 000,4 000)万美元的概率为77%;当期租费率为[20 000,30 000)美元/d时,二手船价格为[4 000,6 000)万美元的概率为82%.由这3条规则可知,期租费率与二手船价格呈正相关性.

规则7和8反映石油海运贸易量对油船价格的影响:当世界石油海运贸易量为[1.4,1.6)亿t时,二手船价格为(0,2 000)万美元的概率为44%;当世界石油海运贸易量为[2.0,2.2)亿t时,二手船价格为[2 000,4 000)万美元的概率为42%.概率不高说明:石油海运贸易量对二手油船价格有一定的影响,但影响没有其他几个因素明显.

规则9,10,11反映油船市场中新造船价格对二手船价格的影响:当新造船价格为[2 000,4 000)万美元时,二手船价格为(0,2 000)万美元的概率为42%;当新造船价格为[4 000,6 000)万美元时,二手船价格为[4 000,6 000)万美元的概率为45%;当新造船价格为[6 000,8 000)万美元时,二手船价格为[6 000,8 000)万美元的概率为50%.规则9,10,11出现的概率均小于规则1~6出现的概率,说明新造船价格对二手船价格的影响比船龄和运价小.

规则12和13描述油船市场中拆船价格对二手船价格的影响:当拆船价格为(0,200)万美元时,二手船价格为(0,2 000)万美元的概率为47%;当拆船价格为[200,400)万美元时,二手船价格为[2 000,4 000)万美元的概率为47%.由规则出现的概率可知,拆船价格对二手船价格的影响程度小于船龄和运价.

3.3.2 新造船价格影响因素分析

由新造油船价格影响因素的依赖关系网络可得,对载质量120 000~199 999 t的油船,钢材价格对新造油船价格的影响最大,其次依次为二手船价格、期租费率、拆船价格、石油海运贸易量.具体的量化影响通过关联规则数据挖掘得出,结果见表3.

规则1和2分别表示:当钢材价格指数为(150,200]时,新造船价格为[4 000,6 000)万美元的概率为96%;钢材价格指数为(50,100]时,新造船价格为[2 000,4 000)万美元的概率为87%.钢材价格与新造船价格呈正相关性.

规则3表示:当石油海运贸易量为(1.2,1.4]亿t时,新造船价格为[4 000,6 000)万美元的概率为55%.石油海运贸易量对新造船价格的影响程度小于钢材价格的影响.

表3 新造油船价格影响因素的关联规则

规则4和5反映拆船价格对二手船价格的影响:当拆船价格为[400,600)万美元时,新造船价格为[4 000,6 000)万美元的概率为66%;当拆船价格为[200,400)万美元时,新造船价格为[2 000,4 000)万美元的概率为83%.拆船价格与新造船价格呈现一定程度的正相关性.

规则6,7,8反映期租费率对新造油船价格的影响:当期租费率为[40 000,50 000)美元/d时,新造船价格为[6 000,8 000)万美元的概率为68%;当期租费率为[10 000,20 000)美元/d时,新造船价格为[4 000,6 000)万美元的概率为51%;当运价期租费率为[4 000,10 000)美元/d时,新造船价格为[2 000,4 000)万美元的概率为68%.对比这3条规则,期租费率与新造油船价格呈正相关性.

3.3.3 拆船价格影响因素分析

由拆船价格各影响因素与拆船价格的依赖关系网络可得:与拆船价格相关性最强的因素为钢材价格和船龄,其次依次为二手船价格、运价、新造船价格、世界海运贸易量和拆船价格.具体的量化影响通过关联规则数据挖掘得出,其结果见表4.

表4 油船拆船价格影响因素的关联规则

规则1和2反映期租费率对拆船价格的影响:当期租费率为[4 000,10 000)美元/d时,拆船价格为[200,400)万美元的概率为99%;当期租费率为[10 000,20 000)美元/d时,拆船价格为[400,600)万美元的概率为48%.期租费率的上升会促进拆船价格的提高,但是当运价由TFR1上升到TFR2时,拆船价格从SCP2上升到SCP3的概率反而从99%下降到48%,说明期租费率并不是拆船价格的主要影响因素.

规则3表示:当石油海运贸易量为(2.2,2.4]亿t时,拆船价格为[200,400)万美元的概率为41%.海运贸易量处于高位时,拆船价格并没有很大的提高,说明石油海运贸易量的变化对拆船价格的影响不大.

规则4和5分别表示:当船龄为16~25年时,拆船船价格为[400,600)万美元的概率为50%;当船龄为26~30年时,拆船船价格为[200,400)万美元的概率为79%.对比这两条规则,船龄与拆船价格呈负相关性,船龄越大,拆船价格越低.

规则6和7反映钢材价格对拆船价格的影响:当钢材价格指数为(50,100]时,拆船价格为[200,400)万美元的概率为79%;钢材价格指数为(100,150]时,拆船价格为[400,600)万美元的概率为89%.这说明拆船价格受钢材价格的影响较大,钢材价格与拆船价格呈正相关性.

4 结论与展望

以Clarksons发布的1980—2011年船舶价格月度数据为基础,运用多维关联规则,分别建立新造船价格、二手船价格、拆船价格及船舶综合价格多维数据模型,选择载质量为120 000~199 999 t的油船价格数据进行关联规则挖掘分析,得出以下结论:(1)影响二手油船价格的因素由强到弱分别为:期租费率、船龄、拆船价格、石油海运贸易量及新造船价格;(2)钢材价格对新造油船价格的影响最大,其次依次为二手船价格、期租费率、拆船价格、石油海运贸易量;(3)与拆船价格相关性最强的因素为钢材价格和船龄,其次依次为二手船价格、运价、新造船价格、海运贸易量和拆船价格.

从挖掘出的船舶价格关联规则可以看出,将多维关联规则数据挖掘模型应用于船舶价格影响因素的分析是可行的,研究得到的关联规则对航运企业的船队更新和船舶投资有一定的参考价值.

参考文献:

[1] BEENSTOCK M. A theory of ship prices[J]. Maritime Policy & Management, 1985, 12(3): 215-225.

[2] BEENSTOCK M, VERGOTTIS A. An econometric model of the world shipping market for dry cargo, freight and shipping[J]. Applied Economics, 1989(21): 339-356.

[3] KAVUSSANOS M G. The dynamics of time-varying volatilities in different size second-hand ship prices of the dry cargo sector[J]. Applied Economics, 1997(29): 433-443.

[4] TSOLAKIS S D, CRIDLAND C, HARALAMBIDE H E. Econometric modelling of second-hand ship prices[J]. Maritime Economics & Logistics, 2003(5): 347-377.

[5] LUN Y H V, LAI K H, CHENG T C E. Shipping and logistics management[M]. London, Dordrecht, Heidelberg, New York: Springer, 2010: 33-48.

[6] 李升江. 船用钢板价格与手持订单量同船价指数的定量关系[J]. 船舶经济贸易, 2006(2): 13-14.

[7] 蔡立明. 基于计量经济理论的新造油船与散货船价格研究[D]. 上海: 上海交通大学, 2009.

[8] 王建华, 吕靖, 谭威, 等. 巴拿马型船舶航运市场价格波动的VAR模型分析[J].上海海事大学学报, 2009, 30(2): 78-83.

[9] 朱墨, 章强. 基于双对数回归模型的新造船船价影响因素研究[J]. 重庆交通大学学报:自然科学版, 2012, 31(3): 506-511.

[11] BHANDARI I. Data mining and knowledge discovery[M]. Boston: Kluwer Academic Publishers, 1997(1): 121-125.

[12] 寇宇. 关联规则挖掘在电信产品交叉销售中的应用研究[D]. 哈尔滨: 哈尔滨工业大学, 2010.

[13] 王宏雁, 王琪. 多层多维关联规则在交通事故研究中的应用[J]. 交通科学与工程, 2009, 25(1): 72-76.

[14] 郑滨, 金永兴. 基于属性约简的海事人为失误致因分析[J]. 上海海事大学学报, 2010, 31(1): 91-94.

[15] 宓为建, 徐子奇, 刘园. 大型港机结构应力峰值与小车位置关联规则的数据挖掘[J]. 上海海事大学学报, 2006, 27(3): 42-46.

[16] 甘辉兵, 任光, 张均东. 基于数据挖掘的船舶机舱监控系统[J]. 中国造船, 2011, 52(4): 214-221.

猜你喜欢
船龄贸易量海运
No.12 世贸组织:今年第二季度全球货物贸易增速减缓
欢迎订阅《世界海运》(月刊)
2020年沿海省际货运船舶运力报告出炉
2020年沿海省际货运船舶运力分析报告
天价海运为哪般?
贸易便利化的经济效应分析
中远海运集装箱运输有限公司船期表
2013年全球钢材贸易量下滑 中国钢材出口大幅度增长
2013年国内沿海货运船舶运力情况分析报告
论国际海运中的合同相对性突破与诉因