周丹,郑中义
(大连海事大学 航海学院,辽宁 大连 116026)
能见度良好时影响船舶领域的因素的重要性分析
周丹,郑中义
(大连海事大学 航海学院,辽宁 大连 116026)
为了对能见度良好时影响船舶领域因素的重要性进行评价并进行因素约简,降低船舶领域模型的复杂度,本文选择主成分回归算法和基于粗糙集算法对其进行分析。利用主成分回归算法得到了影响船舶领域的因素的重要度;利用基于粗糙集算法得到了影响船舶领域因素的约简集与因素重要度。对两种方法得到的结果进行比较,确定了影响船舶领域因素的重要性。结果表明,船舶大小、船舶类型、船舶速度、会遇角度、密度和驾驶员级别较重要,风、浪、流、能见度的重要度次之,且风、浪、流对船舶领域的影响可以忽略。
影响因素;主成分回归;船舶领域;粗糙集;重要度
能见度良好时,影响船舶领域的因素众多,确定船舶领域模型时很难将全部影响因素同时进行考虑。例如Goodwin[1]对水域类型和船舶密度对船舶领域的影响进行了统计,PIETRZYKOWSKI Z等和Hsu都对会遇局面对船舶领域的影响进行了研究[2-3], PIETRZYKOWSKI Z模型中同时对水域参数和船舶大小对船舶领域的影响进行了研究[4],Hansen等对水域类型和水域参数进行了研究[5],范贤华等所建模型中包含了船长、速度、潮流速度[6],王云英对限制性水域的领域进行了研究[7],王宁提出的四维船舶领域模型中船舶领域大小的确定包含影响因素船舶长度和速度[8-9]。王宁给出了船舶领域模型的四维解析框架,包含了船舶领域的全部影响因素,但模型较复杂[10]。基于神经网络[11-12]方法得到的船舶领域与其影响因素的关系,虽能同时考虑较多的影响因素,但这种方法是一种黑箱的方法。
众多影响船舶领域的因素给船舶领域的研究带来了困难,而不同因素对船舶领域影响的大小不同,目前缺乏对影响船舶领域的因素对船舶领域影响重要性的分析。确定不同影响因素的重要度,对其进行约简,可以简化建立船舶领域模型的难度与复杂性,且可以保证所建模型的合理性与精确性。
利用主成分回归分析与基于粗糙集的相关算法对影响船舶领域的因素的重要度进行分析,并对两种方法得到的结果进行对比确定了对船舶领域影响较重要的因素、重要度较小的因素和可删掉因素。
1.1 船舶领域
1.1.1 船舶领域样本的选取
根据藤井和Goodwin对船舶领域的定义,船舶领域为驾驶员为保证航行安全想要保持的船舶之间的最小安全会遇距离,其一种具体体现即为采取避碰措施的船舶与中心船实际通过的最近会遇距离,设为d。其次,假设一密度均匀的船舶交通流在与某船舶会遇并采取避碰措施通过如图1所示,船舶领域由船舶之间的最小安全会遇距离决定,且在中心船o周围同一方向RBi上,船o1的转向幅度必大于o2、o3,o1与中心船通过距离为d处船舶密度增大最多,即为船舶密度最大处,与藤井定义的领域边界吻合。所以以d作为对船舶领域影响因素进行分析的领域样本[2]。
图1 船舶避碰运动Fig.1 Behavior of the ships collision avoidance
1.1.2 船舶领域大小的度量
船舶领域不同方位的边界到中心船的距离不同,样本数据中的船舶领域不能进行比较。所以将样本中,中心船周围不同方位上的领域大小转换为相同方位上的领域大小。设船舶领域模型中任意方位β上的领域边界到中心船的距离为dβ,尾部扇区长为l(中心船到尾部端点的距离),以中心船舶船首方向为0,船尾为180°,左右对称。参考Goodwin船舶领域模型[1],设船舶领域样本满足如下dβ与l的比例关系:
(1)
1.2 影响因素
船舶领域影响因素主要可分为人、船、环境、管理四类。其中管理在所选水域范围内,存在的差异很小,不予考虑。针对数据来源水域的特点,参考文献[2],对开阔水域能见度良好时,影响船舶领域的
因素的选取如表1。
表1 影响船舶领域的因素
2.1 数据来源与数据处理
根据渤海及黄海北部水域内的船舶自动识别系统AIS)数据,通过计算,选择其中2 023起数据为样本,时间为2014年9月26日到2014年10月13日。气象数据来自于中央气象台的天气预报,水文数据来自于国家海洋环境预报中心的预报。A1、B1、C1、 C2、C3、C4、 l为常规度量方式,其他影响因素的度量方式如表2,原始数据如表3。
表2 数据度量方式
表3 原始数据
2.2 研究方法的选择
首先对数据的相关性进行分析,根据数据特征选择较恰当的研究方法。利用SPSS软件进行kaiser meyer olkin (KMO)测量和巴利特检验得到结果如表4,其中近似卡方值显著性为 0.000,KMO测量值为 0.653,表明样本数据之间存在一定的相关性。对样本数据之间存在相关性的问题,可选择主成分回归分析法进行分析。而不同的方法有各自不同的优缺点,为了增加结果的可信度,选择基于粗糙集的算法对影响因素进行分析,并对两种方法得到的结果进行对比。由于基于粗糙集算法对数据没有较特殊的要求,所以两种算法均适用于研究需要。
表4 KMO和巴利特检验结果
主成分分析可以把相关性较强的自变量综合在同一主成分中,各主成分彼此独立,应用时选择其中包含了原数据大部分信息的主成分作为新的变量进行回归分析,然后把主成份回归方程转换为线性回归方程,得到因变量与原始自变量的回归系数。根据因变量与原始自变量的回归系数的大小可以找出影响因素中的重要因素。具体步骤为:
1)数据标准化。
2)计算影响因素数据的协方差矩阵∑。
3)计算∑的征值λi(i=1,2,…,p)和特征向量aij(i,j=1,2,…,p),并按λi(i=1,2,…,p)大小顺序排序,计算主成分贡献率及累计贡献率,选择前m个主成分的累计贡献率大于85%。
4)对前m个主成分与船舶领域做回归分析。
5)将主成分还原为原变量,得到原变量与船舶领域的回归方程。
使用SPSS统计软件IBM SPSS Statistics 22对影响船舶领域的因素观测数据进行主成分分析,得到主成分的特征根和方差百分比。从表5的计算结果可以看到当提取前6个主成分时,主成分的累积方差贡献率达到了84.766%,可以近似满足对累积方差贡献率的要求,即包含了原数据的大部分信息,所以主成分的提取结果为前6个主成分。对前6个主成分做回归分析,主成分回归参数估计如表5。
表5 主成分的贡献率、累计贡献率
Table 5 The contribution rates and the cumulative contributionrate of the Principal component
主成分特征根方差百分比/%累积/%F13.15931.58931.589F21.46314.62846.217F31.06110.61456.831F40.9829.81966.650F50.9459.45476.104F60.8668.66284.766F70.6986.97591.741F80.5975.96997.710F90.1981.97799.687F100.0310.313100.000
表6 主成分回归参数估计
Table 6 Parameter estimation of principal component regression
主成分估计参数标准误差t显著性截距2415.08527.61587.4540.000F131.89927.6221.1550.248F2213.64827.6227.7350.000F374.65427.6222.7030.007F440.76627.6221.4760.140F56.57127.6220.2380.812F6-314.41927.622-11.3830.000
表6中只有第2、第3和第6主成分对应的P值小于0.05,其他主成分对应的P值都大于0.05,说明只有第2、第3和第6主成分是显著的。以第2、第3和第6主成分为自变量,以船舶领域为因变量做回归分析,得到如式(2)所示的回归方程:
(2)
将主成分F2,F3与原始变量的关系式代入式(2),得到因变量与影响因素的关系:
-262.842 4,13.194 2,20.957 9,5.019 3,
-19.128 7,50.265 4)(A1,A2,B1,B2,
(3)
式(3)的回归系数中B3(会遇角度)的系数最大;其次A2(船舶类型)和B2(密度)的系数也很大,二者大小接近;A1(船舶长度)、B1(速度)和D1(驾驶员级别)的系数也较大;C1(风) 、C2(浪)、C3(流)和C4(能见度)的系数较小。
基于粗糙集理论的影响船舶领域的因素对船舶领域影响的重要度分析首先定义其对影响因素的依赖度,然后比较去掉某因素时,船舶领域对其他因素的依赖度与增加该因素时船舶领域对其他因素的依赖度的影响来判断某因素的重要性并进行属性约简。设影响因素集P,船舶领域Q,任一影响因素a,a的重要度及P的约简过程如下:
1)计算ind(P-a)与ind(Q)
2)计算Q的P正域与Q的P-a正域
posP(Q)=posind(P)(ind(Q))
3)计算船舶领域依赖于影响因素的依赖度
4)因素a重要度为
5)因素约简若某影响因素子集P′的重要度σPQ(P′)为0,则P-P′为P的Q约简。
数据的离散化划分如下:
1)船舶长度:按照船舶长度等间隔划分,单位:m,1=[0,100),2=[100,200),3=[200,300),4=[300,400]。
2)船舶类型:按照船舶类型的特殊性,1={其他船舶},2={港口作业船和特种船舶},3={货轮},4={油轮和化学品}。
3)速度:按照船舶速度,以对地航速为5.5kn等间隔划分,1=[0,5.5),2=[5.5,11),3=[11,16.5) ,4=[16.5,22]。
4)密度:按照水域内不同区域密度的大小,密度相近的划分为一类,根据对数据的统计可将数据划分为:1={丹东、锦州、营口及天津与大连之间的密度较小水域},2={黄骅、东营、潍坊附近水域},3={大连、烟台、威海、龙口附近水域}, 4={天津港附近水域}。
5)会遇角度:会遇角度以本船为对象,左右对称,船头方向为0o,船尾为180o。参考会遇局面划分,1=[0,5),2=[5,54),3=[54,112.5) ,4=[112.5,180]。
6) 风:按照风级数为1级等间隔划分,1=[4,5),2=[5,6),3=[6,7) ,4=[7,8]。
7)浪:按照浪高为0.6m等间隔划分,1=[1.2,1.8),2=[1.8,2.4),3=[2.4,3.0) ,4=[3.0,3.6]。
8)流:按照平均流速为1kn等间隔划分,1=[1,2),2=[2,3),3=[3,4) ,4=[4,5]。
9)能见度:按照能见度等级为2km等间隔划分,1=[10,12],2=[13,15],3=[16,18] ,4=[19,21]。
10)驾驶员级别:按照驾驶员级别,1={三副},2={二副},3={大副}。
船舶领域大小的划分为:按照l的大小,m,等间隔划分。
利用MATLAB编程计算,得到影响因素重要度结果如图2。图中只有C1,C2,C3的属性重要度为0,根据属性重要度定义和属性约简定义可知,利用船舶领域影响因素重要度求相对约减,只需考虑重要度为0的因素,且不必要子集为重要度为0的最大子集。所以求影响船舶领域的因素的约减只需考虑C1,C2,C3。 图3为包含影响因素C1,C2,C3的可能不必要子集重要度计算结果,其中属性重要度为0或近似为0且最大的子集分别为{C1}、{C2、C3}所以设影响船舶领域的因素约简集为R和S:
R={会遇局面、船舶大小、速度、风、驾驶员级别、密度、船舶类型、能见度}
S={会遇局面、船舶大小、速度、浪、流、驾驶员级别、密度、船舶类型、能见度}
约简集R、S的重要度如图4、图5。
图2 影响船舶领域的因素重要度Fig.2 The importance of the factors of ship domain
图3 影响因素子集重要度Fig.3 The importance of the factors subset
图4 约简集R的影响因素重要度Fig.4 The importance of the factors of reduction set R
图5 约简集S的影响因素重要度Fig.5 The importance of the factors of reduction set S
图2、4、5中同一影响因素重要度的差距很小,说明了约简掉的影响因素对其他影响因素的重要度影响很小,与属性约简的定义吻合。
根据粗糙集的计算结果,重要度最大的为B3(会遇角度),其次是B2(密度)、D1(驾驶员级别)和B1(速度),A1(船舶长度)和A2(船舶类型) 的重要度也较大,C4(能见度)、C1(风)、C2(浪)和C3(流)的重要度较小。
基于粗糙集的影响因素重要度计算结果与主成分回归分析结果如表7。
表7 主成分回归与基于粗糙集方法的因素重要度结果的比较
Table 7 Comparison of importance degrees between principal component regression and rough set method
因素重要度及排序(粗糙集)重要度及排序(主成分回归)A10.149 ⑤107.3939 ④A20.104 ⑥187.5904 ②B10.185 ④-69.8481 ⑤B20.157 ②160.8022 ③B30.239 ①-262.8424 ①C10 ⑩13.1942 ⑨C20 ⑩20.9579 ⑦C30.001 ⑧5.0193 ⑩C40.015 ⑦-19.1287 ⑧D10.165 ③50.2654 ⑥
两种方法比较得到的结论相同,影响船舶领域的因素中都较大的为B3(会遇角度)、B2(密度)、D1(驾驶员级别)、B1(速度)、A1(船舶长度)和A2(船舶类型),较小的为C1(风)、C2(浪) 、C3(流)和 C4(能见度)。且利用基于粗糙集的算法得到的结果中,风或浪、流被约简掉,基于主成分回归分析的算法中风或浪、流的重要度也非常小,两算法得到的结果也具有一致性。
利用主成分分析理论对能见度良好时影响船舶领域的因素进行筛选的结果与利用粗糙集算法得到的结果大致相同,证明了两种算法分析的有效性,保证了结论的正确性。对影响船舶领域的因素进行筛选对降低研究船舶领域的复杂性具有重要意义,为研究船舶领域提供新的思路,利于对船舶领域的研究并简化其在实际中的应用。
[1]GOODWIN E M. A statistical study of ship domains[J]. The journal of navigation, 1975, 28(3): 328-344.
[2]PIETRZYKOWSKI Z, URIASZ J. The ship domain-a criterion of navigational safety assessment in an open sea area[J]. The journal of navigation, 2009, 62(1): 93-108.
[3]HSU H Z. Safety domain measurement for vessels in an overtaking situation[J]. International journal of e-navigation and maritime economy, 2014, 1: 29-38.
[4]PIETRZYKOWSKI Z. Ship’s fuzzy domain-a criterion for navigational safety in narrow fairways[J]. The journal of navigation, 2008, 61(3): 499-514.
[5]HANSEN M G, JENSEN T K. Empirical ship domain based on AIS data[J]. The journal of navigation, 2013, 66(6): 931-940.
[6]范贤华, 张庆年, 周锋, 等. 水流条件下内河船舶领域模型[J]. 大连海事大学学报, 2013, 39(1): 46-48. FAN Xianhua, ZHANG Qingnian, ZHOU Feng, et al. Model of ship domain in river water[J].Journal of Dalian Maritime University, 2013, 39(1): 46-48.
[7]WANG Yueying, CHIN H C. An empirically-calibrated ship domain as a safety criterion for navigation in confined waters[J]. The journal of navigation, 2016, 69(2): 257-276.
[8]WANG Ning. An intelligent spatial collision risk based on the quaternion ship domain[J]. The journal of navigation, 2010, 63(4): 733-749.
[9]WANG Ning, MENG Xianyao, XU Qingyang, et al. A unified analytical framework for ship domains[J]. The journal of navigation, 2009, 62(4): 643-655.
[10]WANG Ning. A novel analytical framework for dynamic quaternion ship domains[J]. The journal of navigation, 2013, 66(2): 265-281.
[11]WANG Ning, TAN Yue, LIU Shaoman. Ship domain identification using fast and accurate online self-organizing parsimonious fuzzy neural networks[C]//Proceedings of the 30th Chinese Control Conference. Yantai, China: IEEE, 2011: 5271-5276.
[12]ZHU Xiaolin, XU Hanzhen, LIN Junqing. Domain and its model based on neural networks[J]. The journal of navigation, 2001, 54(1): 97-103.
Importance analysis of the effect factors in ship domain of good visibility
ZHOU Dan, ZHENG Zhongyi
(Navigation College, Dalian Maritime University, Dalian 116026, China)
To evaluate the significance of influencing factors in the ship domain and then reduce factors, the complexity of the study of ship domain was reduced. The principal component regression algorithm and the algorithm based on rough sets were selected to perform the analysis. The principal component regression algorithm and the algorithm based on rough sets were used to obtain the significance degrees of the factors of the ship domain. The correlation algorithm based on rough sets was also used to obtain the reduction set. Then, the significance of the factors was obtained by comparing the results of the two methods. Results show that the size, type, speed, encounter angle, density, and the level of the navigators are the most important factors. Wind, wave, flow, and visibility are less important factors, and the effect of wind, waves, and flow can be ignored.
influencing factors; principal component regression; ship domain; rough set; importance degree
2015-09-18.
时间:2016-12-12.
国家自然科学基金项目(51409033).
郑中义(1964-),男,教授,博士生导师.
郑中义,E-mail:dlzzyi@sina.com.
10.11990/jheu.201509058
U676.1
A
1006-7043(2017)01-0020-05
周丹,郑中义. 能见度良好时影响船舶领域的因素的重要性分析[J]. 哈尔滨工程大学学报, 2017, 38(1): 20-24. ZHOU Dan, ZHENG Zhongyi. Importance analysis of the effect factors in ship domain of good visibility[J]. Journal of Harbin Engineering University,2017, 38(1): 20-24.
网络出版地址:http://www.cnki.net/kcms/detail/23.1390.u.20161212.1631.032.html