陈兆熙,王 莉
(南昌交通学院,江西南昌 330100)
船舶导航系统为船舶路径规划的自动化发展提供了有效辅助,船舶能够使用性能卓越的导航系统完成航行控制[1–2]。而目前航行距离的逐渐增加,航向和航行环境的不可判断性凸显,地理信息定位数据也呈爆发式增长。在海量信息数据环境中,想要准确、快速挖掘所需的导航数据,存在一定难度。甄荣等[3]在挖掘船舶导航信息中的航迹数据时,使用高斯混合模型,此模型以高斯混合聚类的方式,完成航迹信息挖掘。但当属性差异不显著的航迹数据混杂在一起时,信息挖掘精度便会下降。任成杰等[4]在挖掘船舶导航信息中的航迹数据时,使用GRU 自编码器先提取航迹数据特征,再以聚类的方式完成航迹数据聚类挖掘。但此方法在提取大规模航迹数据特征时,需要经过多次训练,才可以保证编码器的特征提取精度,因此存在挖掘耗时长的问题。
针对以上问题,本文设计一种基于滑动窗口的船舶导航信息关联挖掘系统。
所设计的基于滑动窗口的船舶导航信息关联挖掘系统整体架构如图1所示。
此次设计的船舶导航信息关联挖掘系统属于Client/Server 结构,当用户在客户端的挖掘界面输入导航信息挖掘请求后,客户端将请求信息发送至服务端,服务端由船舶导航信息挖掘模块组成,通过信息访问接口API,在船舶导航信息数据源中采用滑动窗口划分的方式提取候选数据流,再构建船舶导航信息挖掘的关联规则,挖掘满足用户请求条件的导航信息,返回挖掘界面。
船舶导航信息关联挖掘系统硬件结构如图2所示。
图2 系统的硬件结构Fig.2 Hardwarestructure of thesystem
如图2所示,系统硬件结构主要包括S3C2440处理器、人机交互屏、CAN 总线、串口等。CAN 总线和导航设备自身的标准串行接口相连,便可作为系统客户端和服务端的连接载体。人机交互屏可为用户提供挖掘请求输入、挖掘结果显示服务,具备人机交互功能。系统硬件平台主控制器为ARM920T 内核,在此控制器管理下,系统的LCD显示器可以支持STN 格式、TFT 格式数据的显示。控制器具备3通道的串行接口,4通道高速数据JTAG 接口,具备大规模船舶导航信息处理能力。
图3为船舶导航信息关联挖掘算法示意图。
如图3所示,采用滑动窗口进行导航信息关联挖掘时,将船舶导航信息流输入本文系统后,系统通过滑动窗口先挖掘出获选信息流。获取候选信息流后,再采用Apriori 算法挖掘导航信息数据流中的频繁项集,完成船舶导航信息关联挖掘。
1.2.1 基于滑动窗口的候选信息流挖掘
设置需要挖掘的船舶导航信息类型P是时间段t中的数据at,则基于滑动窗口的候选信息流挖掘步骤为:
1)提取某段船舶导航信息记录的时间序列,从时间t开始,设置滑动窗口信息点为
式中: d (.)为 距离计算函数;a vg(.)为平均计算函数。
3)若时间段t与时间段t−1导航信息之间的距离均值绝对值是则
此时处于距离均值周围的船舶导航信息为:
5)多次执行上述操作,最后输出候选导航信息流A。
1.2.2 基于Apriori 算法的导航信息关联挖掘
关联规则可以体现数据之间相关性,若多个数据之间存在相关性,关联规则便可体现数据之间的关系。为了对导航信息进行关联挖掘,以获得候选导航信息流为基础,采用Apriori 算法进行导航信息的关联挖掘。
设置候选导航信息流A中的某信息为项,各个导航信息记录就是1个项集,将其设成A={A1,A2,...,Am},m为项集中导航信息记录总数目。关联规则设成其中,a表示导航信息中的某数据,Y表示用户请求信息类型,在分析关联规则是否满足需求时,需要使用支持度support(aY)与置信度con fidence(aY),前者表示某项集在用户需求信息类型中的支持度,后者表示关联规则的可信度,支持度与置信度的计算公式为:
其中:count(aY) 为船舶导航信息a和用户请求信息的匹配数目;count(a) 为 船舶导航信息a的信息量。分析a与Y之间的关联规则支持度与置信度,如果均满足最小阈值,那么a就是和Y匹配的导航信息。在分析a与Y之间关联规则支持度与置信度的基础上,采用Apriori 算法先把候选导航信息数据流A映射为“0”与“1”的元素矩阵,称为布尔矩阵。矩阵行与列分别表示导航信息数据类型、用户请求的导航信息类型。比如滑动窗口分为5 个,那么便可构建5×5的布尔矩阵:
将布尔矩阵C每列用户请求的导航信息项,以并集的方式,构建候选频繁A项集,整理C中各列“1”元素的数目,执行剪枝处理,如果i列“1”元素数目小于阈值 β,便采取剪枝处理,反之去除此列,构建频繁A−1项集。
将频繁A−1项 集执行连接处理,将C的项列执行逻辑“与”计算,得到候选频繁A−2项集。将候选频繁A−2项集中,每个子元素的“1”和阈值对比,更新候选频繁A−2 项集。循环操作,当项集A为空集便可停止,输出最后挖掘的频繁项集,此项集即为用户请求的船舶导航信息关联挖掘结果。
为测试本文系统是否有效,进行系统导航信息挖掘性能分析。
图4和图5为本文系统挖掘界面为用户提供的请求信息示例图、导航信息挖掘结果显示图。
图4 导航信息挖掘请求信息示例图Fig.4 Example of navigation information mining request information
图5 导航信息挖掘结果显示图Fig.5 Display of navigation information mining results
为体现本文系统的挖掘精度,以航迹信息为例,将挖掘的航迹信息量Aj和实际航迹信息量Ab之间平均距离O作为指标,O可体现挖掘信息量的完备性,其数值越小,表示信息越完备、越准确。则
表1 船舶导航信息中航迹信息挖掘效果Tab.1 Effect of track information mining in ship navigation information
可知,船舶导航信息中航迹信息挖掘效果较好,O的数值极小,说明本文系统挖掘信息量的完备性显著,准确性显著。原因是本文系统能够将船舶导航信息数据流划分为多个滑动窗口,通过关联规则挖掘的方式,挖掘与用户请求相匹配的导航信息。图6和图7为本文系统使用前后,多种导航信息挖掘耗时对比结果。
图6 系统使用后挖掘耗时Fig.6 Mining timeconsumption after system use
图7 系统使用前挖掘耗时Fig.7 Mining time beforesystem use
对比可知,本文系统对多种导航信息挖掘耗时小于0.4 s,和使用前相比,挖掘耗时明显缩短,说明本文系统的挖掘效率有所提升。原因是本文系统利用滑动窗口划分技术,能够把大规模的船舶导航信息分解为多个窗口,提高数据挖掘有序性,从而保证数据的处理效率。
本文设计基于滑动窗口的船舶导航信息关联挖掘系统,引入滑动窗口技术和关联规则挖掘算法,能够在规模化、复杂化的导航信息流中,将杂乱无章的信息划分为多个挖掘操作窗口,从而以关联规则挖掘的方式,提取匹配用户请求的导航信息数据。实验结果显示,本文系统导航信息挖掘的完备性显著,准确性显著,挖掘耗时小于0.4 s,导航信息挖掘性能得到提升。