孙 爽,陈 燕,朴在吉,张金松
1.大连海事大学 航运经济与管理学院,辽宁 大连116026
2.大连外国语大学 软件学院,辽宁 大连116044
在大数据的时代背景下,轨迹数据的多样性愈发明显,在包含时间、位置、位移、速度等基本信息的前提下又可包括根据实际情况的个性化信息。由于时空轨迹数据是真实存在的移动对象的行为模式,在数据处理和计算过程中可以利用轨迹中含有的时空序列的特征,但同时由于传感器、噪声和其他因素的差异和影响,轨迹数据是永远不会完全精确的[1]。各个交通领域的轨迹数据大量存在,有着多方面的应用。它包含不同交通个体泛在的共性的行为模式与移动规律,例如城市车辆出行活动特征、人群的移动轨迹特征、港口船舶轨迹流的内在规律。基于轨迹数据的时空模式挖掘是大数据研究的重要方向,例如路径推荐、城市交通规划、交通路况预测、安全情报分析等具体应用,对于人类的生产生活有重要的意义。早在2004年新加坡就将出租车的轨迹数据应用于实时的交通监控的管理决策中,后续又用于路径、交通流监控、交通异常检测等方面[2]。近年来,Zheng[3]针对轨迹数据挖掘进行了一次全面的调查,提出了研究框架来深入探讨轨迹数据时空模式挖掘的研究领域。Mao等[4]研究基于出租车运行轨迹及其在城市通勤模式挖掘中的应用,提出了一种从具有大量点位置的出租车轨迹数据集中发现家庭出行时空模式的新方法,从而了解城市结构和隐含的家庭通勤行为的空间分布和时间趋势。Zhang等[5]提出了一种轨迹模式识别方法,采用状态转移模型预测实时位置的更新,基于聚类方法识别出人类的日常位置和重要位置,展示了处理位置信息促进应急管理的潜力。Enami等[6]提出利用大量轨迹数据的挖掘与预测算法,挖掘出时空轨迹频繁模式来预测用户未来移动的方法,掌握移动在时空中的行为。由此可以看出,对于轨迹数据进行时空模式挖掘并进行管理决策可以从多个方面为人类提供便利,但是大多数时空轨迹模式挖掘对海量轨迹数据的挖掘方法、效率和挖掘的范围都存在着一定的局限性,在轨迹数据驱动的时空模式挖掘与管理决策需求下,本文基于文献[3]中的框架对基于轨迹数据的时空模式挖掘与管理决策方法进行了研究,基于底层轨迹预处理到轨迹索引与检索、轨迹模式挖掘,添加了基于轨迹的智能交通管理,位置预测和服务推荐模块都是当前研究的热点。在轨迹数据的不同时空模式挖掘的基础上发现对行业决策有价值的信息,将人从决策中解放出来,使得决策的主体更趋于多元化,助力决策者做出精准客观的决策,在竞争中获得优势。
本文将从时空轨迹模式挖掘的需求入手,从时空轨迹数据的预处理与相似性度量、时空轨迹模式的挖掘过程及研究现状、基于时空轨迹挖掘的管理决策方法及未来发展趋势三方面来阐述该领域的现状和发展。第一方面,针对数据的预处理进行介绍,包括数据清洗中的异常点和异常轨迹检测,以及轨迹压缩和轨迹分段,接着介绍了轨迹的相似性度量;第二方面,介绍时空轨迹的模式挖掘,并阐述近几年该领域的研究情况和存在的问题;最后,阐述现有基于轨迹数据的管理决策方法和未来会面临的挑战以及发展趋势。
时空轨迹是移动对象在空间中随着时间变化而形成的,符合大数据传统的3V基本特征[7]。时空轨迹除包含本身时间、位置、速度、加速度等内在特征外,还可以被赋予语义特征。综合轨迹位置相关的天气数据、地形数据以及具体应用领域的其他信息数据即可以得到该轨迹的语义信息,例如轨迹停留段和移动段等。时空轨迹数据的原始数据有着漂移、中断与冗余等问题,因此在进行研究之前需要进行数据的预处理,这是保证研究有效且能够应用于不同领域的必要步骤。
实际中大部分轨迹数据存在着所谓的脏数据,需要对其进行数据清洗,这是所有预处理流程中的共性操作。在原始数据中,一些误差是可以接受的,像通信网络中少量位置信号丢失,这样的误差可以通过添加保持器等方法修正;另一方面,有些误差是不可以接受的,需要进行剔除,比如严重偏离了轨迹的数据和大量重复的数据等。
1.1.1异常点检测
1980年,Hawkins对异常点做出了定义[8],传统的异常点检测算法主要基于四类:统计、分类、密度和距离[9]。但是在轨迹的异常点检测中,由于大多数轨迹数据都是基于时间和空间的位置序列,轨迹中的相邻点互相有着上下文关系,这是传统的异常点检测方法所忽视的问题。改进的传统异常点检测算法大部分是根据特定的轨迹数据人工设置相应的参数和规则来完成检测[10-12],存在的主要问题包括:
(1)参数设置过程需要大量的人工分析和繁琐的测试调整;
(2)参数阈值难以设定,方法容易出现漏检和错检的情况;
(3)适用于限定类型的轨迹数据,扩展性不强;
(4)不能自动学习异常点存在的差异。
目前,与传统方法不同的是深度学习方法在异常检测中发挥了巨大的潜力,可以直接从轨迹大数据中自动学习位置、时序等特征。Fernando等[13]提出了一个新的以注意力机制为基础的框架来模拟行人流量的监控设置,从而预测出感兴趣行人的未来位置,可以应用于具有大量邻居的真实场景,将预测路径和位置与行人的真实路径进行对比,来检测轨迹的异常行为。文献[14]在长短时记忆网络优异的特征学习能力的基础上,提出一种双向长短时记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM),对于正常点与其临近的异常点在运动特征上的差异能够自动进行学习,检测的性能显著优于恒定速度阈值法和经典机器学习分类法。
1.1.2异常轨迹检测
轨迹模式挖掘中的异常轨迹检测技术为后续全部挖掘过程提供精准的数据基础,在智能交通与位置推荐等服务中有广泛的应用。目前的研究主要集中在轨迹空间特征上,不同的研究者针对异常检测方式有不同的分类规范,针对不同研究角度和文献分析,将主流的轨迹异常检测技术总结划分为以下四类[15-17],如图1所示。
图1 时空轨迹数据的异常检测技术分类Fig.1 Classification of anomaly detection techniques for spatiotemporal trajectory data
(1)基于统计分析的异常检测
统计分析是异常检测最早使用的方法,利用某个统计分布来对数据进行建模,正常轨迹分布在高概率区域,而异常轨迹则分布在概率较低区域。参数化统计分析方法可以快速无监督地检测异常,但是需要对参数的配置和优化状况进行估计;非参数化统计方法则不用对数据底层分布做假设。Laxhammar等[18]提出了用于在线学习和轨迹异常检测算法SHNN-CAD,使用统计学方法对阈值进行矫正来区分正常与异常轨迹,应用一致性方差检测器来计算轨迹的统计置信值。李楠等[19]使用多元回归模型拟合位置信息特征,得到多维特征表达式,计算测试轨迹到多维特征表达式的距离是否在所确定置信区间范围内,基于统计学方法完成对航空器异常轨迹检测。
(2)基于机器学习的异常检测
训练与测试两个阶段是机器学习中基于分类的轨迹异常检测技术的核心,包括构建分类器和根据分类器将测试轨迹实例划分为正常与异常两类对象。文献[20]针对移动对象的异常检测问题提出了ROAM框架,是第一个在基于离散单元的特征空间中表示轨迹的算法,基于规则的分类器可以学习特定于任何场景的规则来检测异常轨迹,但是基于分类的异常检测方法需要训练的过程。Piciarelli等[21]引入了机器学习中的支持向量机来检测轨迹异常,将多特征的轨迹集进行聚类分析,对新到轨迹与聚类模型进行比较以检验其是否存在异常。Yin等[22]集成了卷积神经网络和递归自动编码器来进行异常检测,通过两级滑动窗口进行低层次的时间特征提取,对全连通网络进行分类,提高时间序列的分类性能和异常检测效果。
(3)基于距离的异常检测
基于距离来进行轨迹异常检测的概念是由Knorr等[23]首次提出,用一些轨迹中包含的位置、方向和速度组成的代表性特征来表示轨迹,之后对这些特征的相似性进行计算来检测异常轨迹。随着轨迹划分的提出,针对划分后的子轨迹中存在的异常检测,Lee等[24]提出了一种基于分割检测框架的TRAOD算法,通过粗粒度、细粒度二级细分策略将轨迹划分成线段集,将异常的局部特征所占比例作为判断标准,但该算法不适用于轨迹流的在线异常检测。Yu等[25]针对轨迹流中异常移动对象提出了两种轨迹近邻的概念和两种异常定义,提出一种可扩展到大数据轨迹流的优化MEX策略来检测新的异常点。
(4)基于网格划分的异常检测
轨迹异常研究中,基于网格划分的轨迹异常检测技术被大量工作采用,针对城市路网进行划分,均分成等大小的网格单元后对异常的网格单元序列进行检测。Zhang等[26]基于异常数据特征的异常检测初衷建立了一种基于隔离的异常轨迹检测方法(isolation-Based Anomalous Trajectory detection method,iBAT),划分网格后将每条轨迹的轨迹点序列转化成网格序列,得到多个相同起点和终点的轨迹簇,最后通过隔离机制检测出异常轨迹。Wang等[27]提出基于密度的空间聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)方法,采用两层方法来对船舶航线的异常活动进行识别,并利用标记数据对Hadoop中的学习算法进行训练。
四种异常轨迹检测方法的特点总结如表1所示。
表1 异常轨迹检测方法比较Table 1 Comparison of anomaly detection methods for trajectory data
轨迹分段是在长时段轨迹中利用设定的时间段或选取一些变化较大的特征点等,进行合理切分与标注。分段后的轨迹在后续轨迹挖掘计算过程中的复杂度得到了降低,同时还能够提供比分段之前更加丰富的规律和知识,提高存储的有效性。轨迹分段的三种基本策略包括基于时间阈值的轨迹分段,划分基于设定的时间段或时间间隔;基于几何拓扑的轨迹分段,划分基于轨迹的特征点,如压缩后保留的点、方向角变化大的点等;基于语义的轨迹分段,划分基于轨迹的上下文,如停留点、出行模式等[28]。文献[29]基于轨迹数据和道路信息的复杂性,提出了一种基于概率逻辑的数据分割方法(Probabilistic Logic Based Data Segmentation Method,PLDSM),有助于快速查找所有物流运输中的业务点。文献[30]在现有分段方法基础上,提出了一种无监督轨迹分段方法,构造了衡量特征距离的损失函数,设计元启发算法调整部分参数权重来影响构建过程,在没有先验知识前提下实现轨迹分段。
时空轨迹中存在的移动对象的轨迹点通常采用秒级记录,每一个点在轨迹挖掘过程中的重要程度并不相同,大量的轨迹点数据加重数据库存储和工作负荷,而大部分轨迹数据挖掘工作不需要全部位置定位,因此可对轨迹进行压缩来实现更为简洁的轨迹表示。在进行轨迹压缩时,通常利用压缩算法将轨迹简化,用距离表示压缩误差。根据应用场景的不同,轨迹压缩分为离线压缩和在线压缩。离线压缩主要是从全局的视角,对历史轨迹数据或者静态轨迹数据中最具代表性的轨迹点进行保留,如经典Douglas-Peucker算法;在线压缩主要是从局部的视角,对轨迹中累计误差最大的点进行保留,因此离线压缩不适用于所有场景。目前主流的在线压缩算法有Sliding Window、SQUISH(Spatial Quality Simplification Heuristic)、SPM(Scan-Pick-Move)、TD-TR(Top-Down Time Ratio)等[31-32],作者在文献[32]中基于Sliding Window和SPM算法进行了改进和对比,基于的思想是经典Sliding Window的逐步压缩,如图2所示。
图2 经典滑动窗口压缩算法过程Fig.2 Process of classical sliding window compression algorithm
基于某港口300多条活动较为频繁的船舶连续1个月的AIS轨迹运行数据集,共有1 402 015个轨迹点,为评价压缩效果,采用最通用的性能评价方法,压缩时间T、压缩率R和压缩误差E,得到的对比结果如图3所示。
图3 压缩性能对比Fig.3 Comparison of compression performance
通过比较可以发现,随着阈值的增大,改进算法不仅获得了更好的压缩精度,而且在压缩时间上比其他算法具有更大的优势,继承了SPM算法良好的压缩时间,轨迹的在线压缩需要对数据进行在线分析和处理,因此压缩时间越短,算法效果越好,压缩比的降低使得数据存储成为能够准确反映轨迹的特征点。
轨迹处于多维空间中,也是一种特殊的时序类型,且轨迹中的位置属于二维数据,因此针对于时序数据适用的相似性准则函数,也可以适用于针对轨迹数据的相似性度量,例如欧氏距离、DTW(Dynamic Time Warping)、LCSS(Longest Common Subsequence)、CPD(Closest-Pair Distance)、SPD(Sum-of-Pairs Distance)、EDR(Edit Distance on Real sequence)等。
(1)CPD
CPD需要找出两条轨迹之间距离最小的两个点之间的距离,计算如下:
其中,Dist(loc,loc′)是欧氏距离,这种方法比较容易受到两条轨迹在某点相交但整体差异较大等局部极端情况的影响。
(2)SPD
SPD针对的是具有相同长度的两条轨迹,它计算两条轨迹中对应序号位置点的距离总和,并以该总和距离作为两条轨迹之间距离的度量,计算如下:
(3)DTW
DTW针对的是长度不同的两条轨迹,这样就存在计算过程中允许根据需要将某些位置点重复使用的情况,基于这种情况可以对齐两条轨迹之间的所有位置点,计算如下:
其中,|Ta|和|Tb|分别表示轨迹Ta和Tb中的位置点数目,loc1和loc1′分别表示轨迹Ta和Tb的第一个位置点,Rt(Ta)和Rt(Tb)分别表示在轨迹Ta和Tb中去除第一个位置点后剩余的轨迹。
(4)LCSS
LCSS的目标是减少轨迹中噪声点对轨迹距离度量的影响,它允许在轨迹距离度量时忽略掉某些噪声点,找到所有序列中的最长公共子序列,计算公式如下:
其中,δ和ε分别表示两个位置点在x坐标和y坐标上的相似性阈值。LCSS越大,表明两条轨迹越相似,相应地,基于LCSS方法的两条轨迹之间的距离可以计算如下:
(5)EDR
EDR与LCSS类似,忽略掉某些噪声点的影响,也能解决LCSS对具有相同公共子序列的轨迹无法区分的情况,计算公式如下:
轨迹之间的距离度量可以用于轨迹聚类、移动对象分析等多个领域,根据具体应用场景不同选择最佳距离计算方法至关重要。
从轨迹数据中挖掘移动目标的时空模式,对于理解人群流动、动物迁徙、智能交通、生态环境和城市规划中的诸多问题具有重要价值。一般可根据轨迹的空间和时间特性将轨迹模式分为聚集模式、伴随模式、异常模式、频繁模式,四种时空模式挖掘的特点总结如表2所示。
表2 时空模式挖掘Table 2 Spatiotemporal pattern mining
在一个时空序列中频繁重复的路径[33]被称为时空轨迹频繁模式。时空轨迹的频繁模式挖掘可以对应于序列的频繁模式挖掘,但无法简单地采用传统序列挖掘方法解决时空轨迹频繁模式挖掘问题。
2007年,Giannotti等[34]针对简单地采用传统序列挖掘方法无法完全适用的问题,建立了一种序列模式挖掘范式的扩展,提出了T模式来提取轨迹数据中位置、时间和语义维度等信息。邓佳等[35]依托T模式,提出DPTUpdate算法,设计蕴涵时空信息的快捷数据结构,存储和查询移动物体的T-模式,并提出Prediction算法计算最佳匹配度,与已有方法相比,其预测效果有显著提升,但是只能提取最精细时间粒度的模式,忽略了在较粗时间粒度下可用的潜在模式。因此,Karli等[36]提出了两种技术,使其应用在不同的时间粒度。谭军等[37-38]针对数据流的频繁模式挖掘提出一种单遍扫描频繁模式树结构FPS-tree,这种结构是在传统FP-tree[39]基础上进行的改进算法,只需要对数据流进行单遍的扫描就能获取全部信息,为了满足滑动窗口特征提出了“尾结点”概念用来保存窗格信息,不用考虑数据的分布和项目的顺序,具有良好的压缩性能。2018年,Xia等[40]利用MapReduce发现隐含的时空频繁模式,提出了一种改进PFP[41]并行频繁模式增长(MR-PFP)算法,在Hadoop平台上利用大规模出租车轨迹和大量小文件处理策略分析出租车运营的时空特性。频繁模式挖掘算法比较如表3所示。
表3 频繁模式挖掘算法比较Table 3 Comparison of frequent pattern mining algorithms
通过挖掘时空轨迹数据中做相似运动的移动群体,可以帮助路线相似的上班族分享停车位,科学家们通过对伴随模式的挖掘来对物种迁移进行研究。同时,伴随模式能被应用于资源分配、安全管理、传染病控制等诸多方面。
目前,已有主流的关于伴随模式的研究包括以下四种方法[42]:Flock方法,考虑持续时间和圆形地理空间内的群体时空约束条件;Convoy方法,定义一种时空间约束扩展Flock;Swarm方法,放宽时间约束条件扩展为不一定连续;Platoon方法,满足时间总和、阈值细化得到局部和全局时间连续模式,这些方法主要针对的都是静态轨迹流数据。李勇男[43]对反恐情报中的时空轨迹数据进行研究,通过对其伴随模式挖掘,能够发现重点人群在特定时间内的移动规律。根据反恐数据的特殊性对传统挖掘方式进行改进,进一步提供更深层次的情报。2017年,朱美玲等[44]基于传统伴随模式挖掘,提出Traveling Companion伴随模式,基于Spark设计伴随发现算法重新定义了Platoon伴随模式,同时提出了点伴随的概念,降低了计算复杂度。2020年,王齐童等[45]针对数据量大且空间离散的数据设计了基于单位步长滑动窗口的宽度优先搜索算法,同时设计两层剪枝算法来解决中间结果过多的问题,提高轨迹挖掘效率。
时空轨迹数据中严重偏离正常模式的行为被称为时空轨迹异常模式,挖掘隐藏在时空数据中的异常模式,是轨迹挖掘中不可或缺的一部分,可以在多方面提供良好的决策支持。
2006年,Wu等[46]针对现有的轨迹异常检测方法侧重于探索轨迹的密度、形状或特征,即地理空间中的轨迹特征,受自然语言处理中单词或句子的表示方法的启发,提出了一种新的基于轨迹表示模型ADTR的轨迹数据异常检测方法。2016年,针对船舶在海洋空间自由移动产生的轨迹数据增加了海上交通分析和异常行为检测难度的问题,Lei[47]提出一种有效的自动挖掘轨道数据和探测异常的方法,利用一个指标对可疑行为进行评估,并根据定义的外围特征对轨迹行为进行评分。实验结果表明,所提出的MT-MAD框架能够有效地检测海上轨迹中的异常。2018年,Kałużny等[48]描述了一个行为认证系统的实现,该系统处理移动设备以CDR日志形式生成的稀疏地理数据。利用基于轨迹的停留提取模型建立用户移动模式,在此基础上异常检测模型从地理、时间和序列三个维度来度量人类行为的可重复性。目标是测量人类移动的地理方面在多大程度上可用于行为生物特征识别系统。
时空轨迹聚集模式是指一组移动对象在一定时间内在特定区域集聚形成的行为模式,聚集模式挖掘有助于感知、监测和预测日常生活中的非平凡群体事件。
2013年,Zheng等[49]提出了一种适用于大批量电动汽车的聚集充电模式。采用遗传算法获取聚集模式的随机特征参数,并在此基础上提出了一种基于聚集模式的充电策略,以降低电动汽车充电引起的功率波动水平。此外,提出了一种可更新的优化方法来跟踪电动汽车充电特性的变化。Zheng等[50]提出了Gathering模式,使用线性插值法在挖掘聚集模式中数据缺失方面进行了改进。为了提高挖掘的准确性和效率,Zhang等[51]提出了一种运动对象采集模式检索方法,通过搜索满足时空约束的最大完备图来挖掘聚集模式,从而预测交通系统中的异常。2020年,He等[52]构建MongoDB集群存储海量轨迹数据,提出一种基于弹性分布式数据集RDDGathering和R-tree索引的并行挖掘算法来发现海量轨迹数据中的聚集模式,解决传统算法不能有效地分析大规模轨迹数据的问题。
轨迹数据获取技术的日益普及使得轨迹中丰富的时间、空间特征和运动知识被发现,对交通轨迹数据的分析在智能交通管理的很多领域取得了相对成熟的管理决策应用方向,促进了新的应用和服务,主要有道路交通区域划分、道路交通流量预测、道路交通拥堵因素挖掘、道路交通流分布模式挖掘、城市道路综合智能交通系统等。
交通区域划分的概念最早由Walinchus提出,用以改善城市交通控制[53]。基于轨迹数据的交通子区域划分不是直接以交通区域的地理位置或道路特征作为依据进行划分[54],而是通过对具有时空属性的数据进行挖掘分析来划分交通网络,例如交通车辆的轨迹挖掘。Andrienko等[55]基于轨迹数据特征提取方法控制数据抽象的总体级别进行空间划分,将轨迹运动转化为划分后的类簇之间的运动,并基于聚类中心生成泰森多边形,实现交通区域划分。基于数据挖掘的交通子区域划分往往分析历史轨迹数据对当前时段的交通区域进行划分,然而合理的交通子区域需在处理复杂、时变的交通网络条件时适应路网变化,不同时段如早晚高峰应具有特定的交通子区域划分方案,来缓解城市交通拥塞问题。为有效划分交通子区域,文献[56]认为直接进行交通分区划分对于交通拥堵的缓解是不充分的,为此设计了一种基于多维数据点的潜在密集时间间隔提取算法,将每个密集时间间隔的整个交通网络划分为一组子区域,进而完成整个交通网络的交通子区域划分。文献[57]提出了一种称为RoadRank的算法来计算每个路段的交通量的全局影响分数,并根据它们的总体影响进行排序,之后提出了一种基于路网划分的扩展分布式道路等级,实现道路交通流分布模式挖掘。
基于轨迹挖掘对移动对象未来的位置和移动趋势进行预测,能够发现描述移动对象行为有趣而有价值的知识模式,有效拓展基于位置服务的应用范围。移动对象的位置预测与推荐服务对于位置社交网络服务、环境监测、推送服务、智慧城市建设等方面具有十分重要的应用价值和学术价值[58-63]。
目前基于轨迹数据的位置预测模型构建主要可以分为三类:第一类是关联规则方法,通过对频繁项进行挖掘构造关联规则,之后进行序列匹配来实现位置预测。文献[64]设计了一种高效的Traj-PrefixSpan算法和频繁轨迹匹配算法来改进频繁轨迹模型,对轨迹位置数据进行挖掘,发现频繁轨迹和运动特征,有效地预测运动目标的未知位置。第二类是使用马尔可夫模型,构建轨迹转移矩阵,计算历史轨迹中一个位置转移到其他位置的概率,从而进行轨迹预测。文献[65]提出了一种基于隐马尔可夫模型的轨迹预测方法HMTP以及自适应参数选择算法,代替轨迹模式的切片,预测运动目标的连续轨迹。文献[66]改进了低阶马尔可夫预测精度差的问题,提出一种结合马尔可夫模型与轨迹相似度的位置预测算法,预测精度得到了显著的提高。第三类是使用神经网络方法,通过模型训练和学习实现移动位置预测。文献[67]基于地理信息访问地点语义编码,结合长短时记忆网络和RNN训练和预测出租车下一个下车点坐标。除了使用RNN模型,文献[68]将车辆轨迹建模为二维图像,提出了多范围卷积神经网络框架对多尺度的轨迹建模,根据交通流的局部空间上下文自动选择局部区域的最优范围,实现轨迹位置预测,更加精准地对移动轨迹的局部空间模式进行建模。
移动网络迅猛发展背景下,移动用户、用户的位置和轨迹之间存在着密切的联系,基于丰富的轨迹数据和序列偏好能够生成精准的服务推荐结果。在GPS广泛被接受普及的过程中,基于GPS数据的各种服务应用就大量地衍生出来,其中移动推荐[69]逐渐成为了研究人员的热门话题,特别是Zheng等在文献[70]中介绍了GeoLife社交网络服务,基于用户轨迹挖掘用户与位置之间的相关性,生成旅游推荐和个性化的朋友推荐等服务,推动了移动对象服务推荐的研究进程。随着具有丰富语义信息和时序信息的轨迹数据大量涌现,产生了明显不同于传统的移动推荐的挖掘方法,不同的位置节点和节点顺序都具有不同的语义和影响。因此对轨迹数据进行更为深度的信息挖掘是针对服务推荐中不同节点和节点顺序等问题的核心思想,获取移动对象的时空语义特征,分析不同强度的关联性,综合考虑各种时序特征生成个性化推荐结果[71]。在基于轨迹数据的移动推荐过程中,针对轨迹的时空上下文[72-73]和序列上下文[74]信息的发现,能够更有效地在服务推荐中提供知识发现。在这两种上下文信息中,时空属性,包括时间变化、时空序列等,得到了充分的体现和应用。其中,时空上下文既包括时间上下文中的时间属性,还包括空间上下文的空间属性,结合序列上下文信息,能够基于轨迹数据对用户行为在时空域上的连续性进行精准的刻画,对移动对象的真实活动和行为规律的发现起到了更为深入的辅助作用。基于轨迹数据的管理决策方法的分析和比较如表4所示。
表4 基于轨迹数据的管理决策方法Table 4 Management decision methods based on trajectory data
轨迹数据模式挖掘在互联网发展进步的背景下已经得到许多专家学者的广泛研究,并且开发出许多轨迹数据模式挖掘的方法。本文将轨迹数据清洗、压缩、分段、相似性度量这四方面作为轨迹模式挖掘的基础建设,归纳总结了近年来轨迹数据预处理的主要技术和算法,重点阐述了异常点和异常轨迹的检测方法,之后分析了轨迹模式挖掘中的聚集、伴随、异常、频繁四种模式的研究进展,并延伸了轨迹模式挖掘在智能交通管理、位置预测和服务推荐领域中的管理决策方法。但是现有的研究表明,轨迹数据的时空模式挖掘技术与管理决策方法仍然存在诸多局限性:
(1)大数据时代下,没有形成一个完整的、适应性强的理论框架和决策模型。
(2)多维时空粒度下挖掘时空轨迹模式的方式研究较少,单时空得到的结论往往不能够充分体现与反映移动对象的活动规律及模式。
(3)处理海量的时空轨迹数据时,效率低下且算法各方面性能遭遇瓶颈,难以满足大量时空轨迹数据的挖掘需求。
(4)对数据流的实时更新进行序列模式挖掘的技术方法不够成熟。
针对上述四个问题,本文给出了对应的解决思路,以及未来应更多地聚焦于为以下几方面的研究提供思路与方法:
(1)建立基于轨迹数据的决策支持系统。利用大数据技术作为系统基础支撑,将规模巨大的数据集分散到不同服务器,并且使得系统能够自学习、自计算。
(2)研究基于多源数据、多维时空的轨迹模式挖掘方法。融合其他领域数据来扩大轨迹数据挖掘的应用范围,研究轨迹数据背后的语义信息以及多维时空的轨迹模式挖掘,将移动对象的轨迹所对应的时空信息进行层次划分,融合社交网络数据等多源数据。
(3)建立基于分布式、增量式的轨迹模式挖掘模型。为了规避由数据库原始数据的改变导致的重新挖掘的时空消耗,适应海量轨迹数据的挖掘需求,只针对发生变化的数据进行部分挖掘,节省大量计算开销并提高适应性,以适应海量轨迹挖掘需求。
(4)设计并行的单遍数据集扫描算法。借助目前的一些流式处理框架和并行计算技术,可以作为轨迹数据流实时挖掘的基础。