摘要:通过分析公交数据更新的基本要素和挖掘类型,利用大数据挖掘原理,结合公交GPS历史数据的特点,提出了适用于公交GPS历史数据挖掘和更新的专用方法和算法,并引入机器学习模型提升挖掘算法能力,在此基础上设计了挖掘作业流程,通过结果对比,可得出在数据优化周期内,可作业率由15%提升至50%,线上数据更新频率由周级更新变为天级更新。以上数据挖掘方法和算法有效提高了更新效率,改进了更新准确率,在公交数据更新作业中发挥了重要作用,方便了公交用户出行,助力绿色出行。
关键词:公交GPS历史数据大数据挖掘挖掘算法模型评价数据更新
ResearchandApplicationofPublicTransitGPSHistoricalTrajectoryDataMiningMethod
CHENGTingting
BeijingAutoandHomeInformationTechnologyCo.,Ltd.,Beijing,101319China
Abstract:Byanalyzingthebasicelementsandminingtypesofbusdataupdating,byusingtheprincipleofbigdataminingandcombiningthecharacteristicsofbusGPShistoricaldata,inthispaper,aspecialmethodandalgorithmforhistoricaldataminingandupdatingofpublictransitGPSisproposed,andamachinelearningmodelisintroducedtoimprovetheminingalgorithmability.Onthisbasis,aminingworkflowwasdesigned,andthroughthecomparisonofresults,itcanbeconcludedthatinthe dataoptimizationcycle,theworkratecanbeincreasedfrom15%to50%,onlinedataupdatefrequencyfromweeklyupdatetodayupdate.Theabovedataminingmethodsandalgorithmseffectivelyimprovetheupdateefficiency,improvetheupdateaccuracy,playanimportantroleinbusdataupdateoperations,convenientforbususerstotravel,promotinggreentravel.
KeyWords:BusGPShistoricaldata;Bigdatamining;Miningalgorithm;Modelevaluation;Dataupdate
随着社会和经济的快速发展,智能公交已成为智慧城市的重要组成部分[1],绿色出行、低碳环保的理念已深入人心,乘坐公交车也成为公众绿色出行的重要手段。在实际乘车场景中,公交站点位置变化、公交车行驶轨迹变更、公交站点新增删除等,是公交数据更新的主要内容,如何快速、准确获取这些更新数据,是公交GPS历史数据挖掘要解决的重要问题。
数据挖掘是指从大量数据中发现特定信息和模式的过程,也有很多人将这一过程看作知识发现[2],如何从海量的空间数据中获取有价值的信息已成为大数据的主要应用方向[3],随着大数据技术的发展,大数据技术与交通结合成为目前研究热点之一[4]。轨迹数据作为泛在地理信息环境中社会遥感数据的主要表现形式之一,为从个体的视角研究群体的空间移动规律,提供了新的数据支撑和研究思路,可以利用分类、聚类、时序分析等方法对大规模轨迹数据进行分析,从而揭示数据中的隐藏信息、挖掘数据中的时空模式。利用当前的大数据挖掘原理,结合公交GPS历史数据的特点,采用专用的数据挖掘方法和算法,把数据挖掘结果作为公交数据更新的重要依据和输入,将在公交数据更新作业中发挥重要作用,从而提升更新时效性和准确性。
1公交挖掘数据规格分析
1.1公交数据基本要素
车辆信息包括所属公司、线路号、车号、车载机号、运营状态等信息。
站点信息包括站点ID、站点名称、站点经度、站点纬度等信息。
线路包括线路基本信息、线路方向信息、线路设置等信息。其中基础信息所属公司、线路、线路名、线路类型、运营模式;方向信息包括线路、方向、总站数、首站、末站、首班、末班、发车间隔等信息。
场站区信息包括场区名称、场站面数据等信息。
1.2公交数据挖掘类型分析
站点位移是指数据库中站点坐标与实际乘车位置站点、站桩、站台存在偏差的情况[5]。实际应用中,如果停靠站的公交线路过多,出现拥堵的情况,这时在主站附近建立辅助站点,距离偏差大于30m时,可认为站点实地发生了位移。站点位移产生的偏差有采集制作数据偏差、公交车站位置的现势性变更等原因。基于站点位移的数据挖掘,可以同时解决各种原因产生的App端底图站点坐标与公众实际乘车位置不一致的数据更新问题。
实际公交路网应用中,已经设计的公交站点可能会被拉疏,对站点进行拉疏分为纵向和横向两种方式,纵向拉疏是指对线路进行具体的辅站设置,从而缓解线路压力,横向拉疏是指通过车道设置将不同类型的交通车辆进行分解,使相互之间的交通不会受到影响,从而避免在停靠站位置出现交通阻塞的情况。站点冗余是指实地场景中公交站已经取消,但是电子地图上的公交站仍然存在。乘车人会受到电子地图误导,到已经废弃的站点等车、耽误出行。
公交车行驶轨迹相对稳定,当遇重大活动或者道路施工等情况时,公交车可能会变更原有的行驶轨迹,新的行驶轨迹可能会涉及站点的新增和删除。公交单纯的轨迹变化及涉及站点新增删除的变更导致的实际行驶轨迹与电子地图轨迹不一致的数据问题定义为线路改道。
2利用数据挖掘公交数据的几种方法
本文主要是利用公交GPS历史轨迹数据通过聚类算法来确定公交站点位置和线路。
2.1基于K均值聚类算法的站点位置挖掘
本文研究的站点位置信息获取方式是,当站台上的等车用户利用地图App进行线路搜索时,只要开启下车提醒功能,就可以利用用户GPS点在站台附近的聚集,基于K均值聚类算法进行位置信息挖掘分析,计算站点实际位置[6]。K均值聚类算法是一种迭代求解的聚类分析算法,本次站点位置挖掘基于站台附近100m范围内的GPS点聚类簇新与电子地图站点位置进行数据差分,得到有位置偏差的站点数据。本文应用该算法进行站点位置挖掘的步骤是:(1)预将数据分为K组,则随机选取K个对象作为初始的聚类中心;(2)计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;(3)聚类中心以及分配给它们的对象就代表一个聚类,根据聚类中现有的对象,每分配一个对象聚类的聚类中心会被重新计算;(4)重复以上步骤直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。图1为正常站点和位移站点的计算结果。
2.2基于DBSCAN聚类算法的站点冗余挖掘
与上文站点位置信息获取方式一样,当等车用户开启下车提醒功能时,TBP回传的用户GPS点在站台附近聚集,在进行站点冗余挖掘时,主要利用了DBSCAN聚类算法,如果实际站点不存在,站点附近没有GPS点聚集趋势。DBScan需要二个参数:扫描半径(eps)和最小包含点数(minPts)。本文应用该算法进行站点冗余挖掘的步骤是:
(1)任选一个未被访问的点开始,找出与其距离在eps之内(包括eps)的所有附近点。
(2)如果附近点的数量≥minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问(visited)。然后递归,以相同的方法处理该簇内所有未被标记为已访问(visited)的点,从而对簇进行扩展。
(3)如果附近点的数量<minPts,则该点暂时被标记作为噪声点。
(4)如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点。
(5)筛选报出站点聚类半径过大、密度均不达标得到冗余站点数据。
下图为正常站点和冗余站点的计算结果。
2.3基于分段的公交轨迹改道挖掘
公交轨迹改道往往不是整条轨迹变动,而是其中一段发生变化,为了准确识别改道的位置,提出了基于分段的公交轨迹改道挖掘方法,主要思路是将公交车轨迹截取成30m小段,每个小段与电子地图轨迹进行差分,通过轨迹比对,得到实际发生改道的轨迹区间。
2.3.1轨迹的划分
通常一条轨迹可以表示为一个序列,如{(p1,t1),(p2,t2),…(pn,tn)}{(p1,t1),(p2,t2),…(pn,tn)},其中pi表示位置(如经度、纬度)。
2.3.2轨迹与图像的转换
有时轨迹数据也可以用一个二维图像来表示,如一条轨迹可以对应着一张二维地图。若将地图划成M*M的网格,M是预定义的常量,表示地图的分辨率,用Cx,y表示第x行和第y列的网格,则每个轨迹点都可以根据它的经纬度映射到一个网格Cx,y中,通过这种方式,我们就将一条轨迹转化为一个M×M的图像。这种数据表达多是为了符合CNN模型的输入格式,让卷积网络尝试学习轨迹数据中的特征,这种表达方式更能保留位置间的相关关系。
2.4机器学习模型引入
为完成数据挖掘任务,建立不同的学习模型进行特征融合,删除冗余,最后合并,再进行轨迹预测任务。而在多源异构的大数据环境下,传统方法很多时候并不适用,通过不同的特征提取方式获得来自不同数据源的信息,再投入一个深度堆栈自动编码器得到最终的特征表达,最后通过多层感知器来进行出行时间的预测。轨迹数据是典型的时序数据,它的最大特征是数据之间在时间维度上是相互关联的,根据趋势分离方法,可以把这种时间相关性消除,学习到更多甚至被隐藏的特征,最后的预测效果也不错。
3挖掘成果
3.13个算法的指标评价结果
3个算法的指标评价结果如表1所示。
3.2三个算法的应用结果
三个版本的大数据挖掘算法,在一个存量及一个月增量内滚动报出3万多条电子地图数据问题,综合可作业率由使用算法前的15%提升至50%,较使用挖掘算法前提升2倍多;数据问题在一个月内消化修复数据并上线,更新频率由使用算法前的周级一更新变成天级一更新,更新频率大幅提升,静态数据质量得到了显著的提升。
4结语
本文a3e209af70ccfc130049cfd3a0649fe3通过大数据挖掘手段更新公交数据,取得了良好的效果,数据可作业率和数据更新频率都得到了很大提升,并且也提高了静态数据质量。后续经过算法优化,数据可作业率和数据修复周期还有提升的可能。同时可以看到,引入机器学习模型优化挖掘算法效果,更具持续性。为完成数据挖掘任务,将不同的数据建立不同的学习模型,再进行特征融合,删除冗余,最后合并,再进行轨迹预测任务。而在多源异构的大数据环境下,传统的方法很多时候并不适用,通过不同的特征提取方式获得来自不同数据源的信息,再投入一个学习器最终实现挖掘算法的持续性优化。但是,大数据挖掘涉及的聚类、数据去噪算法很多,实际上还有很多本文没有提到的轨迹挖掘任务和深度学习方法,包括频率模式挖掘、关系挖掘任务等。机器学习算法迭代到一定程度后,深度学习算法在轨迹挖掘中的应用将会是一个很好的实践方向。
参考文献