王梦园 翟希 王斌
摘 要: 就所述的长短期记忆(LSTM)模型和DeepST-ResNet模型进行了研究分析,并基于西安滴滴出行的真实数据对相关模型进行对比实验,分析了各个模型的优劣,提出了建立更优模型的思路与展望.
关键词: 交通管理; 滴滴出行; 时空数据; 神经网络; 流量预测
中圖分类号: TP 399 文献标志码: A 文章编号: 1000-5137(2021)01-0122-06
Abstract: In this paper the long-term and short-term memory (LSTM) model and the DeepST-ResNet model were both studied and analyzed. Based on the real data of Xian Didi travel,the above models were compared and tested to analyze the advantages and disadvantages of each model according to which a better model was proposed and the preliminary work and preparation was conducted.
Key words: traffic management; Didi travel; spatiotemporal data; neural network; traffic forecast
0 引言
交通预测已经成为了智能交通系统(ITS)中的一个核心环节,交通预测问题也开始受到诸多城市计算学者的高度关注.目前交通预测问题主要分为路段流量预测和区域流量预测两大部分.其中在路段流量预测问题中,学者们主要就高速公路或者城市主干道的交通路况进行调查检测[1-2],进而预测某些具体路段的交通流量;区域流量预测是研究整个城市不同区域间的交通量流动.
影响交通流量预测的两个重要因素分别是时间和空间,比如手机、出租车导航、地铁/公交车刷卡等数据,都具有时间依赖性和空间相关性.但是在早期,学者们的研究大多采用一些经典的时间序列预测模型,例如自回归滑动平均(ARMA)、差分整合移动平均自回归(ARIMA),以及基于此提出的季节性差分自回归滑动平均(SARIMA)等模型,但这些模型无法描述空间因素对城市流量预测的影响.
传统的机器学习法,例如支持向量回归模型(SVR)[3],可以通过寻求结构化风险的最小化,提高学习机泛化能力,在交通流量样本数较少的情况下,达到统计规律的目的.但是SVR的预测结果极易受到参数和核函数取值的影响.JIANG等[4]提出了一种基于卷积神经网络(CNN)和残差网络的方法,将地理坐标数据转化为图的表达形式进行交通预测;LIU等[5]将CNN与循环神经网络(RNN)相结合,较好地捕捉了时空特征,并通过注意力机制学习了历史交通流量.
本文作者将介绍除此之外几种不同的神经网络模型,并测试各个模型针对交通预测问题的性能,分析各模型的优劣.
基于现实基础,本研究所指的区域流量预测主要分为两种类型的流量预测:流入流量(inflow)和流出流量(outflow).由于各个区域流量的变化受到诸多因素的相互影响,城市区域流量预测的这个课题极具挑战性.其中影响占比最重的两个因素分别为空间联系和时间规律:1) 空间联系.城市某区域的流入流出量不仅直接受到该区域邻近区域流量的影响,还会间接地受到与该区域相隔较远区域流量的影响.除此之外,该区域自身流入量与流出量也会互相影响.2) 时间规律.城市中某区域当前时段的流入流出量会受到历史时间段流量的影响,并且由于人们的日常作息,人们的出行往往会呈现以日和周为周期单位的规律性.
从活动模式来说,影响城市流量的主要因素包括工作日通勤、上下学以及其他的日常重复活动;其次,存在异常的流量活动模式,例如某个地区城市交通流量不正常地增加了,这种情况可能导致交通堵塞、引发社会安全问题等[6-7].还有一些事件、活动也会影响到城市流量,比如因为道路建设(修路等情况)而对某个区域进行暂时的交通管制时,该区域的流量会相对应地下降;此外,天气因素也对城市流量有某种影响,例如暴雨、雾霾以及其他的恶劣天气情况,会导致出行人数下降,而天气晴朗时,出行人数则会增加.还需要纳入考虑范畴的是节假日因素,临近节日的时间段也对城市流量有某种影响,使得人群流量的起伏持续一个周期的时间,而且很可能会出现大量的跨区域流量.
充分解析以上这些因素给流量预测带来的研究难点,可以将它们变成能加以利用的、规律性的模型,从而提升城市区域流量预测问题的准确度.但是由于使用传统方法难以应对不断增长的运输需求,导致出现交通运输问题[8],亟须采用新的方法技术来解决问题.与此同时,交通运输系统中每天都在产生大规模的高质量路线数据和交易信息,在数据化的当今时代,这些信息是十分宝贵且具有研究价值的,且伴随着计算机的数据处理能力与计算复杂度的提升,AI技术得到了进一步发展,深度学习也将成为智能交通系统中诸多问题的首选解决方案.
1 研究思路
1.1 分解地图
在城市中,地图数据连续且不断变化,需要对其进行分解.地图的分解方法有2种:1) 基于网格分解,即基于经纬度定义一个网格地图,将其划分为的网格地图,如图1所示,用(i,j)表示位于行列的区域;2) 基于路网分解,把车辆的GPS导航数据与城市路网数据进行匹配绑定[9-11],与网格划分法不同,该方法充分利用路网信息,并应用经典聚类法进行算法后期的改善,较为复杂.故采用网格法把地图数据分成500 m500 m的网格区域,总共有304(16×19)个区域,每个网格对应一个位置信息.
1.2 流量数据
1.2.1 轨迹数据
本研究数据采自“滴滴盖亚数据开放计划”2016年10—11月西安市二环局部区域的订单司机轨迹数据,轨迹点采样间隔为2~4 s.每行数据包括:司机ID、订单ID、时间戳、经度和纬度,如图2所示,所选区域为东经108.92°~109.01°,北纬34.21°~34.28°.
1.2.2 输入流和输出流
每条数据都是一个经度、纬度与时间戳的三元组序列,表示在时刻出租车的地理坐标.把同一组订单定义为一条由个三元组坐标序列组成的轨迹数据,轨迹表示为一条按照时间顺序排列的坐标点序列:
1.3 区域流量统计
把1 d划分为48个时区,每30 min为1个时区,编号为00~47,每30 min统计一次各个区域内的出入流量,得到流量矩阵,维度为[2,16,19],其中,2指inflow和outflow,16和19分别表示是地图被划分为16行19列的区域.
2 模型分析
LSTM模型是RNN模型的变体[8],有效地解决了RNN的梯度消失和梯度爆炸的问题,是经典的时间序列预测模型之一.
DeepST-ResNet模型主要通过融合出租车轨迹数据中的时间与空间相关性,对城市流量进行预测.该模型的计算主体部分由卷积层和L个残差单元组成.从整体来看,模型分别提取时间邻近性(当前时刻的前3个时间片)、周期性(当前时刻前一天相同时刻的3个时间片)、趋势性(当前时刻前一周相同时刻的3个时间片)以及空间因素的影响,进行建模,如表1所示.
对于空间因素而言,某个区域的出入流量受其他区域流量的影响,例如节假日人们常常会选择跨区域出游.由于卷积核大小的限制,一个卷积层只能捕捉空间上的近邻关系,设计多层堆叠卷积,用以捕获任何区域的空间依赖[12],保证了模型的预测精度不会因为深度的增加而降低.
3 实验结果分析
采用滴滴出行的西安市数据集,验证各个模型对城市区域流量预测的结果.此外,模型评价指标选用均方误差(MSE)和均方根误差(RMSE),计算方式分别为:
4 结论
本文作者对不同模型预测城市区域流量的能力进行了对比实验,在数据样本量较少的情况下,LSTM模型能取得比DeepST-RseNet更好的预测结果.但由于LSTM模型的输入特征较为单一,仅考虑了数据中的短时依赖,且并未描述区域空间的相关性特征,对数据预测的拟合度不如DeepST-RseNet模型.综上所述,可以使用LSTM模型的长短时记忆特性捕捉数据时间序列的依赖性,再叠加卷积层捕获空间区域上的相关性特征,获得更好的预测效果.在以后的研究中,可以尝试对融合了多源数据的数据集进行预测,以便达到更精准、更真实的预测效果.
参考文献:
[1] BILLY W,PRIYA D,DONALD D.Urban freeway traffic flow prediction:application of seasonal autoregressive integrated moving average and exponential smoothing models [J].Journal of the Transportation Research Board,1998,1644:132-141.
[2] HABTEMICHAEL F G,CETIN M.Short-term traffic flow rate forecasting based on identifying similar traffic patterns [J].Transportation Research Part C:Emerging Technologies,2016,66:61-78.
[3] WU X,GUO J F,XIAN K,et al.Hierarchical travel demand estimation using multiple data sources:a forward and backward propagation algorithmic framework on a layered computational graph [J].Transportation Research Part C:Emerging Technologies,2018,96:321-346.
[4] JIANG W,ZHANG L.Geospatial data to images:a deep-learning framework for traf?c forecasting [J].Tsinghua Science and Technology,2019,24 (1):52-64.
[5] LIU Y,LIU Z,JIA R.Deeppf:a deep learning based architecture for metro passenger flow prediction [J].Transportation Research Part C:Emerging Technologies,2019,101:18-34.
[6] RODRIGUES F,MARKOU I,PEREIRA F C.Combining time-series and textual data for taxi demand prediction in event areas:a deep learning approach [J].Information Fusion,2019,49:120-129.
[7] MARKOU I,KAISER K,PEREIRA F C.Predicting taxi demand hotspots using automated internet search queries [J].Transportation Research Part C:Emerging Technologies,2019,102:73-86.
[8] YANG S G,MA W,PI X D,et al.A deep learning approach to real-time parking occupancy prediction in transportation networks incorporating multiple spatio-temporal data sources [J].Transportation Research Part C:Emerging Technologies,2019,107:248-265.
[9] REN Y,CHENG T,ZHANG Y.Deep spatio-temporal residual neural networks for road-network-based data modeling [J].International Journal of Geographical Information Science,2019,33(9):1894-1912.
[10] YANG C,GID?FALVI G.Fast map matching,an algorithm integrating hidden Markov model with precomputation [J].International Journal of Geographical Information Science,2018,32(3):1-24.
[11] WU R Z,LUO G C,SHAO J M,et al.Location prediction on trajectory data:a review [J].Big Data Mining and Analytics,2018,1(2):108-127.
[12] ZHANG J B,ZHENG Y,QI D K,et al.Predicting citywide crowd flows using deep spatio-temporal residual networks [J].Artificial Intelligence,2018,259:147-166.
(責任编辑:包震宇)