蔡晓禹,谭宇婷,雷财林,刘秀彩
(重庆交通大学 交通运输学院,重庆 400074)
城市交通拥堵已经成为城市发展面临的重大难题。根据百度地图发布的《2017 年度城市研究报告》,北京市因交通拥堵带来了 4 013.31 元的年人均经济损失,重庆年人均拥堵成本 2 856.59元。精确和高效的短时交通流量预测有助于提高交通管理与控制水平、辅助决策制定、改善道路服务水平。但是,现代城市交通系统愈加脆弱,交通的随机性与不确定性增强,这一改变使传统的建模手段不能很好地处理及预测交通流信息。近年来,随着智能交通系统及设施在城市交通中的广泛应用,城市交通进入了大数据时代。多元、海量、异构的交通数据构建了交通研究的新环境。因此,应探索新的研究方法以适应大数据环境下短时交通流量预测。
道路交通流本身是车辆在不同时间和空间上的分布。交通流量预测的相关研究有近 40 年的历史,国内外学者提出的交通流量短时预测方法已达几十种。城市道路交通流量预测根据预测时长分为长期预测、中长期预测、短期预测和短时预测。在已有短时预测研究中,预测时间段包括几分钟到几小时,使用数据包括当前观测值和历史值[1]。个人随机因素对短时交通流影响巨大,导致交通流具有很强的不确定性、非线性、非平稳性。因此,预测方法应具备实时性、准确性、稳健性、自适应性和可移植性[2]。
交通流量预测方法早期主要有指数平滑预测法、卡尔曼滤波法、时间序列法预测等。近期交通流预测开始转向以数据为驱动的预测方式[3]。根据其模型特性,主流的预测方法可以归纳为 4 类:基于线性系统理论、基于非线性系统理论、基于知识发现的智能预测方法及组合预测模型法[4-5]。
(1)基于线性系统理论方法。基于线性系统理论方法包括:历史平均模型、时间序列模型、卡尔曼滤波、线性回归模型等。时间序列预测技术是通过对预测目标自身时间序列的处理来研究其变化趋势。时间序列法建模简单,当数据充足和交通流平稳时预测精度较高。但是,此类方法的局限性在于时间序列预测中需要涉及大量参数估计,导致预测可移植性和适应性较差,预测过程中模型辨识和检验的过程比较繁琐。卡尔曼滤波法是一种最优化自回归数据处理算法,它由状态方程和观测方程组成状态空间模型,预测算法来源于现代控制理论中的卡尔曼滤波理论。郭海锋等[6]利用模糊理论和卡尔曼滤波结合,改善了单一卡尔曼预测交通流量存在的时间滞后性的特点。由于卡尔曼滤波法是线性模型,因而当预测时间变短时,随着短时交通流非线性、不确定性的增强,模型性能变差[7]。
(2)基于非线性系统理论方法。基于非线性系统理论方法主要包括:小波分析模型、基于突变理论预测法、基于混沌理论预测法等。交通流预测中基于小波分析的预测方法核心思想是将获取的历史交通流量时间序列数据进行分解。其优势在于将数据时间与空间频率进行局部化分析。但是,小波分析仅是处理交通流数据的一种方法,就预测的核心而言还需要依靠其他模型。王娟[8]通过小波分解将交通流分为高低频分量,再结合 ARIMA 模型进行预测。余国强[9]利用小波分解与神经网络进行预测,并利用粒子群算法对模型中的参数进行优化。
(3)基于知识发现的智能预测方法。基于知识发现的智能预测方法包括:支持向量机、神经网络预测模型、非参数回归预测模型等。支持向量机于20 世纪 90 年代提出,算法泛化能力较强,在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。姚智胜等[10-11]将支持向量机结合回归估计,利用多元交通信息完成预测;基于小波包和支持向量机结合对北京快速路流量进行预测。近年来,大量的研究致力于借用其他理论和算法与支持向量机结合。人工神经网络简称为神经网络或连接模型,是对人脑或自然神经网络若干基本特性的抽象和模拟[12]。此方法需要大量的数据作为支撑,训练时间较长,适应能力较差,而且训练出的模型只能应用于同一场景。目前研究针对模型优化和变异开展了大量研究,如 Li 等[13]通过多元数据融合和神经网络模型完成了对高速偶发交通拥堵的预测。熊伟晴等[14]利用一个基于规则的模糊系统非线性地组合 BP 神经网络模型,改善预测时识别率不理想和可信度不高的情况。
(4)基于组合模型预测方法。组合模型预测法是将 2 种及以上的预测方法结合起来,以此发挥各自的优点,补足各自的缺点。这是由于短时交通流随机性高,预测困难,单一的模型实际预测效果欠佳而产生的预测思路。
早期的交通数据难以获取,数据环境体量小、质量低,导致预测研究多采用小样本数据。因此,纯数学理论的复杂模型被大量引入预测研究中,这种方式忽略了交通流内在的特征与演变的机理。而过于复杂的模型,如神经网络和组合模型,过程复杂、运算量大,不利于短时流量预测的实际应用。
短时交通流量预测中,研究对象、预测间隔、数据来源格式都有差别,不易相互比较优缺点。目前短时交通流量预测研究的预测步长以单步预测为主,预测间隔在 1~15min 以内;预测研究重点在于对已有模型的优化,特别是通过组合模型提高预测精度和适用性;流量预测研究路段集中在高速公路与城市快速路,对于占路网比例较大的城市普通路段研究较少;预测输入变量多采用单变量,海量的交通数据没有得到有效利用。
目前,短时交通流量预测面临以下挑战。
(1)交通脆弱性。交通脆弱性指交通网络受到干扰时,整体交通系统服务水平下降程度。交通的脆弱性受到路网拓扑关系、交通需求、交通环境的共同影响[15]。城市交通需求急剧增加,使得交通波动性增强、交通系统对抗外部干扰的能力降低,使预测更加困难。
(2)交通建模。线性和非线性系统理论预测研究思路都是以建立数学公式结合当前流量数据以此推演未来时刻的量,并未考虑流量演变的特征。
(3)预测精确性。城市交通拥堵加剧导致对交通控制的要求变高。精确的预测结果是城市交通精细化控制及诱导的数据支撑。预测需要满足精度高、效率高的原则。只使用当前观测采集的流量作为研究对象的算法,在交通量较大、系统运行不稳定时在线预测难以满足要求。因此,面对新的预测需求,提出一种大数据环境下短时流量预测新思路。
随着道路感应线圈、电子卡口、射频识别(RFID) 等检测器在城市道路广泛布设,以及交通数据自动采集技术逐渐成熟,利用自动采集的海量数据挖掘城市交通特征已成为发展趋势。与传统交通数据环境不同,交通大数据有显著的 6V 特征:体量巨大 (Volume);处理快速 (Velocity);数据源多样、数据来源广泛、类型丰富 (Variety);真假共存数据存在缺失、错误、冗余等 (Veracity);价值丰富(Value),数据具有时间、空间、历史等多维特征;可视化 (Visualization),交通运行状态、城市路网特性通过可视化技术展现[16]。
在交通大数据环境下,通过数据可视化技术展现交通流时空演变过程,研究者可以更直观地探寻交通流内在规律,以及外界因素与流量变化之间的关联规则。多元、海量的数据包含各种交通场景、交通态势,将提升预测模型的适应性与精确性。为保证预测精度,小数据环境下的模型往往复杂。大数据驱动下可以简化模型构建方法,增强预测算法实用性[17]。
交通流是一个典型的时变系统,交通流时序图反映了交通量随时间的变化情况。变化的背后隐藏了各种环境因素,如天气因素、气候因素、交通事故、工作出行等。重庆市某路段断面交通流量时间序列如图 1 所示。
从图 1 可以看出,工作日与非工作日交通流态势差异明显。工作日 1 中因出现交通事故交通量迅速下降,后期路段恢复通行,交通流回归正常。这些外部因素导致交通流呈现出相应的交通态势。当外部因素重复发生,交通流进而产生相似的态势。
环境因素对交通流的影响机理及导致的结果难以用数学模型描述与预测。但是,在海量数据的支持下,就能获取不同路段在不同因素共同作用下的交通流变化情况即呈现的交通态势。数据库越丰富、质量越高,找出交通态势共性和结果的可能性越大。当出现相同态势即可根据历史结果进行预测,以此概念提出通过寻找具有共性的交通态势的预测方法。
图 1 重庆市某路段断面交通流量时间序列Fig.1 Time series of traf fi c fl ows on a road section in Chongqing
交通流量短时预测方法通过寻找相似的交通态势进行预测,即在历史流量中寻找与当前相似交通流态势的时间序列,交通流量短时预测流程如图 2所示,主要分为历史数据库、当前观测交通流、相似态势度量机制、预测值组合函数 4 个部分。
图 2 交通流量短时预测流程图Fig.2 The fl ow chart of short-term traf fi c forecasting
理想的数据库应包含各种影响因素下的交通态势和典型规律,以便能在历史数据库中找到与观测交通流相似的历史交通流。但一味地扩大数据库的数据量,冗余的数据又会导致计算量增大,增加搜索时间。因此,需要在减少冗余数据的同时尽可能保证典型数据的丰富性,体现各种交通状态[18]。在城市道路中,因居民出行规律的相似性和出行方式的雷同性,城市路网节点交通流量变化具有类似特点。通过预测断面聚类的手段,将相似断面的历史数据合并,可以保证特征交通态势丰富。预测路段交通流特性相差较大,则数据库可以彼此分离,较少冗余数据。机器算法中的聚类分析作为一种数据归约技术,可以揭示一个数据集中观测值的子集,把大量的观测值归约为若干类。利用层次聚类算法,将具有相似性交通流路段的数据库融合为一个数据集,具体算法如下。
(1)初始构造n个类,N即待划分的流量检测断面的数量。每个类包含 1组样本,即该断面的历史流量。
(2)计算每类和其他各类的向量距离。
(3)利用离差平方和法 (Ward 法) 计算类间间距,将距离最短的 2 类合并为一个新类。
(4)重复步骤(2)和步骤(3),直到包含所有观测值的类合并成单个的类为止。
(5)作聚类分析图,决定类的个数,合并同一类中的检测单元数据库。
当前衡量交通流相似度通常使用样本之间的欧式距离,若欧式距离越小,交通流之间就越相似。但是,欧式距离只能反应特征向量在空间上的“靠近性”,衡量的是空间各点的绝对距离。并且欧式距离对变量的量纲有依赖,在实际计算时容易造成与流量演变的实际含义相悖。在众多样本距离计算方法中,余弦距离可以考察向量之间形状的“相似性”,如 2 个交通流向量余弦距离越接近于 1,说明其水平夹角越相似,整体形状而言就越相近。
通过融合欧式距离和余弦距离的相似度量机制将兼顾彼此优势,保证在历史数据库筛选交通态势的“相似性”和“靠近性”。基于融合距离的相似度量机制如图 3 所示。坐标系中的每一个点表示历史交通流在融合距离空间里的属性,横纵坐标分别表示历史交通流与观测交通流的余弦距离和欧式距离,r表示融合距离。图中的A点 (0,1) 欧式距离为 0,余弦距离为 1,表示需要预测的观测交通流向量。如果只看单一距离,将点投影到坐标轴,D点流量与A点余弦距离最接近,但从融合距离来说并不接近,因此该点的属性为“相似度”高但“靠近性”差。同理E点属性为“靠近性”强,但“相似度”低,两者皆不属于最优的相似交通流。从融合距离上看B和C是与A的融合距离最近的 2 个点,属于与A最相似的 2 个交通流。可见,利用单一距离作为相似度量机制是有缺陷的,必须依靠融合距离的度量机制才能从数据库筛选出最优的历史相似交通流。
图 3 基于融合距离的相似度量机制Fig.3 Practical signi fi cance of fusion distance
预测算法中涉及到 2 个重要参数,其一是作为匹配的观测流量序列应该截取多长的时间,这将关系到找到的历史交通态势是否具有预测的功能。时间过短的流量不具有实际意义,时间过长的流量会削弱最近观测值的权重。另一参数则是选取相似的历史交通态势的样本数量。如果选择的个数过少,则预测容易被极端值影响,导致预测风险。如果样本量过多,则冗余样本的噪声会干扰预测结果,降低预测精度。因此,需要对这 2 种参数取值对预测结果的影响进行研究。在实际应用中,可以根据这2 个参数不同值组合下预测的精度,通过 OLS 线性回归的方式选取最优参数组合。
在短时交通流量预测近 40 年的历史中,预测数据环境经历了多个阶段的变化,目前处在数字城市和智慧城市建设形成的多元、异构大数据环境中。交通流量预测手段则由线性和非线性模型逐渐向智能预测方式转变。短时交通流量预测需要考虑其独特的时空特性,寻找共性规律。如果仅仅从高精度、高复杂度的纯数学统计模型入手,只会将交通流数字化、片面化。交通大数据环境的构建为短时交通流量预测开启了新的变革,如何借用大数据平台构建简洁、高效、实用的预测算法将成为未来的研究重点。