周 敏,朱从坤
(苏州科技大学 土木工程学院,江苏 苏州215011)
随着城市交通拥堵、出行难等问题日益突出,公共自行车交通对改善和发展城市绿色交通系统,促进交通的可持续发展具有十分重要的意义。对公共自行车的合理调度是提高公共自行车使用率和服务质量的重要基础,而合理调度的前提,是对站点借还量的有效短期预测。
在基于历史运行数据进行预测方面,公共自行车租赁站点借还需求量与时刻之间具有复杂的非线性关系,但每天之间又具有很高的相似性。BP神经网络模型结构简单,具有良好的泛化、容错和非线性映射能力,陈昕钧等学者曾使用BP神经网络完整预测1 d内某租赁站点借还频次随时间的分布[1]。然而,BP神经网络却存在易陷入局部收敛和收敛速度慢等特点[2]。差分进化(Differential Evolution,DE)算法[3]有很强的全局最优能力,并且收敛速度快。本文利用DE算法弥补BP的不足,进行公共自行车站点需求量预测研究。
通过获得苏州高新区金狮大厦公共自行车站点2014年10月08日至11月08日连续32 d实际借还量,借还量随时间变化曲线如图1所示。选取每天6:00~23:00时间段、间隔为10 min的数据作为样本,每天有103个数据。选取10月08日(星期三)一天的借还量和某一周的借还量进行时间分布特征分析。
图1 金狮大厦站点借还量曲线图
由图1可知,金狮大厦站点在早晚高峰期间出现“还车早高峰”和“借车晚高峰”,这种“单峰型”的借还量显示出借还需求的不平衡,易出现还车难或借车难的现象。同一站点同一周内工作日的借还需求量变化趋势基本相同。
1.2.1 相似系数 以每天一定时段的借还量时间序列数据作为一个列向量,k为序列长度,本文k=103,由n天数据向量构成矩阵Fk×n=[fk1,fk2,…,fkn]。相似系数S表示两组数据向量fa和fb之间的相关程度,表达式
式中,Sab是fa和fb的协方差,其值越大,表示两个数据向量之间的相似程度越大。MS的计算公式
MS表示平均相似系数,是向量之间相似系数的平均值,它越大,表示n个数据向量之间的相似程度越大。
1.2.2 借还数据周期相似性分析 金狮大厦站点10月20日至10月26日连续一周的借还量两两相似系数如表1和表2所列。
表1 一周借还量的两两相似系数(借)
表2 一周借还量的两两相似系数(还)
由表1和表2可知,工作日间的相似系数都大于0.8,工作日与休息日之间相似系数大部分小于0.8,休息日间相似性较差;借车需求量之间的相似系数较还车需求量之间更接近1,说明工作日间还车需求量具有更大相似性。表2中,工作日与星期日间的相似系数大于0.8,但通过计算其他周的工作日与星期日的还车量之间相似系数,发现其值均小于0.8,故不考虑工作日与星期日间的相似性。
进一步计算得到工作日10月20日至10月24日的借车平均相似系数0.854 1,还车平均相似系数0.921 1。同理可算出其他各周工作日的平均相似系数,见表3所列。
表3 同周工作日平均相似系数
为了分析不同周同一工作日相似系数,可计算得出不同周各工作日的两两相似系数(以星期三为例,见表4和表5所列),以及不同周每个工作日的平均相似系数(见表6所列)。
由上述分析数据可知,调查对象的站点借还量在一周中的不同工作日之间,以及不同周的每个工作日之间,均具有很高的变化趋势周期相似性,说明其站点借还需求量可采用BP神经网络进行预测。
表4 不同周星期三需求量的两两相似系数(借)
表5 不同周星期三需求量的两两相似系数(还)
表6 不同周工作日平均相似系数
BP神经网络是一种多层网络的“逆推”学习算法。单隐层BP神经网络是目前运用最广泛的,它包含输入层、隐层和输出层,如图2所示。
在图2中,X为输入向量 (x0是为隐含层节点引入阈值而设置的),Y为隐含层输出向量 (y0是为输出层节点引入阈值而设置的),O为输出层输出向量,用d表示期望输出向量,V为输入层和隐含层间的权值矩阵,W为隐含层和输出层间的权值矩阵。
训练过程分为正向和反向传递两个过程,输入信息经隐层传递至输出层,若输出结果和期望值有误差,则将误差信息沿原网络返回,通过修改神经元的权值,再正向传递,反复循环直至达到要求。
图2 三层BP神经网络
差分进化算法(DE)是1995年由Storn和Price提出的一种基于群体进化的优化算法[4]。它借助于群体个体之间的差分信息对个体形成扰动来探索整个群体空间,利用贪婪竞争机制进行优化,寻求问题的最优解。DE算法原理简单、易于理解和实现、控制参数少,表现出高可靠性和强鲁棒性等良好性能[5]。
利用差分进化对BP神经网络的初始权值和阈值进行优化,可弥补其在数值选择上的随机性缺陷,以取得更高的预测精度和收敛速度。其算法流程如图3所示。
将BP神经网络中权值和阈值通过编码编成软件可识别的码串表示的个体,首先随机生成初始群体,经上述变异、交叉操作,产生一个新的临时种群,利用保优策略的选择操作对种群的个体进行优化选择,直至找到最优个体。将DE得到的最优个体对BP神经网络的初始权值和阈值进行赋值,再利用BP神经网络预测模型进行寻优,从而得到具备全局最优解的BP神经网络预测值。
图3 基于DE的BP神经网络预测流程图
3.1.1 样本数据预处理 以前述金狮大厦站点调查的数据作为样本,每个站点共计103×23=2 369个数据,将前18个工作日作为训练集,最后5个工作日作为验证集。
输入向量采用预测日t时刻的上一周同周期类型t时刻借还量、前三周任意4个工作日在t时刻借还量(5维输入、1维输出)。一般情况下样本数据不能直接用于训练,需要进行处理。利用MATLAB的mapminmax函数处理样本数据,使BP神经网络的输入落在[-1,1]之间。
式中:x为原始数据,y为处理数据;xmax、xmin为原始数据的最大、最小值,ymax、ymin为处理数据的最大、最小值。
3.1.2 神经网络参数的设定 通过文献阅读与样本分析,设定隐含层神经元个数为8,隐含层传递函数为双极性Sigmoidal函数f(x)=;输出层传递函数为线性函数f(x)=x。学习速率取0.01,动量因子取0.9,训练函数采用共辄梯度法中的SCG算法。
3.1.3 初始权值、阈值的确定 在差分进化算法开始前,首先对种群中染色体进行编码。输入节点、隐含层节点和输出节点个数分别为5、8和1,共含有权值5×8+8×1=48个,阈值8+1=9个,进行实数编码时,编码长度为48+9=57。根据相关文献[6-7]与实验测定,设定缩放因子F为0.9,交叉概率为0.7,种群规模为20,最大迭化次数为100。差分进化算法的适度值函数采用神经网络的全局均方误差函数。
3.2.1 BP神经网络预测 经过BP神经网络的多次学习、训练,第48次训练得到借车量最佳归一化均方误差0.013 596,见图4;第67次训练得到还车量最佳归一化均方误差0.010 387,见图5。
训练样本、验证样本和测试样本均方误差收敛特征相同,所得神经网络是可信的。使用训练好的神经网络对11月4日(周二)金狮大厦站点的借还车需求量进行预测,结果见图6与图7。
图4 BP神经网络的训练过程误差曲线(借)
图5 BP神经网络的训练过程误差曲线(还)
图6 BP神经网络的借车量预测结果图
图7 BP神经网络的还车量预测结果图
3.2.2 DE-BP神经网络预测 经过差分进化算法优化的神经网络的多次学习、训练,借车量和还车量的差分最优个体适应度值分别为10.03、11.07,见图8与图9;借还车需求量预测的结果见图10和图11。
图8 DE-BP神经网络的DE优化迭代曲线(借)
图9 DE-BP神经网络的DE优化迭代曲线(还)
图10 DE-BP神经网络的借车量预测结果(2014-11-04)
图11 DE-BP神经网络的还车量预测结果(2014-11-04)
3.2.3 预测结果分析 为评价预测结果,采用平均绝对误差MAE、平均绝对百分比误差MAPE、均方根误差RMSE和拟合度为评价指标[8],其计算公式分别如下
式中,yt为实际值为预测值,n为样本数据个数。
BP神经网络和DE-BP神经网络的预测结果评价指标如表7所列。由表7可以看出,基于差分进化的BP神经网络比BP神经网络的预测精度有较大程度的提高,说明DE-BP神经网络预测模型对于公共自行车站点需求量预测更为有效。
表7 神经网络的预测误差对比
首先对苏州高新区金狮大厦站点公共自行车借还量样本进行相似性分析,在分析的基础上构建了基于BP神经网络的公共自行车借还需求量预测模型,并利用差分进化算法对BP神经网络预测模型进行改进优化;最后利用传统BP神经网络与改进的DE-BP神经网络对公共自行车站点借还需求量进行仿真预测。预测结果表明,DE-BP神经网络的各项评价指标均优于传统BP神经网络。