蔡 芸,杨江辉,熊禾根
(武汉科技大学 冶金装备及其控制教育部重点实验室,机械传动与制造工程湖北省重点实验室,湖北 武汉 430081)
无桩式共享单车的出现为人们的出行提供了便利,但单车故障问题也大量出现。Kaspi等[1]指出,即使故障共享单车的比例很小,仍然会严重地影响用户对整个共享单车系统的满意度。故障共享单车不仅降低了共享单车运营企业的服务品质,还严重威胁骑行乘客的安全。因此,及时回收故障单车成为企业亟待解决的问题。
目前研究共享单车的故障预测问题的文献很少,其研究对象分为有桩式共享单车系统和无桩式共享单车系统。研究问题大致可分为两类:预测每一辆单车的故障状态和预测站内故障单车的数量问题。例如,Kaspi等[2]用贝叶斯模型对停放在站内的每一辆有桩单车进行故障预测。赵明明[3]用Cox比例风险模型,考虑单车的使用时间、环境等因素,对站内每一辆有桩单车进行故障预测。Zhang等[4]用逻辑回归模型,考虑骑行速度、维修次数等因素,计算每一辆无桩单车的损坏概率。张巍等[5]考虑单车故障概率随模糊站点的使用强度不同而近似服从正态分布,来预测故障无桩单车数量。常山[6]考虑维修站影响区域、共享单车投射面积,提出故障单车区域密度公式,来预测故障无桩单车数量。
上述研究都取得了较好的理论成果,但存在如下问题:1) 单一预测模型考虑因素有限,导致系统误差预测风险大[7];2) 多数模型未考虑单车使用时间、频率等预测因素的影响;3) 部分模型虽然考虑了预测因素的影响,但将所有因素同等看待,忽略了不同预测因素造成单车故障的重要程度不同。
针对上述问题,本文对上海市宝山区4月份共享单车骑行数据进行深入分析,应用改进熵权法对故障单车的预测因素(骑行时长、距离等)赋予不同权值,进而得到每一辆单车的分值,再对所有分值进行平均优化处理。在此基础上,以BP神经网络、径向基函数和ELMAN神经网络3种单一预测模型,建立基于critic权重的组合预测模型,并将其应用于单车故障预测,以期降低预测风险。
故障预测因素常采用骑行总距离、骑行次数、骑行速度、骑行总时长、维修次数以及共享单车自投放经历的恶劣天气次数等[3-4]。本文对上海市2019年4月份无桩式共享单车用户骑行数据(交易编号、车辆ID、骑行起点经纬度、骑行终点经纬度、租赁时间、还车时间等)进行分析,得到以下结论:故障单车租借骑行时长常会低于无故障单车的骑行时长,尤其是骑行时间低于1 min的时候故障单车数量暴增,同时骑行距离低于300 m时,故障车辆的数量也远远大于无故障单车,其原因可能是顾客试骑后发现单车故障,提前锁车所致;此外,在无恶劣天气和环境影响的情况下,单车停滞时间过长大概率表示单车出现故障;单车在地铁口、公交站、商业街等热门区域的停滞时间和使用频率与单车故障有相关性,与同区域单车相比,单车停滞天数过长,日租借次数过多或过少,预示着单车出现故障。
因此,本文选择的共享单车故障预测因素包括服务时间低于1min的次数、服务路程低于300m的次数、停滞天数、热门点停滞天数、日平均租借次数、热门点日平均租借次数、租借均差值。其中,单车日平均租借次数包含该单车的热门点日平均租借次数。租借均差值是某单车日均租借次数与近段时间该区域日均租借次数的差的绝对值。该绝对值越大表示单车租借次数过多或者过少,都预示着存在故障风险。
在对多个影响因素进行综合评价时,各影响因素权值的分配是量化评估的关键。为此,本文应用改进熵权法对共享单车故障预测的各个预测因素予以不同权重。熵权的获得建立在评价矩阵的基础之上,在一个具有i组数据、j个预测因素的评估体系中,评价矩阵和改进熵权求解步骤如下。
第4步 用本文改进公式计算各项指标的权值,改进公式如下。
针对传统熵权法出现的问题,文献[8](记为改进熵权法1)和文献[9](记为改进熵权法2)对各项指标的权值公式进行改进,但仍存在不足之处(如表1所示),因此本文提出以下改进。
式中,wj表 示第j个预测因素的权重;Hj是第j个预测因素的熵值;H是所有不为1的熵值的平均值。以下通过3组熵值对4种熵权法进行比较。由表1可知,对于第1组数据,3种改进熵权法都克服了传统熵权法的权重分配问题;对于第2、3组数据,改进熵权法1和2明显缩小了熵权之间的差距。在熵值离散时,本文改进的熵权法的熵权离散效果更好。综上,本文改进的熵权法更加合理。
表1 改进熵权法的效果比较Table 1 Effect Comparison of improved entropy weight method
共享单车故障预测与单车骑行距离、频次、时长,以及单车使用环境、天气等多种因素有关,很难用一定的数学表达式描述。人工智能方法如BP神经网络、径向基函数、ELMAN神经网络等具有较强的非线性学习能力,能通过数据学习得到其内在关系。本文选择以上3种方法进行组合预测。
BP神经网络模型具有良好的函数逼近特性,可以模拟任意非线性问题,由输入层、隐含层(可以是多层)和输出层构成,适合处理复杂问题,使得BP神经网络成为应用最广泛的经典模型之一[10]。本文BP神经网络的基本结构如图1所示,神经网络输入层为7个预测因素,神经网络输出层为单车分值PBP。
图1 BP神经网络结构Figure 1 Structure of BP neural network
径向基函数可以避开复杂的算法来准确地完成计算和预测,其具有全局逼近拟合、训练速度快、不易陷入局部极小值等优势[11]。径向基函数一般有输入层、隐含层和输出层3层,常用的径向基函数是高斯函数,径向基函数结构图与BP神经网络结构图类似,PRBF为径向基函数输出单车分值。
ELMAN神经网络与BP和RBF神经网络不同的是,它是一种典型的反馈式网络,在前馈式神经网络的基础上增加了承接层用以记忆存储前一时刻的输出数据,从而使系统具有适应时变特性的能力,进而促使网络适应数据动态信息特征,提高网络预测精度[12]。ELMAN神经网络结构如图2所示,神经网络输入层为7个预测因素,神经网络输出为单车分值PELMAN。
图2 ELMAN神经网络结构Figure 2 Elman neural network structure
2.2.1 组合预测的概念
组合预测[13-14]是对几种预测方法得到的预测结果,选取适当的权重进行加权以达到提高预测精度的一种预测方法。其主要目的在于消除单一预测方法可能存在的较大偏差,提高预测的准确性。BP神经网络、径向基函数、ELMAN神经网络3种预测方法组合预测的示意图如图3所示。其表达式为
图3 组合预测的示意图Figure 3 Schematic diagram of combined forecasting
式中, λ1、 λ2、 λ3分别为BP神经网络、径向基函数、ELMAN神经网络的权值。
2.2.2 critic权重法
本文采用cirtic法对组合预测模型进行赋权。该方法既突出数据间的相互关系,又体现数据波动性,由此建立一个能够全面考虑到各种单项预测方法所提供的信息的组合预测模型,达到客观、准确的预测效果。critic权重计算具体步骤如下。
首先设对n种预测方法用m个评价指标(MAE、MSE等)去评价,得到误差评价矩阵。
其中,yij表示第j种预测方法用第i个指标进行评价得到的评估值。
再进行归一化处理和数据变异性及冲突性计算,最后计算权重。
对于BP神经网络、径向基函数、ELMAN神经网络和组合预测输出的每一辆共享单车预测分值,使用下列公式进行评判单车故障或良好。
针对误差评价矩阵的评价指标,本文选择平均绝对误差MAE、均方误差MSE、均方根误差RMSE和平均绝对百分比误差MAPE这4种误差指标。
针对实例有假设如下。假设此区域内没有跨区单车;预测过程中,此区域没有新的故障单车产生;暂不考虑3年报废车辆。为验证本文所提出的方法的有效性,以2019年上海市4月份原始(该月份天气晴朗)共享单车数据为例,通过原始数据分析得到,对应7个预测因素(服务时间低于1 min的次数、服务路程低于300 m的次数、停滞天数、热门点停滞天数、日平均租借次数、热门点日平均租借次数、租借均差值)的700组单车数据,其中,90辆为故障单车数据,610辆为无故障车数据。部分数据内容如表2所示。
表2 原始数据Table 2 Raw data
首先将7个预测因素和700组数据对应的矩阵X,分别代入改进熵权法1[8]、改进熵权法 2[9]、本文改进熵权法中,可以得到7个预测因素所对应的权值,如表3所示。
表3 改进熵权法实例比较Table 3 Example comparison of improved entropy weight method
表3中,X1、X2、X3、X4、X5、X6、X7分别表示单车服务时间低于1 min的次数、服务路程低于300 m的次数、停滞天数、热门点停滞天数、日平均租借次数、热门点日平均租借次数、租借均差值。从权重数值分布来看,改进熵权法1和改进熵权法2缩小了熵权之间的差距,本文改进熵权离散效果更好,权重分配更为合理。
然后将上面得到的改进权重代入式(7)、(8)、(9)、(17)计算,可以分别得到AVE1=1.5、AVE2= 0.9、θ = 1以及平均处理优化后的单车分值集合Z。
3.2.1 BP神经网络预测
本文基于Matlab编程应用BP神经网络预测。在具体设计时,首先依据经验公式[15]初步确定隐含层神经元个数,再通过对不同神经元数的网络进行训练和对比,最终确定神经元数。随机选取640组数据作为训练样本(580组无故障车和60组故障单车数据)和60组数据作为测试样本(30组无故障车和30组故障单车数据)。经过测算,确定BP神经网络模型为12个隐层神经元,网络预测性能最佳。从输入层到隐含层以及从隐含层到输出层的传递函数分别采用双曲正切s型传递函数和线性传递函数,训练函数采用trainlm函数。运行结果如图4所示,其中1 ~ 30和31 ~ 60组数据分别为故障单车和无故障车,其平均绝对百分比误差为9.4%,预测准确率达到了86.7%。
图4 BP神经网络预测Figure 4 Prediction diagram of BP neural network
3.2.2 径向基函数预测
本文基于Matlab编程实现应用径向基函数的预测。训练集和测试集数据与BP神经网络模型一样,利用newrbe函数创建一个精确的神经网络。该函数在创建网络时,将自动选择隐含层的数目,使得误差为零。针对径向基函数的分布密度。本文对训练集样本进行多次反复训练,当spread = 0.5时,网络预测性能最佳。运行结果如图5所示,其平均绝对百分比误差为10.3%,其预测准确率达到86.7%。
图5 径向基函数预测Figure 5 Prediction diagram of radial basis function
3.2.3 ELMAN神经网络预测
本文基于Matlab编程实现应用ELMAN神经网络的预测。训练集和测试集数据与BP神经网络模型一样。经过测算,确定ELMAN神经网络模型为13个隐层神经元,网络预测性能最佳。从输入层到隐含层以及从隐含层到输出层的传递函数分别采用双曲正切s型传递函数和线性传递函数,训练函数采用trainlm函数。运行结果如图6所示,其平均绝对百分比误差为10.0%,预测准确率达到85%。
图6 ELMAN神经网络预测Figure 6 Prediction diagram of Elman neural network
将3种单一预测模型输出的预测分值和集合Z代入式(18) ~ (21)中计算,可以得到评价误差矩阵为
将以上矩阵代入critic法中,可以得到BP神经网络、径向基函数和ELMAN神经网络的权重分别为0.467、0.261、0.272,组合模型公式为
基于Matlab平台计算,组合预测模型预测结果如图7所示,其平均绝对百分比误差为6.7%,预测准确率达到93.3%。
图7 组合预测Figure 7 Prediction diagram of combined forecast
第3节中单一方法预测模型和critic组合预测模型的误差对比,反映了critic组合预测模型预测准确率有了较大的提高。
除与各单一预测的结果进行比较外,为了体现critic法的优势,与熵权组合预测[16]进行对比,可计算出BP神经网络、径向基函数和ELMAN神经网络的权重分别为0.42、0.28、0.30。表4给出单一预测方法和组合预测的误差数据对比,其中,critic组合预测的各项误差指标最小,预测准确率最高达到93.9%。
表4 预测模型效果比较Table 4 Comparison of prediction model effect
为了体现本文改进熵权法对后续预测的优势,与改进熵权法2[9]进行整体对比实验。当采用改进熵权法2对预测因素进行权重分配后,计算可得到AVE1为1.69、AVE2为0.83、θ为1以及平均处理优化后的单车分值集合Z,再进行单一方法预测和critic组合预测,其误差对比如图8所示。表5给出采用改进熵权法2[9]后进行预测对比的数据,数据表明本文改进熵权法对预测准确率有较大提高。
图8 基于改进熵权法2的预测误差对比Figure 8 Comparison diagram of prediction error based on improved entropy weight method 2
表5 基于改进熵权法2的预测模型效果比较Table 5 Comparison of prediction models based on improved entropy weight method 2
本文提出改进的熵权法和基于critic的组合预测方法,充分挖掘了预测因素的信息特征,综合利用BP神经网络、径向基函数和ELMAN神经网络3种单一模型的信息。实例分析表明,相比于其他改进熵权法分配权重,利用本文改进熵权法分配权重再进行预测的模型,得到的预测准确率提高了5%左右,且采用基于critic法的组合预测方法,各个误差指标也都有了一定程度的改善,预测结果优于单一模型的预测结果,预测稳定性也高于单一预测方法。这说明本文的组合预测模型具有一定的合理性和优越性。