基于天气因素的共享单车骑行量预测

2021-12-08 06:20:22晏鹏宇刘雨轩
电子科技大学学报(社科版) 2021年6期
关键词:降雨量单车天气

□晏鹏宇 张 华 王 雪 黎 鹏 刘雨轩 杨 东

[1. 电子科技大学 成都 611731;2. 四川省国际科技合作(以色列)研究院 成都 611731;3. 深圳职业技术学院 深圳 518055;4. 成都市气象局 成都 610072]

引言

为了丰富大中城市市民短途出行方式,全球各大城市推出了有桩和无桩共享单车租赁服务。世界上最早的共享单车概念起源于1965年荷兰的阿姆斯特丹[1]。中国共享单车服务始于2014年,目前已经覆盖60多个大中城市。截至2016年底总计约43万辆公共自行车,全球排第一位,是第二名法国的9.5倍[2]。共享单车有效解决了人们短途出行需求,并节约了出行成本。此外,从城市交通系统角度,其还有效提升了城市道路的利用率,丰富了城市交通工具结构,对构建绿色低碳交通体系起到了积极作用。

我国早期多个共享单车平台为快速占领市场份额,进行了多轮疯狂“圈地运动”,使得许多大中城市的共享单车投放规模远超于实际需求[3]。为鼓励和规范共享单车的可持续性健康发展,进一步提升共享单车平台的运维管理水平,我国中央和地方管理部门出台了多项规范共享单车发展和车辆动态投放与回收的相关制度与措施[4~5]。与此同时,积极探索利用卫星导航定位、地理信息系统和蓝牙通信等技术,建立共享单车政府监管与服务平台,规范共享自行车的管理。例如,成都市成华区城管局建立了第三方共享单车智能管理平台,通过蓝牙技术实时监控该区域内地铁站口、高校、商圈和景点等地点的单车使用和空闲堆积情况,并要求共享单车平台对区域内的单车实现实时动态投放和回收,提升车辆的有效利用率,避免多余车辆堆积。同时,还将每日单车闲置率和废弃率等作为区域内共享单车平台考核评价的指标和下一阶段单车投放总量的重要参考。然而,共享单车平台在实际运营中难以准确预测用户骑行量,时常造成单车投放与需求在时空维度上的不平衡[6],出现人流多的地点无车可借,人流量少的地点车辆堆积,堵塞人行道和机动车道,甚至影响市民的正常出行,给城市交通秩序造成不良影响。

共享单车的需求不仅受到通勤用户潮汐出行规律等因素影响[7],还受到气温、降雨量和风力等天气因素以及地理空间等多维复杂因素的影响。共享单车作为一种暴露在交通环境中的非机动出行方式,用户骑行需求受天气等自然因素的影响程度更为显著。天气状态不仅会改变出行者的出行环境,还会影响出行者的生理和心理状态,进而影响交通的有序运行。纵观目前大多研究内容主要集中于机动车交通工具,对于共享单车此类新型交通工具,特别是天气因素对共享单车骑行量的影响,研究尚存在不足。研究天气因素是否影响、如何影响共享单车作为交通工具出行的选择以及各天气因素之间的相互关系,有利于指导单车企业与相关管理部门更加科学合理地投放和管理。

上述现实运营压力和政府管制要求,迫使共享单车平台的运营管理方式必须从粗放型向智能和精细化方式转变。平台需要根据实时天气数据、用户骑行规律以及时空特征因素,准确预测用户骑行(需求)量,为日常运营中车辆投放与回收决策提供科学依据。本文在当前单车骑行价格等经济因素以及市场竞争态势等相对稳定情况下,构建了基于BP神经网络的天气因素对共享单车骑行量的预测模型,利用2018年8~10月成都市成华区电子科技大学(沙河校区)及其周边的摩拜单车骑行数据和成都市气象局提供的该区域实时天气数据,并结合用户的潮汐骑行规律和地理空间的兴趣点(Point of Interest, POI)数据[8],分别训练“每日”和“每时”的用户骑行量预测模型,为管理决策者提供每天单车总投放数量决策和一天内单车在兴趣点之间的动态回收和调度决策。本文进一步利用该预测模型,分析了不同天气条件下共享单车骑行量的变化特征,为下一步共享单车平台或者第三方监管平台实现基于天气因素的实时精准投放与回收提供了科学方法与依据。

一、文献综述

目前国内外针对共享单车在社会影响、经济效益、法律条例以及运营管理等方面均有较深入的研究[9~18],部分研究集中在某区域内兴趣地点和时段对骑行需求量的影响。例如,文献[19]从空间和时间角度分析了共享单车出行需求存在时空不平衡现象,并利用长短期记忆神经网络方法(LSTM NNs)建立共享单车动态需求预测模型,预测了不同时间间隔(10 min、15 min、20 min和30 min)的共享单车出行量和吸引力。文献[20]提出基于数据驱动图滤波器(GCNN-DDGF)的新型图卷积神经网络模型,该模型能够学习站点间隐藏的异构配对关联,从而预测大型共享单车网络中站点级每小时的需求。文献[21]将人工智能系统与人工神经网络预测技术相结合,开发了一种用于数值预测的新型预测框架(AIS-ANN)进行单车需求预测。在提出的AIS-ANN预测框架中,建立预测系统的机制主要有三种:人工神经网络、克隆选择和相似性度量。文献[22]采用支持向量机构建了基于SVM的共享单车需求预测模型。仿真实验的复杂度方面利用主成分分析法进行了降低,对于数据噪声的扰动,采用小波消噪的方式进行了减弱和消除。而文献[23~24]则针对时间出行分布的非严格周期性,分别采用引入注意力机制的AM-LSTM和以随机森林作基准的GRU-LSTM双重方法结合的模型进行短期需求预测。文献[25]基于Tanh,Logistic,Relu和Identiey四种不同激活函数构建了BP神经网络需求预测模型,并利用模型评估指标筛选了最优单车需求预测模型。文献[26]针对共享单车动态的时空特性,对系统状态的短期时空分布预测进一步扩大。并采用卷积长短期记忆网络(conv-LSTM)方法,解决了空间依赖和时间依赖。通过以上文献回顾可发现,大部分文献从区域人口和经济总量等社会经济宏观因素评估共享单车的投放量,但未从日常运作的微观角度考虑天气条件对单车骑行量的影响。在具体预测方法方面,通过BP神经网络模型同时结合天气因素来研究骑行需求的文献尚较缺乏,且大多主要利用传统的多元线性回归模型以及基于时序的预测模型,由于这类模型自身对非线性关系表达能力较差,预测结果往往存在较大误差。

目前仅少部分文献考虑了温度、降雨量等自然因素对单车骑行量的影响。文献[27]基于历史数据、天气数据和时间数据,采用两层深度的LSTM模型实时预测未来一段时间内城市不同区域的单车租赁和归还情况。文献[28]则综合考虑了时间、天气、建筑环境、基础设施和空间等因素,开发了广义极值(GEV)计数模型,预测各个站点每小时的单车开关锁数量。文献[29]则借助天气数据(温度、湿度、风速、能见度、太阳辐射、降雪、降雨),每小时租用单车的数量和日期信息,运用数据挖掘技术建立了每小时单车需求预测模型,提出了一种特征滤波方法以消除不可预测的参数。文献[30]基于套索回归、随机森林和迭代决策树等机器学习方法研究了共享单车短期(基于小时)内需求预测的主要影响因素,研究结果发现,影响共享单车短期需求的主要因素包括:特定的位置因素,时间因素以及天气条件因素。文献[31]则采用长短期记忆(LSTM)神经网络模型预测了共享单车的短期需求量,并与传统的循环神经网络(RNN)和BP神经网络模型预测结果进行了对比分析,验证了LSTM鲁棒性更高,泛化能力更强,且预测结果曲线与真实结果曲线相吻合。此外,预测实验结果表明:影响单车需求量的主要因素包括温度、节假日、季节和早晚高峰时间段等。

本文将利用摩拜单车平台提供的成都市电子科技大学(沙河校区)及其周边的历史骑行数据和成都市气象站提供的天气数据,分析影响单车骑行量的天气因素及其相关性的强弱,并结合主成分分析法选取其中主要的影响因素作为输入变量,在此基础上构建基于BP神经网络的共享单车骑行量预测模型,并与传统的多元线性回归模型以及基于时序的预测模型进行对比分析。最后基于真实的数据集验证所建预测模型的准确性、有效性和可靠性。以此帮助共享单车企业更加智能和精细地预测用户需求的特征与规律,为共享单车的投放和调运提供更加科学合理的解决方案,从而提升企业的运营管理水平。

需要注意的是,本文从日常微观运作角度出发,研究关于电子科技大学(沙河校区)及其周边区域内,摩拜单车平台的骑行量在“每日”和“每时”受天气因素的影响。在研究问题中,假设对影响市场中整体骑行量的经济因素,如共享单车骑行的价格和成本,以及该区域内其他共享单车平台的竞争策略与行为等均保持不变或者相对稳定。其次,由于本文研究区域—电子科技大学(沙河校区)及其周边的共享单车总体呈现供大于求的情况,并且在城市管理部门的实时监管下该平台能够及时地进行单车调度,总体上实现了单车供需的基本匹配。因此,本文采用摩拜单车平台记录的骑行量来反映需求量具有一定的可靠性和准确性保证。

二、数据描述与相关性分析

本文从摩拜单车公司(现为美团共享单车)获取了成都市成华区电子科技大学(沙河校区)及其周边2018年8月1日~10月31日的骑行数据,具体信息包括:骑行日期、单车ID、单车开锁和闭锁的时间(精确到秒)与开关锁的经纬度,共25.4万条记录;以及成都市气象局提供的该区域气象观测站同期以小时为单位的气温和降雨量数据,共2 929条记录。其中部分共享单车骑行数据的原始记录如表1所示。

(一)影响因素分析

因缺少庇护装置和控温设备,共享单车与地铁、公交车、汽车等其他交通工具相比,其用户的骑行意愿受温度、降雨量等外部天气因素影响较大。此外,天气因素还包括:风力、降雪量、空气质量等。由于成都地区常年风力较弱,基本无降雪,空气质量良好,故本文以气温、降雨量以及降雨时长作为主要指标进行考量。每小时整点时刻的温度记录为时刻温度,精确到0.1 ℃,每小时的总降雨量记录为时刻降雨量,精确到0.1 mm,并以小时为单位统计了各个地点在每个时段内的骑行量。同时,为了避免不同地点和潮汐现象等微观因素对预测效果的影响,本文在所研究区域内选取了8个具有代表性的兴趣地点,主要包括有地铁口、公交站口、高校和商场入口等。

表 1 部分单车骑行数据原始记录

(二)相关性分析和主成分分析

基于所获取的单车骑行数据和气象数据,本文首先以“日”为单位进行影响因素的相关性分析。从表2可以看出,日均温度和日下雨时长之间的相关性为-0.125,呈弱负相关关系;日均温度和日总雨量之间的相关性为0.122,呈弱正相关关系;而日总雨量与日下雨时长为强相关关系,其相关性为0.709。其中,日均温度、日总雨量和日下雨时长与日骑行量均呈强负相关关系。以上数据说明研究天气因素对日骑行量的影响具有一定的必要性,因日总雨量与日下雨时长关于骑行量的解释具有较大的信息重叠性,故考虑通过主成分分析法进一步筛选变量。

将以上三种因子解释骑行量的占比由高到低进行排序,观察各因子累计解释占比。统计结果如表3所示:

表 3 总方差解释

从表3可以看到,日均温度、日总雨量和日下雨时长的解释占比分别为56.964%、34.685%和8.351%。日均温度和日总雨量两个因子的累计解释占比为91.649%,这表明绝大部分的信息可以被日均温度和日下雨总量所表达,即这两个因子基本可以解释日骑行量,故在以“日”为单位的BP神经网络预测模型中,日总雨量和日下雨时长选择其中之一作为输入变量即可,本文选取日总雨量进行进一步的研究。

三、改进的BP神经网络预测模型

以往使用的ARIMA等模型均为基于时序的预测应用,随着时间推移进行顺序处理,不仅会耗时长,而且对计算资源要求极高。而BP神经网络模型无以上基于时序的预测模型弊端,且其理论发展已较为成熟,作为一种前向传输网络,其还具有强大的并行处理能力、非线性映射能力、自适应性和泛化能力等优点。

(一)输入数据处理

1. “日”和“时”为单位的数据处理

通过统计分析发现在每天00:00~5:59时段内的单车骑行量不足总数据的1%,故本文仅统计每天06:00~23:59这个时段共计18个小时的骑行数据。为排除其他干扰因素,统计数据中剔除周末和节假日的单车骑行数据。在以“日”为单位的统计中,日下雨时长在[0,18]小时范围内取整数,经统计得到以“日”为单位的“骑行-天气”数据共62个。在以“时”为单位的统计中,由于统计骑行时间段为06:00~23:59,将观察到的“时刻”以小时为单位依次编号:6,7,…,23,经过统计整理共得到8 928个“骑行-天气”数据。

2. 兴趣地点的数据处理

本文在所研究的电子科技大学(沙河校区)及其周边区域内选取了8个具有代表性的兴趣地点,其中包括有:前锋路地铁站、电子科大食堂、图书馆等,将其依次编号为:1,2,…,8,并根据历史骑行数据,绘制了如图1所示的8个兴趣地点的热力图。这些兴趣点的日平均开锁次数在10次以上,代表了该区域内用户密集借还单车的位置,这也是单车运营管理者对单车回收和投放的重要地点。

图 1 兴趣地点1-8骑行热力图

(二)模型构建

1. 输入层和输出层设计

由于输入变量会直接影响到网络的输出结果,故输入变量和节点数的选取特别重要,根据上述相关性和主成分分析,初步确定日均温度和日总雨量作为输入变量。本文研究内容为天气因素对骑行量的影响,故输出变量确定为“日骑行量”或“时刻骑行量”。

2. 网络参数的确定

3. 隐含层设计

此外,传递函数的选择也需要进一步优化,本文通过数值实验发现:tansig相比传递函数logsig输出的平均公差更小,所对应的网络结构更优。此外,影响BP神经网络预测性能的还有学习训练的函数类型,经过研究发现系统公差最小的为trainlm参数,故本文选取的训练函数为trainlm。采用随机抽样的方法,从总体样本中选取了12天作为试验样本,根据以上确定的参数和相关函数所构建的基于天气因素的BP神经网络模型,以“日”为单位进行骑行量的预测,此时预测输出值和实际值(即期望值)的对比如图2所示,误差结果如图3所示。

从图2的曲线走势可以发现,11个走势中,除第8个预测结果稍有些异常导致7→8和8→9的两个趋势预测不够精准之外,其余9个趋势预测均较为准确,且准确率约为81.82%。进而从图3关于BP神经网络模型预测误差曲线图中,可看出第2、3、8个预测样本误差偏大,但相对误差不超过15%,故此模型具有较高的可靠性与准确性。为进一步检验其准确性,下面将进行模型误差对比析。

图 2 实际值-预测值对比(日骑行量)

图 3 BP神经网络预测误差(日骑行量)

(三)模型准确性检验

K折交叉验证法是神经网络模型普遍采用的检验方法,K值通常由其样本总数来确定。本文选取五折交叉验证法进行检验,即将总样本数均分为5份,轮流选取其中1份作为测试样本,其余4份作为训练样本,共进行5轮验证,最后将5次的测试样本误差和训练误差求平均。本文以RMSE作为误差指标,并将其结果与ARIMA模型、多元线性回归的误差进行对比,结果如表4所示。

表 4 模型验证对比(日骑行量)

在表4中,R方为拟合优度,由于非线性的特点,多元线性回归模型的拟合优度只有0.429,其RMSE高达581.6,ARIMA(0,1,1)模型的总样本RMSE同样高达401.7,训练样本和预测样本的RMSE均较高,而BP神经网络模型的总样本RMSE只有163.12,预测样本和训练样本的误差均较小,明显优于多元线性回归模型和ARIMA(0,1,1)模型。

四、基于BP神经网络模型的骑行量仿真及分析

(一)以“日”为单位的骑行量仿真及分析

根据以上建立的改进的BP神经网络模型,分别在给定日降雨量和日均温度下进行共享单车骑行量预测。将20 mm确定为恒定日降雨量,以步长为2从2℃~42 ℃进行日均温度的取值,共21个温度值。同理,将22 ℃设定为日均温度的恒定温度,以步长为2从2mm~34 mm进行日降雨量的取值,共17个降雨量值。将上述两组天气数据作为输入数据,利用所建立的改进的BP神经网络预测模型进行共享单车日骑行量的预测,结果如图4所示。

图 4 不同日均温度/降雨量下日骑行量预测

由图4可看出,日均温度在2 ℃~20 ℃范围内,随着温度的上升,日骑行量明显上升,尤其约在12 ℃之后,日骑行量开始迅猛增长,第一个日骑行量峰值出现在20 ℃左右,在超过20 ℃之后,日骑行量开始逐渐下降,在30 ℃时日骑行量出现极小值拐点,之后随着温度的上升,日骑行量再次增加。以上数据表明,在12 ℃~20 ℃范围内,日骑行量受温度的影响最为敏感,骑行的最适温度范围为18 ℃~24 ℃。关于超过30 ℃之后,骑行量再次增加的原因,结合实际情况进行推测是由于高温刺激了更多用户需求,其选择骑行代替步行,从而减少高温灼晒时间。

同样,通过图4可以清晰看到降雨量对骑行量的影响呈明显的指数下降趋势,降雨量较小时日骑行量快速下降,随着降雨量逐渐增大的同时,骑行量下降幅度减缓。这点结合实际情况进行推测是由于在初始降雨时,用户需求易受降雨的影响,其会选择其他出行方式代替骑行,从而骑行量逐渐递减;但当降雨量超过20 mm时,骑行量变化则趋于平稳。

(二)以“时”为单位的骑行量仿真及分析

以下基于时刻和空间两种维度进行骑行量仿真及分析,简称为基于“时空”的预测,其预测方法与以“日”为单位的方法类似,不同之处是前者输入变量增加了时刻和地点变量,且均以小时为单位进行温度、降雨量和骑行量的统计,故基于“时空”维度下的预测包含有更多信息,其细粒度也更高。采用上述改进的BP神经网络预测模型,对目标区域内不同地点的不同时刻骑行量进行预测。

由图1可知,地点参数为8个兴趣地点。以地点1代表的电子科大食堂为例,共收集到1 116个样本,取其中1 050个作为训练样本,剩余66个则作为预测样本,相关预测结果如图5所示。在图5中,横坐标为预测样本序号,纵坐标数值为地点1(电子科大食堂)在特定时刻的每小时单车骑行量预测值,从图5可发现66个预测样本的预测结果与实际输出值较为吻合,每个峰值的骑行量也有较好地反映出来。

图 5 地点1时空参数下时刻骑行量预测对比

(三)其他条件下的骑行特征分析

1. 温度影响下的不同地点骑行特征

为了研究不同地点受温度影响的骑行量变化特征,本文在具有代表性的8个兴趣地点中选取了其中2个地点进行对比分析,分别是地点1(电子科大食堂)和地点4(电子科大第二教学楼)。时刻参数选取编号为8的早上08:00~08:59,此时段为上课高峰期,温度的选取从12 ℃~40 ℃以步长为2进行统计,时刻雨量取恒定值0 mm,预测结果如图6。

图 6 不同地点受温度影响的时刻骑行量预测

由图6可见,地点1(电子科大食堂)每小时的骑行总量明显多于地点4(电子科大第二教学楼),且地点1(电子科大食堂)大体呈现倒U分布,在24 ℃左右时,达到骑行量高峰。地点4(电子科大第二教学楼)的骑行量受温度影响较小,在温度逐渐上升的过程中,总体呈现缓慢下降趋势。结合实际情况分析,食堂的人口流动量比教学楼多,其骑行量固然大于教学楼的单车骑行量。

2. 雨量影响下的不同地点骑行特征

同样的处理方法,时间上选取12:00~12:59时段(编码12),将温度设为恒定值20 ℃,降雨量以步长为2,在0~40 mm范围内进行取值,其预测结果如图7所示。同时为更详细了解低降雨量(椭圆圈出部分)下不同地点的骑行量特征,图8展示了图7中降雨量从0~4 mm,步长为0.2的骑行量更细致的预测结果。从图7和图8可以看到,降雨量在1 mm及以下时,地点1(电子科大食堂)和地点4(电子科大第二教学楼)的骑行量均随降雨量的增加而减少,地点1(电子科大食堂)的下降速度尤为急剧,骑行量从50下降到10左右。地点4(电子科大第二教学楼)的骑行量从13下降到5。而雨量在1 mm以上时,两地骑行量受降雨量的影响均较小。

图 7 不同地点受雨量影响的时刻骑行量预测

图 8 不同地点受雨量影响的时刻骑行量预测(降雨量在4 mm以下)

3. 不同温度下不同地点的骑行量特征

同样,以地点1(电子科大食堂)和地点4(电子科大第二教学楼)为例,降雨量取恒定值0 mm,时间上以步长为1在06:00~23:59进行取值,为更详细分析不同地点不同时刻的骑行量特征,加入温度维度信息,分别取14 ℃和20 ℃,预测结果如图9所示。

图 9 不同温度不同地点的时刻骑行量预测(14 ℃、20 ℃)

从图9可看到,地点1(电子科大食堂)的骑行量远高于地点4(电子科大第二教学楼),其在08:00~08:59、12:00~12:59和18:00~18:59三个时间段均达到了骑行量高峰,反映了食堂就餐时间对骑行量的影响。地点4(电子科大第二教学楼)在11:00~11:59、17:00~17:59和21:00~21:59三个时间段均达到了骑行量高峰,反映出午餐和晚餐时间,教学楼(地点4)的骑行时间要早于食堂(地点1)1个小时,并且在21点存在一个开锁高峰,与实际下课或下自习情况相符合。此外,地点4(电子科大第二教学楼)的骑行量受温度影响程度明显低于地点1(电子科大食堂),特别是在骑行高峰期。

五、结论

本文基于BP神经网络建立了针对天气因素(温度和降雨量)对骑行量影响的预测模型,并通过五折交叉验证法对比证明了BP神经网络模型的可行性与可靠性,利用成都市成华区电子科技大学(沙河校区)及其周边的真实骑行数据与天气数据验证了所建模型准确度约为81%。之后,本文分别以“日”和“时”为单位分析了该区域内兴趣地点基于上述天气因素的骑行量预测结果。在以“日”为单位的骑行量仿真分析中发现,不同温度下骑行量的变化特征为,在12 ℃~20 ℃,日骑行量受温度的影响最为敏感,骑行的最适温度范围为18 ℃~24 ℃,超过30 ℃之后,骑行量会再次增加;不同降雨量下骑行量的变化特征为,初始降雨时,用户需求易受降雨的影响,选择步行代替骑行,从而骑行量逐渐递减;但降雨量一旦超过20 mm时,骑行量变化则趋于平稳。在以“时”为单位的骑行量仿真分析中发现,不同地点在不同时刻的骑行量受温度和降雨量的影响程度差异较大,需不同地点区别管理。从共享单车运营的角度出发,每个聚集地点和典型时段需要区别管理,并设置相应的管理优先级,如高频骑行或敏感度较高的地点和时段进行优先投放和调度,以确保这些地点和相应时段供应充足。

由于本文研究收集仅为2018年8~10月该区域内的数据,若能获得一年甚至两年的相关骑行和气象数据,经过大规模数据训练后的预测模型将具有更好的预测效果。此外,以“时”为单位进行预测的情况下,部分地点的某些时段骑行量为个位数,预测精度会有所降低。未来研究将基于跨度更大的数据,进一步完善基于BP神经网络的共享单车骑行量预测模型的准确性。

猜你喜欢
降雨量单车天气
共享单车为什么在国外火不起来
意林彩版(2022年1期)2022-05-03 10:25:07
天气冷了,就容易抑郁吗?
降雨量与面积的关系
谁是天气之子
盛暑天气,觅得书中一味凉
文苑(2020年7期)2020-08-12 09:36:38
飞吧,单车
Weather(天气)
对恶意破坏共享单车行为要“零容忍”
共享单车(外四首)
岷峨诗稿(2017年4期)2017-04-20 06:26:34
洞庭湖区降雨特性分析