冯寅飞 顾晨琴 度巍
摘 要:本文通过实地调查的方式,安排小组成员在南通各地发放调查问卷,从而搜集乘客网约车行为的相关数据。然后整理数据,将这些数据放至Excel当中,由于各评价指标的性质不同,本文利用Z-Score模型将数据进行标准化去除量纲和数量级,使得之后的回归分析更加精确。接着,利用显著性和偏相关分析方法筛选指标,选择出与取消网约车频率关系最大的自变量因素。最后建立非线性回归模型,通过多种模型的比较,选择出最符合调查数据以及现实行为的模型。
关键词:网约车运营;订单行为;出租车
近来在中国出现了网络预约出租汽车[1](下称网约车),然而在网约车订单当中并非所有订单都是能够完成的。取消行为造成了资源的浪费。因此,网约车乘客行为以及客户取消订单属性的分析具有重大意义,减少不必要的亏损。
一、问题
在“互联网+”的大背景下,南通地区的经济发展迅速,出租车行业发生了巨大的变革,由传统巡游出租车模式衍生出了网约出租车的模式。由于用户预约网约车的过程受到不同程度的各种因素的影响,这使得用户有一定的几率会取消预约的网约车。这显然同时影响了用户和网约车双方的效益,带来成本损失。因此,研究影响用户取消网约车的相关指标并提出改进方案具有极其重大的意义。
二、模型建立
(一)数据的处理及标准化
在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。在调查过程中,出现了旅客乘坐距离、乘坐时间、乘坐频率等参数,这些参数的量纲均有不同,且对于距离来说,数据极大,因此如果不进行标准化处理,会极大影响最终结果的准确性。在本文中采用的是Z-Score标准化[2]。并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法,也叫标准差标准化。
(二)Sig显著性及偏相关分析筛选相关指标
偏相关性,是两个随机变量在排除了其余部分或全部随机变量影响情形下的净相关性或纯相关性,是两个随机变量在处于同一体系的其余部分或全部随机变量取给定值的情形下的条件相关性。在这里利用两种变量的偏相关性[3],筛选出与网约车订单取消有关的因素,利用Sig显著性进行辅佐,进一步筛选出与因变量最相关的自变量因素。
结合相关原理,对标准化后的数据进行分析,结果如下:
从上表可以看出,在五个自变量当中,乘坐网约车的平均距离的Sig显著性为0,因此有着绝对显著性。而其他自变量因素的Sig均超过0.05。
其次发现乘坐网约车的平均距离的偏相关性也为五个之中最大,可以进一步确定其为下一步非线性回归模型建立的自变量因素。
三、优化案例
四、结语
本文通过分析,初步了解到网约车市场当中订单取消行为的一些原因,并且建立了相应的测算分析模型,接下来将会通过对网约车行为轨迹的大数据进行分析,细化网约车订单取消的原因。
参考文献:
[1]崔宇超,关宏志,司杨,覃正桃.基于网约车订单数据的居民出行特征研究——以北京市为例[J].交通运输研究,2018,4(05):20-28.
[2]赵丽娟,董小林,吴阳.基于Z-Score模型的环境污染与经济发展的联合分析[J].应用化工,2017,46(09):1805-1809.
[3]Nicole Barthel,ClaudiaCzado,YaremaOkhrin.A partial correlation vine based approach for modeling and forecasting multivariate volatility time-series[J].Computational Statistics and Data Analysis,2020,142.
基金項目:2019年江苏省级大学生创新训练项目(编号:201910304122Y)
作者简介:冯寅飞(1999—),男,汉族,南通大学交通与土木工程学院交通运输系,本科在读学生,研究方向:交通运输;顾晨琴(1998—),女,汉族,本科在读学生,南通大学交通与土木工程学院交通运输系,研究方向:交通运输。