李婷婷
(河北省石家庄铁道大学,河北 石家庄 050043)
关键字:K均值聚类;Matlab;SPSS;多元线性拟合
目前公交车已经成为人们出行的主要方式,以往不方便之处是需要准备零钱,便于投币。现如今,手机支付越来越发达,在公交车上也可以利用手机进行支付。
我们通过建立乘车人的出行支付特征的分析模型,并用我们建立好的数学模型对第三方支付平台的收支与盈利情况,并由此描述公交车与支付平台结合的收益情况。
所研究的相关数据包括上次乘车时间,本次乘车时间,乘车方式,本月累计公交出行次数,本月累计地铁出行次数,本月累计出现总次数等6个可用数据项,通过这几项指标确定用户支付特征是远远不够的,在确定用户支付特征的过程中,不仅需要考虑乘车时间以及支付方式,还需要计算出或者考虑到一些潜在的影响因素,如乘车间隔,乘车地点,机器故障率等因素综合考虑,才能得出合理的用户支付特征。综合以上因素,通过从局部的每天到整体的每月,都对通过取样得到的n个人的所有的乘车记录进行分析,计算或者提取出这n个人的每次乘车时间,乘车时间间隔,乘车地点,乘车支付方式,乘车次数,机器故障率等5个因素,对这5个因素进行分析得出结论。
首先对明显异常数据进行排查,例如上次刷卡时间大于本次刷卡时间,BUSTYPE数据项不为0或者1,刷卡时间为0001-1-1的乘车记录,这都是无法计算数据;其次,利用matlab软件从所给的28天中每天抽取800个人的所有乘车记录作为研究的对象;最后,计算所需数据:①将所给时间数值化,利用excel将乘车时间和时间间隔转化成数值;②计算乘车地点,用matlab软件依次读取每个人的所有乘车记录,通过冒泡排序法按照乘车时间分别对每个乘车人的乘车记录进行排序,对于每个人的乘车记录,由下一行记录的BUSNUM项减去上一行记录的BUSNUM项,我们将所得项记为公交出行标志,若为1则说明本次刷卡地点为公交站,若为0,则说明本次刷卡地点不在公交站;对于METRONUM项也可用同样的方法得到该用户本次是否在地铁站刷卡。计算得出每天所抽取乘车人的乘车时间,乘车间隔,公交出行标志,地铁出行标志,总乘车次数等5项数据。
关于支付特征,从支付方式和支付次数两方面进行模型的建立和求解。
1.支付次数:①通过对所给数据按月份的统计情况,可以明显看出公交卡支付还是占主导地位,但是移动支付的数量也在不断上升,个别天有超过公交卡支付的趋势。②对一周进行分析,发现在工作日时支付次数相对较多。③通过分析发现随着月份的增,不仅两种支付方式的差距在逐渐减少,而且2中支付方式的支付次数也在减少,经过我们的分析发现,在乘车人的乘车记录一定的条件下,是由于故障率的提升导致了支付次数的减少。④通过统计某天不同时段的支付人次,可发现有明显的2个高峰值点,第一个峰值出现在早上8点-10点和16点到18点这2个时间段。
图1 某周支付方式统计
2.支付方式:由于数据局限于每天之内,具有一定的局部偶然性,还需要从整体的角度来进行时间序列划分。通过对2,5,8,11月乘车人不同支付方式的次数统计可知,不同的季度也会对乘车人的出行支付特征产生影响,利用SPSS软件对预处理过的数据的时间序列进行K均值聚类。然后通过对同季度的七天进行出行的统计,在工作日和周末乘车人所选的支付方式和出行次数有明显的差别,在以上4类的基础上,对每一类继续从时间序列的角度进行K均值聚类,将数据分为2类,聚类中心分别在工作日和周末。最终将数据分为8类,拟合出函数表达式分别为:
根据上述函数表达式,计算分析乘车人的支付方式,如果函数值接近于1并处于合理的范围内,则认为该乘车人的支付方式为公交卡支付款如果函数值接近0并处于合理的范围内,则认为该乘车人的支付方式为移动支付。
将分类后的数据依次带入每个类别对于的函数表达式当中即可求出乘车人的支付方式,然后我们与乘车人的真实支付方式做差并取绝对值进行检验。计算出的支付方式与真实支付方式的差值大部分都维持在0-0.4之间,说明模型拟合较好。
本文通过利用多元线性拟合的方法,解出满足统计的出行支付特征的表达式,将抽象的特征转化为表达式,通过表达式中的系数可以清楚看出每个元素对出行特征的影响。同时横向和纵向分别比较,全面分析影响出行特征的每个元素。