戢晓峰,刘丁硕,陈 方
(昆明理工大学 a.交通工程学院,b.云南综合交通发展与区域物流管理智库,昆明 650504)
2019年,全国公路旅客运输量占客运总量的79.9%[1],公路客运仍然在综合客运体系中占据重要地位.当前,面对激烈的客运市场竞争及个性化的出行需求,公路客运行业必须在充分掌握旅客出行行为特征及其群体异质性的基础上,针对不同的出行需求强度(需求强度在此特指旅客出行需求的强弱程度),对公路旅客进行合理划分,以有效掌握旅客的出行行为模式,进一步优化公路客运组织提升客运市场营销水平.因此,通过研究公路旅客出行行为的异质性,深入理解公路旅客出行行为的主要影响因素[2],对于指导公路客运组织、针对性制定市场营销策略具有重要意义.
出行行为特征一直是交通运输领域的理论研究热点,早期对出行行为的研究多聚焦于出行行为特征提取及出行方式选择等方面[3-9],但对旅客群体异质性考虑不足.随着相关研究的不断深入及旅客出行的个性化需求日趋显著,旅客群体存在显著的异质性已经成为理论共识,不能将所有旅客简单作为同一类群体进行分析[10-12].近年来,为解释旅客出行偏好的异质性,部分学者基于单一视角或少数变量解释旅客偏好的异质性,如Rastogi等[13]选取职业、收入、住房等因素对旅客进行分类,以分析不同旅客类别的出行选择行为模式;Haywurd等[14-16]研究发现旅客的出行行为选择不仅受时间、费用等因素影响,也受出行偏好及体验等方面的影响;郭晓等[17]通过瓶颈模型分析了时间价值对出行者早高峰出行行为的影响.目前,多数学者主要基于问卷调查数据进行出行行为异质性研究,如鲁光泉等[18]建立了多类别异质出行者路径选择模型,分析了多类型出行者路径选择行为的异同;刘建荣等[19-20]考虑出行者异质性,量化分析了环保意识对广州市绿色出行行为的影响,研究了广州南站出行者的出行选择行为.
综上,已有出行行为异质性研究多基于调查问卷数据,数量有限且主观性较强,难以真实反映旅客出行行为的选择偏好等;并且未能考虑需求强度对群体异质性的影响,针对不同需求强度的公路客运组织及市场营销策略研究鲜见于文献报道.因此,为准确掌握旅客出行的个性化需求,本文作者基于公路旅客联网售票数据,在构建公路旅客群体识别方法的基础上,通过结合聚类及决策树算法识别公路旅客群体,分析公路旅客出行行为异质性,并引入结构方程模型以获取需求强度对公路旅客出行行为异质性的影响机理.进一步通过对公路旅客进行合理划分,明确公路旅客出行行为选择机理,更好地掌握旅客行为模式,为公路客运开展收益管理实践,进行客运产品设计、调整及售票策略制定等奠定理论基础.
通过K-means聚类算法及决策树CHAID算法建立公路旅客群体识别的嵌套模型,并引入结构方程模型探索需求强度对公路旅客出行行为异质性的影响机理,建模流程见图1.
建模流程主要包含3个部分:
1)数据预处理与指标体系构建.
对原始数据进行清洗,优选数据子集,得到公路旅客指标数据集.
2)公路旅客群体识别模型建立.
在对公路旅客指标数据集进行聚类分析的基础上,运用CHAID算法获取公路旅客细分规则决策树.
3)公路旅客出行行为异质性研究结果分析.
对比分析平、高峰时期公路旅客的出行行为异质性特征,并利用结构方程模型获取需求强度对公路旅客出行行为异质性的影响机理及具体路径.
图1 群体识别及出行行为异质性研究的建模流程Fig.1 Modeling process of group identification and heterogeneity in travel behavior
1.2.1 公路旅客联网售票数据
由于传统公路旅客出行行为研究多源于调查问卷数据,获取的数据数量有限且主观性较强,严重影响后期群体识别的准确性,且较难真实反映出公路旅客购票及出行行为等方面的特征及选择偏好.因此,为真实研究公路旅客出行行为的异质性,本文数据来源于某公路客运联网售票系统,数据为全样本公路出行客票数据,可有效弥补传统研究中数据受限、对群体异质性考虑不足等问题.
基于此,在海量售票数据中运用SQL Server软件剔除了与主题不相关及异常数据的基础上,提取出具备完整购取票及身份信息的数据为样本数据.提取样本数据近70万条,数据总字段数为42个,数据字段见表1.
表1 公路旅客联网售票数据字段
该数据包括旅客个体属性、出行特征及出行选择偏好等多方面信息,具体如下:
1)该数据包含“IdCard”字段,即旅客身份证号码信息,可提取出旅客年龄及性别等个体属性.
2)该数据包含“fctime”、“lc”、“pj”及“cx”字段,即旅客出行时刻、出行距离、票价及车型选择等信息,可有效反映出旅客出行特征.
3)该数据包含“spdate”、“sptime”、“GetTicketDt”、“GetTicketTm”、“fcdate”、“gpfs”等字段,即售票日期、售票时间、取票日期、取票时间、发车日期、购票方式等信息,可提取出旅客购票方式,并测算出旅客的提前取票时间等旅客出行选择偏好.
1.2.2 公路旅客群体识别指标体系
每条数据代表了公路旅客的一次出行消费记录,在参考相关研究[21]的基础上,基于个体属性、出行特征、出行选择偏好三方面,提出公路旅客群体识别的指标体系,见表2.
表2 公路旅客群体识别指标体系
1.3.1 公路旅客聚类
K-means算法是无监督的聚类算法[22],采用距离测度样本的“亲疏程度”,对于给定的样本集,按照样本之间距离大小,将样本集划分为K个簇;该算法收敛速度较快,聚类效果较优,算法的可解释度较强.基于上述公路旅客群体识别的指标体系,采用K-means聚类算法对公路旅客进行聚类分析,以提取公路旅客的出行行为特征,进一步划分公路旅客群体.
假设一组数据集xa包含k个特征量,即xa={xa1,xa2,…,xak},则任意两个样本数据之间的相似性可用欧氏距离表示为
d(xa,xb)=
(1)
式中:d(xa,xb)为样本xa与xb的欧氏距离;xai为样本数据xa的第i个特征量,xbj为样本数据xb的第j个特征量;k为特征量总数(i⊂k,j⊂k).
通过构建以误差平方最小作为聚类的目标函数
(2)
式中:J为聚类的目标函数;d(x,βa)为样本x与类别a中心点βa的距离;Ga为第a类集合;p为聚类点数目.
经迭代计算,达到最优聚类,最终输出训练模型.
1.3.2 公路旅客群体细分规则
决策树分析以聚类分析产生的分类标签为规则,通过学习算法,寻找数据与分类规则之间的对应关系沿决策树根节点至树中每个叶子节点的路径[23].常用的决策树算法有C5.0算法、分类回归树(CART)及CHAID算法.相较于C5.0算法与CART算法,CHAID算法可对输入变量进行预处理,即对数值型输入变量值进行分箱处理,合并分类型输入变量取值,形成超类,且从统计显著性检验角度确定当前最佳分组变量和分割点.因此,本文运用CHAID算法对公路旅客群体细分规则进行学习,具体细分迭代计算过程为
(3)
(4)
Qmn=(Zm/p)×(Zn/p)
(5)
式中:χ2为统计量,用来识别最优分裂属性;qmn为实际分布概率,qmn=Zmn/p.其中,Zmn为Z的分布频数,p为总样本数;Qmn为与qmn对应理论分布频数的估计值;L2为最大似然估计值;Zm为二维交叉分类表中第m行元素求和;Zn为二维交叉分类表中第n行元素求和.
首先,对原始数据进行预处理,筛除与主题不相关及异常的联网售票数据.其次,提取得到具备完整购取票及身份信息的数据694 675条,能够有效反映公路旅客的出行行为异质性,见表3.数据处理发现节假日期间公路旅客数量庞大,且与日常期间公路旅客出行行为存在明显异质性.因此,运用SPSS软件对全样本数据进行平峰及高峰时期的数据统计筛选.最后,结合节假日实际情况,并根据旅客数量、出行距离、消费金额、提前取票时间等指标[24]筛选出高峰时期数据65 071条,平峰时期数据629 604条.进一步探究平、高峰不同时期公路旅客的出行需求,明确平、高峰不同时期旅客流向及其出行行为选择机理,对有效掌握旅客目标市场、提前制定高峰时期预警机制及策略具有重要的指导意义.
表3 公路旅客群体识别指标提取部分结果
公路旅客群体识别指标的分布情况见图2~图4.由图可知:
1)在旅客个体属性方面,公路旅客男性居多,占总数的64.93%;旅客多为青年及中年,年龄主要集中在20~40岁之间,占比57.95%.
2)在旅客出行特征方面,公路旅客通常选择在9:00—11:00出行,占总数的40.31%;旅客多侧重短途及中途出行,出行距离在500 km以下的旅客占比88.96%.
3)在旅客出行选择偏好方面,购买票价为20~150元的旅客占总数的83.89%;旅客对乘车舒适度要求不高,乘坐中型坐席高一级及大型坐席高一级的旅客占比46.31%;选择线下购票的旅客占比98.45%;发车前1 h内才取票的旅客占比94.08%.
图3 公路旅客出行特征Fig.3 Road passenger’s travel characteristics
注:1-小型坐席普通;2-小型坐席中级;3-小型坐席高一级;4-小型坐席高二级;6-中型坐席普通;7-中型坐席中级;8-中型坐席高一级;9-中型坐席高二级;11-大型坐席普通;12-大型坐席中级;13-大型坐席高一级;14-大型坐席高二级;15-大型坐席高三级;18-大型卧铺高一级;19-大型卧铺高二级;21-大型坐席豪华.
为有效反映公路旅客的出行行为异质性,选取平峰及高峰时期对旅客出行行为异质性进行对比研究.相对而言,平峰时期旅客显著性表现特征差异较小,但高峰时期旅客出行行为异质性明显,不同时段旅客的显著性特征表现差异较大.因此,进一步聚焦高峰时期,对高峰时期进行需求强度划分,更为精准的识别公路旅客群体.其中,所选数据涉及成都、杭州、昭通市昭阳区、水富市、永善县、大关县、鲁甸县、盐津县、绥江县、彝良县、威信县、巧家县、镇雄县等区域,包涵昆明—大关、水富—杭州、巧家—成都等69条线路,高峰时期所涉及区域及线路与平峰时期一致.
2.2.1 公路旅客群体聚类结果分析
1)平峰时期公路旅客群体聚类结果及差异性分析.
根据轮廓系数原则初步确定公路旅客指标数据集的最佳聚类个数为4个,将4类公路旅客群体分别用T1、T2、T3、T4表示.具体公路旅客聚类中心计算结果见表4.
表4 平峰时期公路旅客聚类中心计算结果
根据旅客群体聚类计算结果,分析不同旅客群体的出行行为特征,见图5.
由图5可见:①第一类旅客群体的显著特征表现为男性,青年与中年比例更高,倾向于8:00—14:00乘车,短中途出行为主,偏好乘坐中型坐席高一级及大型坐席高一级客车,通过人工购票,多在发车前8 h内取票.②第二类旅客群体的显著特征表现为通过网络购票,倾向于8:00—10:00乘车,多在发车前16~25 h内在车站取票口取票,表明该类旅客出行计划性较强,即为避免排队取票时间过长导致正常出行受影响等问题.③第三类旅客群体的显著特征表现为倾向于14:00—15:00乘车,多在发车前1 d内取票.④第四类旅客群体的显著特征表现为女性,偏好乘坐中型坐席普通及大型坐席中级客车,多在发车前16 h内取票.
2)高峰时期旅客群体聚类结果及差异性分析.
①高峰时期旅客群体的需求强度等级划分.
需求强度特指旅客出行需求的强弱程度,根据旅客占比、总出行距离占比、总消费金额占比及总提前取票时间占比等指标对高峰时期公路旅客需求强度进行等级划分,按需求强度等级由高到低划分为1至4级,见表5.
表5 高峰时期公路旅客需求强度等级划分结果
②高峰时期公路旅客群体聚类结果分析.
运用K-means聚类算法分析高峰时期公路旅客的出行行为特征,确定最佳聚类个数为4个,将不同需求强度等级的公路旅客群体分别用Cj1、Cj2、Cj3、Cj4表示(j为需求强度等级),聚类中心计算结果见表6.
由表6可知,旅客的年龄、出行时刻、出行距离、票价、购票方式及提前取票时间等因素存在一定差异性,进一步与表4平峰时期公路旅客聚类中心计算结果进行对比分析.
表6 高峰时期公路旅客聚类中心计算结果
总体而言,高峰时期公路旅客具体表现为旅客中年比例较高,多偏好上午出行,短中途出行为主,绝大多数旅客通过站台人工购票,且对乘车舒适度要求不高.
具体而言,需求强度1级时期旅客群体年龄跨度最大,青年比例更高,出行距离相比其他时段增加了19.97%,通行消费相比其他时段增加了27.01%,通过互联网购票的旅客相比其他时段更多,且旅客多在发车前1 d内取票,相比其他时段取票时间增加了9.87%.
2.2.2 公路旅客群体细分结果分析
1)平峰时期公路旅客群体细分结果及差异性分析.
以群体识别指标体系各指标为预测变量,以计算得到的旅客群体聚类类别为响应变量,运用CHAID算法生成T′1、T′2、T′3、T′4旅客细分决策树,见图6.
图6 平峰时期公路旅客群体细分决策树Fig.6 Decision tree of road passengers group in off-peak periods
平峰时期公路旅客群体细分决策树节点第一行表示最终所属旅客群体类别,第二行表示该节点分属类别的概率.
由图6可知:旅客购票方式、出行时刻及提前取票时间是划分旅客群体的关键性因素;旅客年龄、出行距离、票价也会对旅客群体细分产生影响;旅客性别及车型选择未进入决策树,表明其对旅客群体细分影响很小.
根据决策树中各子节点分裂规则提取形成公路旅客群体细分规则,见表7.
表7 平峰时期公路旅客群体细分规则
根据公路旅客群体细分规则,将平峰时期公路旅客进行细分,最终确定4类旅客群体,分别用T′1、T′2、T′3、T′4表示,进一步提取平峰时期公路旅客群体的差异性特征,见图7.
图7 平峰时期公路旅客群体识别结果Fig.7 Subdivision results for road passengers group in off-peak periods
根据旅客群体差异性特征将平峰时期4类公路旅客群体分别定义为:
①常规出行型群体.该类群体旅客量最大,占比84.80%;通行总消费最高,通行消费贡献率达85.77%;总出行距离最长,总提前取票时间较长,表明此类旅客通常选择公路出行.
②计划经济型群体.该类群体总提前取票时间较长,但通行总消费最低,占比仅为1.27%.
③紧急出行型群体.该类群体总提前取票时间最短,占比8.02%;多数旅客发车前才取票,大概率平时以公路客运出行为主.
④计划出行型群体.该类群体提前取票时间最长,占比41.98%;但旅客占比仅为3.18%,极大概率平时较少选择公路出行.
综上所述,常规出行型旅客占比及消费最高,为公路客运市场的主要客户,未来可考虑给予其较大的乘车优惠,并持续追踪此类旅客的乘车体验,进而提升公路客运服务质量;紧急出行型旅客通行消费较高,未来应着重培养此类旅客,激发其选择公路出行的潜力;计划经济型旅客占比及消费最低,未来可考虑给予其一定乘车优惠,鼓励此类旅客继续选择公路出行;计划出行型旅客占比较小,未来应着重对其宣传引导,促进其选择公路出行.
2)高峰时期公路旅客群体细分结果及差异性分析.
为细化识别高峰时期的公路旅客群体,运用CHAID算法生成不同需求强度等级下的旅客群体细分决策树,进一步提取高峰时期公路旅客群体的细分规则,旅客群体分别用C′j1、C′j2、C′j3、C′j4表示,见图8.
根据细分规则运用CHAID算法对高峰时期不同需求强度等级下的旅客群体进行细分.结果表明,需求强度1级及需求强度3级时期公路旅客群体最终细分为3类,需求强度2级及需求强度4级时期公路旅客群体最终细分为4类.提取高峰时期公路旅客群体的差异性特征,见图9;高峰时期公路旅客群体的差异性特征与平峰时期对比,见图10.
图10 平、高峰时期公路旅客群体对比结果Fig.10 Comparing results of road passengers group between off-peak and peak periods
根据高峰时期公路旅客群体的细分规则及结果,定义不同需求强度下的旅客群体类别,见表8.
表8 高峰时期公路旅客群体类别
由表8可知,总体而言,高峰时期公路旅客群体偏低龄化、出行计划性更强,提前取票意识更高.相对平峰时期,高峰时期旅客群体中提前16 h以上取票的旅客占比较平峰时期高约2%.
具体而言,需求强度1级时期客运市场需求最大,旅客总量相比其他时段高21.43%;旅客群体明显偏低龄化,平均年龄相比其他时段小5.84%;通过互联网购票的旅客相比其他时段多达41.67%;该时期对公路客运收入贡献率最高,总通行消费相比其他时段高27.01%,平均票价相比其他时段高22.75%;可见,需求强度对旅客群体通行消费的影响呈正效应.需求强度3级时期的旅客群体出行计划经济性最强,提前取票平均时间相对需求强度1级时期长39.22%,出行平均距离相比该时段长1.48%,但平均通行消费相比该时段低22.75%.
无论高峰时期需求强度如何变化,均存在常规出行型及计划出行型旅客.因此,针对常规出行型及计划出行型旅客,分析需求强度对公路旅客出行行为异质性的影响机理.
2.3.1 需求强度与群体特征相关性分析
基于公路旅客群体细分结果,将数据进行标准化处理,购票方式指标处理为0-1变量;其中,人工购票方式取0,网络购票方式取1.运用SPSS软件对需求强度与公路旅客群体特征进行相关性分析,结果见表9.
表9 需求强度与旅客群体特征的相关关系
1)针对常规出行型旅客,需求强度与旅客群体的年龄、出行时刻、出行距离、票价、购票方式、提前取票时间的相关性系数分别为0.030、0.075、0.076、0.174、0.083、0.107,均在1%显著性水平上显著.
2)针对计划出行型旅客,需求强度与旅客群体的年龄、票价、购票方式、提前取票时间的相关性系数分别为0.061、0.061、0.396、0.084,均在1%显著性水平上显著;与出行时刻的相关性系数为0.022,在1%显著性水平上显著;与出行时刻的相关性系数为0.022,在5%水平上显著;需求强度与出行距离的相关性系数为0.018,在10%水平上显著.
因此,研究结果揭示了需求强度与公路旅客群体特征间具有显著的相互影响作用.
2.3.2 需求强度对出行行为的影响机理
为进一步探索需求强度对公路旅客群体出行行为异质性的影响效应,在提出模型假设的基础上,运用结构方程模型,获取需求强度对公路旅客群体出行行为异质性的影响机理.
1)模型假设
根据需求强度与旅客群体特征的相关性分析结果发现,需求强度与旅客群体的各影响因素之间均存在显著的正向相关性.因此,假设需求强度与旅客群体的年龄、出行时刻、出行距离、票价、购票方式、提前取票时间等6个因素间存在相互作用关系.
2)模型结果
进一步地,利用AMOS软件采用最大似然估计法进行结构方程模型的参数估计,观测变量参数计算结果见表10.
表10 结构方程模型的观测变量路径检验
模型的拟合度可以通过RMESA、GFI、NFI、CFI、IFI、AGFI等6个验证性因素与标准值进行比较,拟合优度检验见表11.
由表11可知,需求强度对公路旅客群体出行行为异质性的结构方程模型可接受,其最终路径关系见图11.图中,e为因子载荷.由图11可见:
表11 模型拟合度检验结果
①针对常规出行型旅客群体,需求强度对群体通行费用的正向影响最大,对群体提前取票时间的负向影响最大.其中,需求强度与票价、提前取票时间的因子关系分别达0.174、-0.107,均在1%显著性水平上显著;可见,常规出行型旅客作为公路客运市场的主要客户,公路运输为其首选的出行方式,致使该群体出行不易受票价波动影响.并且,由于常规出行型旅客较为了解公路客运市场动态,其出行模式已演变为习惯性出行,进而导致提前取票时间相应缩短.
②针对计划出行型旅客群体,需求强度对旅客年龄、出行时刻、出行距离、票价、购票方式、提前取票时间的影响均呈正效应,其对旅客购票方式的影响效应最大.其中,需求强度每提高1%则通过网络购票的旅客量增加0.396%,并导致旅客提前购票时间增加0.084%.随着需求强度提升,该群体会提前通过互联网购票以安排行程,并相较日常期间更早取票.
(a)常规出行型旅客
③对比分析发现,需求强度的提升导致常规出行型旅客更倾向于人工购票,计划出行型旅客更倾向于网络购票;常规出行型旅客对票价提高不敏感;计划出行型旅客的出行时刻选择对需求强度变化不敏感.其中,需求强度与常规出行型及计划出行型旅客购票方式的因子关系分别为-0.083及0.396,即需求强度每提高1%则通过人工购票的常规出行型旅客量增加0.083%,计划出行型旅客反之;对计划出行型旅客,需求强度与出行时刻的因子关系为0.022,但未通过显著性检验,表明需求强度对出行时刻影响较小可忽略,说明该群体计划性强,出行时刻早已确定,几乎不受需求强度变化的影响.
1)平峰时期,公路旅客显著特征表现为青年与中年比例更高,短中途出行为主,绝大多数旅客通过人工购票,且对乘车舒适度要求不高;高峰时期,公路旅客显著特征表现为偏低龄化、出行计划性更强,提前取票意识更高;相对平峰时期,高峰时期旅客群体中提前16 h以上取票的旅客占比较平峰时期高约2%.
2)平峰时期,旅客购票方式、出行时刻及提前取票时间是划分公路旅客群体的关键性因素;旅客群体被细分为常规出行型、计划经济型、紧急出行型及计划出行型四类群体.高峰时期,需求强度等级由高到低划分为1至4级;需求强度1级及需求强度3级时期公路旅客群体最终细分为3类,需求强度2级及需求强度4级时期公路旅客群体最终细分为4类.
3)高峰时期,无论需求强度如何变化,均存在常规出行型及计划出行型旅客;需求强度每提高1%则通过人工购票的常规出行型旅客量增加0.083%,通过网络购票的计划出行型旅客量增加0.396%;常规出行型旅客需求强度对票价的影响程度高于计划出行型旅客群体0.113%,表明常规出行型旅客对票价提高的敏感性较弱,揭示了该群体为公路客运市场的主要客户,出行模式已为习惯性出行;计划出行型旅客的出行时刻选择对需求强度变化不敏感,验证了该群体计划性强,出行行程早已确定.