基于潜在类别模型的城际高速铁路客运市场细分

2021-08-02 08:02苏焕银陶文聪彭舒婷曾琼芳
铁道科学与工程学报 2021年6期
关键词:城际细分高速铁路

苏焕银,陶文聪,彭舒婷,曾琼芳

(1.五邑大学 轨道交通学院,广东 江门529020;2.湖南工商大学 旅游管理学院,湖南 长沙410075)

铁路运输企业为了提高经济收益,通常依据旅客需求特征将客运市场划分为若干类别。目前铁路客运市场细分研究主要集中在中长距离的普通铁路或者高速铁路,缺少针对城际高速铁路客运市场细分的研究。城际高速铁路是指位于人口稠密的都市圈或城市群的高速铁路客运专线,例如,京津城际高铁、沪宁城际铁路和广珠城际等,主要特点是线路距离较短、列车班次公交化运行以及设计速度不低于250 km/h。这些线路上的旅客出行距离较短,往返出行频繁且周期较短,一天内不同出发时段的客流具有明显的高峰低谷现象,这导致了城际高速铁路服务的旅客群体和中长距离的铁路旅客群体相比具有明显的特征差异性。早期的铁路客运市场细分研究多采用聚类分析方法,该方法存在一些不足,如任意给定初始的聚类中心、分类结果不稳定、难以分析某个属性的贡献率等。因此,一些学者[1−3]设计了改进的聚类分析方法,但分类计算过程较为复杂。随着市场细分方法研究的深入,一种基于统计学原理的潜在类别模型被学者们应用于交通领域的研究,它在处理分类变量时可取得相对稳定的分类效果[4]。HETRAKUL等[5−6]通过互联网购票数据获取铁路旅客相关数据,发现潜在类别模型能够很好剖析旅客出行异质性特征。ELDEEB等[7]采用潜在类别模型对受访旅客进行高铁运输服务质量的市场细分研究。DUAN等[8]基于受访者的成本、时间、频率、可靠性和安全性这5个铁路服务属性数据进行市场细分,发现采用潜在类别模型进行市场细分比传统的市场细分方法更可信可靠。乔珂等[9]基于京沪高速铁路的历史售票数据,采用潜在类别模型将旅客市场细分为3类,分类正确率达到93%。段力伟等[10]将潜在类别模型应用于铁路货运市场细分的研究。刘建荣等[11-12]考虑公路出行者的行为异质性,采用潜在类别模型对问卷调查获取的数据进行公路旅客类别的划分,最终划分的类别具有明显的差异性。另外,顾兆军等[13]基于航空订票历史数据,采用潜在类别模型对航空旅客进行市场细分,验证了该分类方法可行性,且在该领域还具有较多的应用[14-15]。因此,潜在类别模型在客运市场细分的研究中能够取得相对稳定的分类效果,较好地分析旅客特征。综上所述,本文基于潜在类别模型研究城际高速铁路的客运市场细分问题。首先以广珠城际高速铁路为例,进行旅客问卷调查,获取城际高速铁路旅客的个人属性和出行属性相关数据。在此基础上,确定潜在类别模型的外显变量及模型结构,采用Latent Gold 5.0软件对模型进行适配性检验,估计模型参数。根据模型估计结果,对广珠城际高速铁路客运市场进行细分,分析各类旅客群体的特征。

1 城际高速铁路旅客数据获取

广珠城际铁路位于中国粤港澳大湾区,全长143 km,20个车站,设计速度250 km/h。本文以广珠城际高速铁路旅客为调研对象,采取网络调查方法,有针对性地在广州、珠海、中山等城市发放问卷,在2020年3月期间展开调研,包含了工作日和休息日。问卷调查包含旅客的个人属性和出行属性,对于样本数量过少的组合进行了合并和剔除处理,并采用效度分析方法对样本进行了筛选,获得有效问卷数1 715份,具体见表1(由于篇幅限制,只展示分类所用到的变量相关信息)。

根据表1可知,在旅客的年龄段主要分布在18~40岁之间,学历主要以大专和本科为主,税前月收入主要以中低等收入为主。一年的出行次数多在2次以上,出行目的以商务工作和旅游休闲为主,出行费用主要是自费。

表1 调查数据统计Table 1 Survey data statistics

2 潜在类别模型设计

2.1 外显变量的选取

构建潜在类别模型的第1步是进行外显变量的选取,外显变量即为影响类别划分的相关影响因素。本文通过问卷调查获取外显变量的相关数据,经过多次分类对比试验,剔除使得分类效果较差的外显变量,最终选定性别、年龄段、学历、税前月收入、出行平均次数、出行目的、出行费用这7个因素作为广珠城际铁路客运市场细分的外显变量。

上述7个外显变量分别记为W1,W2,…,W7,对应的取值见表1。每位旅客的外显变量取值就代表了每位旅客的特征。那么,潜在类别模型的数据输入形式如表2所示。

表2 输入数据的形式Table 2 Form of input data

2.2 模型建立

潜在类别模型的基本原理是将类别变量对应的概率转化成模型对应的参数,其中类别变量包括潜在变量和外显变量,潜在变量记为X。因此模型中也包含2种概率的估计,即潜在类别概率和条件概率。依据潜在类别概率和条件概率,计算给定外显变量取值情况下旅客归属每个潜在类别的概率,进而判断旅客所在的潜在类别。

潜在类别概率表示旅客属于第X个潜在类别的概率,也可以理解为第X个潜在类别中的旅客占全体旅客的比例,记为P(X),其中X=1,2,…,T,T为潜在类别总数。显然,各个潜在类别概率的总和为1,即

条件概率表示旅客属于某个潜在类别的条件下,外显变量取值对应的概率。那么,外显变量Wi的条件概率表示为P(Wi/X),i=1,2,…,7。由于外显变量的不同取值相互独立,因此外显变量对应的条件概率总和均为1,即

其中Fi表示外显变量Wi的最大水平取值,具体见表1,如F1=2,F2=5。

不同外显变量之间满足相互独立的条件,因此满足式(3)。

在完成上述的概率参数化估计后,可以采用潜在变量X解释外显变量Wi,i=1,2,…,7之间的关系。那么,潜在类别模型表示如下:

其中,P(W1,W2,W3,W4,W5,W6,W7)表示外显变量的联合概率。

应用上述潜在类别模型对旅客进行分类,将所有旅客分配到适当的潜在类别当中去。对于给定的旅客外显变量取值,利用贝叶斯公式,可以计算该旅客归属潜在类别X的概率,表示如下:

其中,P(X/W1,W2,W3,W4,W5,W6,W7)表示旅客属于某个潜在类别的后验概率。

那么,判定该旅客属于概率最大的潜在类别,记为X∗,表示如下:

3 模型适配性检验及参数估计

3.1 模型适配性检验

本文借助Latent Gold 5.0软件进行模型适配性检验以及参数估计。模型适配性检验采用常用的5个评价指标[4],分别是AIC值,BIC值,Pearsonχ2,G2和P值(检验卡方统计量是否显著)。检验原理:如果AIC值,BIC值,Pearsonχ2和G2越小,P值小于或等于0.05,说明观测数据与模型的适配程度越高。模型适配性检验结果如表3所示,分析如下:

表3 模型适配性检验Table 3 Suitability test of model

AIC值不断变小,从第4个潜在类别开始,相邻2个潜在类别差值已经很小了。

BIC值不断变小,而且在潜在类别个数为4时达到最小。

Pearsonχ2不断变小,而且在潜在类别个数为4时达到最小。

G2不断变小,而且相邻2个潜在类别差值越来越小。

卡方统计量在6个潜在类别中均显著,P值均小于0.05。

样本数超过1 000,因此以BIC值作为重点参考评价指标。综上分析,选择潜在类别个数为4的模型进行参数估计。

3.2 模型参数估计

潜在类别模型的参数估计主要采用极大似然法,在迭代过程中的算法常用期望最大化法,它具有不受初始值选择影响的稳健性[4]。本文采用极大似然法估计参数,结果见表4。

表4 模型参数估计结果Table 4 Parameter estimation results of model

由表4可知,第1类旅客的潜在类别概率最高,概率值为0.454 4;其次是第2类和第3类旅客,分别为0.242 2和0.211 4;第4类旅客潜在类别概率最小,为0.092 0。

3.3 分类计算

根据表4的模型参数,利用式(5)和式(6),对样本中的所有旅客进行分类计算,得到实际分配后各类别的比例,如表5所示。根据表5,各类相对误差(绝对值)均小于5%,且前3类占整体样本比例的90%以上,这部分的相对误差在2.1%以下,说明潜在类别模型可以较好的对城际高速铁路旅客进行分类。

表5 分类结果及相对误差计算Table 5 Classification results and relative error calculation

4 城际高速铁路旅客市场细分结果

4.1 旅客市场细分结果分析

根据第3部分的模型参数,对城际高速铁路旅客市场细分情况进行分析,主要分析每个潜在类别的旅客群体的特征和出行选择偏好。图1直观地展示了7个外显变量对应每个潜在类别的条件概率,即给定潜在类别的条件下,每个外显变量在相应水平取值的比例。

根据表4和图1,每个潜在类别的旅客群体具有明显的差异特征,具体如下:

图1 各类型旅客特征分析Fig.1 Analysis of the characteristics of each type of passengers

第1类旅客,男性比例较高,年龄主要分布在26~40岁之间,学历较高,税前月收入较高,出行频率最高,公费出行,以商务出行为主要出行目的。

第2类旅客,女性比例偏高,年龄主要在18~25之间、26~30之间和31~40之间,学历较高,税前月收入稍高,出行频率仅次于第1类旅客,自费出行,以旅游休闲和探亲访友为主要出行目的。

第3类旅客,女性比例偏高,年龄主要在18~25岁之间,学历较高,税前月收入最低,出行频率较低,自费出行,以旅游休闲和求学为主要出行目的。

第4类旅客,女性比例偏高,年龄主要在31~60之间,学历较低,税前月收入较低,出行频率最低,自费出行,以旅游休闲和探亲访友为主要出行目的。

根据上述分析可知,第1类和第2类旅客属于追求出行品质的高端型旅客,第1类旅客一般对出行时间的可靠性和出行过程的便捷性具有较高要求,第2类旅客通常对出行过程的服务质量和配套设置具有较高要求。第3类和第4类旅客属于追求经济效益的低端型旅客,相比于服务质量,更关注票价的合理性。

4.2 旅客市场细分横向对比分析

根据分类计算的结果,进一步进行旅客市场细分横向对比分析,各类型旅客特征横向对比分析见图2。

根据图2可知,第1类和第2类旅客有着相似的特征,平均年龄段处在较高的水平,平均税前月收入较高,平均出行次数较多,不同的是第1类旅客以公费出行和商务型出行为主,而第2类旅客以自费出行和休闲型出行为主。第3类和第4类旅客的平均税前月收入较低,以自费出行为主,以休闲型出行为主,不同的是它们对应的平均年龄段分别处在最低和最高的水平。

图2 各类型旅客特征横向对比分析Fig.2 Transverse comparative analysis of the characteristics of all types of passengers

依据各类型旅客的特征,铁路部门可以有针对性地设计满足不同旅客需求特征的客运服务产品。例如,对于第1类旅客,可以提供一些直达或者少停站的快速列车,提供VIP上车通道等;对于第2类旅客,可以提供行李搬运、优先选座、车上饮食等服务;对于第3类旅客和第4类旅客,在旅客出行淡季提供折扣票,吸引这类旅客的出行。

5 结论

1)分类计算的相对误差小于5%,且90%以上的旅客分类相对误差小于2.1%,说明模型设计的合理性。

2)基于潜在类别模型可将广珠城际高速铁路旅客分为4类,概率分别为45.44%,24.22%,21.14%和9.20%。第1类和第2类旅客属于追求出行品质的高端型旅客,第3类和第4类旅客属于追求经济效益的低端型旅客。

3)根据每类旅客群体特征的差异性,铁路运输企业可设计相关的运输产品以及市场营销策略,提高运输企业的经济收入以及旅客满意度。

猜你喜欢
城际细分高速铁路
城际列车
市政道路下穿高速铁路技术简述及应用
预制胶拼架桥法在高速铁路工程中的实践
济南市氢能城际公交车示范运行切入点分析
深耕环保细分领域,维尔利为环保注入新动力
城际新造动车组应答器信息丢失问题分析
万科城际之光售楼部
高速铁路机车车辆关键技术解析
1~7月,我国货车各细分市场均有增长
高速铁路明确仅运行动车