基于潜在类分析的城市异质出行群体识别研究

2021-04-02 04:12范爱华陈旭梅
北京交通大学学报 2021年1期
关键词:可用性异质小汽车

范爱华, 陈旭梅,2

(1. 北京交通大学 综合交通运输大数据应用技术交通运输行业重点实验室,北京 100044;2.许昌学院 智能交通学院, 河南 许昌 461000)

出行异质性用来描述不同出行者在出行方式选择、对各交通政策的响应等方面的差异.恰当地进行异质出行群体划分,不仅利于深入了解出行者的总体出行特性,提升对出行者交通方式选择和出行需求预测的准确性,还能针对不同出行群体实施针对性的交通管理.如赵鹏等[1]在研究高速铁路旅客选择行为时,分别构建不考虑个体异质性的多项Logit模型、考虑个体异质性的多项Logit模型和混合Logit模型,结果表明考虑异质性的模型拟合效果更好.针对不同出行群体实施有针对性的交通管理方面,王丹等[2]针对不同交通场景下选择公交/轻轨及一定选择小汽车的两类异质出行群体,分别提出了相应的低碳出行策略.

目前多数对于异质出行群体的识别常基于聚类分析方法[3-4],应用K-means或层次聚类方法将出行个体划分到某个群体中,但传统聚类方法的不足在于会确定性地将一个出行者分在某个群体中,忽略了将某个出行者划分在错误群体中的可能性,而潜在类分析(Latent Class Cluster Analysis, LCCA)的方法能够克服这一缺点[5].另外,与K-means聚类相比,LCCA不需要提前决定群体数,且对于数值型变量和名义变量均适用.近年,LCCA方法在交通领域受到较多的关注,并逐渐应用到对不同交通方式使用偏好及新型交通服务使用倾向性差异的异质出行群体识别中,如乔珂等[6]选取出行日期、出行距离、购票方式、提前购票时间等6类指示变量,运用LCCA方法将高速铁路旅客细分为常规休闲型、计划公务型和临时混合型.刘建荣等[7]收集了出行者环保意识和环保行为数据,运用LCCA将出行者划分为环境友好者、环境中立者和伪环境友好者.Alonso-González等[8]研究了出行者对出行即服务(Mobility as a Service, MaaS)的采用意愿,在采集参与者对共享出行的态度、出行服务整合的态度、对新型服务信息的支付意愿等数据基础上,运用LCCA方法,将出行者划分了五类群体,分别为MaaS支持者、MaaS中立者、多模式公共交通支持者、小汽车强烈爱好者、新型出行服务反对者,并系统分析了每类群体的个体特征与出行特征差异.

目前基于LCCA的异质出行群体识别研究,主要针对某种出行方式的异质出行群体识别,或者基于短期的陈述性偏好调查数据,进行出行群体划分.而在城市交通出行中,多种交通方式相互竞争和合作,且出行异质性是出行者多次出行不断积累出行经验,长期形成的出行行为或认知的差异,基于出行者长期的出行特征变量划分的出行异质群体更稳定,不会随着时间的变化发生明显的变动.为了更好地进行城市交通出行管理,需要根据出行者对多种交通方式的实际选择行为和长期的出行选择结果,对出行者进行合理分类与特征分析.

针对现有研究的不足,本文作者提出了一种基于潜在类分析的城市异质出行群体识别方法,该方法基于出行者对不同出行方式(包括小汽车、公共交通、自行车和步行)实际的长期选择结果进行异质出行群体划分,综合考虑个人属性、各交通方式可用性、对各交通方式的出行认知与态度等因素,进行群体隶属度的影响因素分析,用以支持下一步更准确地进行出行方式选择行为建模、出行需求预测以及对不同出行群体有针对性地进行出行管理政策制定等.

1 模型构建

1.1 研究框架

潜在类分析包含测量模型和结构模型两部分,测量模型基于指示变量确定合理的异质出行群体数,并将各个个体以一定的概率体划分到不同群体中,结构模型用来分析不同协变量对个体所属异质出行群体的影响,如图1所示.

图1 基于LCCA的异质出行群体识别研究框架Fig.1 Research framework of heterogeneous traveler group identification based on LCCA

出行选择习惯和偏好差异与长期的出行决策结果有关,选用出行者过去一年内对小汽车、公共交通、自行车和步行的使用频次作为出行者的长期出行决策结果.大量研究表明,个人属性[9-11]、交通方式可用性[12-13]、对各交通方式的认知与态度[14-16]、家庭小汽车拥有量[9]对出行者交通方式选择影响显著,除此之外,在研究中将公交一卡通或乘车码的拥有情况也考虑进来,作为长期决策变量之一,纳入到结构模型中.

1.2 模型构建

测量模型涉及异质出行群体的划分,异质出行群体根据每个个体对一系列指示变量的响应结果进行划分,属于同一类出行群体的个体对各指示变量的响应结果类似,属于不同出行群体的个体对指示变量的响应结果存在显著差异.个体i对各指示变量的完整响应概率P(Yi)为

(1)

式中:Yi为个体i的指示变量;c为类/群体,c∈{1,2,…,C}表示总共存在C类潜在出行群体;P(ci=c)为个体i属于群体c的概率;P(Yi|ci=c)为个体i属于群体c时,其对各指示变量Yi的响应概率.

根据独立事件联合发生的概率等于单独发生的概率之积的原理,P(Yi|ci=c)可表达为

(2)

式中:j=1,2,3,4表示有4个指示变量;yij为个体i的第j个指示变量;r=1,2,…,8代表出行者对各交通方式的使用频次,分别为几乎每天使用、5-6次/周、3-4次/周、1-2次/周、1-3次/月、6-11次/a、1-5次/a、少于1次/a;θcjr表示属于群体c的个体在第j个指示变量的取值为r的概率;f(yij=r)表示个体i的第j个指示变量的值是否为r,f(yij=r)的取值为0或1.

在确定个体i属于不同群体的概率后,进行LCCA结构模型的估计,即分析个体属性、出行认知等协变量对个体i所属群体的影响,在个体i的协变量为Xi时,其属于群体c的概率P(ci=c|Xi)表示为

(3)

式中:Xi为与出行者相关的属性变量;γc和γs是需要估计的参数向量;αc和αs是对应的截距.

1.3 模型估计与评价

测量模型需要估计的参数为个体i属于群体c的概率P(ci=c)和属于群体c的个体对第j个指示变量的响应为r的概率θcjr,模型估计采用最大似然估计法,根据式(1)、式(2)构造的似然函数为

(4)

式中:N为样本数.在参数的所有可能取值中寻找使式(4)取值最大的值.

模型拟合评价主要有Pearson卡方(χ2)检验和似然比卡方(LL)检验,以及信息评价准则AIC、BIC和样本校正的BIC,即aBIC(Sample Size-Adjusted BIC),这些统计量均是统计值越小表示拟合效果越好.AIC、BIC和aBIC表达式分别为

(5)

(6)

(7)

由于AIC并未考虑样本量的影响,当样本数较大时,卡方统计检验变得十分保守,BIC和aBIC将样本量纳入考虑范畴,因此当样本数达到千人及以上或是模型的参数较少时,BIC和aBIC指标更为适合[17].

在评价LCCA模型优劣时,还常用信息熵Entropy去评价分类准确性,Entropy的表达式为

(8)

信息熵取值范围为0~1,越接近于1表示对群体的分类越精确.在实际应用中,各评价指标结果并不一致,应结合出行群体划分的实际意义和样本量确定最终异质出行群体数.

结构模型的估计使用稳健三步法,稳健三步法是在LCCA测量模型估计的基础上,将出行群体划分结果作为观测变量,连同协变量进行回归分析.由于基于模型估计的群体隶属结果与实际的群体隶属结果并不完全一致,因此存在两个分类不确定概率,以图2所示为例,即根据后验概率将出行者划入群体c1的所有个体中属于群体c2的概率Pc1,c2,以及实际属于群体c2的个体中根据后验概率被划入c1的概率Pc2,c1.稳健三步法的最大特点正是考虑了分类误差的不确定性.

图2 分类不确定概率示意图Fig.2 Schematic diagram of classification uncertainty probability

2 案例研究

出行者具有显著的异质性,在进行交通管理与规划时,必须全面了解出行群体类别,掌握各异质出行群体出行特征、出行偏好等,针对不同群体制定有针对性的管理措施,从而有效地引导甚至改变出行者的行为.北京作为全国的政治、文化中心,世界级城市群京津冀的核心,同时具有超高的人口密度(2018年全国一线城市中人口密度排名第六[18])和严重的交通拥堵(2019年高峰拥堵延时指数全国排名第四[19])等特征,城市出行群体更加多样化且出行特征复杂,出行管理政策的制定更具挑战性,因此针对超大城市北京进行案例研究.

2.1 数据收集

所需数据的收集基于RP(Revealed Prefer ence)调查的方式,采集的数据具体如表1所示,表1中自行车包含电动车.对各交通方式的认知与态度调研,针对各项具体问题,用5级量表“完全不同意、不同意、一般、同意和完全同意”作答.

表1 模型变量与说明

依据表1完成问卷设计,基于网上调研的方式进行数据收集.问卷发放对象为在北京工作生活的本地居民和常住外来人口,问卷收集时间为2019年9月,经过对问卷填写结果的筛选,总共采集了1 621份有效样本.女性样本占48.8%,以19-45岁人员为主,未婚和已婚有小孩样本占样本总体的89.3%,近50%的样本居住在三环与五环之间,74.4%拥有全职工作,有全职工作的样本中52%收入在5 000~10 000元之间.总样本中76.6%的样本拥有驾照,有驾照的样本中,近70%在日常出行中有私家车可用.每天出行中,86.8%的样本有自行车可用,94.5%的样本出行起点公共交通可用,总样本中90%以上持有公交一卡通或者开通了手机乘车支付功能.根据文献[20-21],样本中男女比例、家庭拥有小汽车比例、持公交一卡通或开通手机乘车支付功能人员比例等主要特征的分布对北京市总体具有代表性.

2.2 异质出行群体划分

应用最大似然估计法进行LCCA测量模型的估计,确定合理的异质出行群体数及各出行者属于不同异质出行群体的概率,模型估计结果如表2所示.

表2 LCCA测量模型估计结果

根据表2可知,划分为三类出行群体时,测量模型的BIC和aBIC值最小,Entropy值最大,分为五类出行群体时,模型的似然比卡方值(LL)、Pearson卡方值(χ2)和AIC值最小.表3统计了划分为三类和五类出行群体时,各群体对小汽车、公共交通、自行车(含电动车)、步行使用频次的差异.

表3 各异质出行群体指示变量统计分布

表3中,划分为三类群体时,根据三类群体在四个指示变量上的响应结果,将其命名为群体1:低出行+方式均衡组;群体2:中高出行+小汽车偏好组;群体3:高出行+绿色交通组.群体1对各交通方式的使用频次均较低,且对四种交通方式的使用较为均衡,群体2中84.1%的出行者每周至少使用一次小汽车出行,对小汽车的使用频次显著高于群体1和群体3,群体3对公共交通、自行车、步行的使用频次最高,三类群体分别占样本总体的20.4%、30.3%和49.3%.划分为五类群体时,根据各群体对四个指示变量的响应结果,将其命名为群体A:低出行+方式均衡组(17.4%),群体B:中低出行+小汽车偏好组(2.5%),群体C:高出行+绿色交通组(27.6%),群体D:中高出行+小汽车偏好组(22.9%),群体E:中高出行+公共交通偏好组(29.6%).但群体B占样本比例极低,仅为2.5%,另外,群体C和群体E的出行偏好类似,在使用各交通方式的出行频次上群体E略低于群体C.结合划分为三个类别和五个类别时,各出行群体划分的实际意义,发现划分为三个群体时的物理意义更清晰,且已有文献[17]可知,当样本数达到千人及以上时,BIC和aBIC指标更为适合,综上,将总体样本划分为三类群体.

群体1占总样本的20.4%,公共交通可用性、自行车可用性、一卡通/乘车码拥有比例在三类群体中处于最低水平,一定程度上解释了“低出行”.群体2占样本总体的30.3%,私家车可用性为三类群体中的最高水平.群体3占样本总体的49.3%,私家车可用性为三类群体中的最低水平,公共交通的可用性高于群体1和群体2.群体2(中高出行+小汽车偏好组)和群体3(高出行+绿色交通组)百分比与目前北京市小汽车出行比例(32.3%)和公共交通出行比例(49.3%)[22]一致,说明对于出行群体划分结果合理.

LCCA测量模型除了根据概率最大原则将各出行者划分到某个异质出行群体外,也保留了划分错误的概率,根据各出行者属于三类异质出行群体的概率,进行统计计算,得到各异质出行群体划分正确与错误的比例,统计结果表明,对各异质出行群体的平均划分准确率达到89%.在进行LCCA结构模型估计时,会考虑将出行者划分在错误异质出行群体中的概率.

2.3 群体隶属度影响因素分析

运用稳健三步法实现结构模型估计,LCCA结构模型估计中,以群体1作为参照,群体2和3的模型估计结果如表4所示,表中仅列出了影响显著的协变量.个人月收入为连续变量,职业、婚姻状况、交通方式可用性为分类变量,职业协变量取值估计系数和显著性结果是以“学生”作为参照,婚姻状况协变量取值估计系数和显著性结果是以“未婚”作为参照,小汽车、公共交通、自行车可用性估计系数和显著性结果是以“不可用”作为参照,对自行车出行的认知和对公共交通出行态度的协变量取值均为有序变量.

表中系数β表示各协变量取值对个体所属群体的影响程度,显著性p值表示各协变量取值对个体所属群体的影响显著性,p值小于0.05表示影响显著,Exp(β)为与群体1相比,相对协变量取值参考值时,出行者在各协变量取值下属于群体2或群体3的概率.

根据表4,与群体1(低出行+方式均衡组)相比,对群体2隶属概率影响显著的协变量包括职业、婚姻状况、收入水平、小汽车可用性、对自行车的出行认知与公共交通出行态度.对于群体1与群体2,有全职工作、已婚有小孩、收入水平越高、小汽车可用、对“自行车出行让人心情愉悦/舒适放松/方便快捷”认同感越高、对于“在公共交通站点等待很长时间”的接受度越低,属于群体2的概率越大.对群体3隶属概率影响显著的协变量包括婚姻状况、小汽车可用性、对自行车的出行认知与公共交通出行态度.对于群体1与群体3,未婚、无小汽车可用、对“自行车出行让人心情愉悦/舒适放松/方便快捷”认同感越高、对于“用公共交通做出行计划很难”认同感越低,属于群体3的概率越大.

表4 LCCA结构模型估计结果

2.4 针对各异质出行群体的绿色交通发展建议

群体1学生比例较高,出行频次低,且对各交通方式使用频次均衡,但在三类群体中,群体1公共交通可用性和自行车可用性最低.为了提升群体1的公共交通和自行车可用性,需要根据群体1的出行空间位置和出行需求,完善地面公交网络和拓展公共自行车租赁点,并结合信息干预手段,对公共交通服务进行宣传,使得群体1对公共交通出行的认知与态度更加正向积极.

群体2全职人员比例、收入水平、小汽车可用性最高,出行频次中等.在群体隶属度影响因素分析中,群体2对“在公共交通站点等待很长时间”的接受度最低,针对群体2的出行空间分布和出行需求,可有针对性地拓展特色出行服务,如定制公交,实现点对点直达,从而引导群体2更多地选择绿色交通出行.

群体3未婚人员占比最高,小汽车可用性最低,出行频次最高,公共交通可用性最高,对于“用公共交通做出行计划很难”认同感最低.为了继续保持群体3对绿色交通使用的忠诚性,需要不断地提高公共交通服务水平,如提供到站信息服务、保证交叉口处公交优先通行权、提供自行车专用道和保证专用道的绿荫覆盖率等.

3 结论

1)提出基于潜在类分析(LCCA)的城市异质出行群体识别方法,综合考虑出行者对不同交通方式的长期选择结果、个人属性等外显变量,建立城市异质出行群体识别模型.

2)以北京市为案例,根据LCCA测量模型拟合结果和出行群体划分结果的可解释性,将出行者分为三类异质出行群体,群体1:低出行+方式均衡组,群体2:中高出行+小汽车偏好组,群体3:高出行+绿色交通组,分别占样本总体的20.4%,30.3%和49.3%.LCCA结构模型表明,职业、收入水平、婚姻状况、各交通方式可用性、对自行车的出行认知与公共交通出行态度均显著影响群体隶属类别,模型结果明确了各因素对群体隶属度的影响程度.

3)目前我国的出行服务发展与管理仍偏向粗放式,未来可在异质出行群体划分基础上,设计差异化交通需求管理策略,如针对群体2的定制公交服务、针对群体3的到站信息服务等,分析各异质出行群体对策略的响应程度,为实施精细化出行管理策略制定提供支持.

4)不同城市由于路网结构、出行服务种类、出行服务水平等不同,出行者偏好、对待不同交通方式的出行认知与态度、出行结构等也存在差异,本文的研究方法可拓展到其他城市,对全国多个城市的异质出行群体类别、不同交通方式的出行感知、不同干预措施的实施效果等进行对比分析,为各城市交通管理政策的复制推广、延伸拓展等提供依据.

猜你喜欢
可用性异质小汽车
基于异质分组的信息技术差异化教学
面向移动应用的软件可用性研究综述
小汽车开回家
晋能科技半导体尖端技术喜获突破
碳排放对绿色全要素生产率的影响与地区异质效应
基于CuO/ZnO异质结纳米花的薄膜型丙酮传感器研究
小汽车
三大MOOC平台Coursera、EdX和Udacity的可用性比较研究
小汽车书签