基于模体和复杂网络的成都市交通旅客出行研究

2024-03-11 02:39宋浩男
铁道运输与经济 2024年2期
关键词:模体站点旅客

徐 进,宋浩男

(1.西南交通大学 经济管理学院,四川 成都 610031;2.西南交通大学 综合交通大数据应用技术国家工程实验室,四川 成都 610031;3.西南交通大学 四川省服务科学与创新重点实验室,四川 成都 610031)

0 引言

交通运输在人口流动中起着重要作用[1-2]。截至2021年底,我国铁路运营里程超过15万km,其中高速铁路超过4 万km。2020 年新冠疫情爆发以前,我国民用航空客运量占总人口比重不断上升,民航业发展迅速,2019年,我国民用航空客运量占总人口数的47%。随着高速铁路线路和车站的不断建设,不同地区之间的可达性不断增加,经济蓬勃发展[3]。随着铁路和航空客运量的增加,描述和发现铁路和航空旅客的流动特征和模式变得更加重要[4-5]。近年来,使用复杂网络方法对铁路和航空网络的研究有所增加,其研究表明,我国铁路和航空复杂网络具有小世界和无标度分布的特点[5-7]。当前的研究描述铁路复杂网络的拓扑属性,从整个网络分析铁路和航空网络的可达性和脆弱性[8],并为交通网络的建设提供强有力的理论支持[9-10]。虽然当前有关交通复杂网络的研究取得较好进展,但目前对铁路和航空网络的研究大多基于对整个建成网络的分析,基于个体出行的铁路和航空出行网络的特征仍有待探索。

个人的移动轨迹可以表示为出行序列,序列内包含个人依次访问的地点集合,从而可以获得个人流动性特征[11-13]。虽然可以从出行序列抽取个人的出行特征,但单个行程序列包含重复访问的位置。例如,在旅行者的旅行序列中,如果a地点和b地点之间有多个往返行程,则该序列将包含多个a→b,这种重复的行程轨迹对于描述行程特征是多余的[14]。因此,在描述旅行特征时,仅使用旅行序列并不能有效消除冗余访问。解决该问题的更好方法是将个人行程提取为有向图。一些学者通过将数千人的运动轨迹构建为复杂网络,提取个人日常活动的17个独特模体(motif)[15],这些独特的模体代表由不同类型的个人每天访问的地方组成的完整行程。然而,虽然铁路和航空旅行具有与日常旅行不同的其他特征,但在一段时间内,其仍然表示个人旅行。将模体研究方法应用于铁路和航空出行,可以获得更多铁路和航空旅客的出行特征。

研究尝试从以下2 点对既有研究进行拓展。一是构建旅客出行模体识别模型,对铁路和航空出行旅客的出行特征进行刻画,直观反映不同出行群体的出行模式;二是构建铁路旅客出行网络(RRTN)和航空旅客出行网络(RATN),基于相关拓扑指标量化出行网络结构,发掘旅客出行的整体模式和演化特征。

1 出行模体模型及网络结构特征

1.1 出行模体模型构建

每日出行可以相对全面的方式获得个人的出行序列,因为可以基于移动电话的信令数据轻松定位个人旅行序列。然而,从铁路旅行记录中获得的旅行序列通常相对不完整,因为乘客在出发或返回时可能会选择铁路或航空以外的交通方式,如公共汽车、私家车等。交通模式的这种变化可能导致在出行序列中从同一起点到同一目的地的重复记录,其可以被提取为(A→B,A→B)。此外,对于长途旅行和访问更多地点的乘客,在铁路旅行序列中,最后一次旅行的终点站和下一次旅程的起点站也可能不一致,例如(A→B,C→D)。

为了解决上述问题,研究提出以下铁路出行序列提取规则。①如果2 个相邻行程的起点和终点相同,则2个行程将合并为一个行程,然后添加到行程序列中;②如果旅行者2 次相邻旅行的目的地和出发地不同,则将在2 次相邻旅程之间添加从前一目的地到下一目的地的旅行链接。对于提取规则①,研究考虑合并相邻的重复始发站和目的站,旅客在2 个相同地点之间出行时,可能会在出发时选择铁路,而返回时选择其他出行方式,对于这种单向铁路选择构成的序列,进行序列的简化,即旅行序列(A→B,A→B)将转换为(A→B);提取规则②等同于行程序列的完成,即行程序列(A→B,C→D)将转换为(A→B→C→D)。

在将旅行数据转换为序列之后,需要提取各个旅行主题,生成的基序对应于有向图。模体提取和同构判定如图1所示。在图1中,3名乘客通过不同的车站,并且有向图的组成存在一些差异。然而,这些有向图彼此同构。因此,需要确定每个乘客的旅行有向图的同构,以获得唯一的旅行模体。步骤如下。①通过上述的提取规则提取序列后,将序列中出发地和目的地的名称转换为数字序列号,生成包含该序列的有向图。②将所有乘客的这些图保存到列表中,并对每个图执行主题提取;对于具有相同旅行模式但不同图形结构的乘客,图同构匹配(VF2)算法设计为选择指定的有向图作为这些乘客的主题,也就是说,具有相同旅行模式的乘客具有相同的主题。最终生成的基序表示为mij,其中i表示构成基序的节点数,j表示当前节点数下基序的序列号。例如,m21表示节点数量为2的第一个基序。

图1 模体提取和同构判定Fig.1 Motif extraction and isomorphism determination

1.2 网络结构特征

构造用于铁路和航空出行的加权有向网络G=(V,E,w)。其中,节点V表示旅客通过的所有车站;边E表示站点之间的客流和方向;w表示每个边缘的重量,即从一个站点流向另一个站点的乘客数量。研究选择以下复杂网络分析指标来描述铁路和航空出行网络的拓扑特征。

(1)节点度ki。节点度表示节点与网络中其他节点之间连接的边数。节点度越大,连接边的数量越高。

式中:nij表示节点i和节点j之间存在一条边。

(2)节点强度si。节点强度表示网络中连接到一个节点的其他节点的总权重。

式中:wij表示节点i与节点j之间的连接权重。

(3)同配系数r。同配系数衡量复杂网络中节点与其他节点之间的关联度。同配网络表明,网络中具有较大度的节点之间存在较强的连接趋势。相反,异配网络意味着具有大程度的节点和具有小程度的节点之间存在强烈的连接趋势。-1 ≤r≤1,当r≥0时表示网络呈现同配性,反之则呈现异配性。

式中:M表示网络边的数量;αe,βe表示连接到第e条边的节点的程度。

(4)聚类系数Ci。聚类系数表示复杂网络中的节点与其相邻节点的连接程度。对于铁路出行网络,节点的聚类系数表示车站与其相邻车站之间的连接程度。整个网络的聚类系数表示为所有节点的聚类系数的平均值。

式中:Ei表示节点i的连接边的数量。

(5)网络效率E。网络效率表示整个网络的平均效率,通常用于描述整个网络的平均接近度和鲁棒性。网络效率也是衡量复杂网络中节点间信息交换的必要指标。网络效率越高,节点间交互消耗的能量就越少,网络上的信息传输就越有效。

式中:εij表示节点i和节点j之间的效能;Dij表示节点i和节点j之间的距离。

式中:N表示网络中的节点个数。

2 旅客出行模体分析

研究基于四川省成都市2015—2018 年铁路和航空旅客出行数据,根据旅客出行模体识别方法,分析铁路和航空旅客的出行模体。选取出现频率大于1%的出行模体作为高频出行模体,得到关于铁路和航空的高频出行模体分布。

2015—2018 年铁路高频出行模体如图2 所示。2015—2018年铁路高频出行模体大约占总体出行模体的75%以上,包含了铁路出行的绝大部分出行方式。出行模体的节点构成不超过4 个,表示旅客的出行活动大多是基于2~4 个地区之间的重复往来。2 节点构成的铁路出行模体包含一个地点到另外一个地点的单次出行(m21)和往返出行(m22);2 个节点的单次出行说明该部分出行群体在一年之内只进行了一次铁路出行,对铁路出行方式的依赖较小;2015年的出行模体中,单次出行频率与往返出行的频率之差最大,随着年份的增加,两者频率的差距逐渐变小,其中2017 年的往返出行旅客数量甚至高于单次出行旅客的数量,说明该地区旅客出行中对铁路出行方式选择在逐年增加。3节点构成的模体中,3个出行地点之间的顺序出行(m31)和一个地点与其他2 个地点的往返出行(m33)的出行频率较高,其中2015 年与2018 年的铁路出行的旅客大多进行基于m31 的出行,其余年份大多进行基于m33 的出行。4 节点构成的铁路出行模体中旅客的出行模体主要为4 个节点的顺序访问,但终点和起点并不相同,表示旅客可能在返回出行起点时选择了其他交通工具。观察不同年份3节点模体和4节点模体的数量,可以发现2015—2017年铁路旅客的3节点出行模体其出现频率要高于2018年,而4节点模体中2018年出行模体的出行频率则高于其他3 年,且出行模体更为复杂(m43),说明铁路旅客的出行模体在逐渐复杂,对铁路出行方式的选择更多。

图2 2015—2018年铁路高频出行模体Fig.2 High frequency travel motif of railway from 2015 to 2018

2015—2018 年航空出行高频模体如图3 所示。2 节点构成的模体所包含的2 个地点之间的往返出行(m21)频率最高,从起点到终点的单向单次出行(m22)较少。与铁路出行的2 节点模体出现占比比较,可以发现铁路出行中存在2 种出行模体出现频率差距较大的情况,而航空出行中这种差距很小,最大差距不到5%。同时航空出行中2 节点出行模体的出行占比最高,这说明航空出行的旅客主要分为常往返于固定地点的旅客和只进行一次航空出行的旅客。同样在2 节点出行模体中,随着年份增加,2 种出行模体的频率差距越来越小,这可能表明航空出行方式对出行旅客的吸引力逐步下降,这与铁路出行形成相反的对比。3 节点出行模体中的高频出行模体与铁路出行类似,主要为一个地点到另外一个地点的往返出行(m31)和3 个节点之间的顺序出行(m32)。4节点出行模体中占比最高的出行模体为3 个节点之间的顺序访问和2 个节点之间的往返(m41),可以看作是m21 与m32 出行模体的组合。

图3 2015—2018年航空出行高频模体Fig.3 High frequency travel motif of airlines from 2015 to 2018

结合上述分析,可以发现成都市铁路和航空旅客出行的主要模式为2 节点的出行,随着年份增加,铁路出行对旅客出行的吸引力变大,而航空出行对旅客出行的吸引力变小。3 节点的高频出行模体在2 种出行方式中较为相似,但铁路出行中旅客更多选择顺序访问3 个地点,而航空出行的旅客更倾向于从起点到2 个其他地点之间的多次往返,显示了铁路和航空出行方式的差异。4 节点出行模体中铁路的模体数量要多于航空,但从其中的高频模体中可以发现航空出行模体更加完整,存在旅客从出发到返回的路径,这也说明航空旅客在较复杂的出行模式中对航空出行方式的依赖度较高。

3 RRTN和RATN拓扑分析

在旅客出行分析中,研究基于成都市铁路和航空旅客的实际出行记录,将旅客访问过的站点作为节点,旅客在站点之间的实际出行活动作为连边,构建铁路旅客出行网络和航空旅客出行网络。与一般铁路和航空复杂网络不同的是,研究构建的出行网络是基于该地区旅客实际访问的站点和实际出行活动,而不是所有的建成站点和开通的运营线路。

基于拓扑指标,计算不同年份下铁路和航空出行网络的拓扑特征,2015—2018年铁路和航空出行网络拓扑指标如表1 所示。观察不同年份的网络平均度,可以推测网络中站点之间平均的连接数量,同时铁路出行网络的平均度整体而言大于航空出行网络。平均强度方面,可以看出出行网络中旅客在相同站点之间的出行次数较多;2 种不同的出行网络相比,航空出行网络的平均强度远大于铁路出行网络,这可能是由于航空线路较少并且航空旅客出行次数较多;同时随着年份增加,不同类型出行网络的平均强度在逐步增加。研究计算得到不同网络的同配系数均小于0,说明铁路出行网络和航空出行网络均具有异质性且航空出行网络的异质性明显,大规模站点往往会选择和小规模站点相连接,说明该地区的旅客可能存在较多的大规模站点和小规模站点之间的出行。通过出行网络聚类系数的计算结果,可以发现2 种出行网络均具有较大的聚类系数,旅客在出行站点之间的出行活动构成的网络结构十分紧密;同时航空出行网络的聚类系数更高,这可能是由于航空出行速度较快,旅客较远距离的出行只需要进行1 次乘坐,而铁路可能存在中途换乘的情况,使得铁路出行网络中站点的连接紧密程度劣于航空出行网络。

表1 2015—2018年铁路和航空出行网络拓扑指标Tab.1 Topological indicators of railway and air travel network from 2015 to 2018

2015—2018 年铁路出行流向如图4 所示,结合表1 和图4,可以发现成都市的铁路出行网络结构较为稳定,旅客在不同年份的出行流向类似;大多表现为省内的出行;省外出行大多分布在周边省份与东南沿海地区,西北部地区的出行流向较少。2015—2018年航空出行流向如图5所示,可以发现2015—2018 年期间该地区的航空出行流在逐渐增加,旅客出行所覆盖的范围逐渐增加,航空网络平均强度的增长反映了这一事实;与铁路出行不同,航空出行中旅客的出行地点更为分散,西北地区也有明显的出行流向。

图4 2015—2018年铁路出行流向Fig.4 Railway travel flow from 2015 to 2018

图5 2015—2018年航空出行流向Fig.5 Airline travel flow from 2015 to 2018

结合出行网络的拓扑特征和出行流向,可以发现成都市铁路出行的网络结构已经趋于稳定,铁路出行人群的出行流向已经固定。而航空出行的网络结构经历一定的发展后也逐步趋于稳定。铁路出行网络中的出行流向大多集中于我国东南部发达地区和周围地区,而航空出行网络中的出行流向相较于铁路出行更为分散。

4 RRTN和RATN效率分析

4.1 基于节点随机失效的效率分析

随机失效下的RRTN 和RATN 的效率分析过程如下。随机从网络中移除站点和对应的连边,重新计算网络效率,直到网络中节点被全部移除。对2种网络进行20次重复移除过程,得到2种网络效率的平均变化率,基于随机失效的RRTN 和RATN 效率变化如图6 所示。图6a 表示RRTN 效率的变化,可以看到不同年份的网络效率变化趋势类似,网络中大部分节点对整体出行的影响很小,并且当节点移除数量超过1 200 时,网络效率有大幅提高。不同年份中,2018年网络效率存在最大值,说明2018年铁路旅客更多出行在小范围网络中。图6b 所示RATN效率的变化具有类似特征。

图6 基于随机失效的RRTN和RATN效率变化Fig.6 Efficiency change of RRTN and RATN based on random failure

4.2 基于节点蓄意破坏的效率分析

基于网络中节点介数中心性的计算,按照计算结果从大到小的顺序移除对应站点,直至网络中不存在节点。基于蓄意破坏的RRTN 和RATN 效率变化如图7所示。蓄意破坏下,中枢节点被最早移除,网络连通性受到极大影响,网络效率逐渐降低至0,但在图7a中,2016和2018年的RRTN中,当网络中大多数节点被移除后,网络效率有部分提高,说明这2年铁路旅客出行中可能存在特定地区的出行。

图7 基于蓄意破坏的RRTN和RATN效率变化Fig.7 Efficiency change of RRTN and RATN based on intentional destruction

5 结束语

研究设计基于模体的旅客出行特征识别方法,对成都市旅客的出行特征进行有效抽取,发现铁路和航空旅客的出行特征相较日常出行较为简单,铁路对旅客的吸引力逐年增大。通过观察网络中出行人口的出行流向,分析旅客出行的流动规律,铁路出行人口的流向较为稳定,东南部地区流向较多,西北部较少;航空出行人口的流向逐渐发展并趋于稳定,出行流向不断向外扩展,出行流向较为分散。2 种网络的效率一般,只在一定的区域内流动性较好。研究从模体识别和复杂网络角度出发,对了解人口出行特征有重要意义。此外,研究仅使用了基础的拓扑特征和网络效率分析方法,对于出行网络的其他特征还有待进一步讨论。

猜你喜欢
模体站点旅客
非常旅客意见簿
基于Matrix Profile的时间序列变长模体挖掘
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
植入(l, d)模体发现若干算法的实现与比较
我是人
基于网络模体特征攻击的网络抗毁性研究
首届欧洲自行车共享站点协商会召开
怕被人认出
给小旅客的礼物