基于城市轨道交通运营大数据的客流分析方法探讨

2022-11-27 10:37杨广禄
机电工程技术 2022年10期
关键词:线网正态分布换乘

杨广禄

(深圳达实智能股份有限公司,广东深圳 518000)

0 引言

城市轨道交通(以下简称地铁)由于运行在专用行车道上,不受其他交通工具干扰,可有效解决交通堵塞,具有方便快捷等诸多优点,而成为城市人群的主要出行方式,因此地铁客流人群的管理与车站运营管理息息相关。目前,地铁运营公司的车站管理依靠车站人员进行人工管理,需要耗费大量人力资源,管理效率低。车站的运营急需运用计算机网络、大数据分析等在内的科学方法和技术,实现车站的可视化、集成化和智慧化管理,实现车站管理信息的收集、传输、加工、储存、更新和维护,集客运与设备管理于一体,通过对车站设备进行数据采集,提供车站运营管控的数据处理,以达到数据共享、工作协同、数据分析的要求,为车站管理者提供管理与决策依据,保证车站正常运营,提前预防和控制车站运营管控风险,从而达到减员增效、提高安全的目标。

目前地铁客流监测[1]的主要方式及问题如下。

(1)视觉识别技术[2]。站内、车上条件有限,视觉识别技术面临技术困难。路网规模大,需要监测点众多而且投资大、建设周期长。

(2)售检票系统统计[3]。售检票系统只提供乘客进出站信息,出行过程信息缺失,无法掌握路网内的客流分布和动态。

(3)手机信号定位方法[4]。地面或高架站无法区分站内外客流、定位准确性不高、一人多号等技术处理问题。

(4)移动通信(WiFi或蓝牙)[5-6]。只能实现对部分客流(使用专用APP)监测,而且投资大、建设周期长。

(5)车辆载重估算[7]。只能监测车上客流人数,而且估算数据准确性有待证实。

目前,各种技术手段零散而无序,导致客流监测能力不足,缺乏客流精准管控方法。没有对大客流条件下的高风险客流聚集点的精准管理和控制方法,缺乏对事件影响范围和影响程度的量化评估方法和手段,被动式面向群体乘客的服务模式,缺乏对乘客的个性化出行服务需求分析,也没有主动式个性化的服务支撑手段。

运营大数据的建设需求,旨在基于实时精准采集各车站内关键区域的结构化客流数据,结合AFC、WiFi嗅探系统、CCTV系统、以及线网运行数据、区域交通数据等技术手段和方法,进行整合运用,研究一套行之有效的智慧客流分析预测系统,通过大数据分析技术对轨道交通客流数据进行综合分析研究,寻找数据之间的关系,预测乘客出行的趋势,为运营部门进行客流检查、组织与协调管控提供数据支撑及辅助,为行人出行提供信息服务,为城市轨道交通的运营、车辆运行提供决策支持。

1 客流分析方法

1.1 数据输入

客流大数据分析中应用到的数据包括AFC刷卡交易明细数据、城市轨道交通线网、线路、断面、车站、OD对(O为起始站点(Origin),代表客流量的产生地;D为终到站点(Destination),是客流量的吸引地;OD连接形成有效路径,同一张票卡的进站和出站信息进行配对,得到一个“O-D对”)的历史客流数据[8]、各维度的固定属性数据以及包括天气信息、节假日信息、典型活动、突发事件各种舆情信息等在内的分析日相关数据。

其中,AFC刷卡交易明细数据和历史客流数据直接调用,AFC刷卡交易明细数据来源于完成匹配的双边数据表,历史客流数据来源于清分结果数据表[9],如表1所示。

表1 数据来源表

线网、线路、断面、车站、OD对的固定属性数据,以及包括天气信息、节假日信息、典型活动、突发事件各种舆情信息等在内的分析日相关数据,需要进行数据表结构设计完成数据输入并存储。

1.2 标签化处理

根据车站、线路、线网、OD对的内在属性、分析日当日车站、线路、线网、OD对外部环境属性等信息,把车站、线路、线网、OD对标签分别分为固定属性标签、非固定属性标签和外部属性标签,对车站、线路、线网、OD对分别进行标签化处理,整理存入Excel表格。

1.3 非固定属性影响因子对于客流的影响分析

客流影响主要指客流规模变化和特征变化,受到非固定属性影响因子(包括星期、天气、温度、季节、典型活动等)和外部属性影响因子(包括新站开通、新线开通、票价调整、封站管控等)的影响,线网、线路、断面、车站、OD对等不同维度的各指标量会产生不同程度的波动。对每一个线网/线路/断面/车站/OD对各指标量的变化程度,超过设定的异常点的阈值情况所对应的非固定属性与外部属性的影响因子标签进行提取,运用数理统计中的贝叶斯的方法[10],分析异常点单一影响因子的影响程度,把单一影响因子进行组合行车一个场景,分析不同场景对于客流的影响程度,绘制非固定属性与外部属性影响因子对于线网/线路/断面/车站/OD对等不同维度各指标量的影响权重表[11-14]。

1.4 客流时空多粒度分析

根据客流展示、客流对比分析、客流时间序列拟合的比对,选取日、周、月、年等时间段进行指标选取[4]。

(1)车站:进站量、出站量、进出站量、换乘量(换乘站)、分方向换乘量(换乘站)、乘降量(换乘站);

(2)断面:分上下行断面客流量、分上下行断面满载率、方向不均衡系数、断面不均衡系数、时间不均衡系数;

(3)线路:进站量、本线进它线出进线量、本线进本线出进线量、出站量、进出站量、换乘量、它线进本线出换乘量、它线进它线出换乘量、客运量;

(4)线网:进站量、出站量、进出站量、换乘量、客运量;

(5)OD对:OD量、OD比例。

为描述客流分布特征,需要引入分布函数进行拟合,根据客流分布情况进行拟合,最终用一种比较两样本是否同分布的常用的非参数统计方法(即K-S检验)确定最终周客流分布服从那种或那些分布。

1.5 阶段分析

对车站、线路、线网、OD对的客流分别进行各指定阶段内的客流分析,指定阶段包括春运阶段、学生寒暑假放假阶段、不同季节各阶段、节假日阶段、典型活动阶段、突发性事件阶段、特殊气候阶段、封站管控阶段。分析内容:(1)各阶段内车站、线路、线网、OD对对应客流的总量、均值、变化趋势、周期、阶段等客流状态;(2)分析对象之间,即全网所有车站之间、全网所有线路之间、全网所有OD对之间,在该阶段内的客流量对比;(3)某一分析对象在某阶段内的客流量和平常日的客流量对比,为了确定该阶段的存在引起的客流变化情况;(4)历年该阶段发生时客流量的对比。

1.6 事件分析

主要针对不同事件下的车站、线路、线网、OD对客流,进行特性分析,分析内容:(1)客流变化分析:分析客流在事件发生期间的变化情况,用于确定节假日客流变化趋势、周期或阶段;(2)客流对比分析:对比计算来确定事件下客流与普通场景客流之间的差别,同时考虑同一事件在历次发生时的客流量变化情况;(3)事件影响分析:分析事件的影响范围。

事件分析通过对比计算来确定指定阶段客流与普通场景客流之间的差别。另外,考虑同一指定阶段在历年的客流量变化情况,主要是从城市的角度出发,初步分析人们的出行意愿,即指定阶段对乘客出行的影响是否发生变化,变化幅度的分析等,可以为后续同类事件影响程度的分析提供基础数据。

2 指标计算机功能实现

2.1 指标计算

(1)车站指标计算:普通站进站量、普通站出站量、普通站进出站量、换乘站进站量、换乘站出站量、换乘站进出站量、换乘站换乘量、换乘站分方向换乘量、换乘站乘降量。

(2)断面指标计算:断面客流量、断面拥挤度/断面满载率、方向不均衡系数、时间不均衡系数、断面不均衡系数。

(3)线路指标计算:线路进线量、线路本线进本线出进线量、线路本线进它线出进线量、线路出站量、线路进出站量、线路换乘量、线路它线进本线出换入量、线路它线进它线出途经量、线路客运量。

(4)线网指标计算:线网进站量、线网出站量、线网进出站量、线网换乘量、线网客运量。

(5)OD对指标计算:OD量、OD比例。

2.2 功能实现

2.2.1 数据对比分析

2.2.1.1 纵向对比

纵向对比为展示跨年、跨月、跨周、跨日时间范围内不同时间粒度的对比情况。例如,2021年1月1日—2021年1月15日这一时间范围以日为时间粒度,则对比每一天的A车站进站量就是纵向对比,如图1所示。

图1 纵向对比

(1)所选时间范围分时间粒度的指标量与这一时间范围的平均值进行比较,平均值的计算公式如下:

(2)所选时间范围分时间粒度的指标量与这一时间范围的中位数进行比较,中位数算法如下:

有一组数据x1,x2,…,xn,将它从小到大的顺序排序为x(1),x(2),…,x(n),则有:

(3)所选时间范围分时间粒度的指标量与行业标准量(多年历史数据分析的结果)进行比较;

(4)将所选时间范围分时间粒度的指标量作为一个整体,A时间段的指标量不同于剩余其他时间的指标量,且指标量的变化程度超过设定的异常点(确定异常点,再分析由什么影响因素导致异常点产生,原因分析可以通过逻辑树定位法、关联规则等方法)的阈值,则认定A时间段指标量为异常值,A时间段指标量的变化程度公式如下:

2.2.1.2 同比

用于观察长期的数据,是本期数据与上一年同期数据的比值。通常情况下,会用同比增长率来衡量变化程度,其计算公式如下:

2.2.1.3 环比

用于观察短期数据,是当前周期与上一周期的对比,可以是本周与上周的对比、本月与上月的对比、当年11月与当年10月的对比等。通常情况下,会用环比增长率来衡量变化程度,其计算公式如下:

2.2.1.4 定比

是当前周期数据与固定周期数据的对比,可以是本月与某固定月的对比,例如2021年11月与2021年2月。通常情况下,会用定比增长率来衡量变化程度,其计算公式如下:

定比示意图如图2所示。

图2 定比示意图

2.2.1.5 特定时期的对比

特定时期包括节假日、典型活动、突发事件等,可以是节假日前中的比较、节假日中后的比较、节假日前后的比较、典型活动前中的比较、典型活动中后的比较、典型活动前后的比较、新线开通前后的比较等。通常情况下,会用特定时期的增长率来衡量变化程度,其计算公式如下:

2.2.1.6 横向对比

相同时间范围内不同车站、断面、线路、OD对的比较。例如,对比全网某几个车站2021年元旦期间进站量(进站量增长率)就是横向对比,横向对比如图3所示。

图3 横向对比示意图

(1)全网所有车站/断面/线路/OD对在相同时间范围下,计算各指标量的最大值、最小值、极差、指标量排名前10、指标量排名后10。

极差的计算方法:极差=最大值-最小值;

指标量排名前10的计算方法:对某一个指标量进行降序排列后取排名在1~10之间的指标量;

指标量排名后10的计算方法:对某一个指标量进行升序排列后取排名在1~10之间的指标量。

(2)全网所有车站/断面/线路/OD对在相同时间范围下,计算能够反映不同车站/断面/线路/OD对间的变异程度的指标——变异系数,变异系数的计算方法如下:

周粒度指标量计算:

月粒度指标量计算:

年粒度指标量计算:

各阶段指标量计算:

各事件指标量计算:

2.2.2 指标量的时间序列拟合

为描述指标量的时间序列分布特征,需要引入分布函数进行拟合,根据指标量的时间序列分布情况进行拟合,最终用一种比较两样本是否同分布的常用的非参数统计方法(即K-S检验)确定最终指标量时间序列分布服从那种或那些分布。

客流分布特征常见的分布函数包括连续型分布函数和离散型分布函数[15]。

2.2.2.1 连续型分布函数

描述客流分布特征常见的连续型分布函数如下。

(1)均匀分布

在实际问题中,当无法区别在区间内取值的随机变量取不同值得可能性有何不同时,就可以假设变量服从均匀分布。均匀分布由两个参数a和b定义,他们是数轴上的最小值和最大值,缩写为U(a,b)。

均匀分布的概率密度函数为:

(2)正态分布

正态分布曲线随机变量X服从期望为μ,方差为σ2态分布,记为X~N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其方差σ2决定了分布的幅度。正态分布函数密度曲线为:

(3)对数正态分布

对数正态分布是指一个随机变量的对数服从正态分布,则该随机变量服从对数正态分布。对数正态分布从短期来看,与正态分布非常接近。但长期来看,对数正态分布向上分布的数值更多一些。变量x分布服从对数正态分布,即lnx~N(μ,σ2)。其概率密度函数为:

其中μ与σ分别是变量对数的平均值与标准差。

(4)柯西分布

柯西分布是一个数学期望不存在的连续性概率分布。当随机变量X满足它的概率密度函数时,称X服从柯西分布,记为X~C(γ,x0)。γ=1,x0=0的特例称为标准柯西分布,其概率密度函数为:

式中:x0为定义分布峰值位置的位置参数;γ为最大值一半处的一半宽度的尺度参数。

2.2.2.2 离散型分布函数

描述客流分布特征常见的离散型分布函数如下。

(1)两点分布

如果随机变量X的概率分布为:

其中0<p<1,则称随机变量X服从两点分布或(0-1)分布。在随机试验中,如果只关心事件A是否发生,可以定义一个服从两点分布的随机变量:

(2)二项分布

如果随机变量X的概率分布为:

其中0<p<1,则称X服从参数为n和p的二项分布,记为X~B(n,p)。特别地,当n=1时,二项分布B(1,p)就是两点分布。

在n重伯努利试验中,记事件A发生的概率p,X表示n重伯努利试验中A发生的次数,则X是一个随机变量并服从B(n,p)。

(3)几何分布

如果随机变量X的概率分布为:

其中0<p<1,则称X服从参数为p的几何分布,记为X~G(p)。

(4)泊松分布

如果随机变量X的概率分布为:

其中λ>0是常数,则称X服从参数为λ的泊松分布,记为X~P(λ)。

在大量实验中,小概率事件发生的次数常常服从泊松分布。泊松定理,设λ>0是常数,n为任意正整数,且满足=λ,则对任意固定的非负整数k,有

利用该结论,可以将二项分布的相关问题近似转化为泊松分布来计算,即当n很大,p很小时,近似的有:

3 应用效果分析

基于上述方法搭建系统大数据平台,接入现有的AFC数据、运行图数据等业务信息,精准把握网络客流时间和空间分布规律,能实现客流预测、客流动态推演、客流精准管控、突发事件评估和个性化信息服务等功能。通过提供事前的精细化路网客流预测、当前的路网客流分布详情、未来的客流动态预测预警,多场景的精准客流管控,以及突发事件影响范围和程度的即时量化评估,构成一套完整的精细化客流解决方案。

4 结束语

本文通过使用数据化手段和科学的计算方案,提供实时的全路网车站(站台、通道)、车上的当前和未来的精准数量,提供路网精细化拥挤度、客流分布监测、风险点动态预警信息,以便有针对性进行调度智慧和客运组织。根据日常运营信息跟踪比对进行自动预警,并相应开展乘客全出行链的引导、沟通信息服务,实现具备场景化、智能化、人性化的网-线-

站一体化客流、车流调度技术,从而提升线路运行的安全性和高效性,提高指挥调度的集约化、智能化、科学化水平,以有效配置线网资源、保障安全高效的运营秩序、缓解客流压力和提高服务水平。

猜你喜欢
线网正态分布换乘
换乘模式下货物运输路径问题
关于n维正态分布线性函数服从正态分布的证明*
生活常态模式
北京地铁连拱换乘通道下穿引桥施工沉降控制研究
浅析珠海市现代有轨电车线网的规划和研究
地铁车站换乘形式对比与分析
地铁广州南站七号线开通时客流组织
正态分布及其应用
武汉轨道交通线路环网变化前后线网客流压力分析
城市轨道交通三线换乘站布置分析