基于数据聚类技术的城市轨道交通运营特征日分类研究*

2018-05-02 08:00栾文波赵圣娜
城市轨道交通研究 2018年4期
关键词:工作日单向客流

栾文波 汪 林 张 宁 赵圣娜

(1.南京地铁运营有限责任公司,210028,南京;2.东南大学ITS研究中心轨道交通研究所,210018,南京;3.北京城建设计发展集团股份有限公司,100045,北京∥第一作者,高级工程师)

列车时刻表是轨道交通系统合理安排行车组织的基础,列车时刻表的设计将直接影响到线路上列车的调度,进而影响乘客的出行[1]。

为了提供更好的乘客出行服务,轨道交通运营公司通常会根据每日客流特征将运营日划分为若干类别,并分别编制对应日的列车时刻表,以满足不同类型运营日的多样化客流需求。城市轨道交通客流由大众出行需求产生,与市民日常生活密切相关,因而具备明显的以“周”为周期的演变特征[2-3]。常见的运营日分类方法是根据其社会属性,将一周运营日划分为“工作日”、“周末”、“节假日”等几类。该方法定性考虑了不同运营日群体出行规律间的差异,但未能给出类间差异的定量评价指标,并且缺乏对工作日群体出行规律的进一步深化研究。

本文结合统计学的观点,在目标线路全日单向OD矩阵的基础上提取全日单向OD概率矩阵,通过对所提取的矩阵样本进行聚类分析,实现运营特征日的合理分类,为编制列车时刻表提供依据。

1 目标线路单向OD概率矩阵

1.1 目标线路单向OD矩阵

轨道交通OD矩阵反映了线路上起讫点之间的乘客出行分布[4]。不同运营日的乘客出行规律体现出较大的差异性[5]。为了有效区分不同运营日的乘客出行分布特征,本文指定目标线路上行方向为客流统计方向,以目标线路单向OD矩阵为例进行分析。将目标线路共J个站点依次编号为1,2,…,J。以自动售检票(Automatic fare collection,AFC)系统采集的线网历史交易记录作为基础数据,对特定统计时段Tk内的乘客出行分布进行统计(对于线网内的换乘客流,本文采用全有全无分配法对其进行路径分配,即将起讫点不在同一目标线路上的单次交通出行分配到途经区间最少的路径上),将Tk内抵达目标线路站点i候车,且选择站点j下车的乘客人数记作=0(i≥j))。将目标线 TK路时段对应的单向 OD 矩阵记作 Sk,且有(Sk)ij=Sij,k。

在给定客流需求的前提下,线路运营之前抵达各站候车乘客的出行不受列车时刻表的影响,因此,本文仅针对线路运营后的站台候车人数进行统计。

1.2 目标线路单向OD概率矩阵及提取方法

行估计,使得当

单向OD概率矩阵反映了目标线路上乘客在各起讫点之间的出行分布概率。将统计时段Tk内抵达站点i候车的乘客在站点j下车的概率记作aij,k(0≤aij,k≤1)。由于仅考虑上行客流,故有 aij,k=0

矩阵Ak反映了统计时段Tk内目标线路上行方向的客流转移状况,因此可用作表征相应时段目标线路(上行方向)群体出行规律的参数。

由伯努利大数定律[6]可知:∀ε>0 ,有 lim P依概率收敛于aij,k。当统计时段内抵达站点候车的乘客数量足够多时,“乘客选择站点j下车”这一随机事件发生的频率与相应概率的偏差大于预先给定精度ε的可能性会任意小。因此,可构造矩阵Bk对Ak进足够大时,Bk与 Ak存在较大偏差的可能性极小。Bk表达式为:

2 数据挖掘与聚类分析

数据挖掘(Data mining)是20世纪80年代逐渐发展起来的一项智能分析技术,它以数据库技术为基础,融合了人工智能、模式识别、统计学和逻辑学等多门学科,致力于从大量历史数据中通过算法提取隐藏于其中的信息[7]。

聚类分析作为数据挖掘的一个重要研究领域,是进行数据划分和分组处理的重要手段和方法[8]。聚类分析的目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间的差异越大,聚类效果就越好。聚类的方法有多种,结合本文应用需求,选取目前广泛应用的系统聚类和快速聚类进行研究。

2.1 系统聚类法

系统聚类法(Hierarchical cluster analysis)是一种自底向上的层次聚类方法。其基本思想是:先将每个样本单独作为一类,然后根据类间的距离,将最接近的两类合并成新的一类;接着计算新类与其他类之间的距离,再将最接近的两类合并。如此重复操作,至所有样本合并为一类或达到某终止条件为止。

系统聚类中,测定样本间距离是关键所在。通常会涉及以下两类距离的计算:一是单个样本间的距离,常用的距离有欧氏距离、切比雪夫距离、绝对值距离和闵科夫斯基距离;二是合并后的类之间的距离,类与类之间的距离有很多的定义方法,主要有类平均法、重心法、最近邻法、最远邻法、组间连接法和离差平方和法。

设样本集中共有n个样本,每个样本包含m个属性,则样本集S可表示为如下n×m矩阵:

式中:

Sij(1≤i≤n,1≤j≤m)——第i个样本的第j个属性观测值。

记矩阵S的第i个行向量为Si。故∀1≤k,L≤m,样本集中第K个与第L个样本之间的距离可通过行向量SK与SL间的距离来刻划,利用欧氏距离来计算样本间距离 d(SK,SL),其表达式为:

子类GP与子类Gq之间的距离Dpq可以利用组间连接法和离差平方和法计算得到,其表达式分别为:

式中:

np,nq——Gp和Gq的样本数。

系统聚类是一种不可逆的单向聚类,某个样本一旦被并入某一类,就无法再从该类分离,因此该方法对异常样本值较为敏感;同时,样本容量较大时,会导致聚类图谱过于复杂,难以合理解释最终选取的分类结果。因此,为了弥补系统聚类法的这一不足,引入了快速聚类法。

2.2 快速聚类法

快速聚类法(K-means cluster analysis)是一种基于划分的聚类方法。该方法先将样本粗糙地分类,然后按照某种原则进行修正,直到分类比较合理为止。

设样本数据集中包含k个聚类簇,随机选择k个样本作为初始的聚类簇心。计算剩余样本与各簇心的欧氏距离,将其分配到最近的聚类簇中。重新计算每个簇中的样本均值,并以之作为新的簇心。重复上述过程,直到准则函数收敛[9]。准则函数E定义如下:

当某次迭代后E不发生显著变化时,算法即收敛。

快速聚类算法中,聚类结果对初始簇心有较强的依赖性,不同的初始簇心可能产生不同的聚类结果,这将导致聚类过程的不稳定,极端情况下可能出现准则函数难以收敛的现象。因此,在具备先验知识的情况下,可凭借相关领域研究经验选取合适的初始簇心,以期得到较好的聚类效果。

3 实例分析

3.1 历史数据统计

本文以某城市轨道交通线路为例,从AFC系统采集2013年3月18日~2013年4月14日共计28 d的线网历史交易记录,以一个完整运营日为统计时段,提取目标线路上行OD概率矩阵样本集。目标线路共有车站26座,所提取的概率矩阵为上三角阵。将各矩阵中的有效元素按行提取、合并成长度为25+24+…+2+1=325的行向量,并按运营日期将其排列为28×325的样本数据矩阵,记为OD_RATE。

3.2 数据聚类分析

基于上文对系统聚类和快速聚类方法的分析,拟定运营日分类的聚类方案,具体步骤如下:

(1)使用系统聚类法对样本矩阵OD_RATE进行初次分类,利用先验知识确定大致分类数并检查是否存在异常值(即分类后的孤立样本点)。

(2)若存在异常值,则将其从样本集中剔除。对剩余样本再次进行系统聚类,根据先验知识确定最终分类数并记录各类重心位置。

(3)以(2)中得到的各类重心作为快速聚类的初始迭代簇心,利用快速聚类法对(2)中分类进行调整优化,从而得到最终分类。

按照上述方案,对样本矩阵OD_RATE进行聚类分析。首先,得到全日单向OD概率矩阵初次系统聚类图谱,如图1所示。

经分析,图1 a)、b)均无明显孤立点,因此样本数据集中不存在异常值。当聚类数目为5时,基于两种聚类方法的初次聚类结果完全吻合,故将运营日分为5类较为合适。

最后,以初次系统聚类得到的各类重心作为初始迭代簇心,对样本数据进行快速聚类,得到最终分类结果如表1所示。

表1 某线路客流概率转移矩阵快速聚类结果

结合国家颁布的2013年清明放假及调休通知,可发现如下现象:

(1)分类编号为“1”的运营日中,均为正常上班的工作日,记为“正常工作日”。

(2)分类编号为“2”的运营日中,03-18、03-25、04-01均为周一,04-07(周日)公休按规定调至04-05(周五),因此为节假日后正常工作的第一天,记为“周初工作日”。

(3)分类编号为“3”的运营日中,03-22、03-29、04-12均为周五,04-03为节假日(清明节)前的最后一个工作日,记为“周末工作日”。

图 1 全日单向OD概率矩阵初次系统聚类图谱

(4)分类编号为“4”的运营日中,03-23~ 03-24、03-30~03-31、04-13~04-14均为正常休息的周末,04-06(周六)为清明假期的最后一天,记为“平常周末”。

(5)最后一类运营日中,04-04~04-05为清明假期中除去最后一天以外的其他时间,记为“节假日”。

3.3 运营特征日分类

由上述分析可见,群体出行目的与运营日的性质密切相关,并可通过当日的OD概率矩阵反映出来。在工作日中,人们上班、上学所产生的轨道交通通勤客流构成了客流的主体部分,相应的OD概率矩阵主要取决于各类企事业单位、学校、办公机构等在目标线路沿线的布设。其中,周初工作日作为周末或节假日后的第一个工作日,周末工作日作为周末或节假日前的最后一个工作日,相应的OD概率矩阵又呈现出有别于正常工作日的规律;平常周末时,人们的活动是以休闲、逛街以及短期出行为主,相应的OD概率矩阵则受制于目标线路沿线区域各休闲、娱乐设施以及商业街区的分布状况;法定节假日的客流因受到外来游客的冲击,其OD概率矩阵主要由各旅游景点、休闲、娱乐设施以及商业街区的分布状况和外来游客与当地居民的出行比例共同决定。

综上所述,可将运营日分为正常工作日、周初工作日、周末工作日、平常周末和节假日5类。其中:周初工作日通常指周一,包含节假日后正常上班/上学的第一天;周末工作日通常指周五,包含节假日前正常上班/上学的最后一天;正常工作日是指除去周初工作日和周末工作日外的正常上班/上学的日期,包含部分调休的周末;节假日是指国家法定节假日;平常周末即为剔除节假日、正常工作日、周初工作日和周末工作日以外的正常休息的周六、周日。另外,由本分类结果可见,节假日的最后一天,外来游客基本都已返程,故应将其归入平常周末的范围。在此基础上,轨道交通运营管理部门可根据各类运营特征日的实际客流情况,分别制定相应的列车时刻表。

4 结语

城市轨道交通运营特征日的合理分类是进行高效运营管理的基础。本文以目标线路运营日单向OD概率矩阵为样本,利用系统聚类法和快速聚类法,根据站间客流转移规律,将运营特征日分为正常工作日、周初工作日、周末工作日、平常周末和节假日5类,并将节假日的最后一天归为平常周末的范围。该方法量化了不同类运营日群体出行规律间的差异,可为运营管理部门(有针对性地)编制行车计划提供决策支持。此外,除了不同运营特征日的客流依据外,时刻表编制过程中还需考虑同类特征日在不同运营时段的客流特征,这也是本文后续研究的重点。

[1] 张国宝.城市轨道交通运营组织[M].上海:上海科学技术出版社,2012.

[2] 王奕,徐瑞华.基于周期时变特点的城市轨道交通短期客流预测研究[J].城市轨道交通研究,2010,13(1):46.

[3] 邱华瑞.城市轨道交通客流时空演变规律研究[D].南京:东南大学,2014.

[4] 徐瑞华,徐永实.城市轨道交通线路客流分布的实时预测方法[J].同济大学学报(自然科学版),2011,39(6):857.

[5] 王雪梅.城市轨道交通常态与非常态短时客流预测[D].南京:东南大学,2013.

[6] 王红,刘磊.概率论与数理统计[M].上海:同济大学出版社,2014.

[7] HAN J,KAMBER M.数据挖掘概念与技术[M].范明,孟晓峰译.北京:机械工业出版社,2001.

[8] 周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100.

[9] 王千,王成,冯振元,等.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21.

猜你喜欢
工作日单向客流
客流增多
碳纤维/PPS热塑性单向预浸带进入市场
用“单向宫排除法”解四宫数独
从单向到双向的合作治理及实现路径
关于休闲的量的问题的考察
基于自学习补偿的室内定位及在客流分析中的应用
人工免疫算法在电梯客流时段划分的应用
单向度
城市轨道交通运营客流数据分析缺陷及应对
对《资本论》中工作日问题的哲学思考