冷梦甜,徐锋,曾烨,王振,耿薇
(广东岭南通股份有限公司,广东 广州 510000)*
现代城市公共交通包括常规公交、有轨电车和BRT、地铁和轻轨三大体系.其中地铁和轻轨在解决大城市的出行难问题中有显著的效果,并且由于其在地下运行或郊区地面运行的特点,使其成为城市发展的主要方向之一.根据行业专家分析预测全国地铁通车里程到2020年将达到9226.7km[1].因此为了研究城市公共交通的状况,分析乘客上下车站点的轨迹是研究的热点方向[2-4].李思杰、武明超等[5-9]根据手机移动信号及定位系统研究了乘客的动态OD,该方法依赖乘客使用手机定位系统的使用率.其中为了获得终端与站点之间的关系需通过人工采集的方式[10-11].
人工采集耗时耗财,并难以常规化,因此本文研究一种可基于极低的采集成本和公开的信息,高效、准确地找出终端与站点的对应关系的方法.
此次用于研究的IC卡数据主要是通过如图1所示的流程进行采集,具体流程如下:①数据产生:乘客将IC卡放置于车载终端上,卡号和交易时间等信息被记录;②数据传递:第一步,数据通过导入或者无线传输等方式送至分管清算中心;第二步,数据从分管清算中心传输到IC卡管理中心;第三步,IC卡管理中心将数据以通讯方式传送到数据库[12].
图1 公交IC卡数据采集流程
此次采用的IC卡刷卡数据为广州市地铁刷卡一年的数据(2017年9月1日~2018年8月31日),总共收集了约14亿条刷卡数据,所得的IC卡交易数据结构包括逻辑卡号、进站时间、进站终端编号、交易票价、出站时间、出站终端编号等信息,其中此次所用的信息如表1所示.
表1 地铁IC卡刷卡数据(部分字段)
为了更好地提高数据分析结果的准确度,本研究方法对采集数据进行清洗、融合、变换、归约等预处理操作[13].首先,IC卡刷卡数据可能因为刷卡动作、终端环境等造成一定的影响而产生异常数据,这些数据如果不清洗加以排除,可能对分析结果的准确性造成不可预知的影响,需对数据进行如下的清理[14]:①删除非CPU卡交易数据,因为部分非CPU卡交易的入闸终端编号不完整;②删除进站终端编号与出站终端编号相等,或者进站终端编号为空或非法格式,或者进站终端编号为空或非法字符的交易记录;③删除交易金额为0的记录;④删除进站终端编号与上次出站终端编号不一致的记录;⑤删除无用字段,对交易记录按进站终端编号、出站终端编号、票价3个字段分组;⑥进站终端与出站终端一般不会是同一编号,为清除临时调整少量终端的影响,如果出现既是进站终端又是出站终端,记录终端编号,比较该终端编号作为进站终端和出站终端的交易记录数量,如作为进站终端的交易记录数大于作为出站终端的交易记录数,则删除所有出站终端编号为该终端编号的交易记录;⑦理论上交易记录中只要进站终端编号、出站终端编号一致,票价也就应一致.但实际上有时也因数据错误,也存在进站终端编号、出站终端编号一致但交易票价不同的情况.这种情况下,应取信息数量最大的分组,删除其他记录,整理交易记录后形成终端票价表(TP表),如表2所示.
表2 终端票价表
通过IC卡刷卡数据整理出所有产生过交易的终端编号,将其中日均使用频率较高的1000个终端绘制成表,如表3(TL表)所示.
表3 终端编号表
在地铁运营商网站可以很容易获取当前地铁线路和站点信息,再通过线路和站点信息很容易查询到任两个站点之间的票价信息,将票价信息整理成站点票价表.站点编号规则为“前两位数表示广州地铁线路号码,后两位表示该线路站点序号”,如站点编号为0116表示“1号线广州东站”,站点编号为“0613”表示“6号线东湖站”.另外广佛线编号为“GF”,APM编号为“APM”,具体可参见广州地铁官网对各个站点的编号.最后各线路换乘站以前者为准,例如1号线和6号线的换乘站东山口站,按照站点编号规则其可以为“0112”或者“0614”,这里为了方便分析,采用前者“0112”来表示东山口站,部分结果如表4(SP表)所示.
表4 站点票价表
其中站点编号和站点名称一一对应.如果站点数量为n,则共有n2条站点票价表记录,因为互为起止站点的票价是一样的,故进一步整理,可删除一半的记录.
所谓关键站点组是指存在一组站点,任何站点(或绝大多数站点)到这组站点的票价组合都不完全相同,关键站点可表示为KSi(i=1,2,…,n).
关键站点组内站点的选择有几个要求,一是按地铁线网情况分出子组,部分城市的地铁线网可能分割成多于一个的互不相通的网络,因此站点组也需分出子组;二是组内站点要足够多,使得任何站点到组内站点的票价都不完全相同;三是组内站点是有效的,如果删除组内某个站点不影响票价组则删除该站点,使得站点足够少以提高后续的处理效率;四是标记特殊站点,如存在一对或多对站点到任何其他站点的票价都一样,这种情况下需将这类站点标记好,一对站点作为一个站点处理.
然后依据票价表列出所有站点到关键站点的票价,形成表5关键票价表,按上述确定的关键站点的方法可知,不存在两行的值会完全相同.
站点Si(i从1到n,n为所有站点数量)到m个关键站点[KS1,KS2,…,KSm]的票价形成Si到关键站点组的票价组如表5(KSP表).按上述确定的关键站点的方法可知, 不 存 在 两行的值会完全相同的纪录, 所有Si到确定的关键站点组的票价组都不完全相同,这个票价组可以认为是Si的指纹信息,也就是说,如果知道某个站点到关键站点的票价信息,也就确定了这个站点的位置.
表5 关键站点票价表
确定关键站点内的终端编号,可以有多种方法,包括数据分析的方法和人工采集的方法.因关键站点数量占站点总数的比率很小,一般不到5%,进行人工采集工作量不大,这里就采用人工采集的方式,采集到关键站点内各终端的编号,形成初始终端站点对应表6(TS表)的示例.其中站点类型就两个类型,K表示初始采集到的关键站点,N表示后续计算添加的非关键站点.
表6 终端站点对应表
终端编号与站点编号的关系是多对一,一个终端一定属于也只能属于一个站点,一个站点可以包含多个终端.
以广州地铁为例,关键站点组中包括了东山口站点(1号线与6号线的交点),人工采集终端编号的过程如图2所示,具体采集过程为:持卡工作人员持卡通过不同的刷卡终端进站和出站,并记下终端位置编号;例如持卡工作人员刷卡通过C-1-1进站,并记下终端位置,再刷卡通过D-6-1出站,并记下终端位置.
图2 东山口站点终端人工采集方案图
根据上图所示的方法,可以得到终端编号与东山口站点的关系,如表7所示.
表7 东山口站终端对应表
终端与站点匹配过程是遍历交易记录中出现过的终端编号,依据终端编号与终端编号间的票价关系,站点与站点间的票价关系,确定终端与站点的关系.
具体流程如图3所示:①从TL表顺序读取一条终端记录记为aPID;②判断该终端是否已经处理;③查找该终端与已知的关键站点内终端的票价情况;④形成该终端与关键站点的票价关系组;⑤将票价关系组与KSP表进行匹配,匹配上的站点即为终端所在站点;⑥将终端站点对应关系插入TS表;⑦TL表所有记录处理完成后,TS表记录的数据,即为通过该方法获取的终端站点对应关系信息.图中M为关键站点数量.
图3 终端与站点匹配过程
随机抽取1000个IC卡地铁数据,根据上一节确定的方法,推导出其进出站点,与实际站点进行比较,结果如表8所示,从表中可以发现该方法所得到终端编号与站点的对应关系与实际情况完全相符.
表8 对比结果表(部分结果)
根据图3所述的方法可以得到IC卡数据中终端编号与各地铁站点的对应关系,基于此可以得到乘客乘坐轨道交通的上下车站点,同时根据谢振东等[15]研究公交车站点识别方法能够得到乘客乘坐公交车的上下车站点.
通过乘客的上下车站点可以进一步完善乘客的出行链,基于此能够对乘客的换乘行为和职住识别等方面进行分析研究:
(1)换乘行为分析,首先分析公交换乘行为的时间和空间影响因素,然后设计以公交出行记录为基础的公交换乘行为识别流程,通过实例推断出研究时间段内所有对象的公交换乘行为,最后以公交换乘系数为依据判断城市公交直达性的优劣;
(2)职住失衡问题是城市化发展必然遇到的一种空间资源配置不当问题,是新时代城市规划建设和发展所面临的重要课题.在大数据等新兴互联网技术逐步成熟和广泛应用、服务于行业发展的背景下,根据乘客的出行链设计一种通勤人群的居住地与就业地识别模型,识别通勤人群的通勤轨迹,探讨职住平衡评价指标和测度方法.
由于人工采集地铁刷卡终端与站点的对应关系需消耗较高的人力成本,而且人工采集不可能日常化,导致搜集的数据无法实时更新,不能保证数据的准确性.因此本文首先通过分析IC卡刷卡数据以及地铁票价等信息,同时采集极少量的关键站点与终端编号的关系,制作了终端票价表、终端票价表、关键站点票价表等,最后利用聚类分析法设计了一种基于IC卡数据的地铁站点识别方法,能够准确识别乘客刷卡的进出站点.
基于IC卡数据的地铁站点识别方法能够为后期的研究提供准确的数据支持,比如乘客动态OD分析、城市公共交通换乘分析等,并且有利于通过数据分析提高用户的使用体验和城市交通管理的效率.