基于手机信令的铁路车站客流特征提取技术研究

2022-05-13 08:17胡必松
铁道标准设计 2022年5期
关键词:发送量信令客流

胡必松

(轨道交通工程信息化国家重点实验室(中铁一院),西安 710043)

1 概述

铁路车站客流是进行车站合理规划布局、确定设备设施规模及制定运输组织方案的基础数据,通常包括车站旅客发送量、客流流向及占比、高峰小时旅客发送量及高峰小时系数、车站最高聚集人数等指标,目前主要通过传统交通检测手段获取。在移动通信大数据时代,手机已经成为现代人必备随身工具,截至2020年5月,中国移动、联通、电信三大运营商手机用户总数已达15.9亿户,通过手机终端产生的信令数据和基站位置即可定位使用者的当前位置,还原个体在时间维度、空间纬度上的出行链路信息,这些海量数据为铁路车站客流的提取及分析提供了新的手段支持。相较于传统的交通检测手段,手机信令数据具有覆盖范围广、数据稳定可靠、样本量大、成本低的优势[1-3],如何在海量手机信令数据中快速、有效提取车站客流,对铁路部门制定科学决策具有重要意义。因此,有必要对移动通信系统网络构成、空间覆盖特征、手机信令数据结构、信令数据提取、数据清洗、车站客流提取等进行系统研究。

2 铁路车站客流特征提取的技术条件分析

2.1 移动通信系统构成与网络空间覆盖特征

GSM 移动通信系统主要由基站子系统(Base Station Subsystem, BSS)、网络交换子系统(Network Switching Subsystem, NSS)、操作与维护子系统(Operation Subsystem, OSS)和移动台(Mobile Station, MS)四大部分组成[4-6],如图1所示。在GSM移动通信系统中,移动台通过通信基站和固定的通信网络连接,中间信号通过信道传输链路进行传递。

图1 GSM移动通信系统总体结构示意

从空间覆盖范围上看,移动通信系统一般划分为MSC区、位置区(Location Area)、基站区和小区(Cell)四个层级,如图2所示,其空间覆盖与网络设备的层级对应关系如表1所示。

图2 移动通信系统的网络覆盖分区关系

表1 空间覆盖与网络设备的层级对应关系

2.2 手机信令数据对车站客流特征提取支撑分析

(1)移动通信系统能提供庞大的用户支撑

GSM移动通信系统是全球用户量最大的移动通信网络,我国三大通信营运商大部分语音和短信业务仍然要依赖于GSM网络。GSM系统庞大的用户群体可有效保证数据数量的要求;同时,GSM系统在稳定性和覆盖范围方面具备的优势对于客流空间层面的特征研究是高度可行的。

(2)手机定位技术提供切实可行的技术支撑

采集手机信令数据无需对通信网络和用户手机进行改造,其成本低廉、操作方便、定位快速,可实施性高。定位精度在市域范围内为50~200 m,完全可以满足铁路区域客流研究精度要求。

(3)手机信令数据提供多维度的数据支撑

手机信令数据具有样本量大、空间覆盖范围广、实时动态性强的特点,通过手机定位技术所产生的手机信令数据主要包括移动台识别号(Mobile Station ID,MSID)、时间戳(Timestamp)、位置区编码(LAC)、小区编码(CELLID)、用户归属地(Qcellcore)、事件编号(EVENTID)等信息[7-9],如表2所示。因此,能够通过这些数据对旅客出行时空轨迹进行动态追踪,从而为铁路区域客流特征提取提供多维度、多时段的样本研究数据支撑。

表2 手机信令主要字段含义

3 基于手机信令的铁路车站客流提取技术

3.1 技术实现流程

基于手机信令的铁路车站客流提取技术流程主要包括手机信令数据提取、数据清洗、客流特征提取3个步骤,技术流程如图3所示。

图3 技术流程

数据提取:即根据车站研究范围设定信令采集基站分布,采集研究区域内相关时段旅客的手机信令数据。

数据清洗:即对手机信令数据进行预处理,使之满足客流特征提取要求,主要包括信令数据简化、信令数据除燥、数据扩样、铁路网络基站数据库构建4个步骤。

客流特征提取:在识别旅客出行轨迹后,提取相关车站客流特征,包括车站旅客发送量、客流流向及占比、高峰小时客流量及高峰小时系数、车站最高聚集人数等。

3.2 信令数据提取

由GSM系统中的七号信令检测卡在移动通信网络中的特定接口处检测原始信令信息,再通过信令解析服务器解析、合成原始信令代码,最终生成手机信令信息,采集系统如图4所示。

图4 手机信令数据采集系统示意

根据手机信令数据结构及车站客流特征提取需要,采集的信令信息主要内容如表3所示。

表3 手机信令数据采集

采集的手机信令数据是进行客流特征提取的原始基础数据,其中包含的移动设备识别码、时间戳、小区编码、用户归属地等信息通过简化、相关算法提取,即可得到客流特征研究所需的旅客出行流量、流向及时间等信息。

3.3 信令数据清洗

(1)信令数据简化

数据简化是对采集的手机信令数据文件进行数据填充、初步筛选,具体步骤如下。

步骤1:数据填充。在数据文件中添加用户归属地及基站经纬度坐标数据字段,先用空值填充,转步骤2和步骤3,后转步骤4。

步骤2:依据用户识别码(EMSI)确定每一行数据的用户归属地,并填充对应字段数据。

步骤3:将位置区编码(LAC)、基站区编码(BSCID)、蜂窝小区编码(CELLID)确定信令采集基站的具体位置,填充经纬度字段。

步骤4:初步筛选。删除基站区编码(BSCID)、移动设备识别码(IMEI)以及移动业务交换中心编码(MSCID),形成初步数据文件。

(2)信令数据除燥

通信系统产生的手机信令数据存在无效数据、重复数据、乒乓数据、漂移数据等噪声数据,会影响研究结果的精度与准确性,也会增加数据处理工作量与复杂度,因此,需预处理进行除燥。

无效数据处理:指不能真实记录通信网络信令时间发生状况的数据,需要识别并删除。无效数据主要包括两类,一是字段缺失数据,数据中一个或几个字段为空;二是Flag=001的数据,即没有成功获取用户的IMEI,无法准确记录用户信息。

重复数据处理:重复数据指各个字段均相同的重复数据,以及一些信令事件在短时间(数秒)内产生的多条除Timestamp外其他字段均相同的数据,过滤保留其中一条数据。

乒乓数据处理:乒乓数据是由于基站小区的无线信号重叠覆盖和信号强度波动,造成的手机在短时间内频繁在附近多个基站间来回切换而产生的数据,需进行过滤保留其中一条数据。

漂移数据处理:信号漂移现象为GSM系统中手机的通信链路从临近基站切换至位置较远的基站,该类数据中存在短时间内长距离移动不符合用户实际活动行为,会干扰算法识别,影响研究结果的精度与准确性,需对其进行过滤。

(3)信令数据扩样

综合考虑营运商市场占有率、采集终端信令抓取率,对信令数据逐层进行扩样,如图5所示。

图5 手机信令数据扩样流程

采集终端信令抓取率扩样:主要考虑目前手机尚未100%普及,如部分老人和儿童无手机;部分手机用户可能持有2个以上的手机终端,如双卡双待;信令采集终端可能会漏抓部分信令;部分用户习惯长时间关机。设该区域信令抓取率为β,则区域旅客总量Npassenger=Nuser/β。

综上,一位终端用户代表旅客人数λ=1/(αP×β)。

(4)基站数据库构建

构建铁路站点基站数据库DBStation(L,C,α)和铁路线路基站数据库DBLine(L,C),其中,L为位置区编码LAC;C为小区编码CELLID;Station为站点名称;Line为线路名称;α为0-1变量,α=1表示收集来自候车厅的用户信令,α=0表示来自站台的用户信令。

3.4 客流特征提取

为提取客流特征数据,定义旅客单次出行数据中第i条手机信令数据为Pi(Ti,Li,Ci,Ei)。其中,Ti为第i条手机信令数据上传时间,即TIMES TAMP信息;Li为第i条手机信令数据的LAC编号;Ci为第i条手机信令数据的CELLID编号;Ei为第i条手机信令数据的EVENTID编号。此外,在识别数据文件中添加Station、Site、Behavior、Line4个字段,并用空值填充。其中,Site表示信令采集时旅客位置,在候车厅Site=Wattingroom,在站台Site=Platfrom;Behavior表示旅客在站出行行为,旅客进站Behavior=Enter,旅客检票上车Behavior=Checkingin&Aboard,旅客下车出站Behavior=Exit,旅客换乘Behavior=Interchange,旅客过站Behavior=Pass。

(1)旅客出行轨迹识别

依据旅客单次出行信令数据,按照进站、出站、换乘站点识别方法及出行线路匹配方法,提取旅客单次出行轨迹的时空数据,步骤如下。

步骤1:进站站点识别与标记

搜索首个Pi,满足Pi(Li,Ci)∈DBStation(L,C,α==1)、Ei==03,令m∈+,然后依次搜索信令Pi+m。若Pi+m(Li+m,Ci+m)∈DBStation(L,C,α==0)、Ei+m==03、Ti+m-Ti≤Tin,其中Tin为旅客进站时间阈值,则判定Pi、Pi+m代表一次进站行为,令Stationi=Station、Sitei=Wattingroom、Behaviori=Enter、Stationi+m=Station、Sitei+m=Platfrom、Behaviori+m=Checkingin&Aboard,删除第i+1至m-1条信令数据。令k=i+m,转步骤2。

步骤2:出行线路匹配

令n∈+,依次搜索Pk+n,若Pk+n∈DBLine(L,C)、Ek+n=03,令Linek+n=Line,删除第k+1至k+n-1条信令数据,置k=k+n+l,转步骤3。

步骤3:离站站点识别与标记

设置旅客离站时间阈值TI-P,若存在信令Pk+j,j∈+,满足Pk+j∈DBLine′(L,C)、Ek+j==03、Tk+j-Tk≤TI-P,说明旅客到达Station站后乘坐列车沿线路Line′继续出行,转步骤4;否则,说明旅客到站后没有继续乘坐列车,选择离站,则令Stationk=Station、Sitek=Platfrom、Behaviork=Exit,删除Pk之后的信令,旅客单次出行轨迹识别完毕。

本研究使用SPSS 18.0软件进行统计学处理,计量资料以(±s)表示,若符合正态分布采用t检验,若不符合正态分布采用秩和检验,计数资料以率(%)表示,采用字2检验,等级资料采用秩和检验,P<0.05为差异有统计学意义。

步骤4:换乘站点与中间站点识别

判断旅客从线路Line到Line′是否需要换乘,若需要,说明站点Station为旅客出行换乘站点,转步骤5;否则,站点Station为旅客出行中间站,转步骤6。

步骤5:换乘站点标记

令Stationk=Station、Sitek=Platfrom、Behaviork=Interchange。令j′∈(0,j),判断Pk与Pk+j之间是否存在信令Pk+j′∈DBStation(L,C,α==0),若存在,则删除第k条至第k+j′-1条信令数据,令Stationk+j′=Station、Sitek+j′=Platfrom、Behaviork+j′=Interchange,置k=k+j′,转步骤2;否则,直接转步骤2。

步骤6:中间站点标记

令Stationk=Station、Sitek=Platfrom、Behaviork=Pass。令j′∈(0,j),判断Pk与Pk+j之间是否存在信令Pk+j′∈DBStation(L,C,α==0),若存在,则删除第k条至第k+j′-1条信令数据,令Stationk+j′=Station、Sitek+j′=Platfrom、Behaviork+j′=Pass,置k=k+j′,转步骤2;否则,直接转步骤2。

步骤7:出行路径是否有效

遍历上述手机信令数据,若Pi(Ti,Li,Ci,Ei)中Station、Site、Behavior、Line4个字段不存在空值,则出行路径有效,否则剔除。

图6 旅客出行轨迹识别技术路线

(2)客流特征提取

①车站旅客发送量

②客流流向及占比

通过手机信令数据中的归属地Qcellcore字段进行筛选统计,车站在时刻t到t+ΔT之间来自地区location的客流可由下式计算得出

(1)

其中

③高峰小时客流量及高峰小时系数

④车站最高聚集人数

(2)

其中

则车站在时段[T1,T2]的车站旅客最高聚集人数

4 实例研究

4.1 信令数据提取

本案例信令数据采集运营商为中国联通,采集时间跨度为2019年2月4日零时至2月10日24时,包含整个春节假期,信令采集基站覆盖范围为西安北站候车厅,采集数据共177 466条数据,部分数据及字段如表4所示。

表4 手机信令数据示例

4.2 信令数据清洗

经过数据简化、除燥等清洗后剩余157 461条数据,根据中国联通在各省份的用户占有率及信令抓取率(本次取值85%),对数据进行扩样,各省旅客的扩样代表人数λ如表5所示。

表5 各省旅客扩样代表人数

4.3 客流特征提取

(1)旅客发送量

通过对结束时间字段提取每日车站旅客信令数据,再对扩样代表人数λ求和,得到2019年2月4日至10日西安北站旅客发送量,手机信令扩样旅客发送

量与实际发送量(来自中国铁路西安局集团)对比如图7所示。

图7 西安北站手机信令扩样旅客发送量与实际对比

信令数据扩样旅客发送量与实际旅客发送量误差在-4.85%~4.54%,说明提取技术有效。同时,西安北站2019年全年实际旅客发送量3860万人,日均旅客发送量105735人,根据扩样数据可计算得出西安北站客流波动系数为1.25。

(2)客流流向及占比

通过对信令归属地Qcellcore字段进行筛选统计,计算得出采集期间西安北站客流主要流向陕西省内部,占比41.4%,对外主要为河南、四川、甘肃、北京等地。手机信令扩样旅客流向占比与实际流向(来自中国铁路西安局集团)对比如图8所示。

图8 客流流向对比

(3)车站高峰小时客流量与高峰小时系数

通过手机信令数据,以1 h为间隔连续提取西安北站2019年2月4日至10日的客流量,如图9所示。

图9 西安北站分时客流量

图10 西安北站2019年2月10日实际客车分布

(4)最高聚集人数

5 结语

手机信令数据能够对旅客出行时空轨迹进行动态追踪,其样本量大、定位快速,可实施性高,因此,能够用于区域铁路客流的提取。本研究基于GSM通信系统中手机定位技术对旅客手机信令数据进行采集,通过数据简化、除燥、扩样、数据库构建等步骤对手机信令数据进行清洗,在识别旅客出行轨迹的基础上,设计了车站旅客发送量、客流流向及占比、高峰小时旅客发送量及高峰系数、车站最高聚集人数等客流特征提取技术。最后,以西安北站为案例,进行手机信令扩样后的区域客流数据与实际数据对比,验证了技术的有效性和可行性。

猜你喜欢
发送量信令客流
客流增多
城市轨道交通节假日期间大客流行车组织思考与实践
云南:铁路客流持续回暖 单日旅客发送量连续超20万
基于系统动力学的城市轨道交通车站客流控制仿真与优化
移动信令在交通大数据分析中的应用探索
基于信令分析的TD-LTE无线网络应用研究
春运来了
LTE网络信令采集数据的分析及探讨
基于自学习补偿的室内定位及在客流分析中的应用
多信令点在华为交换机上的应用