全 威,王 华,满永兴,庄叙毅
(哈尔滨工业大学 交通科学与工程学院,黑龙江 哈尔滨 150000)
随着公共交通的快速发展,公交服务质量也逐渐被重视。只有深入了解城市居民的公交出行特征,及时并准确、全面掌握公交出行数据,才能做出科学的公交规划和运营决策[1]。因此,如何准确获取公交客流统计数据,成为平衡公交供给和乘客需求,提高公共交通运力和效率的关键[2]。
公交客流统计方法主要有人工调查法、公交IC卡调查法[3]、图像(视频)识别法等[4]。人工调查法繁琐且耗费人力,且只能得到某一天的公共交通出行信息,不能体现城市公共交通出行的长期变化及特殊事件时的居民公共交通出行行为[5],同时调查人员易出现疲劳,导致失误可能性较大[6]。对于公交IC卡调查法,由于全国大多数公交路线采用单票制[7],无法记录乘客的下车信息,采集到的信息无法用于线路优化[8];且由于城市客流量大而持卡人少,该方法难以准确全面采集客流量数据[9];再者大量地区并未普及公交IC卡,该方法不适用于此类地区。图像(视频)识别法是通过图像(视频)识别出乘客以及上下车动作,最后对上下车人数及方向进行统计[10],但是这种方法对摄像器件的质量水平和图像处理算法提出了很高的要求,导致该系统的成本较高[11],且天气、光线、车辆振动都会影响到系统的稳定性[12]。
笔者通过WiFi探针采集车上乘客已开启 WiFi 功能的移动设备 MAC 地址,通过GNSS设备采集公交车辆地理信息。通过将MAC地址与GNSS信息整合、特征提取、干扰分析、设计在线客流识别算法,获得较为准确的公交客流信息,同时能判断乘客上下车位置,以期为公交企业合理地安排调度车辆、优化公交线路提供科学的依据。
系统硬件部分通过USB串口,建立了WiFi探针模块和GNSS设备的通讯。WiFi探针模块可扫描获取周边开启WiFi功能的移动终端发出的无线信号,GNSS设备用于接收公交车定位信号,通过上位机程序读取移动终端MAC地址信息、信号强度(RSSI)、实时车辆位置、车辆速度、UTC时间等信息,并保存至客流检测系统中,如图1。
图1 系统硬件框图Fig. 1 System hardware block diagram
系统将MAC地址、信号强度与定位信息、速度信息等进行整合,合并后的部分数据如图2。
图2 信息合并后的部分数据Fig. 2 Partial data after information merging
对哈尔滨市2路公交车进行了跟车调查,共采集到13 938个不重复的MAC地址。人工计数发现,实际乘车人数只有81位,冗余数据对于研究公交客流造成极大的干扰。因此有必要进行干扰情况分析并设计算法排除干扰。
笔者在研究中,将 WiFi探针扫描并记录到的移动终端MAC地址所映射的用户在该公交车上称为“线上乘客”,所映射的用户不在该公交车上则称为“线下乘客”。通过对比分析,发现在系统实际工作过程中采集到线下乘客主要有以下4种情况:
情况1:公交车停止或低速行驶,如车辆进站,车辆靠路边缓慢行驶、等待信号灯等。如果车体周围有行人,WiFi探针会扫描并记录行人的移动设备MAC地址。这种情况Na较少。
情况2:在交通条件通畅时,非调查车辆以较高的速度与调查车辆跟驰行驶,WiFi探针扫描并记录到非调查车辆中的移动终端的MAC地址。这种情况Son较长,但是Ton较短,车辆速度较高。
情况3:在交通条件拥堵时,非调查车辆以较低的速度与调查车辆跟驰行驶,WiFi探针扫描并记录到非调查车辆中的移动终端的MAC地址。这种情况Ton较长,但是Son较短,车辆速度较低。
情况4:在城市复杂路况中非调查车辆在某区域与调查车辆跟驰行驶后分离,经过一段时间后在另一区域与调查车辆再次相遇并跟驰行驶,WiFi探针再次扫描并记录到非调查车辆中的移动终端的MAC地址。这种情况Ton、Son较长,但Tmax-interval较长。
通过对干扰情况分析,笔者提出一种在线乘客识别算法,如图3。该算法主要有5个步骤:
步骤1基于MAC地址出现次数的乘客分类法,筛选情况1;
步骤2将步骤1中难以确定的模糊数据进行基于K均值聚类的乘客分类法,将步骤1、步骤2中筛选出来的乘客数据写入公交客流统计信息中;
步骤3基于线上时长的乘客分类法,筛选情况2;
步骤4基于线上位移的乘客分类法,筛选情况3;
步骤5基于最大采集时间间隔的乘客分类法,筛选情况4。
图3 在线乘客分类算法Fig. 3 Online passenger classification algorithms
具体的在线乘客识别算法描述如下:
3.2.1步骤1(基于MAC地址次数的乘客分类法)
通过统计Na,设置阈值对乘客信息分类。统计其中一次跟车调查采集的数据,如表1,采集到的MAC地址中,有超过98%的Na<13。
表1 MAC地址出现次数统计表Table 1 MAC address occurrence statistics 个
WiFi探针采集频率为10 Hz,Na可直接反映该用户为线上乘客概率的大小。如图4中,颜色越浅的点Na越大,其Ton、Son也相对较长,基本可确定这部分MAC地址所对应的就是线上乘客。
图4 MAC地址出现次数同线上时长和线上位移的关系Fig. 4 Relationship between the number of MAC address occurrences and online duration and online displacement
基于此,首先设置饱和阈值为30次,将Na≥30的数据挑选并保存至公交客流统计信息中,此部分信息可视为初级线上乘客。除去出现次数明显较多的MAC地址,有大量模糊状态的数据处于中间,模糊状态的数据需要通过更高维度的信息综合判断。所以再设置一个临界阈值13次,挑选出13 3.2.2步骤2(基于K均值聚类的乘客分类法) 以本次跟车调查为例,将模糊状态乘客进行第一次K均值聚类,如表2和图6,可以初步将乘客信息分为线上乘客与线下乘客两种。 图5 基于K均值聚类的乘客信息分类法工作流程Fig. 5 Workflow of passenger information classification based on K means clustering 图6 第一次K均值聚类后的聚类效果Fig. 6 Clustering effect after the first K means clustering 表2 不同状态乘客信息的数据Table 2 Data of passenger information in different states 为避免第一次K均值聚类中存在异常点样本,因此需要进行一次迭代聚类,先提取第一次聚类中被判定为线下乘客数据信息,并以此信息为第二次聚类的样本,经过标准化、赋权重后进行迭代K均值聚类。表3和图7为第二次迭代后结果。 表3 迭代后不同状态乘客信息的数据Table 3 Data of passenger information in different states after iteration 迭代后聚类算法的得分为0.74分,可见两次迭代可以满足正常乘客信息提取的要求。经过两次迭代聚类算法识别的线上乘客信息被保存至公交客流统计信息中,到此为止在采集得到的数据中有可能为线上乘客的信息就基本筛选完成。但在公交客流统计信息中仍可能存在一些离群值,下面再通过三种不同的特征分类法将客流统计信息进行筛选。 图7 第二次K均值聚类后的聚类效果Fig. 7 Clustering effect after the second K means clustering 3.2.3步骤3(基于线上时长的乘客分类法) 为去除公交客流统计信息中情况2的干扰,需要通过基于线上时长的乘客分类法,将Son较大但Ton较小的乘客数据删除。 如图8中,点A具有较大Son,但Ton较短,通过查询其平均速度发现平均速度约30 km/h,因此可以判定A点代表的客流数据而不是线上乘客数据,可以将其删除。通过站点间行驶所需最短时长分析,Ton<180 s的数据成为线上乘客的可能性极小,因此在设置最小线上时长为180 s。 图8 线上时长和线上位移关系Fig. 8 Relationship between online duration and online displacement 3.2.4步骤4(基于线上位移的乘客分类法) 为去除公交客流统计信息中情况3的干扰,需要通过基于线上位移的乘客信息分类法,将Ton较大但Son较小的乘客数据删除。 如图9中,B区域的数据有较大Ton,但Son较小,通过查询其平均速度发现平均速度约5 km/h,所以B区域所代表的客流数据为线下乘客。通过结合最近站点距离分析,Son<300 m的数据成为线上乘客的可能性极小,设置最小线上位移为300 m。 图9 线上位移和线上时长关系Fig. 9 Relationship between online displacement and online duration 3.2.5步骤5(基于最大间隔时间的乘客分类法) 在实际跟车调查中可能存在极端的情况4,为防止该情况对结果的影响,设置了基于最大时间间隔的乘客信息分类法,通过检验Tmax-interval,判断MAC地址是否为线上乘客。如图10中,在500 s处有明显断点,92%的线上乘客Tmax-interval<500 s,因此设置最大时间间隔为500 s。 图10 最大间隔时间和线上时长和线上位移的关系Fig. 10 Relationship between maximum interval time and online duration and online displacement 经过上述筛选获取在线乘客信息。进一步分析可获得断面客流、出行OD、车辆满载率等指标。同时根据数据中的上、下车经纬度,可得到乘客上下车位置。如图11中,系统获得的公交数据与实际真值有高度相似的变化趋势。 在实际统计中,并非每位公交乘客所携带的移动终端的WiFi功能都处于开启状态,因此系统统计的车上人数较真值明显偏小。研究还通过调查问卷的形式多次对公交车乘客是否开启移动终端的WiFi功能进行调查,调查结果显示有40%~60%的公交乘客会在乘坐公交车时开启移动终端的WiFi功能。因此提出了一种修正系数α,修正系数α的取值为0.40~0.63,随时间浮动变化。城市早、晚高峰期间,外出人员较多,公交车乘客移动设备WiFi功能开启比例较高,对应修正系数α取值较大;平峰期间,公交车乘客移动设备WiFi功能开启比例较低,对应修正系数α取值较小。将系统获得的公交客流统计数据Ds进行修正,即可获得公交客流统计的最终结果Df,如图11。 (1) 式中:Df为修正后的客流统计数据;Ds为系统获得的客流统计数据;α为修正系数。 图11 结果对比Fig. 11 Comparison of results 从图11中可以看出,经过修正后的公交断面客流数据准确度较高,经过多次跟车调查,该系统精度保持在85%以上,相较于传统的公交IC卡调查法、图像(视频)识别法,该系统有更高的精度。该系统可以为公交调度、运营提供参考。 通过研究得到的主要结论如下: 1)分析了基于MAC地址及GNSS信息的公交客流统计系统,相比于其他公交客流统计方法的优越性,笔者研究方法成本低,便携性高,信息采集维度全面,可以实现离线分析,能够高效快速计算获得公交拥挤度等指标数据。同时该系统可以精确获取乘客上下车信息,形成乘客公交出行链,对于居民公交出行特征的挖掘与公交调度具有重要意义。在当前共享 WiFi 快速发展与普及的情况下,本系统有着较好的应用前景。 2)笔者提出了在线乘客分类算法,对采集的信息进行筛选,通过将结果与车上人数真值的简单对比分析,验证了系统的准确性和可靠性。4 客流结果分析
5 结 论