基于手机信令数据的交通OD提取方法改进＊

2015-04-13 02:12胡永恺

交通信息与安全 2015年5期

胡永恺宋璐张健冉斌

（1.东南大学城市智能交通江苏省重点实验室南京210096；2.东南大学现代城市交通技术江苏高校协同创新中心南京210096）

0 引言

使用手机信令进行居民出行调查是近几年逐渐热门的一种交通调查的方式，与传统交通调查方式相比，具有样本大，成本低，周期短等特点。通过对手机网络运行过程中所产生的信令数据进行分析，可以获取手机用户在1d内所停留的地点，进而将这些停留地点作为出行端点统计得到出行OD等居民出行信息。

传统居民出行调查中用户出行端点受访者会准确地描述出出行端点的准确位置，将具体位置与交通小区对应匹配，即可获得交通OD结果。手机信令获取的出行起终点的位置信息需要依靠信令数据中的基站编号，并结合基站所在位置和信号覆盖范围判断当前手机所处的位置。蜂窝小区的覆盖范围随着通信负荷的不同在100～2 000 m之间不等［1］。蜂窝小区的覆盖范围与交通分析小区的覆盖范围常常不是包含与被包含的方式，而是相互交错，见图1。因此将蜂窝小区定位的出行端点映射到交通小区成为一项复杂的工作。在实际应用中，有时为简化匹配工作，仅将出行端点与交通中区相匹配，未能充分利用手机数据的定位精度。

图1 蜂窝小区与交通分析小区边界不一致Fig.1 Different boundary of cellular zone and traffic analysis zone

目前基于手机数据分析交通OD的研究主要集中在手机用户的出行端点的识别上。而从基站坐标表示的出行端点信息经过匹配分析交通小区间的交通OD结果这一步骤研究较少，笔者的研究重点是在基于手机信令数据已经完成出行端点识别的基础上，提取交通OD的过程。根据交通小区划分的功能和作用，以及出行调查的精度要求和目的，对当前使用传统方式划分交通小区和基于蜂窝小区聚类划分交通小区2种交通OD的集计方式进行改进。

1 基于手机信令的出行调查原理与研究现状

1.1 手机信令数据的产生原理

用于交通信息采集的手机定位技术包括起源蜂窝小区定位（COO），结合时间提前量的小区定位，切换定位，基于到达时间差的定位［2］（TDOA），GPS辅助定位［3］（A－GPS），等等。其中利用小区定位的方法不需要在基站或者手机加装设备，而是被动接收移动通信网络自身运作所产生的信令数据，容易推广，因此也是目前国内基于手机信令进行交通调查的主要技术手段。

蜂窝小区是信令记录中产生位置信息的基本单元，一定数据的蜂窝小区构成了位置区。信令数据主要在手机发生以下事件之后由移动通信网络加以记录：位置更新事件，包括正常位置更新（发生位置区之间的位移）、周期性位置更新（在手机没有产生其它事件的情况下定期更新手机位置区）、开机事件（开机后手机通信网络记录1次手机所在位置区）；话单事件，包括电话主叫、被叫、挂断以及短信收发；切换事件，在通话过程中手机发生了小区之间的位移。每个信令事件发生后都会产生1条信令数据，数据字段包括用户匿名ID、时间戳、位置区编号、蜂窝小区编号、事件类型、事件原因等，其中根据位置区编号和蜂窝小区编号可以唯一对应1个基站的地理位置坐标。

1.2 出行端点识别方法

根据获取能够提取的数据种类以及开展出行调查所依托的实际应用的目标不同，使用手机信令数据提取交通OD的方法包括基于话单事件的提取方法［4］，基于位置更新事件的提取方法［5］，和基于全部信令数据的分析方法，上述3种方法区别主要信令数据的事件种类差异，其数据特性相似，因而主要处理方法也相似。通过设定时间阈值和空间阈值，结合相邻数个信令记录之间的时间间隔和空间距离来剔除虚假移动，实现移动点和停留点的判断，确定出行端点［6］，见图2。

图2 出行端点判别示意图Fig.2 Identification of travel end point

1.3 蜂窝小区的覆盖范围假设

将出行端点归属到交通小区的一个前提条件是基站覆盖面积的判定。在基站覆盖面积的处理上，主要假设包括六边形假设、泰森多边形假设、圆形假设和扇形假设，见图3。

多边形假设的基础是多边形内所有的点到基站的距离最近，多边形的边到相邻2个基站的距离相等。六边形假设是移动通信蜂窝小区的最理想状态，假设所有基站之间平面距离相等；泰森多边形假设考虑了基站布设的无规律性。

圆形和扇形假设没有考虑相邻基站之间存在严格的边界。圆形假设允许基站的覆盖区域之间存在重叠。信令发生的实际地点可能在圆形范围内的任意位置，信号覆盖重叠区域内的用户连接到某个基站的概率与当前用户所处位置到这个基站的距离反相关。扇形假设考虑到了每个蜂窝小区基站的天线方向角，一般是在获得这类数据的前提下进行该假设。

图3 基站小区覆盖假设Fig.3 Assumption about coverage of cellular zone

1.4 出行端点匹配到传统方式划分的交通小区

将蜂窝小区基站编码标识的出行端点匹配到传统交通分析小区目前采用的方法有面到面的匹配，点到面的匹配，点到点的匹配。

面到面的匹配是根据蜂窝小区和交通小区的覆盖面域的重叠关系进行匹配，也是目前使用较多的一种匹配方法。主要有：按照四舍五入的原则，将该基站编码标识的所有出行端点划入与之覆盖面域重叠最大的交通小区。根据蜂窝小区与周边交通小区面域的重叠面积大小按照概率将出行端点匹配到周边交通小区；考虑到基站信号的强度由中心向远方逐渐减弱，出行端点归属于某个交通小区的概率不仅与重叠面积相关，还与重叠区域距离基站的距离相关，因此端点归属于某个交通小区的概率是一个对距离进行二次积分的函数文献。

点到面的匹配是认为出行端点是一个有着明确坐标位置的点，判定该点与交通小区面域的关系。相对简单的方法是不考虑基站的覆盖范围，假设基站所在位置坐标就是该蜂窝小区标识的所有出行端点位置坐标。也可以使用蒙特卡洛法，假设基站的服务范围由其符合泰森多边形，在其外包矩形内生成随机点，将点产生在多边形内的概率设为1，其余为0，由此在基站覆盖面域内产生一系列有具体坐标的点，作为该蜂窝小区标识的出行端点的具体位置。

点到点的匹配实际上是基站位置坐标与交通小区形心位置坐标的匹配，将出行端点直接映射到交通小区形心［6］。这一方法认为出行端点归属与某个小区的概率与基站到小区形心的距离反相关。

1.5 出行端点匹配到蜂窝小区聚类形成的交通小区

使用蜂窝小区聚类形成交通小区可以避免蜂窝小区边界与交通小区边界不一致的问题，每个蜂窝小区可以唯一归属一个交通分析小区，出行端点也可以随之按归属进行匹配。这一交通小区形成方法可以分为点聚类［7］和面聚类［8］2种方式：

点聚类的方法，不考虑基站的覆盖面域问题，仅以基站经纬度坐标为参数进行聚类；面聚类将基站覆盖假设为泰森多边形的情况，并对邻近切换蜂窝小区［9］或用地属性相似的蜂窝小区进行聚类。邻近切换小区聚类方法是合并空间位置接近，同时发生短时间间隔切换次数较多的蜂窝小区。用地属性相似聚类方法是合并话务量变化序列相似，用地属性相似的蜂窝小区。

1.6 现状小结

当前研究中出行端点匹配的方法旨在提高出行端点与交通小区的匹配精度，但是其使用的基站覆盖范围的多边形假定与实际情况差距较大，大大降低了这些匹配方法的有效性。

在城市内，通信基站的布设方式复杂，还有宏微基站的区别，蜂窝小区不仅在平面上存在边界，在高度上也有边界，因此实际情况在地面二维平面上相邻蜂窝小区覆盖范围相互重叠的面积较大，尤其是室内基站与地下基站与地表基站的覆盖范围在地图平面上高度重合［13］，这一实际情况与多边形假设的情况相差甚远。此外并非每个蜂窝小区编号所对应的无线通信天线是向四周按照相同的功率进行服务的，在很多情况下，同一物理位置的基站上设置有对应不同蜂窝小区编码的通信天线，因此扇形假设更符合实际情况，也就是说基站所在坐标位置并非蜂窝小区的重心，而更接近蜂窝小区的一端。由于基站覆盖面域的假设与实际情况不符，导致用于进行精确出行定位的方法并不能显著提高由出行端点映射到交通小区OD这一过程的精度。

2 出行端点匹配到交通小区方法的改进

针对基站覆盖范围与相关研究所采用的假设出入较大的情况，导致出行端点匹配的精确度难以有效提高的情况，本文从提高蜂窝小区覆盖范围的精度以及简化出行端点匹配流程2个方向，分别对传统方式划分的交通小区和蜂窝小区聚类的交通小区进行了出行端点匹配方法的改进。

2.1 交通OD分析的目标以及交通小区划分的功能

在宏观上，交通OD是利用交通小区将个体的出行行为进行集计之后用以描述人员在空间上活动特征的指标，表征不同区域之间的客流期望线，支持城市空间布局、路网规划、客流走廊布设等战略层面的决策。在微观上，将OD量进行交通分配，可以得到路网上具体各个路段上的交通负荷，进行局部的改造和优化以及实时的控制和诱导。同时OD量也是用于标定预测模型的基础数据。

交通小区是生成交通OD量基本空间单位，交通小区旨在满足精度要求的情况下，对大量调查信息进行分类整合，形成有序的可辨识的结果，因此交通小区的划分本质上是一个近似处理的过程，应尽可能减少信息量的损失。在交通生成阶段，用地性质、自然环境、社会经济条件类似的区域交通发生和吸引具有较大的相似性，因此应尽量将上述特征类似的地方划入同一交通小区；交通分布阶段，交通小区的划分应减少区内出行的比例，尽可能多的反映出人员在空间上的流动；交通量分配阶段，交通量通过形心点连通到路网，小区形心代表了小区内所有的出行端点，因此交通小区的划分应尽量使得小区内部所有的点到所属小区的形心距离最近，这样才能确保近似结果与真实情况最接近。，因此交通小区划分要求以自然障碍为小区边界，避免凹多边形的出现。

基于上述原则，实际操作中传统交通小区划分以行政边界为主，利用行政区内的自然障碍进一步划分或者将相邻的、特征相似的或者边界不规则的小区进行合并和拆分。这一方式兼顾了自然障碍和用地特征，并且便于开展居民出行调查，直接使用各行政区域内的社会经济统计资料。

基于蜂窝小区聚类的交通小区划分也同样能满足交通小区划分的大部分原则。使用空间聚类的方式划分的交通小区形状规则，更接近泰森多边形的理想要求。基站布设的本身也收到自然障碍的限制，因而自然障碍的约束在空间聚类的过程中也能得以体现。在考虑小区内部信令发生与通话数量的时空变化特征综合加以聚类后，同一小区内部的交通吸引和发生状况也具有较高的相似性。基于蜂窝小区聚类的缺点在于小区边界与行政边界完全不相吻合，所以小区内的交通特征难以与按照行政区划进行统计的社会经济资料建立关系。

通过比较可以看出，单纯从小区划分对交通分布和分配的结果影响看，两类方式都有其各自的特点，总体而言没有明显的差距。从实际应用的角度，传统方式划分的交通小区更便于使用行政区划内的社会经济资料，从而方便建立交通需求与社会经济参数相关的建模和预测工作，适合于长远的规划、分析和决策中。基于基站聚类的交通小区划分便于将手机信令提出的出行端点序列转换为交通OD的过程，适用于不需要与社会经济统计资料建立量化关系的分析场合，例如中短时间范围内的交通分析与管理决策。

2.2 传统方式划分交通小区的OD提取方法改进

在选择使用传统交通小区划分方法的后，出行端点序列转换为OD量的准确性主要取决于基站覆盖范围的准确性，鉴于已有的各种基站覆盖范围假设的局限性，本节以圆形假设为基础，对基站覆盖范围的判定进行改进，在此基础上使用1.4节中的方法，进行出行端点到交通小区的匹配。

基站小区的覆盖范围的确定方式取决于基站设施数据的具体程度。在数据资料比较齐全的情况下，移动营运商可以提供包括基站地理位置坐标，基站天线方向，天线辐射功率等信息。在充分掌握上述数据的情况下，每个基站的覆盖范围也可以大致确定。但是上述信息同样属于涉及通信安全乃至国家安全相关的敏感信息，因此多数情况下并不能全面、有效获取。目前网络上相对公开的数据有基站经纬度信息。

假设可以预先获得基站平面坐标、天线角度和功率等固有信息，根据上述信息先预先判断出一个可能的覆盖范围，具体参数包括圆形或扇形角度，半径。将半径较小的基站（如小于100m）确定为基准基站，并根据信令数据所检测出的人员移动的轨迹，综合考虑人员在现实中可能的移动能力，去处信令事件序列中非基准基站覆盖区域内不可能到达的范围，提高基站覆盖的准确度，见图5。具体方案如下。

1）根据天线的辐射功率大小，筛选出覆盖范围较小、相邻基站重叠区域不大的微基站和室内基站，作为基准基站（M1，M3）。

2）提取基准基站所有的用户的信令序列，根据用户移动能力的上限，对与基准基站相邻的非基准基站M2（辐射功率较大，天线角度不明确的基站）覆盖范围进行修正，去除不可能区域。

图4 基站覆盖区域的判定Fig.4 Assessment for coverage of cellular base station

用户移动能力的上限：smax＝vmaxt

式中：smax为用户可能发生的最大位移上限；vmax为用户可能选择的最快交通方式的最快出行速度；t值为2条信令记录时间的差值。最快出行速度的取值可以选择已有交通调查或者路侧检测设备中对不同出行方式行程时间的高值。出行方式的判别需要根据在短时间内用户发生在2个相邻的基准基站之间的时间间隔对速度进行判别。由于精确基站覆盖范围的过程是逐步去除不可能的面域，所以应该尽量避免“去真”的错误，最快速度应在所有可能的范围内取高值。

利用非基准基站与相邻基准基站之间大量的用户活动能力限制进行的覆盖范围判定。近似认为单个信令序列识别出的出行端点可能范围是椭圆，椭圆的圆心和长短轴长度可根据基准基站的位置和用户移动能力上限计算得到。经过足够对条信令判定后，不可能区域被逐渐去除，可能活动范围不再缩小（见图6），当前非基准基站可以标定为基准基站，并对该基站相邻的非基准基站进行覆盖范围判定。

图5 基站可能覆盖范围与形心点的确定Fig.5 Assessment for coverage and centroid point of cellular base station

由于上文的方法是假设可以通过基站的详细信息预先确定基站最大的可能服务半径并筛选出基准基站和非基准基站。由于基站的详细信息获取存在一定难度，所以需要预先通过其他方式对基站的可能服务半径进行判定。一般微基站主要服务于移动速度较慢或静止的用户，而室内基站在多数情况下都是服务于室内人员，这一特征可以使得上述基站的信令数据体现出静止停留的事件记录较多，发生连续切换和高度移动事件记录较少。此外在人口密集区域，基站数量也较多，相应的每个基站的服务半径也会比较小。根据上述特性，可以对人口密集区域的建筑内部进行实地测试，确定周边微基站和室内基站的小区编号，作为基准基站。同时根据所测得的基准基站的周期位置更新事件、无切换的换单事件、切换事件的记录数量比例为特征对基站进行聚类分析，确定其它位置的基准基站。

按照上述方法随机选择100个不同位置的典型基站进行基站覆盖范围修正。结果显示，7个基站的可能移动范围被缩小，基站覆盖面域重心与基站坐标相比产生一定的偏移。26个基站可能覆盖范围及其重心超出了按照多边形假设形成的面域范围，这是由于该基站周围相邻基站数量较多，基站之间的事实覆盖面域重叠严重。其余基站可能覆盖范围未能缩小且重心未超出原假设的覆盖范围。结果表明，该方法可以使得部分信号覆盖实际情况与现有假设差距较大的基站覆盖面域进行修正，提高匹配的精度。

2.3 基于基站特征聚类划分交通小区的OD提取方法改进

基于基站蜂窝小区聚类的交通小区划分方法有点聚类和面聚类2种方法，由于泰森多边形假设与实际情况出入较大，因此面聚类与点聚类相比对出行端点归属的精度影响差别不大。使用基站聚类的交通小区的划分方法主要应用于只考虑交通分布和交通分配的阶段客流分析的情况，比如中短时客流预测，动态交通分配等，不考虑与小区内部的社会经济参数建立精确的量化关系，这一情况下所谓的交通小区实际上是以形心点的形式出现。出行端点的匹配过程实际上是将出行端点聚集到小区的形心点上。笔者在点聚类法的基础上，使用基站经纬度和基站信令时变特征3个特征参数进行聚类。

一般情况下人们白天主要在工作地点上班或上学，晚上在居住地点休息，这一特征也可以通过手机信令数量的时变特征反映出来。工作区的白天信令发生频率和用户数量较多，而居住区晚间的信令数量较多。利用规律可以对基站所属的地区进行分类。首先要剔除全天过于饱和的基站和全天低活跃度基站。由于信令数量长期饱和或者过于稀少，这两类基站的信令数量时变特征与用地特征无关。

笔者通过比较工作时间与休息时间占全天的信令数量的比值，来判断基站所在地区的用地属性。

Piw＜且Pir＞，则该基站具有居住区特征，记为1；Piw＞且Pir＞，则该基站具有混合区特征，记为2；Piw＞且Pir＞则该基站具有工作区特征，记为3；

在获得基站小区的用地特征后，利用K均值聚类法，主要针对基站的经纬度和用地属性信息三维特性进行聚类。由于各个指标所代表的实际含义不同，存在着量纲上的差异，需要将各个指标无量纲化为统一标准的数据，以消除原始变量的量纲的影响。标准化公式为

标准化后对所有基站进行聚类，每个基站bi＝（xi，yi，zi）中（x，y，z）分别为量纲－的量化后的经度，纬度和用地属性。

使用某市基站位置坐标与聚类结果见图6。

图6 基站小区聚类形成交通小区Fig.6 Cellular clustered TAZ

直接聚类在方法上比较简单，可以很容易完成出行端点的匹配并形成OD统计结果。这一方法存在问题也比较明显，对于位于小区边缘的基站C，在其覆盖范围内实际发生于交通小区B的出行端点P由于基站归属于小区A而被定位到交通小区A中。

图7 基于蜂窝小区聚类的出行端点定位误差分析Fig.7 Location error of traffic end point in cellular clustered TAZ

由于交通小区划分的过程本身是一个近似处理的过程，因此在分析误差时应该以出行端点的实际位置为参照而不是出行端点的实际应属小区为参照。以端点P1为例，如果定位到交通小区A的形心，则产生长度为P1A的距离误差，如果定位到交通小区B，则产生距离为P1B的误差。因而定位实际的定位误差为（P1A－P1B），如果P1A小于P1B，则实际误差减少。如果实际出行端点在距离A形心更远的位置如P2，则带来的新增误差最大不超过（R（A）＋R（C）），即交通小区A和基站C的半径之和。基于蜂窝小区定位的方法基站半径长度是固有误差，因此只要交通小区半径合理，这一方法的总体误差可控。

3 结束语

从基于手机信令数据提取的个人出行端点序列提取出交通小区之间的OD量是交通调查分析的重要工作。笔者针对现有研究中对基站覆盖范围假设与实际出入较大的情况，分别根据使用传统交通小区和使用基于蜂窝小区聚类交通小区的2种OD提取方法各自的特点和适用条件，改进出行端点到交通小区的匹配方法。对于使用传统交通小区的方法，主要改进方案是对基站覆盖范围进行进一步判定，缩小出行端点可能的范围，提高与传统交通小区匹配的精度。对采用蜂窝小区聚类方法形成的交通小区，论证了定位误差可能带来的影响，简化了部分不能显著提高精度的过程，优化了交通小区形成的方法，减少了复杂的计算过程可能带来的误差。

由于数据条件的限制，难以获取与手机信令样本数据相对应的当日城市居民出行OD数据，因此仅能从出行端点匹配过程本身对方法改进的有效性进行分析。结合可靠的OD调查真实数据对方法的结论进行进一步验证和改进是下一步需要研究的内容。

［1］杨飞.基于手机切换定位的道路行程车速采样技术提取研究［M］.北京.科学教育出版社.2013.

YANG Fei.Link travel speed data capture technology based on cellular handoff information：method，algorithm and evaluation［M］.Beijing：Science Press，2013.（in Chinese）

［2］ LIUH X，DANCZKY A，BREWER R，et al.Evaluation of cell phone traffic data in minnesota［J］.Transportation Research Record，2008（1），1－7.

［3］ JUAN C，HERRERA A，DANIEL B，et al.Evaluation of traffic data obtained via GPS－enabled mobile phones：the mobile century yield experiment［J］.Transportation Research Part C：2010（18）：568－583.

［4］冉斌.手机数据在交通调查和交通规划中的应用［J］.城市交通，2013，11（1）：72－81，32.

RAN Bin.Use of cellphone data in travel survey and transportation planning［J］.Urban Transport of China.2013，11（1）：72－82，32.（in Chinese）

［5］杨飞.基于手机定位的交通OD数据获取技术［J］.系统工程，2007，25（1）：42－48.

YANG Fei.Traffic OD data collection based on cell phone location technology［J］.Systems Engineering.2007，25（1）：42－48.（in Chinese）

［6］ IQBALM S，CHOUDHURY C F，WANG P，et al.Development of origin－destination matrices using mobile phone call data［J］.Transportation Research Part C：Emerging Technologies，2014，40（1）：63－74.

［7］关志超，张昕，胡斌，等.基于手机数据的城市交通规划决策支持研究［C］.第六届中国智能交通年会暨第七届国际节能与新能源汽车创新发展论坛，北京：中国智能交通协会，2011.

GUAN Zhichao，ZHANG Xin，HU Bin，et al.Research on decision support system of urban transport planning based on cellphone data［C］.6hChina Intelligent Transport Annual Meeting，Beijing：ITS China，2011.（in Chinese）

［8］ PAN C，LU J，DI S，et al.，Cellular－based data－extracting method for trip distribution［J］.Journal of the Transportation Research Board.2006，33－39.

［9］ ZHANG.Y.Travel demand modeling based on cellular probe data［D］.Madison：University of Wisconsin－Madison，2013.

［10］吴健生，黄力，刘瑜，等.基于手机基站数据的城市交通流量模拟［J］.地理学报，2012，67（12）：1657－1665.

WU Jiansheng，HUANG Li，LIU Yu，et al.Traffic flow simulation based on call detail records.［J］.Acta Geographica Sinica，2012，67（12）：1657－1665.（in Chinese）

［11］ DONG H，DING X，WU M，et al.Urban traffic commuting analysis based on mobile phone data［C］.Intelligent Transportation Systems（ITSC），2014IEEE 17thInternational Conference on，China，IEEE：Qingdao：IEEE 2014：611－616.

［12］蔡超，左小清，陈震霆.一种手机定位数据的非运动数据聚类剔除方法［J］.交通信息与安全，2010，28（4）：60－63.CAI Chao，ZUO Xiaoqing，CHEN Zhenting.A Cluster Method of eliminating no－movement data in mobile phone location data［J］.Journal of Transport Information and Safety，2010，28（4）：60－63.（in Chinese）

［13］韩斌杰，杜新颜，张建斌.GSM通信原理及网络优化［M］.北京：机械工业出版社.2009.HAN Binjie DU Xinyan，ZHANG Jianbin.GSM communication principle and network optim－ization［M］.Beijing：China Machine Press.2009.（in Chinese）