张 岩,李英冰,郑 翔,刘 虎
(1.武汉大学 测绘遥感信息工程国家重点实验室,湖北 武汉 430072;2.武汉大学 测绘学院,湖北 武汉 430072;3.武汉大学 信息管理学院,湖北 武汉 430072)
国内外基于车辆OD轨迹的研究集中在城市热点区域发现[1]、居民出行行为分析[2]、碳排放与环境污染[3]以及推荐最佳行驶路线提高出行效率[4]等领域。根据出租车轨迹的行驶特征[5],可识别不同种类的城市用地[6],也可分析不同时刻人群空间聚集特征和城市兴趣点(POI,泛指一切可抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体)空间分布特征[7],为城市规划提供参考[8-9]。利用OD轨迹可挖掘城市居民的出行习惯以及划分不同种类居民的出行模式[10];针对不同乘客出行轨迹的差异,识别出异常的扒窃团伙[11];通过分析通勤结构来估计乘客的社会属性与经济属性[12]。
出租车可以覆盖城市大部分区域,是公交、地铁等居民出行方式的有力补充,共同构成复杂的交通网络。本文将复杂网络引入出租车轨迹研究中,从全局角度研究了出行数据的时空分布以及聚类中心的空间关联;进行了细颗粒度的空间网格划分,分析了成都市市区热点区域之间的空间关联性;通过核密度估计方法确定不同区域的交通便捷性,利用密度聚类方法理解城市结构,根据4个时刻的城市净流量比分布挖掘城市功能分区,基于复杂网络研究居民出行意愿分布,可为公交站点布设、不同时间范围出租车的最佳活动区域确定、城市地块功能分类研究提供支持。
本文选取成都市市区作为研究区。成都市是四川省省会,也是我国西南地区唯一副省级城市,下辖20个县(区),共259个乡镇、116个街道。出租车订单数据大多集中在金牛区、青羊区、成华区、武侯区、锦江区等5个核心繁华市区,在WGS84坐标系下介于30.529 114~30.809 326 N、103.894 287~104.234 131 E之间,即本文最主要的研究区域。
根据经纬度将城市划分为棋盘状的网格结构,如图1所示,并依据编码标定在地图上。根据不同时刻或不同图层构建时空立方体模型,不同网格具有不同属性,从时间/图层维进行时空快照即可获取某属性下的图层切片。其优点在于数据的共享、存储与查询,方便下一步的社区动态划分与空间数据挖掘[13]。
图1 时空立方体模型
本文采用的数据主要包括2016年11月1日-7日的出租车轨迹数据,包含订单开始的GPS坐标与时间、采样间隔30 s的轨迹路径以及订单结束时的坐标与时间。本文主要研究11月1日的出租车轨迹数据,GPS定位精度约为10 m,共约20万条订单数据,如图2所示,可以看出,基本呈内部密集、外部稀疏的状态,且打车位置沿主干道向外呈放射状,与成都市城市结构一致。
图2 点位分布
1.3.1 时间特征分析
研究时段内居民出行频率分布如图3所示。绘制一周内所有时间的订单箱线图发现,订单最多的时刻出现在11月5日17时(周六),1 h内产生了14 901个订单;周五、周六、周一的订单量较多,9时、14时、17时以及20时左右是乘客出行最活跃的时间。
图3 出行频率图
1.3.2 空间特征分析
订单时空分布如图4所示,可以看出,城市中具有大量人流的商圈、景点、汽车站、火车站是出租车订单较密集的区域,且受公共交通便捷程度的影响。将研究区划分为50×50的网格,网格实际边长为500~600 m,统计网格内订单数量,并进行空间相交发现:出行区域主要集中在青羊区与锦江区之间,呈现一种不规则的同心圆模式[14],1 d内平均网格订单数量超过400,该区域包括宽窄巷子、春熙路、天府广场等核心商圈;其余订单数超过900的网格基本都在成都东客运站、武侯祠、昭觉寺汽车站等重要兴趣点附近。
图4 订单时空分布与公交核密度估计
从平均每单持续时间的角度来看,由于轨道交通、公共交通较方便的原因,成都市中心的订单大多载客0.5 h以内,市区西南部订单持续时长长于东北部;外地旅客较多的客运站(成都东、成都站)、轨道交通无法直达的旅游区(熊猫基地、欢乐谷)平均订单时长超过60 min。对成都市区公交车站点进行核密度估计发现,订单时长越长的区域公交站点密度越低。
由图2可知,订单数量基本随着与市中心距离的增加而减少。根据划分好的网格,本文从订单信息中挖掘出时空热点,以网格作为复杂网络的网络节点,以不同网格之间的OD关联建立复杂网络的有向边,以节点之间的连接强度代表有向边的权重,分析城市不同区域之间的出行联系,进行城市社区结构发现,发掘内部联系紧密的城市区域。
复杂网络始于随机图理论,是大量真实复杂系统的拓扑抽象,是介于规则网络与随机网络之间的一种网络结构。复杂网络具有小世界、无标度特性,小世界特性是指具有大的簇系数和小的平均距离网络;无标度特性是指在网络中的大部分节点(小度节点)只与很少节点连接,而有极少的节点(大度节点)与非常多的节点连接,即符合如图5所示的幂分布。
图5 复杂网络无标度特性
在实际生活中,微博大V的数量很少,却可覆盖上亿用户,绝大部分用户只拥有数十或数百个用户联系,这种社会现象也属于复杂网络的无标度特性。复杂网络可以用一张图来构建模型G=(V,E),其中V为复杂网络所有节点的集合,E为所有边的集合[15]。利用成都市出租车OD轨迹数据可建立类似的关联矩阵M,m为确定的节点数目,Nij为数据点i至数据点j的订单数目,越大代表地区之间的关联性越强。
一个典型的复杂网络是由若干个节点及其之间不同权重的连接边构成的,而复杂网络内部又由若干个社区组成,同一社区内节点之间的互动比在不同社区之间更加频繁。社区结构是复杂网络的一个重要拓扑结构特征[16]。OD点聚集区域周边具有大量居民活动行为,是整个市区的热点区域,若有大量OD点相同的轨迹存在,则证明这两个区域之间存在某种空间关联,本文从这点着手构建具有有向边的复杂网络。
社区结构发现是指根据复杂网络节点之间的有向连接,将节点一个个划分到社区中的过程,社区内部节点存在某种相同特质。常用的社区结构发现算法包括图分割理论、Louvain算法、GN算法、Newman快速算法等,用于社交软件用户关系网络构建和联系人自动推荐[11]。
本文采用Louvain算法进行社区结构发现。其优点在于算法效率很高,可将所有边缘节点统一纳入考虑,且获得的社区结构具有层次性[17]。该算法的划分评判是基于模块度的,模块度越大代表社区结构越明显。模块度数学上的定义为:
式中,Aij为节点i与j之间边的权重;ki为节点的度(节点的弧尾条数与弧头条数之和);m为复杂网络中节点的总数;Ci为节点i的社区,当Ci=Cj时,函数δ为1,否则为0;在随机情况下,节点i与节点j之间的边数为
Louvain算法的具体流程为:①将每个节点看作一个独立的社区,初始社区数目与网格(节点)数目相同;②遍历任意一个节点i,考虑其邻居j,通过从节点i所属社区移除节点i,再将其加入属于节点j的社区,计算模块度的变化并进行比较,将节点i放入模块度增加最大的社区,若无法找到模块度收益为正的节点j,则保持节点i原有社区;③重复步骤②,直至达到模块度局部最大值,即没有任何节点可提高网络模块度,社区结构不再发生改变;④对步骤③得到的社区结构进行压缩,将原有社区压缩成新节点,社区内部节点权重转化为新节点环权重,原社区之间边权重转化为节点之间边权重;⑤重复步骤①直至社区结构不再发生改变。
净流量比(NFR)是指在特定时段内居民由其他热点区域净流入某热点区域的占比,范围为[-1,1],能在一定程度上反映某热点区域的相对热度。当NFR>0时,表明节点的热度增强;反之,则表明节点的热度减弱;当NFR=-1时,表明热点区域在该时段内只有流出没有流入;当NFR=1时,则表明热点区域在该时段内只有流入没有流出。NFR的计算公式为:
式中,Flowin为流入强度;Flowout为流出强度。
本文选取7-9点、12-14点、18-20点、21-23点4个时间段进行时空快照,单位网格订单数量小于10则视为无效网格过滤掉,分类间隔采用自定义间隔,如图6所示,可以看出,早高峰市区中心(五区交界与锦江区北部,A区域)急剧汇集,茶店子客运站(B区域)、双流机场(C区域)、集贸市场(D区域)、成都东站(E区域)、石羊客运站(F区域)等对人群的吸引力上升;夜间市中心基本呈净流出状态,城市周边吸引力增强,双流机场与成都东客站开始净流出,金牛区与二仙桥等网格呈净流入状态,城市北部与东部等区域吸引力增强,推测该区域内多居民居住区。
图6 4个时间段空间NFR分布
本文对成都市网格划分结果进行社区检测,节点采用地理布局,主要检测指标[18]包括:①节点的度,在有向图中以某节点的弧尾条数为节点的出度,某节点的弧头条数为节点的入度,节点的度=出度+入度,本文数据中各点度之和为有向弧的两倍(图7),以节点的大小代表度的大小;②图密度,在研究的有向网络中,图密度=总弧数/(节点数×节点数-节点数),结果越大表示网络连接越紧密;③模块度,值越大代表社区结构越明显;④网络直径,复杂网络中任意两点最短距离的最大值,越小代表点之间的可达性越好;⑤平均度,每个节点连接边的平均数;⑥加权平均度,每个节点连接边的加权平均。
在400个网格颗粒度的空间尺度下,共有18 315条网格之间的连接边,如图7所示,将网格划分为模块度为0.124的13个社区,剔除与其他社区没有联系的社区,还有6个较大的社区。最大的社区占有37.75%的网格,较大社区依次占据22.25%、16.75%、11.25%、5.75%、4.5%的空间网格,社区划分基本沿着市区主干道进行。复杂网络的网络直径为4,模块度为0.124,图密度为0.115,平均路径长度为1.944,平均度为45.788,加权平均度为513.745。从其中任何一个网格到另外一个网格的距离不超过两个网格,体现了复杂网络的小世界特性[19]。
图7 细颗粒度网络小世界特性与社区划分结构
检验网格之间的流动随时间的变化,进而分析出租车的流量去向,由图8的桑基图可知,热点网格占有绝对流量比例,ID 为190 靠近市中心的网格,获取了最多的的流量,这也符合复杂网络的无标度特性。
图8 细颗粒度网络无标度特性与流量分析
本文利用出租车轨迹大数据挖掘城市热点区域的时空关联与结构,将成都市5个核心行政区划分为50×50的网格,分别探讨了订单时间分布特征、空间分布特征、平均时长分布特征;对20万条出租车订单数据进行空间热点发现,寻找城市中较活跃且具有代表性的重要区域;并根据划分的空间网格进行社区结构挖掘。相较于利用行政区划来代表网络节点,根据细颗粒的空间网格可避免行政区划撕裂轨迹之间的联系,也有利于发掘市区更具代表性的轨迹节点。结果表明,居民出租车出行的高峰期为13时、14时和17时,中午和下班时间较为活跃;订单密度基本上呈同心圆结构,随着与市中心距离的增大而减小,打车位置沿主干道向郊区扩散;市区订单基本集中在0.5 h以内的短途出行,订单时长呈西南长东北短的分布状况,且与公交车站点密度成反比;热点区域的聚类结果表明大部分数据都集中在三环线以内,二环线内密度远高于周边区域;利用细颗粒度网格法将400个网格划分为6个社区,验证了复杂网络的特性;利用NFR发现了市区人流的潮汐效应以及夜间居民区对人流的吸引。
今后将结合点模式分析手段,利用密度聚类算法构建网络节点,分析一周内不同时刻的影响,研究网络脆弱性[20]以及市区更细颗粒度的热点发现工作。