贺泽宇,年雁云,陈思文,边瑞
(兰州大学资源环境学院,甘肃 兰州 730000)
城市功能区是城市规划的重点,传统城市功能区划分中数据选取受主观因素影响同时缺少现有城市空间结构的信息[1~2]。随着地理大数据挖掘的不断发展,包含GPS信息的交通和社交媒体数据在城市布局研究中的应用不断深入,长时间序列且有位置信息的数据中包含着人们出行和活动的潜在信息[3]。
现今大多数结合多源数据的城市结构、布局的研究表明地理大数据在城市感知方面有着极大的优势[4~6]。如刘瑜等[7]根据包含位置信息的大数据探索出人地交互的方式和人类移动模式;Liu J等[8]利用出租车位置、牌照识别和地理信息等数据重建了城市交通流量的时空模型。简志春等[9]提出了一种基于逻辑回归模型的社交网络定位数据识别居民职住地的方法。另一方面,在多源数据中POI因其包含的位置信息、地点属性成为城市研究中的重要数据源[10]。如王迪等[11]借助POI数据结合GIS核密度估计等多种方法对北京市的空间结构做了分析,并与现行总归做了对比;郭昭等[12]基于东莞市POI数据识别了城市功能空间,并进一步探究了城市功能的复合化特征。同时,城市交通数据为人群移动模式,城市功能区等相关研究带来了新的视角。陈泽东等[13]以出租车数据为基础识别了6类城市功能区并探究了功能区之间的空间交互特征。逯琳等[14]借助浮动车数据快速、精细地分析了武汉市三环线范围内的职住空间特征;Liu Y等[15]利用出租车数据进行聚类分析,引入“源汇区”的概念,划分了上海市不同的功能区。
现有城市功能区的研究主要利用位置数据,缺少人群出行的时间属性,如何将两者结合起来还缺乏研究。此外现有研究将城市划分为单一功能区,无法展现多种类型混合区域的细节,同时大多算法较为复杂,无法对快速发展的城市结构有快速的响应。本文基于西安市的出租车出行数据,通过k-medoids算法对地块进行时间序列聚类,挖掘出功能区和居民出行规律之间的联系,并结合POI数据提高了分析结果的准确性,结果将有助于研究西安市功能区空间分布的合理性及对城市发展规划提供建议。
研究区域选择包含西安市出租车出行数据的区域,坐标范围为108.53E~109.36E,34.47N~33.96N,简化为 3 518个 1 km×1 km的方格,如图1所示。
图1 研究区域
(1)出租车数据
本研究使用了西安市交通运输局提供的2019年5月10日~16日一周的出租车运营数据,包含出租车编号、经纬度、时间、速度、方位角、载客状态等字段。经过删除重复、超限、缺失数据,提取出城市上、下车位置数据,最终获得 690 978条上下车记录,部分记录如表1所示。
表1 出租车数据示例
(2)POI数据
POI(Point of Interest)是拥有地理坐标和属性信息的点,反映了城市地理实体的空间分布。文中西安市POI数据通过高德地图开发平台提供的API获取,并根据需要对23个大类做了提取、筛选、合并,最终得到12个类别,总记录数为 271 016,每条记录包括POI的经纬度、名称、行政区、类别。
将西安市出租车出行上、下车数据按1周168个小时进行显示如图2所示,按照工作日、休息日、上车、下车分为4个数据集,再计算每一天每一个方格中每一时段的上下车数量。
图2 一周上下车数据时序曲线
传统聚类中样本的接近程度主要是根据距离衡量,这是基于样本间的独立性和不变性。本研究采取一种考虑不同时间序列复杂程度的相似性度量方法,此方法使用两个时间序列之间的复杂度差异信息作为现有距离度量的校正因子[16,17]。表达式如式(1):
CID(Q,C)=ED(Q,C)×CF(Q,C)
(1)
其中CID是complexity-invariant-distance的缩写,表示经过复杂度校正的时间序列相似性度量参数,ED表示两个时间序列之间的欧几里得距离,其中ED的计算是假设有两个时间序列曲线Q和C,将其视作n个点。
Q=q1,q2,…,qi,…,qn
C=c1,c2,…,ci,…,cn
这时两个时间序列的欧几里得距离计算公式如式(2):
(2)
CF表示基于时间序列复杂度的校正因子,计算公式如式(3):
(3)
其中CE(T)是时间序列T的复杂度估计,计算公式如式(4):
(4)
复杂度因子(CF)使复杂度具有明显差异的时间序列彼此分开,避免了不同复杂度时间序列因传统距离度量而产生的误分,在所有时间序列具有相同复杂度的情况下,CID简化为欧几里得距离,降低了计算复杂度,适用于较为简单的时间序列相似性度量。
本研究采取k-medoids算法对时间序列曲线进行聚类分析。相比于k-means算法,此算法受异常点的影响较小,当已知聚类数的时候,计算复杂度低且精度较高。
考虑到聚类结果的有效性、分类的效率,本研究选取轮廓系数法(Silhouette Coefficient)和误差平方和(SSE)两种指标来选择最优聚类数,结果如图3所示。综合两种指标,选取最佳聚类数7。
图3 轮廓系数和误差平方和随K值的变化
为了对出租车出行数据的时间序列聚类结果进行补充和修正,引入归一化POI指数。首先,分别计算上下车聚类结果中每一类POI在每一类别中的权重,计算公式如式(5):
(5)
其中,Ni,j表示第i类聚类结果中第j类POI的数量,M代表研究区域中的方格总数。
为了消除不同聚类结果中POI指数数量级间的差异从而方便比较,对Li,j采取传统的Min-max标准化方法进行处理,计算公式如式(6)。
(6)
其中Lmin,Lmax分别代表每一组上下车数据中的最小、最大POI指数。
利用k-medoids算法对提取出的上、下车位置进行时间序列聚类分析,得到每一组数据的7个聚类结果,结果中包含聚类结果空间分布(图4、图5中的a、c)、类别平均时间序列(图4、图5中的b、d)。
图4 工作日上下车数据聚类结果
图5 休息日上下车数据聚类结果
将没有数据的方格命名为W0,其他根据此类别的方格总数从大到小的顺序命名为W1-W6。上车数据聚类结果如图4(a)、(b)所示,每个聚类的平均时间序列曲线和方格颜色一致。W1类从空间分布的角度来看,主要集中于主城区,与其他类别相比分布更为连贯且成片出现;从时间角度来看,可以发现出行的早高峰出现在7点,午高峰出现在1点,10点~12点存在一个低谷,3点也存在一个低谷,6点之后出行量开始增加,这与工作日居民区的上班出行习惯较为一致,初步判断主要为居民区和休闲娱乐区。
W2类主要分布在主城区以外,分布较为离散,只有一个高峰在6点,出行量总体较少,出行时间不固定,判断可能为上班或者事务性出行。
W3类的分布集中于城市外围,但更为靠近主城区,整体分布比较离散但是小区域较为连续;7点~8点出行量有一个高峰,12点和6点有一个低谷,整体保持平稳,推测为风景名胜,购物场所。
W4类所处区域主要为主城区,分布特征同W1类相似,存在早高峰7点和午高峰1点,18点之后出行量持续增加,参考W1类估计为居民区和休闲娱乐区。
W5类靠近城市外围,分布也更为离散,7点到24点出行量基本维持在一个相同的数量,推测主要为风景名胜、购物服务。
W6类数量最少,主要分布在城市外围,10点和18点有一个高峰,9点和16点有一个低谷,但出行量较少,推测早上9点以后为事务性出行,18点为下班时间,应该属于办公场所。
下车数据聚类结果如图4(c)、(d),对比工作日的上车数据可以发现,区域中有下车数据的地块更多,覆盖的范围更大。
休息日上车数据聚类结果如图5(a)、(b),下车数据聚类结果如图5(c)、(d)。从空间分布中可以发现,休息日的空间分异程度相比于工作日很小,这符合休息日人们的出行习惯。
对于特征不明显或包含多种特征的区域依靠单一时间序列曲线难以进行识别,而时间序列聚类和POI的结合可以互相补充达到提高识别精度的目的。
为了利用POI具有的城市地物属性特征对时间序列分析的结果进行补充,这里引入归一化POI指数,计算结果示例如表2、表3所示。
表2 工作日上车数据聚类结果的归一化POI指数
表3 工作日下车数据聚类结果的归一化POI指数
以工作日上车数据为例,W1类中指数最大的是金融保险,其次是交通设施、住宅,推测是居民区及其周边设施,这比较符合对聚类结果的推断;W2类POI指数较高的是风景名胜、政府机构、住宅,主要分布在主城区以外,结合上文分析推测为住宅和政府机构的混合区域;W3类考虑为比较成熟的商业区;W4类住宿、住宅的POI指数最高,且伴随较高的餐饮服务、生活服务推测为居民区;W5类风景名胜的POI指数最大且伴随较高的住宿服务,推测为风景名胜。W6类数量较少,POI指数中政府机构、公司企业POI指数较大,推测为政府机构和产业园区等工作场所的混合区域。
结合归一化POI指数对时间序列聚类结果的补充、修正,可以确定每一方格的功能区类型。结果如图6所示,其中“未识别区”为没有出租车上下车数据的地块。从图6中可以看出单一功能区较少,大多数地块属于混合区。以居民区为例可以看出,居民区的选址往往要求购物方便或者临近景区、周围有学校等,所以包含居民区的地块也大多会跟商业区、工作区、科教区、景区等混合,与我们的常识相符。
图6 功能区识别结果
为了验证结果的可靠性,在研究区内随机选择了100个方格,除去无数据区最终确定42个方格作为验证点,方格的位置如图7所示,对照谷歌影像、街道地图、识别结果,目视判别了验证点的功能区类型,正确分类34个方格,错误分类8个方格,总体精度0.81。此外随机选择了5个典型区域的功能区识别结果作为细节展示,从左至右分别为谷歌影像、街道地图、识别结果,从上至下分别为不同区域,结果如图8所示。如区域A包括大明宫国家遗址公园、方新村与龙首商业街区的混合区,分别对应识别结果中的景区、混合区(居民区、商业区),识别结果准确。
图7 验证方格位置示意图
图8 区域E识别结果与谷歌卫星图像和街道地图的对照
此外结合分析结果,探索了功能区在工作日和休息日的动态变化,具体的结果如图9所示。其中变化区域635个,不变区域854个,除去无数据的区域,变化区域占研究区域的42.6%,不变区域占比57.4%。变化区域主要分布在较为靠近城市三环的区域,而不变区域主要分布在城市外围,说明主城区的土地利用效率较高,利用强度也较大,而郊区则大多具有较为固定的功能区类型。
图9 变化区域与不变区域分析
本文利用西安市一周的出租车出行数据、POI数据对西安市的功能区进行识别,结果表明,城市居民出行特征与城市功能区相关,说明了出租车数据的分析挖掘对城市功能区识别的可行性。同时时间序列聚类的结果也表明单一出租车数据对地块类别的分类有一定的局限性,加入POI数据则可以互相补充,提高了功能区识别的准确性,避免了仅靠出租车数据无法识别混合区和POI数据缺乏定性分析的局限性。
从最终的分类结果看,平均上车数量最多的地块主要集中在城市的中心,说明城市中心活动强度最大,活动强度与偏离市中心距离成反比。对比工作日和休息日,工作日地块的空间分异较大,说明休息日人们出行行为较单调,出行需求也较工作日小。同时本文也存在一定的局限性,城市居民的出行方式多种多样,出租车适用于中短距离的出行,仅使用出租车数据会存在一定的偏差。所以在后续的研究中,考虑加入多源数据,如IC卡刷卡数据、社交媒体定位数据等来进一步提高功能区识别的全面性。