基于狄利克雷过程混合模型的城市活动聚类方法研究

2021-01-04 09:36
交通运输系统工程与信息 2020年6期
关键词:净流量类别基站

陈 仲

(中国城市规划设计研究院,北京100037)

0 引 言

城市居民日常活动(如通勤、娱乐、休闲游憩等)的总和行成城市活动.大量研究表明,居民个体在时间和空间上的行为活动表现出一定的规律性[1-2],这种规律性与城市经济、生活水平、用地功能布局等密切相关.通常情况下,城市活动能够从动态角度反应城市不同片区用地功效、功能布局的特点,结合静态角度的地形地貌、道路网络等因素,共同行成城市运行规律、用地使用功效、功能布局优化的基本认知.

借助数据采集及处理方法革新,学者越来越多地关注城市居民活动的时空动态特征,从而为研究城市不同功能区、居民活动空间联系特征提供基础.丁亮[3]利用手机数据通过人群总量等值线分析与核密度分析识别出通勤区的范围,探讨市域不同分区之间的关系.闫晴[4]利用手机信令数据,基于人群核密度分布及SPSS的系统聚类方法对长春市居民的居住、就业和消费休闲的活动空间分布进行研究.由于手机信令数据时间采集粒度大、定位精确度低,大多数研究集中在市域、城市等空间层面上,对时间特征研究较为粗放.

在城市活动的时变分布特征上,出租车GPS提供了更加精细的数据基础.程静[5]聚类分析北京市出租车出行活动的时空分布特征,并与城市区位进行对应,解释不同区位出租车出行活动的差异;邬群勇[6]采用有监督学习对不同区域出租车乘降量的时变规律进行研究.出租车GPS 数据时空定位精度高,但其出行方式过于单一,无法反应城市活动的全部状态.此外,在时变特征聚类过程中往往需要事先指定聚类数量或类别缺陷.

本文重点研究基于手机信令数据的城市活动的时空特征,以及城市功能区识别的聚类方法.一方面,借鉴出租车GPS 研究对时变规律的处理方式,深化传统手机信令数据研究对时变特征处理较粗放的现状;另一方面,在聚类方法上避免事先指定聚类数量的人为干预.通过将居民手机信令数据转换为出行OD 数据,获得居民出行时变特征,提出基于狄利克雷过程混合模型(Dirichlet Process Mixture Model,DPMM)的聚类方法,充分利用DPMM 无需事先指定聚类类别或数量的优势.将该方法应用到三亚城市活动时空分布特征研究中,并将其与城市用地功能、空间布局结合在一起,为进一步理解三亚市居民活动与用地互动关系、辅助相关用地政策制定提供支撑.

1 数据准备

本文数据来源于三亚市全域居民手机信令数据,处理原始手机数据得到三亚市居民出行OD数据.OD提取方法采用文献[7]方法,在合并“乒乓点”后,将停留时间超过20 min的地点(即基站)作为一个停驻地,以此切割居民个体出行时空轨迹链,最终得到个体出行OD记录,如图1(a)、(b)所示.

在此基础上,以基站为单位,对每个基站的出行到发量进行集计,用“到达量”减去“出发量”得到该基站的“净流量”数据.“净流量”能够反应该空间位置的城市活动特征,如早高峰期间“净流量”为正,说明该空间位置多为就业岗位,居民在早高峰期间以到达活动为主.由于各基站空间位置到发绝对量不同,通过标准化,将“净流量”转换为0-1区间范围内的数据,用于聚类分析,如图1(c)所示.最终提取出中心城区范围235个基站(同一坐标的基站可能有多个,这里视为一个)的“净流量”数据,如图1(d)所示.

2 模型建立与求解

狄利克雷过程(Dirichlet Process,DP)可以看做是分布上的分布,该随机过程的每次抽样都是一个随机分布.狄利克雷过程表示为G~DP(α0,G0),其中,α0为集中参数,G0为基本分布.α0越大,从狄利克雷过程抽取的分布越分散.

狄利克雷过程的边缘概率分布是狄利克雷分布(Dirichlet Distribution),它是Beta 分布在多元上的推广,概率密度函数表示为Dir(β),参数β是一个多维实数向量.因此,在贝叶斯推断中,狄利克雷分布常为多项分布的共轭先验分布.当数据服从多项分布时具有天然的优势.

狄利克雷过程无法直接采样,需通过其他构造形式,如截棍构造模型、polya 罐子模型、中餐馆模型[8].本文采用中餐馆构造模型,有助于自发确定类别数量并发现新类别.

2.1 狄利克雷过程混合模型(DPMM)的建立

每个基站的活动特征可以表示为向量xi=(xi1,…,xij,…,xim),其中,xij为第i个基站在j时刻标准化的“净流量”的值,该向量可以由参数为{θi1,…,θij,…,θim} 的多项式分布产生.待聚类的n个基站的活动特征构成向量X=(x1,…,xi,…,xn).假定其相互独立且来自于某个混合分布,该混合分布由多个多项式分布组成,构成不同多项式分布的概率的参数可以从狄利克雷过程G~DP(α0,G0)中抽样得到.于是,如果某些样本由同一个参数下的混合分布产生,那么可以将这些数据样本归为同一类,达到聚类的目的.DPMM模型可以表示为

式(1)表示第i个基站的“净流量”是由第zi类的多项式分布产生,其参数为,zi为类别编号,K是类的总数;式(2)表示参数的先验分布为狄利克雷分布,其参数为(β1,…,βj,…,βm);式(3)表示第zi类是从参数为Π的多项式分布中抽样得到;式(4)表示参数Π=(π1,…,πk,…,πK+1)是从DP(α0,G0)过程中抽取而来.

图1 数据预处理流程Fig.1 Data preprocessing process

2.2 中餐馆构造及Gibbs抽样算法

在中餐馆模型构造下,每个基站的活动特征xi属于既有类的概率,以及属于一个新类的概率分别为

式中:k为样本xi所属的类别编号;B为归一化因子,保证概率之和为1;nk为属于第k类的所有样本的各维度计数总和;Z-i为除zi的其他所有的类别集合.边缘概率密度为

式中:为第k类的参数.

由式(1)和式(2)可知,式(5)可以进一步表示为

式中:Ci=;Γ()为Gamma函数.由于狄利克雷分布的概率密度之和为 1,即,得到

将式(9)带入式(8),得到样本xi重新被分配到k类的概率为

同样,样本被分配到新类的概率为

计算出边际条件概率之后,采用Gibbs抽样算法进行迭代求解,其流程如图2所示.

3 结果与分析

3.1 结果与评价

聚类数量及质量主要受alpha和beta这两个参数控制,参数alpha影响聚类数量,参数beta影响每类中的数据集聚程度.图3(a)为不同alpha、beta 值影响下的聚类个数.在同一alpha 取值下,分类数量随beta 的减小而减小.当beta 取值小于10-2,alpha 分别取值为0.100、0.010 和0.001 时,聚类数量稳定在8个不变.

图2 Gibbs 抽样算法流程Fig.2 Gibbs sampling algorithms

为进一步评价聚类结果,确定最优聚类数量,图3(b)为alpha 取值0.01、beta 取值10-2时,采用Calinski-Harabaz(CH)指标评价聚类的质量.CH指标首先通过计算类中各点与类中心的距离平方和度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和度量数据集的分离度,由分离度与紧密度的比值得到CH指标.因此,CH越大代表类自身越紧密,类与类之间越分散,即更优的聚类结果.可见当聚类个数为8时,聚类达到最优.不同分类的数据分布如图4所示.

图3 聚类数量及评价指标Fig.3 Number of clusters and evaluation indicators

图4 DPMM 模型聚类结果Fig.4 Clusters obtained using DPMM clustering algorithm

3.2 空间分布特征

为进一步将数学意义上的聚类结果与城市活动空间分布结合在一起,结合居民出行规律及城市活动特征,将上述8类结果进一步归纳为4类特征,空间分布如图5所示.

(1)第I类特征.

包括类别1,其时变规律表现为全天任何时刻的到达量与出发量均大致相等,不同时段的“净流量”值没有明显差距.此类区域大致分布在城市中心城区,对应的用地类别为以居住为主的混合用地,同时包括中心城区的商业办公教育用地.

(2)第II类特征.

包括类别2、类别3和类别4,其时变规律表现为早高峰期间“净流量”为负值,即基站的到达量小于出发量,意味着用地类别以居住为主,早高峰期间大量居民离开本地到其他地方上班.随时间推移,在午间和晚高峰期间,“净流量”为正值,即基站的到达量大于出发量,以居民回家出行为主.

(3)第III类特征.

包括类别5、类别6 和类别7,其特征与第II 类相反,早高峰期间“净流量”为正值,意味着用地类别以就业为主,大量就业人口到达此地,为部分交通枢纽用地、教育用地、文化类用地.类别5全日呈双峰特征,周边居民出行以短距通勤为主,主要分布在城市中心区;类别6、类别7的“净流量”峰值较为延后,一般分布在城市中心区外围的区域,用地性质主要为居住用地.

(4)第IV类特征.

体现为凌晨期间“净流量”为负,而深夜期间“净流量”为正,结合三亚市城市生活特征,该类基站反映了“夜生活”较为丰富的地区,其用地性质主要为商业、娱乐用地.

图5 城市活动4 类特征的空间分布Fig.5 Spatial distribution of four types of urban activities

4 结 论

本文提出一种基于狄利克雷混合模型的聚类方法,并将其应用到手机大数据当中进行城市活动空间特征分析.通过将城市不同空间的居民活动量(从出行OD中获得)映射为基于时间变化的动态序列,在不预先指定聚类数量的前提下,得到最优聚类效果.将模型分析出的聚类结果映射到城市空间上,可以判断不同城市空间的城市活动规律,对后续交通政策、交通管理提供量化支撑.

一般地,严格意义的数学分类并不能够与实际情况完全对应,故结合居民出行规律进一步综合模型结果.但这并不影响本文所提方法的扩展性,尤其是在处理城市交通数据等具有时变规律的数据流上.

猜你喜欢
净流量类别基站
解读现金流量表
税前口径计算未来现金净流量现值辨析
全球资本流动周期对资本总流量和净流量的影响
壮字喃字同形字的三种类别及简要分析
基于移动通信基站建设自动化探讨
可恶的“伪基站”
西夏刻本中小装饰的类别及流变
基于GSM基站ID的高速公路路径识别系统
小基站助力“提速降费”
基于长期投资决策的单因素敏感性分析