基于网约车数据的城市区域出行时空特征识别与预测研究

2020-07-02 06:55陈艳艳梁天闻
交通运输系统工程与信息 2020年3期
关键词:时间尺度交通维度

张 政,陈艳艳*,梁天闻

(1.北京工业大学城市交通学院,北京100124;2.交通运输部公路科学研究院,北京100088)

0 引 言

网约车的逐步发展对城市居民的生活和出行方式产生较大影响.城市不同区域网约车出行需求特征精准识别和预测,对运营商优化车辆调度方案,资源合理配置,缓解高峰时段关键区域供需失衡,减少环境污染等问题具有重要意义;对交通规划者制定面向区域的需求管理政策,开展可替代的定制公共交通服务具有重要参考价值.

城市交通需求特征识别广泛采用聚类,矩阵分解等特征提取方法挖掘城市不同群体的出行特征规律.MA X.等[1]利用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)方法对北京市公交通勤者进行辨识;曲昭伟等[2]根据出租车GPS数据采用核密度方法对城市热点路段进行辨识;CALABRESE F.[3]采用矩阵分解方法对不同交通需求进行分类.交通需求特征识别是预测的基础,基于不同出行需求特征可分别构建预测模型.交通预测方法主要包括参数方法和非参数方法,参数方法如基于时间序列的统计模型自回归移动平均[4]和泊松模型[5]等,而人工智能的发展使得机器学习方法逐渐成为解决短时交通需求预测的非参数方法,如支持向量机[6],长短时记忆神经网络[7].JIANG S.[8]提出基于最小二乘支持向量机的网约车需求预测方法.谷远利[9]提出基于深度学习网络的预测某区域内网约车短时供需差的框架,该预测模型考虑时空因素和环境因素,预测短时间内区域的出行需求.郭宪[10]提出基于多源数据的梯度决策回归树网约车需求预测方法.

综上,交通需求特征识别和需求预测缺乏联系,辨识方法和预测方法易受时空数据集颗粒度影响.而基于特定需求特征的预测模型能够对结果进行较好的解析,主题模型LDA(Latent Dirichlet Allocation)能够有效避免数据集稀疏和维数较高造成辨识结果差等问题,且识别结果能够呈现出概率较高的出行特征.本文以北京市三环路以内网约车出行订单需求和城市交通小区划分结果为基础,构建基于主题模型LDA 的城市出行需求辨识和预测组合分析框架;分析城市不同区域内需求特征,基于需求特征辨识结果构建多时间尺度下的组合预测模型;对比常用预测方法,验证模型的有效性和精度.

1 基于LDA的区域出行需求特征辨识与预测模型

1.1 问题描述

主题模型是以非监督学习的方式对数据集中隐含特征进行辨识的统计模型,被广泛用于自然语言处理中的语义分析和文本挖掘.LDA 是一种常见的主题模型,图1为标准LDA的概率图模型,从概率分布角度表示时空数据集的生成过程.数据集中每个元素生成过程为:某时空数据集存在D个待挖掘隐含特征的研究对象,描述研究对象d(d=1,…,D)共有T条数据记录,其中某一条数据记录的数值记为w,该数值的主题编号为z.假设所有研究对象共存在K种隐含出行特征,每种特征可用主题z来概括,z=1,…,K.那么该数据集的主题服从超参数α的狄利克雷(Dirichlet)分布.研究对象d的主题服从参数为θd的多项(multinomial)分布,第t个数值取值w服从参数为φk的multinomial分布.当某一主题确定后,该主题下数值服从超参数为β的Dirichlet分布.

图1 LDA 模型结构图Fig.1 Structure of LDA

利用网约车时空数据集挖掘得到城市不同区域内出行需求特征,网约车时空数据集为海量用户的出行订单数据,每条订单数据记录出行者的起点O、终点D、出发时间S1、到达时间S2等信息.将订单数据集按照一定的时间颗粒度集聚到交通小区层面,得到O×D×S三维张量,记为χ,为在时间段t内,从交通小区i到交通小区j的出行量.此时,交通小区为研究对象,交通小区内某时段产生的到发客流为具体数值.采用LDA模型发现交通小区层面隐含的经常性的出行特征,分别得到O,D,S三个维度的主题分布O′,D′,S′,每个主题代表一种隐含的出行特征,即各出行特征以概率分布形式呈现,表示某种出行特征出现概率的大小.符号含义如表1 所示.根据挖掘到的各维度隐含分布特征,构建运算高效的出行需求预测模型.

表1 符号定义Table 1 Symbol definition

1.2 基于LDA的区域出行需求辨识方法

为发掘网约车时空数据集各维度隐含的主题分布特征,构建图2所示改进LDA模型.数据集χ中每个数值的生成过程如下.

图2 改进LDA 概率图模型Fig.2 Structure of modified LDA model

(1)对任一主题z(z=1,…,K)有:

(a)对任一出发主题分布~Dirichlet(β);

(b)对任一时间主题分布~Dirichlet(γ).

(2)对任一到达交通小区j(j=1,…,v)有:

(a)Dirichlet(α);

(b) 对于任一到达小区j,共有Nj条出行记录,出行记录i(i=1,…,Nj)生成过程为

①该记录主题编号zij服从zij~multinomial;

②该记录来自出发小区oij~multinomial;

③该记录的时间戳tij~multinomial

图2 中,α,β,γ为Dirichlet 超参数,采用吉布斯采样方法对改进LDA 模型进行参数估计[11].吉布斯采样方法包括初始化和更新迭代两部分,超参数需在初始化过程中按照经验设定某初始值,更新迭代过程的全概率公式为

式中:zijt为在t时间下由小区i出发,到达小区j的主题编号;分别表示第i出发小区,第j到达小区和第t时间段属于主题k的个数.全概率公式为每次更新采样过程中生成某个主题的概率.主题个数K取值利用混合度指标[11]来衡量,当混合度较小时,模型效果较优.

采样经过一定次数后,采样过程趋于稳定,主题概率分布不再变化,此时各维度的主题概率分布为

如果时空数据集时间尺度不确定,需要得到不同时间尺度下各维度隐含的出行特征,直接做法是分别按照对应的时间尺度重复上述参数推断过程,计算成本较高.吉布斯采样过程对所有尺度分配某一主题的概率是等价的,故构建基于某最小时间尺度下的主题分布为基准,构建任意时间尺度下的时间维度主题分布.记某时间窗口大小为lh,则任意时间窗口表示为

式中:l0为基准时间窗口大小;L(h)为时间窗口增长因子,h为时间窗口大小编号,h=0,1,2,…,H,通常情况下L=2[12].因为对主题分布矩阵中每个元素分配主题的概率是相同的,即每个时间颗粒度下估计潜在主题的过程相同,故对于时间颗粒度为lh的时间主题矩阵分布有

式中:为在时间窗口为h下的时间主题概率分布,m=lh/l0.根据最小时间窗口矩阵分析得到主题矩阵S(0),可以得到不同时间窗口下时间维度的主题特征分布矩阵,基于此可呈现在多时间窗口下的主题概率的分布特征情况.

1.3 多时间尺度下的区域出行需求预测方法

若通过主题分析得到时间维度的主题概率分布是明显的时间序列,利用自回归(AR)方法进行预测.对于某一时间窗口下,利用前ω时段下的记录完成t时刻的预测,即

式中:λn为回归系数,n=1,…,ω;εt为误差项.

多个层面的时间窗口,基于最小时间尺度下分布,实现不同时间尺度下时间维度主题的估计.则有

式中:为第h个时间窗口下,第n个回归系数;为第h个时间窗口下,t-n时段的主题分布.完成时间维度主题矩阵趋势变化的预测后,还需要推算区域的交通出行需求.

式中:a为采用数据集的时间长度;是平均每个时间窗口下从i小区出发的平均出行需求表示区域出行需求.

式(9)是利用出发主题分布矩阵,到达主题分布矩阵和时间主题分布矩阵,基于对时间主题矩阵的预测结果,预测未来区域出行需求.

2 案例分析

选用北京市三环路以内2017年7月17~30日滴滴出行网约车订单数据验证模型的有效性.网约车时空订单数据集每条数据记录每一订单编号,上车地点经纬度,下车地点经纬度,上车时间,下车时间等信息.为研究不同时间尺度下区域出行特征分布及预测结果,选取15,30,60 min这3个时间窗口,然后根据订单经纬度坐标集聚到三环内交通小区层面,得到χ1,χ2和χ3这3个数据集.

2.1 区域出行特征识别结果分析

对数据集χ1按照图2改进LDA模型框架进行主题分析,当主题数K=3 时,改进LDA 模型取得较优效果.图3(a)为空间层面(出发小区,到达小区)主题分布结果,3种主题分别为低,中,高不同出行强度在空间上的分布.为验证模型结果的合理性,从数据周期内随机选取1 d 数据,进行统计分析,结果如图3(b)所示.模型结果与统计结果整体趋势相差不大,A,B,C,D,E这5处地点,两种方法结果相异或相似,利用POI(Point of interest)数据计算这5 处地点的土地利用性质[13].A 主要为高等教育用地,此类用地约占该交通小区的67.8%;B和E主要为交通枢纽用地,此类用地约占交通小区面积的86.8%;C主要为公园绿地用地类型,约占该交通小区的76.1%.这4处地点出行主要是随机出行,故某日出行数据统计结果与数据集总体模型结果存在一定差别.两者结果相似的D类交通小区,主要为商业写字楼,此类交通小区产生的出行较为规律,故两种方法结果差别较小.图4 为χ1在时间维度主题分析结果,根据式 (6)得到χ2和χ3的主题分布,如图5 和图6 所示.

图3 出发小区和到达小区主题分布Fig.3 Topics distribution of origin and destination traffic analysis zones.

图4 时间窗口为15 min 的时间维度主题分布Fig.4 Topic distribution on temporal dimensioanl under 15 min

图5 时间窗口为30 min 的时间维度主题分布日Fig.5 Topic distribution on temporal dimensioanl under 30 min

图6 时间窗口为60 min 的时间维度主题分布Fig.6 Topic distribution on temporal dimensioanl under 60 min

由图4~图6 可看出,工作日与非工作日出行强度变化趋势不同.随着时间窗口变大,时间主题分布逐渐趋于平缓,各类出行强度大小关系逐渐变得明显.a类出行特征在工作日内始终能够维持较高的出行强度,在非工作日内存在明显的单峰出行强度特征;b 类在工作日出行强度整体低于a类,在非工作日b 类同样存在单峰,但与a 类单峰出现时段不一致;c 类表示较低的出行强度分布,在1 d内变化较为平稳,且工作日和非工作日出行强度特征差别不大.

2.2 区域出行预测结果分析

为评价改进LDA 构建的预测模型效果,选取均方根误差(Root Mean Squared Error,RSME)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)作为衡量误差的指标,分别评价在不同时间尺度下模型的预测效果,如表2所示.

表2 预测精度评价Table 2 Forecasting accuracy evaluation

由表2 可知,时间尺度的大小会影响预测精度,时间窗口越大,需求越平滑,预测精度越高.改进的LDA-AR 预测模型的精度比传统的AR 模型高.

3 结 论

本文将LDA模型引入到识别交通时空数据集隐含出行特征问题中来,有别于LDA 得到单一维度主题分布,增加多维度信息作用于数据集观测值,可得到到达小区,出发小区和时间维度下的主题分布特征;同时基于最小时间尺度下的主题分布构建任意时间尺度下的需求分布预测模型,提高计算效率;并选取北京市三环路以内网约车时空数据集,验证模型的有效性和精度.结果表明,构建的基于最小时间窗口下的多尺度分布特征识别和预测方法能够识别不同时间颗粒度下的区域需求特征,实现区域间的需求变化趋势预测.本文研究对城市交通规划,公共交通组织运营等方面具有重要意义.

城市交通需求辨识与组合预测模型只对总体需求进行了预测,拟在后续研究中考虑不同主题下预测结果的对比分析.

猜你喜欢
时间尺度交通维度
理解“第三次理论飞跃”的三个维度
时间尺度上带超线性中立项的二阶时滞动力方程的振动性
CaputoΔ型分数阶时间尺度Noether 定理1)
交直流混合微电网多时间尺度协同控制
认识党性的五个重要维度
繁忙的交通
时间尺度上完整非保守力学系统的Noether定理
浅论诗中“史”识的四个维度
小小交通劝导员
人生三维度