基于全局自适应有向图的行人轨迹预测

2022-09-17 13:51崔雪红杨浩冉
电子学报 2022年8期
关键词:时域全局行人

孔 玮,刘 云,李 辉,崔雪红,杨浩冉

(青岛科技大学信息科学技术学院,山东青岛 266061)

1 引言

行人轨迹预测旨在利用观察到的行人轨迹,预测行人未来的运动轨迹[1].行人轨迹预测在自动驾驶[2,3]、视觉识别[4]、目标跟踪[5]和视频监控[6]等领域得到了广泛的应用.但受客观环境的影响,人与人之间、人与环境的交互变得复杂抽象,准确预测行人的轨迹仍然具有复杂性和挑战性.

随着深度学习[7]的发展,神经网络为行人轨迹预测提供了必要条件.尤其是,用于序列学习的递归神经网络(Recurrent Neural Network,RNN)、生成对抗网络(Generative Adversarial Networks,GAN)及图卷积网络(Graph Convolutional Network,GCN)成为行人轨迹预测建模的主要网络.Social LSTM[8]是循环神经网络在行人轨迹预测领域的典型应用,它通过池化层建模行人之间的相互作用.基于GANs 的方法[9~12]预测未来轨迹的分布时,模型的生成器也是使用递归神经网络设计.这些方法的局限性在于递归架构的使用,使得网络模型的参数多,训练成本高.基于RNN 的轨迹预测方法在建模行人之间的交互时,不能单独处理空间上下文,而是需要借助额外的结构对相邻行人的信息进行编码,既不直观也不直接.

图卷积网络是另一种被广泛应用于行人轨迹预测的模型.很多研究者将时空图[13~16]应用于行人轨迹预测,并实现了不错的预测性能.时空图包含丰富的特征信息,比聚集的方法(例如池化)[17]直观有效.由于行人在轨迹预测中的重要性不同,注意力机制更有助于编码行人之间的相对影响和潜在互动.基于图注意力网络的轨迹预测方法[14~16,18~21]打破了RNN 网络的顺序依赖性,利用注意力机制实现了行人特征信息的加权融合.然而,在建立时空图模拟行人交互的过程中仍存在许多问题,如图1所示.

图1 行人交互的时空场景分析

首先,网络的时空感受野小,无法获得行人的全局信息.图1(a)表示行人的空间交互,当融合行人j的交互特征时,往往根据距离只关注行人k和行人l的信息,而忽略远距离行人i的特征,这使得网络的输入范围变小.在时域中,基于长短期记忆网络(Long Short-Term Memory,LSTM)的行人轨迹预测只依赖前一时刻的隐藏状态,不能像卷积神经网络(Convolutional Neural Network,CNN)那样实现并行处理,如图1(b)表示的时域模型LSTM 中缺失的连接所示.这导致模型运行时间长,感知范围狭窄.其次,以往的研究在空间域构造图模型时,不同的行人在同一时间通常定义为全连通图,默认行人之间的相互影响是对等的,忽视了行人间的不对称交互关系,方向性不强,导致网络模型不能准确模拟行人之间的真实互动.例如在图1(a)中,行走在后面的行人n的运动轨迹不会影响前面的行人j和k(绿色虚线所示),而这两个行人的运动轨迹却对行人n的未来轨迹产生了重要的作用(红色实线所示).最后,全连通图不能随着行人运动状态的变化及时调整图结构,行人间的交互冗余,自适应能力差.为此,本文提出了基于全局自适应有向图的行人轨迹预测方法(pedestrian trajectory prediction method based on Global Adaptive Directed Graph,GADG).针对以上问题,本文的研究贡献总结如下:

(1)设计全局特征更新GFU(Global Feature Updating)和全局特征选择GFS(Global Feature Selection),关联相互交互的行人的全局特征,扩展网络感受野,强化网络学习时空特征的能力.

(2)构建有向特征图模型,有效提取成对行人之间的非对称社交互动,增强网络的方向性,提高网络模拟真实场景的能力.

(3)建模自适应交互图,定义行人之间的自适应交互关系,减少不必要的交互连接,增强图模型适应场景变化的能力.

2 相关工作

2.1 行人之间的交互

人与人之间的交互建模经历了社会力模型、多模型方法、混合估计方法和基于模式的方法.人与人的交互不仅包括成对行人间的交互,还涉及复杂的群组行为[22].而基于模式的方法从数据中拟合不同的函数(如神经网络)来学习行人之间的交互关系,提高了模型的灵活性.例如,RNN和CNN联合建模空间关系[23]以捕获行人之间的交互.Social LSTM[8]利用LSTM 计算隐藏状态,聚集一定范围内的行人交互影响.Social GAN[9]建立新的池化机制确定行人间的交互关系.然而,这些基于RNN的模型在长序列训练中容易出现梯度消失和爆炸.基于图结构的模型表现出基于图数据的依赖关系进行建模的强大功能,可以更好地模拟场景中人与人之间的交互.STGAT[14]通过图注意力网络(Graph Attention network,GAT)学习行人间的影响权重.Social-STGCNN[15]将轨迹直接建模为图形,根据相对距离确定行人之间的相互关系.GraphTCN[16]以输入感知的方式捕获时空交互.然而,这些方法忽略了行人交互建模的方向性,认为两个行人之间的相互交互是对等的.在行人运动的过程中,后面的行人总是会注意前面的行人,而前面的行人通常对后面的行人不关注.所以,行人之间的相互交互具有不对称性.为了体现这种不对称关系,本文把行人之间的互动建模为有向图,不仅能捕捉对目标行人产生重要影响的交互对象,还能提取他们之间的方向信息.

2.2 基于图架构的行人轨迹预测

递归神经网络虽然具备显著的序列建模能力,但缺乏直观的高层时空结构.在行人运动过程中,行人的运动轨迹不确定[24],行人之间的交互没有规律,图结构是表示行人交互行为的自然方法.时空图[14~16,19,20]是比较流行的工具,可以同时捕获空间和时间关系.这些方法通常将行人表示为节点,将他们的交互表示为连接.但这些方法在每一个时间步都会引入一个固定结构的图,图结构不能随着场景的变化而改变.与上述方法不同的是,本文提出的自适应图模型在不同的时间点是动态变化的,可以自适应调整行人之间的连接.有些方法把图模型与LSTM 等深层序列模型结合建模,并在此基础上进行拓展.例如,Zhang 等人[25]在位置和运动方向上构建图模型,并使用层次LSTM 逐步解码.递归社交行为图[26]递归更新交互范围内的个体特征来强化社交互动.这些方法只建模了局部交互,不能体现深层交互关系,网络的空间感受野小.为此,本文设计全局特征更新GFU,打破行人地理位置的限制,捕获网络全局空间特征.

2.3 基于注意力机制的行人轨迹预测

由于相邻行人对轨迹预测的重要性不同,注意力机制更有助于编码行人之间的相对影响和潜在交互.Su 等人[27]根据速度计算邻居的相关性.SoPhie[12]与CNN 结合,为行人添加双向注意力.Vemula 等人[28]利用隐藏状态计算注意力分数.图注意力网络利用软注意力或转移机制来区分邻居的重要性,实现了节点之间的加权消息传递和更好的群体理解.STGAT[14]和Social-STGCNN[15]通过引入灵活的图注意力机制来改善行人之间的交互关系.GraphTCN[16]使用边缘图注意力网络捕获行人间的空间交互.Social-BiGAT[18]通过图注意力网络学习网络中可靠的特征表示.然而,这些方法只根据距离来确定行人之间的相互影响,忽略了时域注意力,导致注意力分配不符合行人行走的客观规律.本文构建空间注意力(Spatial Attention,SA),融合行人轨迹中隐含的距离、速度和方向信息,克服仅使用位置特征的不足.设计时域注意力模块(Temporal Attention Module,TAM),激励网络调整在时间维度上的权值比重.这使模型具备了更好的时空建模能力.

2.4 基于CNN的行人轨迹预测

递归神经网络及其变体在行人轨迹预测领域广泛应用,表现出了良好的预测性能.ST-RNN[29]使用时空转换矩阵建模每个层的时空上下文.Social GAN[9]在Social LSTM 的基础上增加对抗性训练,提高了预测性能.SR-LSTM[30]激活邻居的当前意图,迭代细化了行人的当前状态.但基于RNN 的轨迹预测模型只依赖前一时刻的输出,忽略了其他时刻对轨迹预测的影响,时域感知范围小.而CNN 可以实现并行处理并能提取丰富的上下文信息,一些方法证实了基于CNN 的模型在轨迹预测方面具有竞争性.例如,Yi 等人[31]使用一个大的感受野来模拟行人的行为;Yagi 等人[32]开发了一种深度神经网络来预测行人位置.但是,仅利用CNN 来集中附近行人的特征会丢失一些运动信息,这限制了预测精度.为了提升时域的感知范围,本文将CNN 与LSTM 进行组合,在利用LSTM 进行轨迹预测之前,设计了全局特征选择GFS,并在LSTM 上增加残差连接.消融实验表明,此设计进一步提高了网络的预测性能.

3 算法描述

本文提出的模型GADG 是一种编解码结构,总体框架如图2 所示.编码器包括图注意力网络和自适应有向图学习(Adaptive Learning,APL),解码器包括全局特征选择GFS和轨迹预测.其中,编码器中的全局特征更新GFU、自适应有向图学习APL和解码器中的全局特征选择GFS是本文的主要创新点.

图2 模型的技术路线图

3.1 图注意力网络

3.1.1 单人运动特征编码

每个行人在运动过程中有不同的运动状态,而LSTM 已被证明能从行人轨迹中提取可以描述或预测行人运动模式的隐藏特征.行人下一时刻的运动趋势受到当前时刻运动状态的较大影响,为了强化行人当前的运动意图,增强当前特征信息的传输,本文在LSTM 中添加残差连接,形成TS-LSTM,使得行人获取更丰富的特征信息,增强运动决策的合理性和准确性.增加残差连接前后的对比情况见4.2 节中的消融实验,具体实现如式(1)和式(2)所示.

3.1.2 全局特征更新(GFU)

H==1,2,…,Tm,∀i={1,2,…,N}}作为图3 的输入.GFU 通过卷积运算θ和β计算图中所有行人之间的特征关联程度(亲密度),来获得目标行人的全局更新特征.

图3 全局特征更新GFU的流程图

在实验过程中,式(3)中的亲密度函数d(hi,hj)有4种定义,4.2 节中的消融实验验证了它们的有效性.和分别是和的维度转换结果,T 表示转置.式(4)中的s(·)是一个显示函数,用于计算相邻行人的特征.GFU不再局限于近距离的行人特征,所以提升了网络在空间域的感受野.经过GFU 后,H被扩展为Z=表示全局更新特征.

3.1.3 时空注意力

(1)空间注意力(SA)

空间注意力综合了行人间的距离、速度和方向信息.因为数据集的采样时间是0.4 s,输入为相对距离,所以相对速度等于相对距离除以采样时间.相对方向是计算行人间的余弦相似性.当融合距离Adit、速度Aspd和方向Adic信息后,空间注意力Ae的计算如式(5)所示.距离Adit构造了图的邻接矩阵,建立了行人间的连接关系.为了分别突出速度和方向对图上行人交互的不同影响,Adit分别与速度Aspd和方向Adic相乘后,再通过加法进行特征融合,即AditAspd+AditAdic=Adit(Aspd+Adic),距离、速度和方向对预测性能影响的消融实验见4.2节.

其中,a∈R2D′是单层感知机的权值向量,Wt∈RD′×D是实现线性变换的共享权重,D和D'是输入输出维度,||是拼接操作,j表示行人i的邻居,⊗表示矩阵的乘法.

(2)图卷积

结合注意力Ae和全局特征Z,图卷积的输出如式(6)所示.

图4 多头图注意力网络

(3)时域注意力模块(TAM)

由于行人在不同时刻的运动状态不同,且不同历史时刻的运动特征对行人未来轨迹的影响力度也不同,因此,时域注意力TAM 可以定义行人在不同时刻的运动状态的重要程度,激励网络调整在时间维度上的权值比重,以进一步模拟真实场景,提高网络的预测性能.给定来自式(6)的输入Z,通过TAM 进行时间关联后,输出变成R.首先,Z被共享的线性变换函数f=xw(x是输入,w是可学习的权值参数)转换维度,经过3 次不同的权值参数w的转换,变成式(7)中的3 个不同的张量Qi、Ki和Vi;其次,用Qi计算不同时间步之间的关联程度,也就是时间注意力;再次,通过Vi转换维度;最后,把时间注意力加权到Vi中得到式(8)的单头注意力headj.TAM的计算过程如图5所示.

图5 TAM的计算过程

sf是将输出调整到合理范围的比例因子,0<sf<1.根据实验结果,当sf=0.5时,预测性能最优.为使网络获取更丰富的特征信息,用式(9)计算多头注意力.其中,时域注意力头的数量h_num=8,消融实验见4.2节.

3.2 自适应有向图学习

图6 自适应有向图APL的学习过程

3.2.1 建立有向特征图

为了体现行人交互的方向性和不对称性,本文设计了行与列的级联卷积,交叉融合行人i对行人j的影响和行人j对行人i的影响.在实现过程中,首先把R表示的图结构利用1×1的卷积进行时空融合,产生时空密集交互,然后,对R'分别实现行卷积和列卷积,最后把两种卷积结果融合,如式(10)所示.E(0)=R',K是卷积核.本文设置7 层卷积,最终获得的高级交互特征表示为E.

3.2.2 构建自适应图模型

(1)自适应学习

级联卷积使行人间的交互具有了方向,但图结构不能随着场景的变化而改变,存在很多冗余连接.比如在图结构中,后面的行人仍会对前面的行人轨迹产生影响.为此,本文学习阈值ξ∈[0,1]来消除不必要的交互.通过实验,当ξ=0.5时,网络的预测性能最好.在式(11)中,I(·)是指示函数,如果不等式成立输出1,否则输出0.

(2)非零规范化

为了增加自连接,在F中需增加大小相等的单位矩阵I.然后通过元素相乘形成特征矩阵Gsp,如式(12)所示,⊙代表元素相乘.本文对编码结果归一化时发现,零输入值经过Softmax 后变成非零值,使得没有交互连接的行人被重新影响,冗余连接再次产生.为了避免这个问题,本文设计了调整因子∊,来保持特征矩阵的稀疏性.

(3)编码输出

首先,把自适应有向图输入图注意力网络,输出为G,表达式如式(14),Z来自式(6).其次,在行人运动过程中,目标行人的轨迹变化不仅来自周围行人的相互作用,还取决于目标行人自身的影响.

3.3 解码器

3.3.1 全局特征选择(GFS)

在使用LSTM 预测轨迹之前,为了提高时域的感知范围,选择重要的行人特征并控制特征信息的流动,本文设计GFS.

GFS 由卷积层和特征选择组成,具体结构如图7 所示.输入来自式(15),由C0表示,具体的表达式为C0=

(1)卷积层

在图7 左侧中,GFS 有3 个卷积层,卷积核是3×3.为了确保输入和输出的长度相同,需要使用填充操作来保持卷积前后的特征映射不变.观察图中红线的变化可以发现,随着卷积层的加深,感受野变得越来越大.例如,假设把图中的省略号表示的多个时间步看成一个时间步,那么经过3 层卷积,输出的一个时间步特征能感知输入的7 个时间步的特征,这便提高了网络在时域的接收范围.经过每个时间步特征的相互叠加,网络便获取了全局时域特征.

图7 全局特征选择GFS的架构图

(2)特征选择

为了从卷积层中选择重要的行人特征并控制特征信息的流动,图7右侧设计了由两个激活函数组成的选通机制.当两个激活函数分别为Tanh和Sigmoid 时,模型表现最好.图中的一个圆可以代表许多行人,方框表示不同的时间步.GFS之后,最终输出如式(16)所示.

其中,Wa和Wσ是两个激活函数的权重,b是偏差,C3是最后卷积层的输出.

3.3.2 轨迹预测

图2 中的解码部分是在LSTM 上增加残差连接形成P-LSTM 来预测轨迹.P-LSTM 的结构类似于TSLSTM.为了模拟真实场景,在训练过程中,对服从标准正态分布N(0,1)的随机噪声U进行采样,并与O连接作为P-LSTM的输入,如式(17)所示.是初始隐藏状态,来自式(1)的表示初始输入,We是P-LSTM 的可更新权重.式(18)的是最终预测的行人相对位置.通过后续输入,相对位置可以转换为绝对位置.

为了模拟行人运动的不确定性,本文使用多样性损失策略.受随机噪声U的影响,k个结果可在一次训练中生成.这些结果分别计算L2 距离,并将最小值作为损失,如式(19)所示.

其中,Yi是真实轨迹,是预测轨迹,k是超参数,在本文中,k=20.

4 实验及分析

4.1 实验设置及运行细节

(1)数据 验在2 个开放数据集ETH和UCY 上进行了验证.这2 个数据集包括5 个室外拍摄的鸟瞰场景,共2 206 条行人轨迹,详细介绍见表1.本文参考了Social GAN[9]的数据预处理策略,所有数据都转换为世界坐标.

表1 ETH/UCY数据集

(2)评估指标

式(20)为平均位移误差(Average Displacement Error,ADE)和最终位移误差(Final Displacement Error,FDE)的计算方式,主要用于计算预测轨迹和真实轨迹之间的差异.指标值越小,网络性能越好.

(3)实验细节

实验在Pytorch=1.2 的环境中运行.训练过程使用两个NVIDIA GeForce GTX-1080 GPU.行人的相对坐标是模型的输入.TS-LSTM 的隐藏状态和图卷积的输出为32维向量,随机噪声U为16维.模型使用Adam进行优化,批量大小为64.观测的历史轨迹为3.2 秒(8 个时间步),预测轨迹为4.8秒(12个时间步).

4.2 消融实验

消融实验在ZARA2 数据集上进行.由于基线模型的预测长度为12 个时间步,所以在验证各个模块对网络性能的影响时,预测长度设置为12 个时间步.其余消融实验的预测长度设为8.

4.2.1 模块内的消融实验

表2是超参数的设置实验,由于这些超参数是基线模型自带的参数,所以表2 的消融实验以基线为基础,用黑色粗体突出最好的结果.当图卷积层数l=2、多头图注意力h=4和预测次数k=20的时候,模型取得了较好的性能.这说明,图卷积网络具有浅层特征,多头图注意力可以强化模型的学习能力以及k表示的多样性轨迹能体现行人运动的不确定性.

表2 图卷积层数l、图注意力头数h和预测次数k的消融实验

表3 用黑色粗体突出的是最好结果,可以看出,与基线相比,当亲密度函数是嵌入高斯函数时,模型的表现最好.在LSTM 上增加残差连接后,ADE和FDE 分别比基线降低10%和7.5%,这证明了残差连接对于预测性能的提升是有效的.

表3 亲密度函数与LSTM上残差连接的消融实验

表4和表5 中用黑色粗体突出最好的结果.表4 显示,融合了行人的距离、速度和方向的空间注意力,能使网络获得详细的行人交互,多特征融合能提升网络的预测性能.表5中的数据不仅体现了多头注意力的有效性,还确定了最佳时域注意力头数是8.时域注意力体现的是目标行人在不同时刻的历史运动状态对其未来轨迹的影响,而多头注意力能从多个角度关联历史运动信息.

表4 行人间的距离、速度和方向对预测性能的影响

表5 时域注意力头数的设置实验

4.2.2 模块间的消融实验

基线STGAT[14]的图注意力网络根据距离获得行人间的空间交互,使用两个LSTM 分别对时域的个人运动状态和行人交互进行编码.在预测行人轨迹时,也使用了LSTM,预测长度为12 个时间步.本节主要是验证全局特征更新GFU、自适应学习APL和全局特征选择GFS 对模型性能的影响,实验结果如表6 所示,用黑色粗体突出最好的结果.Res 是在LSTM 上添加的残差连接.表6 中的数据证明了在GADG 中设计的各个模块可以进一步提高预测性能.尤其是同时增加GFU,APL和GFS 后,模型的性能达到最优,这也证明了本文提出的模型GADG 的有效性.在基线上增加全局特征更新GFU,并在LSTM 上增加残差连接的网络,本文称之为扩展图注意力网络(Extended Graph Attention Network,EGAT),以便于后面的轨迹比较.

表6 各个模块的消融实验

4.3 实验结果比较

4.3.1 与先进技术的比较

在表7中,排在前三位的预测指标值分别用红、绿、蓝三种颜色表示.表中标有*的模型生成确定的轨迹,未标记的模型生成多种轨迹,并选择最佳轨迹进行对比.实验结果表明,与其他模型相比,本文提出的模型GADG 在所有场景数据集中都优于基线STGAT,ADE和FDE 的平均值分别比STGAT 降低14%和12%.与最优值相比,ADE和FDE 的平均值分别降低14%和3%.ETH 的ADE/FDE,HOTEL 的ADE/FDE,ZARA2 的ADE以及ADE和FDE 的均值都达到最优.在UNIV 中,高密度人群涉及更多的行人交互,迫使目标行人在转弯、穿越人群等不同选项中做出决策,这使得预测更具有挑战性.在ZARA1 中,行人的轨迹经常受到周围行人和障碍物的影响,这可能会改变或限制人类活动,导致模型无法捕捉更多的社交互动.

表7 在ETH/UCY数据集上的实验结果比较

4.3.2 推断时间

表8 比较了不同方法的推理时间,通过比较可以发现,GADG 在推理过程中具有较高的计算效率.这归因于其计算过程只使用视觉信息,不需要在场景中检测和跟踪行人.但由于GADG 使用了递归网络LSTM进行部分时态推理,因此,本模型的推理速度略慢于Social-STGCNN.但与STGAT 相比,GADG 的推理速度依然很快.这是因为GADG 不仅增加了感受野,提高了数据并行处理的效率,还能利用图的自适应学习精简模型结构.

表8 推断时间比较

4.4 实验分析

4.4.1 训练过程对比

在相同的实验环境下,GADG和STGAT 的训练过程在图8 中进行了比较.图中ADE和FDE 的变化趋势存在几个特点.首先,GADG 随着训练进度的推进更加稳定,比STGAT 更快地拟合.其次,拟合后,GADG 的ADE和FDE 均优于STGAT,且都超过了最优值.最后,STGAT 在ADE 上的变化先降后升,说明更多的迭代使得STGAT 的性能没有提高反而下降.也就是,尽管STGAT能够适应样本,但对样本的拟合能力不强.

图8 训练过程分析

4.4.2 自适应有向图的可视化

图9 不仅展示了模型在不同场景中行人之间的交互影响,而且还能捕捉到行人具体的交互对象.图中由实线带箭头表示的交互连接具有不同的方向和颜色,说明了行人间的交互具有方向性和不对称性.连接颜色越深,行人间的影响越大,且影响程度从蓝色、紫色到红色依次递增.例如,在图9(a)中,由于绿色节点到蓝色节点的连接颜色(深红色)比蓝色节点到绿色节点的连接颜色(淡红色)深,所以绿色节点对蓝色节点的影响大于蓝色节点对绿色节点的影响,这与现实场景是一致的.在图9(b)和图9(c)中,通过交互连接的方向可以发现,红色节点的轨迹仅受自身历史轨迹的影响.此外,根据交互连接的指示方向,模型还可以动态捕获目标行人的交互对象.例如,图9(a)中的蓝色节点与绿色和黄色节点交互,与棕色节点无交互关系;在图9(c)中,除红色节点外,绿色节点与所有节点交互,但蓝色节点的交互节点只有黄色节点.

图9 自适应有向图的可视化

4.4.3 轨迹可视化

图10比较了行人在同向或异向行走、多人并行、相遇、群组行走的轨迹变化,黄色虚线(预测轨迹)和蓝色实线(真实轨迹)的重合度越高,预测精度越高.对于群体运动,行人交互是复杂的,观察重合度可以看出GADG 预测的轨迹比EGAT和STGAT 更准确.STGAT擅长预测线性轨迹,而GADG 可以推断行人轨迹的变化,如图10(c)(e)(f)所示.当行人直行时,STGAT 可以预测符合现实的轨迹,但精度比EGAT 差.这是因为EGAT 在融合运动特征时利用全局特征更新GFU 捕获了行人的全局交互.但是与GADG 相比,EGAT 的预测精度较差.其原因是GADG能在自适应学习过程中建立合理的自适应有向图,并能利用全局特征选择GFS提升时域的感知范围并获取行人在运动过程中的显著特征.当行人非线性移动(如转弯、曲折行走)时,如图10(a)(b)(d)(e),STGAT 不能准确预测行人的未来轨迹,但GADG 却可以合理地预测贴近真实的轨迹.在图10(e)中,当一名身穿黑色T 恤衫的女士穿过人群时,STGAT 预测的黄色虚线较短,与蓝色实线表示的真实轨迹相差很大.也就是,STGAT预测该女士将在原地等待.但EGAT和GADG 却推断出她即将穿过人群,这主要得益于GFU 实现的全局特征关联.但是,GADG 的预测精度更好,这就证明APL和GFS 对预测性能的提升是有效的.在图10(b)中,EGAT和GADG能判断静止行人(轨迹由点表示)并预测其未来的静止状态,而STGAT 将静止行人视为移动行人.这些可视化结果直观地表明,与STGAT 生成的轨迹相比,本文提出的模型GADG能够更好地捕捉全局交互和显著的运动特征,并能生成更可靠的行人轨迹.

图10 预测轨迹的可视化

在UNIV 数据集中,行人的数量不多但密集度很高,建立的图模型比较复杂,行人之间存在着更加复杂的交互.图11 展示了在密集行人的场景中预测的未来轨迹.根据真实轨迹和预测轨迹的重合度可以发现,本文提出的模型能取得较好的预测效果.由于观测轨迹是8 个时间步,预测轨迹是12 个时间步,在建立图模型的过程中,模型会忽略当前场景中达不到要求的行人.所以,图11 显示的是达到上述要求的部分行人的预测轨迹,而不满足要求的行人多为刚进入或即将走出场景以及正在行走但未达到时间步数量的人.

图11 密集行人的预测轨迹

4.4.4 存在的问题及研究方向

当场景中同时有大量行人出现时,由于行人比较密集,因此行人之间的特征差异减小,导致空间注意力均匀分布,如图12所示.在图12中,周围行人上的圆圈越大,说明此行人对目标行人的影响越大.而图中却显示了大小差不多的圆圈,即模型产生了均匀分布的注意力.因此,未来的研究重点将是为模型添加额外的辅助信息,例如场景信息、行人的社会属性信息等.只有对这些信息进行整合,才能把握行人的运动意图,模拟行人的最终行为决策.另外,面对异常复杂的人群数据集,还需要提升模型的泛化性能.

图12 空间注意力均匀分布

5 总结

本文提出了一种基于全局自适应有向图的行人轨迹预测方法GADG,旨在解决行人轨迹预测过程中存在的时空感知范围小、行人之间的交互对称和图结构固定不随场景变化的问题.模型在5个开放的场景数据集上取得了优异的实验性能.实验结果表明,GADG 能提高模型的时空感知范围,根据行人之间的不对称交互强化方向感知,自适应调整图结构,并能预测更可靠的行人运动轨迹.然而,当场景中突然出现许多行人时,行人之间的特征差异随着行人数量的增加而减小,导致注意力均匀分布.所以,结合场景、行人社会属性等信息,及时判断行人的运动意图,为将来的研究指明了方向.

猜你喜欢
时域全局行人
毒舌出没,行人避让
基于复杂网络理论的作战计划时域协同方法研究
网络分析仪时域测量技术综述
路不为寻找者而设
落子山东,意在全局
记忆型非经典扩散方程在中的全局吸引子
山区钢桁梁斜拉桥施工期抖振时域分析
我是行人
一种用于高速公路探地雷达的新型时域超宽带TEM喇叭天线
曝光闯红灯行人值得借鉴