基于信息分形的行人轨迹预测方法

2024-03-15 09:22洋*③
电子与信息学报 2024年2期
关键词:分形不确定性行人

杨 田 王 钢 赖 健 汪 洋*③

①(哈尔滨工业大学电子与信息工程学院 哈尔滨 150001)

②(哈尔滨工业大学电子与信息工程学院 深圳 518055)

③(哈尔滨工业大学智能海洋工程研究院 深圳 518055)

1 引言

行人轨迹预测[1–5]应用领域十分广泛,比如自动驾驶、自主导航[6]等等。准确预测行人轨迹在智能交通、智慧城市等领域十分重要,可以为无人车、智能机器人等提供安全可通行区域,也为其航路规划、目标检测和避障提供重要的参考信息。

目前,轨迹预测的方法总体上可以分为传统方法和数据驱动的方法[1]。早期的轨迹预测研究[7]常常利用人工建立运动模型,较为依赖人工设计,往往泛化能力差,性能有限。由于行人的活动主观灵活,具有一定的内在随机性。行人的行为不仅仅受自己意图[8]的支配影响,还受到周围环境和周围其他行人的影响,这些因素都增加了轨迹的不确定性和复杂性,使得轨迹预测问题更加具有挑战性。而且,行人和障碍物的交互,行人和行人交互复杂又抽象,很难对人建立合理的动力学模型。随着深度学习的不断发展,基于数据驱动的方法[9–11]成为近年来复杂轨迹预测的重要方向。这类方法常常考虑行人与场景的交互[12,13]、行人与行人的交互[9]以及行人的意图信息。比如基于生成对抗网络(Generative Adversarial Network, GAN),研究方法把GAN网络引入到轨迹预测模型中。比如,社交GAN模型(Social GAN, S-GAN)[10],该模型通过行人与行人之间的距离建模社会交互信息,在模型中考虑场景中所有人对当前行人的影响。也有一些研究方法除了考虑行人之间的社会交互信息影响,还结合了场景信息[12,13],比如基于长短时记忆网络(Long Short-Term Memory, LSTM)的Sophie模型[9],该模型通过场景特征提取模块和注意力模块提取场景信息以及场景与行人间的交互信息,然后结合社会交互信息,提升了模型的性能。还有一些模型把行人的意图信息考虑进来,比如,BR-GAN模型[1]结合了社会交互信息、场景交互信息、历史轨迹信息,以及行人的意图信息。它通过行为识别模块把人的意图信息加进来。

在轨迹预测过程中,一些不确定性信息[14]给轨迹预测任务带来了挑战,比如判别器中对轨迹信息判别的不确定,复杂的交互信息[1]等。更好地处理轨迹信息的不确定性,对提升预测精度十分重要,特别是对于一些突然发生的行为的轨迹预测,比如突然转弯、停住、超越、避让等。在恶劣天气中,比如大雨、大雾等,这些行为常常更难识别。在不确定信息处理领域[15–18],如何处理不确定信息的不确定性,依然是一个开放问题。很多有效的数学工具被提出,比如证据理论[19]、随机排列集[20]等等。分形[21]在不确定信息处理领域是一个研究热点,它在非线性科学研究中,起着十分重要的作用,能有效处理不确定信息的不确定性和复杂性。信息分形在自然界广泛存在[21],它经常被用来描述自然界中传统欧几里得几何无法描述的一大类复杂而随机的几何物体。它最早是用来测量海岸线长度特征的。随着信息分形研究的发展,它在许多不同的研究领域应用都十分广泛,比如在时间序列分析中,世界各国COVID-19时间序列预测研究[22],利用信息分形维数的数学概念来处理世界各国时间序列中动态的复杂性。2004年,模糊逻辑和分形理论被用于植物监测[23]。

该文提出了基于信息分形的轨迹预测方法,结合行人的历史轨迹信息、场景交互信息、行人与行人之间的交互信息以及信息分形,有效处理了判别器中轨迹信息的不确定性,最终有效提升了预测精度。比如对于突然转弯、停住、避让、超越等行为[24]的轨迹都能有效预测。

2 基于信息分形的轨迹预测方法

2.1 问题定义

2.2 基于信息分形的方法

2.2.1 整体模型

在判别器中轨迹信息判别的不确定性,给轨迹预测任务增加了挑战性。在不确定信息处理领域,信息分形能有效处理不确定信息的不确定性和复杂性。因此该方法结合信息分形处理判别器中轨迹信息的不确定性,在判别器中加入信息分形维数,提出了一个新的损失函数。对于一些突然的行为,比如突然转弯、停住、超越前人等,该方法在大多情况下能有效处理轨迹信息的不确定性,使得预测轨迹接近真实轨迹,提升预测精度。模型图如图1所示,主要包括特征提取模块、注意力模块、基于LSTM的GAN网络。

图1 基于信息分形的轨迹预测方法模型图

2.2.2 特征提取模块

特征提取模块包含场景特征提取子模块和历史轨迹特征提取子模块。

(1) 场景特征提取

在卷积神经网络的选择上[1],VGG系列的网络深度有所不同,但他们并没有本质上的区别。在该研究中,VGGnet-16作为卷积神经网络Vgg-16(·)被用来提取场景中的地理特征,因为这样可能丢失的像素对齐会相对减少,并且浅表示可能更适合描述空间信息[1]。然后通过物理注意力模块获取行人与场景的交互信息。首先t时刻的场景图It作为场景特征提取模块的输入,然后输出场景特征信息VIt。

其中,权重WVgg-16通过对场景分割任务预训练进行初始化。图2展示了场景特征提取子模块输出的图例。图2(a)、图2(b)、图2(c)分别展示的是真实的ETH主楼eth场景、酒店入口hotel场景、购物街场景zara01,在图2(a1)、图2(b1)、图2(c1)中展示了相应的场景特征提取结果。

图2 场景特征子模块提取的场景特征的图例

(2) 历史轨迹信息特征提取

2.2.3 注意力模块

跟Sophie模型[9]一样,注意力模块分为物理注意力子模块和社会注意力子模块。

其中,WS表示社交注意力模块的参数。

2.2.4 GAN模块

GAN模块由生成器和辨别器组成,其中生成器的作用是学习路径分布,进而生成可行合理的轨迹。辨别器是用来辨别输入的轨迹是真实的轨迹还是生成器生成的假的轨迹。

(1) 生成器

h(i) 表示解码器在τ时刻的隐藏层状态信息,WDe表示该生成器模块的参数。

(2) 辨别器

辨别器 LSTMDis(·)也由LSTM构成,判别器的输入是从预测样本和真实样本中随机采样得到的完整轨迹Ti1:τ~p(Yˆi1:τ,Yi1:τ),用来辨别输入的轨迹是真实的轨迹real或者是生成器生成的轨迹fake。本质上辨别器属于二分类模型。它通过打分迫使生成器生成与真实轨迹相似的未来轨迹。

2.2.5 新的信息分形损失函数

其中,Df代表信息分形维数,m(A) 表 示对命题A的支持程度, |A|表 示A的基数。Ed(m)代表的是邓熵[25],Θ表示辨识框架[17,18]的幂集构成的命题集合。

质量函数(mass function)[17,18]又称为基本概率指派(Basic Probability Assignment, BPA),在证据理论中十分重要,可以看作概率论的扩展,能更好地表达和处理信息不确定性。请注意,当BPA退化为贝叶斯结构时,邓熵[25]退化为香农熵。此时的信息维数计算公式如下:

当p(A)=1 并且 |A|=1时,信息分形维数是0,代表信息是确定的。

由于信息分形能有效处理不确定信息的不确定性和复杂性,受此启发,该方法把信息分形引入到轨迹预测研究中,处理轨迹信息的不确定性,提升预测性能。提出了新的信息分形损失函数L,其定义如下:

其中,Lf-pre表示预测轨迹的信息分形维数,Lf-tar表示真实轨迹的信息分形维数,由于真实轨迹信息是确定的,所以此时Lf-tar=0。该方法建立命题为真、假{{real}, {fake}}的概率分布如下,

p(real)pre表 示轨迹信息为真(real) 的可能性,p(fake)pre表示轨迹信息为假(fake)的可能性。因此,由信息分形维数式(10)计算得Lf-pre如下,

最后通过式(16)可计算得出,

3 实验结果以及实验分析

3.1 数据集

在实验中,为了评估该方法的有效性,两个常用的公开数据集ETH和UCY被采用。其中ETH包含eth和hotel两个数据子集,UCY包含univ, zara01和zara02共3个子集。这些数据集包含了多种情况下的轨迹,比如单个行人的徘徊行为,行人结伴同行,突然转弯,停住,避让,超越前人,行人的群体聚集等等。场景主要包含一些户外生活场景,比如街道、校园、商场等。这里包含一些常见的道路障碍物,如积雪、路障球、建筑物、汽车、大树、路灯、长椅等公共设施。在子集hotel中,一些行人可能被大树和路灯遮挡。最终的实验结果表明通过信息分形充分处理轨迹信息的不确定性,即使在遮挡的hotel场景中,预测效果也不会受到很严重的影响。

3.2 具体实现

使用Adam优化器迭代训练生成器和判别器,使用64的小批量和0.001的学习率对于生成器和判别器。模型是训练了300个epochs。编码器输入维度是2,嵌入维度为16的单层MLP对轨迹进行编码,并馈送到隐藏层维度为64的LSTM;判别器的隐藏层维度为64。生成器的解码器使用单个嵌入维度为16的单层MLP编码代理人的位置,并使用隐藏层维度是64的LSTM。在物理注意力模块中,它的嵌入维度是16的单层MLP,然后使用多层MLP,隐藏层维度分别为512, 32, 1。通过softmax进行处理。社交注意力模块,嵌入维度16的单层MLP,然后通过多层MLP,隐藏层维度分别为512, 32, 1,通过softmax进行处理。注意力权重是通过传递编码器输出和当前解码器上下文检索,通过多个大小为64, 128, 64和1的MLP层,通过ReLU激活。最后一层通过softmax层。

3.3 定量分析

该方法进一步拓展了Sophie模型,并且设置了消融实验:消融模型代表没有信息分形的模型,完整模型代表完整的包含信息分形的模型。实验选取一些经典和新提出的模型作为基准。

(1) 2022年BR-GAN模型[1]不仅考虑了物理交互信息、社会交互信息,还通过行为识别模块考虑了行人的意图信息。2022年SRAI-LSTM[26]模型在利用社会关系注意的交互感知来对社会行为进行建模。

(2) 2023年VAEpsp[27]研究了不同编码机制的有效性,以理解场景对行人轨迹的影响。

(3) 2021年SCAN[28]模型使用新的空间注意机制对空间近邻的影响进行编码,依赖更少的假设。

(4) S-GAN模型[10]把对抗生成机制引入轨迹预测模型,利用池化方法去建模行人之间的交互关系。

(5) Sophie模型[9]首先通过特征提取模块提取场景特征和历史轨迹特征,然后结合注意力模块获取场景交互信息和社会交互信息,最后通过基于LSTM的GAN网络生成合理的轨迹。

为了评价模型的性能,实验采用了两个常用的指标,即平均位移误差(Average Displacement Error,ADE)和终点位移误差(Final Displacement Error,FDE),单位为米(m)。

(2) 终点位移误差(FDE):表示的是预测轨迹的终点和真实轨迹终点之间的平均L2距离误差。

从实验结果表1和表2看出,与最先进的一些方法相比,本方法在univ数据集上平均位移误差和终点位移误差都是最优的。在总的平均位移误差以及总的终点位移误差都是最优的。在eth场景,本方法的终点位移误差排名第2,且优于Sophie模型。在eth场景的平均位移误差表现略差于Sophie模型,可能是由于在eth场景,除了建筑物外,还有积雪和路障球等,静态障碍物较为丰富,给轨迹预测带来一些不确定性。在hotel场景,平均位移误差和终点位移误差排名第3,且均优于Sophie模型。在购物街zara02场景,本方法在平均位移误差和终点位移误差排名第2,优于Sophie模型。在购物街zara01场景,本方法表现要差于Sophie模型。首先,购物街zara01场景和zara02场景是位于相同地点,不同时刻收集的数据。前者比后者场景中的静态障碍物多了辆车,这可能给轨迹预测带来一些不确定性。

表1 轨迹预测的平均位移误差ADE(m)

表2 轨迹预测的终点位移误差FDE(m)

表3展示了消融实验的结果。表4为模型参数表,记录了同等条件下(NVIDIA TESLA P100 GPU+CUDA 11.3),Sophie模型和本方法模型的参数,包括预测耗时、训练耗时,单位是秒(s),还包含了模型的参数总数,单位是兆(MB)。可以看出本方法在实时性上也具有一定的提升。

表3 消融模型及完整模型轨迹预测的平均位移误差ADE(m)/终点位移误差FDE(m)

表4 模型参数表

3.4 定性分析

图3—图6显示了部分情况下轨迹可视化的结果。图中不同的颜色代表不同的行人,且用不同的数字标记。实心的圆点代表真实的轨迹,用“+”代表预测的轨迹点。另外,不是场景中所有的行人的交互作用都被考虑在内,比如行人在场景中出现的时间很短,或者在感知过程中错过了太多的轨迹点会被过滤掉。该方法实际上是基于人与人之间的部分互动对行人的轨迹进行预测。即便如此,在大多情况下,比如结伴、突然停住、大幅度转弯等行为的轨迹,该方法结合信息分形处理轨迹信息的不确定性,依然能够获得贴近实际的预测结果。

图3 eth场景以及相应的轨迹预测结果

图3(a)和图3(b)展示的2个是真实的eth场景,即eth场景1和eth场景2。图3(a1)和图3(b1)展示的是eth场景1和eth场景2相对应的轨迹预测的结果。从图3(a1)可以看出,该方法准确预测了黄色行人1和蓝色行人2结伴行为的轨迹。在预测结果图3(b1)中,红色行人1和青色行人2的结伴行为,黄色行人3有效避让了迎面相遇的红色行人1和青色行人2,以及蓝色行人4突然停住的轨迹都被准确预测。通过轨迹信息的不确定性处理,行人的结伴行为、避让行为、突然停住行为都被准确预测。

图4(a)和图4(b)分别展示了2个真实的hotel场景:即真实的hotel场景1和hotel场景2。这两个场景相对应的轨迹预测结果展示在图4(a1)和图4(b1)中。从图4(a1)可以看出,红色行人1突然从后方准备超越前方的黄色行人2和蓝色行人3。在这种情况下,无论是红色行人1准备超越前方行人的行为,还是黄色行人和蓝色行人结伴的行为,3个行人的轨迹都被准确预测。在预测结果图4(b1)中,行人1到行人6的轨迹都被准确预测。其中,黑色行人1和绿色行人2结伴同行,他们的轨迹被准确预测,且黑色行人的转向行为被准确预测。行人3到行人6突然停住的行为也被准确预测。该方法有效处理了轨迹信息的不确定性,使得超越行为、结伴行为、转向行为、突然停住行为的轨迹都被有效预测。

图4 hotel场景以及相应的轨迹预测结果

图5和图6展示了zara01场景和zara02场景下一些复杂情况的轨迹预测结果。图5(a)、图5(b)、图5(c)和图5(d)分别展示4了个真实的zara01场景,图5(a1)、图5(b1)、图5(c1)和图5(d1)分别展示了上面4个zara01场景相对应的轨迹预测结果。图6(a)、图6(b)、图6(c)和图6(d)分别展示了4个真实的zara02场景,图6(a1)、图6(b1)、图6(c1)和图6(d1)分别展示了相对应的zara02场景的轨迹预测结果。

图5 zara01场景以及相应的轨迹预测结果

从图5(a1)可以看出,6个行人的轨迹都被准确预测。绿色行人1和青色行人2在走出大楼后,突然转弯穿越马路,他们的轨迹不确定性被该方法有效处理,因此突然转弯的轨迹被准确预测。黄色行人3、黑色行人4、红色行人5结伴的轨迹也被准确预测。蓝色行人6停住的轨迹也被准确预测。在图5(b1)中,行人的轨迹也都被准确预测,特别是青色行人6的转向行为被准确预测,他对前方行人进行了有效避让。在图5(c1)中的8个行人的轨迹大多都被准确预测。特别是橘色行人7从后方超越蓝色行人6的轨迹不确定性得到有效处理,他的轨迹得到准确预测。绿色行人8在街口突然转弯的轨迹不确定性被有效处理,轨迹也被有效预测。在图5(d1)中10个行人的轨迹大多都被准确预测。比如黄色行人1、红色行人2和蓝色行人3结伴的轨迹都被准确预测。绿色行人4和紫色行人5结伴同行,他们从后方超越前方黄色行人1、红色行人2、蓝色行人3的轨迹不确定性被有效处理,避免了碰撞。

从预测结果图6(a1)可以看出,紫色行人2和绿色行人3突然转弯的轨迹不确定性被有效处理,他们的轨迹都被准确预测。行人5,6,7聚集停住的轨迹也被准确预测。在图6(b1)中,青色行人3和黑色行人5对蓝色行人1和黄色行人2进行了有效避让,轨迹均被有效预测。在图6(c1)中,青色行人1和黑色行人2准确避让了蓝色行人6和黄色行人7。其中,蓝色行人6和黄色行人7突然转弯的轨迹也被准确预测。在图6(d1)中,行人4、行人5和行人6聚集停住的轨迹被准确预测。行人2和行人3对前方聚集的行人进行了有效避让,轨迹预测均未穿过聚集的人群,符合社交规范。同时行人7、行人8、行人9以及行人10的轨迹预测结果也有效地避开了和聚集人群的碰撞,预测轨迹均未穿过聚集的人群,符合社交规范。

从实验可以看出在大多情况下,该方法有效处理了轨迹信息的不确定性,提升了预测精度,比如对于结伴、突然转弯、突然停住、避让等行为的轨迹都能有效预测。

4 结论和讨论

由于信息分形能更好地处理不确定信息的不确定性和复杂性,因此在该方法中基于信息分形,一方面提出了新的损失函数,另一方面有效地处理了判别器中轨迹信息的不确定性,提升了预测精度,在大多情况下能有效处理轨迹信息的不确定性,比如转弯、突然停住、避让等行为的轨迹都能被有效预测。这些行为往往较难预测,给轨迹预测任务增加了困难,尤其是在遇到恶劣天气的情况,这些行为往往较难识别。虽然模型能有效处理一些轨迹信息的不确定性,但是模型在处理不确定性过程中,有可能把一些情况复杂化,这可能会导致一些预测错误。在未来的工作中,将进一步改善轨迹信息不确定性的处理,提高模型预测精度。

猜你喜欢
分形不确定性行人
法律的两种不确定性
毒舌出没,行人避让
感受分形
英镑或继续面临不确定性风险
分形之美
路不为寻找者而设
分形——2018芳草地艺术节
分形空间上广义凸函数的新Simpson型不等式及应用
我是行人
具有不可测动态不确定性非线性系统的控制