一种基于在线更新策略的定制化行人轨迹预测方法

文档序号：30388947发布日期：2022-06-11 13:03阅读：147来源：国知局

1.本发明属于自动驾驶系统中的轨迹预测技术领域，尤其涉及一种基于在线更新策略的高稳健性定制化行人轨迹预测方法。

背景技术：

2.在高度自动驾驶(车辆完成所有驾驶操作，在有条件的道路行驶时，驾驶者可以完全解放双手)或者完全自动驾驶(真正的无人参与驾驶操控)车辆中，行人轨迹预测算法可以把未来一段时间内行人的运动轨迹传递给车辆的决策机构进行处理分析，辅助车辆路径规划，以使得自动驾驶车辆具备类似人类的智能行为。因此，行人轨迹预测是确保自动驾驶系统做出正确决策的关键技术。
3.现有的行人轨迹预测技术，已经取得了一些突破性成果：如social force认为行人的运动行为受到“社会力”的影响，这些力并非是行人外部环境施加的物理作用，而是行人执行某些动作的内部动机；social-lstm引入循环神经网络以捕捉行人历史轨迹序列中的依赖关系；sophie中的生成对抗框架可以学习到输入行人轨迹序列的多模态性。这些行人轨迹预测算法均在公开的行人轨迹数据集上显示出优越的预测效果。
4.目前在实际交通场景的应用中，自动驾驶系统往往会直接调用已经稳定收敛的模型进行轨迹预测。而在训练阶段，场景中多个行人共用一个轨迹预测模型，参数共享，算法学习所有行人的运动模式并据此优化网络参数，直至模型收敛。这种基于参数共享的模型学习到的是场景中所有行人运动的通用模式，而忽略了行人运动模式的个体差异。这种情况下，一方面由于在某个特定场景中学习到的行人通用模式不一定适用于另一场景，导致算法的泛化性能很差，实用性不强。另一方面由于未能捕捉到行人个性化的运动模式，预测算法的误差较大，影响自动驾驶系统路径规划的决策有效性。
5.鉴于此，兼顾不同场景下所有行人的通用模式与特定场景中单个行人的个性化偏好，成为自动驾驶系统中的行人轨迹预测面临的关键技术难题之一。

技术实现要素：

6.为了解决上述已有技术存在的不足，本发明提出一种基于在线更新策略的定制化行人轨迹预测方法，本发明的具体技术方案如下：
7.一种基于在线更新策略的定制化行人轨迹预测方法，包括以下步骤：
8.s1：搭建基于生成对抗框架的参数共享模型；
9.s2：模型训练；在不同行人疏密程度的场景中训练基于生成对抗框架的参数共享模型，学习各场景中行人轨迹的通用特征；
10.s3：模型测试；基于循环生成对抗原理，调用模型训练阶段优化完成的基于生成对抗框架的参数共享模型，搭建基于循环生成对抗框架的行人轨迹预测模型用于测试；
11.s4：将步骤s3得到的模型应用于单个行人，随着模型测试过程的持续推进在线优化模型参数，并学习到基于单人的个性化行为偏好，联合推理出场景中所有行人的预测轨
迹。
12.进一步地，所述步骤s1中的基于生成对抗框架的参数共享模型包括轨迹生成模块即生成器、轨迹判别模块即判别器，所述轨迹生成模块用于捕捉行人历史轨迹序列的数据分布并推理出预测轨迹，所述轨迹判别模块则用于判断输入的轨迹是来自真实轨迹而不是轨迹生成模块输出的预测轨迹的概率；
13.所述轨迹生成模块是基于长短期记忆网络即lstm的编码-解码架构，其中，编码器用于捕获历史轨迹坐标中的隐藏信息，解码器用于推理行人的预测轨迹，具体地，先由一个多层感知器即mlp进行坐标的“轨迹嵌入”处理，将坐标位置向量转化为固定长度向量，对输出数据做维度变换以匹配lstm网络的数据输入格式，lstm网络作为核心网络用于捕获历史轨迹信息中的行人运动模式，接着继续对数据输入格式做变换之后输入到下一个mlp，该mlp用于学习轨迹序列中的分布式信息，最后加入全局高斯噪音，编码器的最终输出蕴含行人运动模式编码信息；解码器根据行人的上一帧轨迹信息和编码器的输出信息逐帧推理出下一时刻的轨迹信息，输出预测轨迹坐标序列；
14.所述轨迹判别模块包括一个编码器，将预测轨迹标签和轨迹生成模块输出的预测轨迹分别送入所述轨迹判别模块中判断，经由lstm和mlp解析，给出轨迹真伪性的评分结果；
15.所述基于生成对抗框架的参数共享模型的目标函数表示为：
[0016][0017]
其中，z为轨迹生成模块输入的历史轨迹，g(z)为轨迹生成模块输出的预测轨迹，d(g(z))代表输出的预测轨迹判别为真的概率；x代表预测轨迹对应的真实轨迹标签，d(x)代表真实轨迹标签判别为真的概率；g,d分别表示生成器和判别器，表示真实轨迹标签的判别损失，e
z～p(z)
表示预测轨迹的判别损失。
[0018]
进一步地，所述步骤s2的具体过程为：
[0019]
s2-1：优化轨迹判别模块，其目标函数为：
[0020][0021]
由于x代表预测轨迹对应的真实轨迹标签，判别结果d(x)越接近于1越好，即最大化z是轨迹生成模块输入的历史轨迹，判别结果d(g(z))越接近于0越好，即最大化e
z～p(z)
[log(1-d(g(z)))]，最终优化效果是使轨迹判别模块的目标函数最大化；
[0022]
s2-2：优化轨迹生成模块，其目标函数为：
[0023]
min
g v(g,d)＝e
z～p(z)
[log(1-d(g(z)))]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0024]
由于轨迹生成模块生成的轨迹越接近于真实轨迹越好，即使得d(g(z))越接近于1越好，最终优化效果是使轨迹生成模块的标函数最小化；
[0025]
s2-3：循环步骤s2-1和步骤s2-2，基于生成对抗框架的参数共享模型在训练阶段捕捉到行人轨迹的通用特征，根据每次训练过程中目标函数的结果，运用adam优化器迭代优化网络参数，得到优化参数后稳定收敛的基于生成对抗框架的参数共享模型。
[0026]
进一步地，所述步骤s3的具体过程为：
[0027]
s3-1：调用步骤s2得到的稳定收敛的基于生成对抗框架的参数共享模型，搭建基
于循环生成对抗框架的行人轨迹预测模型为单个行人建模；由于在测试过程中无法也不能获取真实的预测轨迹标签，将行人的历史轨迹数据xi对应基于循环生成对抗框架的行人轨迹预测模型中定义域x中的数据，将生成器预测轨迹数据对应于基于循环生成对抗框架的行人轨迹预测模型中定义域y中的数据；
[0028]
s3-2：循环生成对抗网络即cyclegan由两个gan网络组成，一个x-》y的单向gan和一个y-》x的单向gan，二者共享两个生成器m和f，独立使用各自的判别器；cyclegan要求定义域x或定义域y中的数据经过两个gan后能重建，从x-》y的单向gan来看，xi通过cyclegan中两个生成器m和f的转换以重建历史轨迹数据x
′i，计算重建历史轨迹与真实历史轨迹的循环一致性损失，学习从xi到的映射关系以及从到x
′i的映射关系；从y-》x的单向gan来看，通过cyclegan中两个生成器f和m的转换以重建预测轨迹数据计算重建预测轨迹与预测轨迹的循环一致性损失，学习从x
′i到的映射关系以及从到x
′i的映射关系；
[0029]
s3-3：计算cyclegan的对抗性损失及行人历史轨迹重建过程中的循环一致性损失的总损失，据此优化模型参数，基于循环生成对抗框架的行人轨迹预测模型的对抗性损失沿用式(2)表示，循环一致性损失采用式(4)所示的二范数损失函数，网络总体的损失函数如式(5)所示：
[0030]
l
cyc
(m,f)＝e
x～x
[‖f(m(x)-x)‖2]+e
y～y
[‖m(f(y)-y)‖2]
ꢀꢀ
(4)
[0031]
l(g,f,d
x
,dy)＝l
gan
(g,dy,x,y)+l
gan
(f,d
x
,y,x)+λl
cyc
ꢀꢀꢀꢀ
(5)
[0032]
其中，dy为从x-》y单向gan的判别器，d
x
为从y-》x的单向gan的判别器，m(f(y)为预测轨迹重建结果，f(m(x))为历史轨迹的重建结果，l
gan
(g,dy,x,y)为从x-》y的单向gan的目标函数，l
gan
(f,d
x
,y,x)为从y-》x的单向gan的目标函数，λ为循环一致性损失的权重参数，l
cyc
为重建过程中的循环一致性损失。
[0033]
进一步地，所述步骤s4的具体过程为：
[0034]
s4-1：在t时刻，先正向预测，利用历史轨迹帧生成对应的预测轨迹帧；接着将预测轨迹帧进行轨迹倒序处理，利用倒序后的预测轨迹帧重建出历史轨迹帧，根据cyclegan的基础理论，重建历史轨迹帧和历史轨迹帧的轨迹误差越接近，循环一致性损失就越小；
[0035]
s4-2：在t+1时刻，如果行人轨迹的数据未及时更新，通过历史轨迹帧自更新即利用t时刻预测出的部分预测轨迹帧补位t+1时刻的历史轨迹帧，使预测过程持续进行。
[0036]
本发明的有益效果在于：
[0037]
1.本发明通过在不同人群疏密场景中建模，以捕捉更丰富的行人运动模式，弥补了现有轨迹预测方法普适性差的缺陷；
[0038]
2.本发明通过单人建模学习基于单人的个性化行为偏好，随着预测过程的持续进行，每个模型的参数基于该行人的轨迹模式在线更新，可有效捕捉场景中不同行人行为模式的差异化特征，最终联合推理出场景中多目标行人的未来轨迹，在测试阶段首次引入参数在线更新策略，增强了轨迹预测模型的稳健性和可解释性。
附图说明
[0039]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附
图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：
[0040]
图1是本发明的基于生成对抗框架的参数共享模型结构图；
[0041]
图2是本发明的基于循环生成对抗框架的行人轨迹预测模型框架图；
[0042]
图3是本发明的循环一致更新过程示意图；
[0043]
图4为cyclegan原理图，左侧为x域数据重建过程，右侧为y域数据重建过程。
具体实施方式
[0044]
为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。
[0045]
在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。
[0046]
本发明的一种基于在线更新策略的高稳健性定制化行人轨迹预测方法，训练阶段，在人群疏密程度不同的场景中，通过模型共用、参数共享的方式学习不同场景中行人的通用行为模式，以提升算法的泛化性能；测试阶段，在特定场景中，调用训练阶段稳定收敛的模型为每个行人单独建模，采用无监督学习方式优化模型参数。本发明基于单个行人的观察帧生成预测帧，再通过预测帧重建观察帧，计算真实观察帧与重建观察帧的损失。
[0047]
具体地，一种基于在线更新策略的定制化行人轨迹预测方法，包括以下步骤：
[0048]
s1：搭建基于生成对抗框架的参数共享模型；
[0049]
如图1所示，基于生成对抗框架的参数共享模型包括轨迹生成模块即生成器、轨迹判别模块即判别器，轨迹生成模块用于捕捉行人历史轨迹序列的数据分布并推理出预测轨迹，轨迹判别模块则用于判断输入的轨迹是来自真实轨迹而不是轨迹生成模块输出的预测轨迹的概率；
[0050]
轨迹生成模块是基于长短期记忆网络即lstm的编码-解码架构，其中，编码器用于捕获历史轨迹坐标中的隐藏信息，解码器用于推理行人的预测轨迹，具体地，先由一个多层感知器即mlp进行坐标的“轨迹嵌入”处理，将坐标位置向量转化为固定长度向量，对输出数据做维度变换以匹配lstm网络的数据输入格式，lstm网络作为核心网络用于捕获历史轨迹信息中的行人运动模式，接着继续对数据输入格式做变换之后输入到下一个mlp，该mlp用于学习轨迹序列中的分布式信息，最后加入全局高斯噪音，编码器的最终输出蕴含行人运动模式编码信息；解码器根据行人的上一帧轨迹信息和编码器的输出信息逐帧推理出下一时刻的轨迹信息，输出预测轨迹坐标序列；
[0051]
轨迹判别模块包括一个编码器，将预测轨迹标签和轨迹生成模块输出的预测轨迹分别送入轨迹判别模块中判断，经由lstm和mlp解析，给出轨迹真伪性的评分结果；
[0052]
由于生成器和判别器是交替迭代训练的，因此，目标函数也是分阶段优化的，基于生成对抗框架的参数共享模型的目标函数表示为：
[0053][0054]
其中，z为轨迹生成模块输入的历史轨迹，g(z)为轨迹生成模块输出的预测轨迹，d
(g(z))代表输出的预测轨迹判别为真的概率；x代表预测轨迹对应的真实轨迹标签，d(x)代表真实轨迹标签判别为真的概率；g,d分别表示生成器和判别器，表示真实轨迹标签的判别损失，e
z～p(z)
表示预测轨迹的判别损失。
[0055]
s2：模型训练；在不同行人疏密程度的场景中训练基于生成对抗框架的参数共享模型，学习各场景中行人轨迹的通用特征；
[0056]
s2-1：优化轨迹判别模块，其目标函数为：
[0057][0058]
由于x预测轨迹对应的真实轨迹标签，判别结果d(x)越接近于1越好，即最大化z是轨迹生成模块输入的历史轨迹，判别结果d(g(z))越接近于0越好，即最大化e
z～p(z)
[log(1-d(g(z)))]，最终优化效果是使轨迹判别模块的目标函数最大化；
[0059]
s2-2：优化轨迹生成模块，其目标函数为：
[0060]
min
g v(g,d)＝e
z～p(z)
[log(1-d(g(z)))]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0061]
由于轨迹生成模块生成的轨迹越接近于真实轨迹越好，即使得d(g(z))越接近于1越好，最终优化效果是使轨迹生成模块的标函数最小化；
[0062]
s2-3：循环步骤s2-1和步骤s2-2，基于生成对抗框架的参数共享模型在训练阶段，通过上述“一大一小”的博弈训练，捕捉到行人轨迹的通用特征，根据每次训练过程中目标函数的结果，运用adam优化器迭代优化网络参数，得到优化参数后稳定收敛的基于生成对抗框架的参数共享模型。
[0063]
s3：模型测试；基于循环生成对抗原理，调用模型训练阶段优化完成的基于生成对抗框架的参数共享模型，搭建基于循环生成对抗框架的行人轨迹预测模型用于测试；如图2所示，具体过程为：
[0064]
s3-1：调用步骤s2得到的稳定收敛的基于生成对抗框架的参数共享模型，搭建基于循环生成对抗框架的行人轨迹预测模型为单个行人建模；由于在测试过程中无法也不能获取真实的预测轨迹标签，将行人的历史轨迹数据xi对应基于循环生成对抗框架的行人轨迹预测模型中定义域x中的数据，将生成器预测轨迹数据对应于基于循环生成对抗框架的行人轨迹预测模型中定义域y中的数据；
[0065]
s3-2：如图4所示，循环生成对抗网络即cyclegan由两个gan网络组成，一个x-》y的单向gan和一个y-》x的单向gan，二者共享两个生成器m和f，独立使用各自的判别器；cyclegan要求定义域x或定义域y中的数据经过两个gan后能重建，从x-》y的单向gan来看，xi通过cyclegan中两个生成器m和f的转换以重建历史轨迹数据x
′i，计算重建历史轨迹与真实历史轨迹的循环一致性损失，学习从xi到的映射关系以及从到x
′i的映射关系；从y-》x的单向gan来看，通过cyclegan中两个生成器f和m的转换以重建预测轨迹数据计算重建预测轨迹与预测轨迹的循环一致性损失，学习从x
′i到的映射关系以及从到x
′i的映射关系；
[0066]
s3-3：计算cyclegan的对抗性损失及行人历史轨迹重建过程中的循环一致性损失的总损失，据此优化模型参数，基于循环生成对抗框架的行人轨迹预测模型的对抗性损失
沿用式(2)表示，循环一致性损失采用式(4)所示的二范数损失函数，网络总体的损失函数如式(5)所示：
[0067]
l
cyc
(m,f)＝e
x～x
[‖f(m(x)-x)‖2]+e
y～y
[‖m(f(y)-y)‖2]
ꢀꢀ
(4)
[0068]
l(g,f,d
x
,dy)＝l
gan
(g,dy,x,y)+l
gan
(f,d
x
,y,x)+λl
cyc
ꢀꢀꢀꢀ
(5)
[0069]
其中，dy为从x-》y单向gan的判别器，d
x
为从y-》x的单向gan的判别器，m(f(y)为预测轨迹重建结果，f(m(x))m为历史轨迹的重建结果，l
gan
(g,dy,x,y)为从x-》y的单向gan的目标函数，l
gan
(f,d
x
,y,x)为从y-》x的单向gan的目标函数，λ为循环一致性损失的权重参数，l
cyc
为重建过程中的循环一致性损失。
[0070]
s4：将步骤s3得到的模型应用于单个行人，随着模型测试过程的持续推进在线优化模型参数，并学习到基于单人的个性化行为偏好，联合推理出场景中所有行人的预测轨迹；如图3所示，具体过程为：
[0071]
s4-1：在t时刻，先正向预测，利用历史轨迹帧生成对应的预测轨迹帧；接着将预测轨迹帧进行轨迹倒序处理，利用倒序后的预测轨迹帧重建出历史轨迹帧，根据cyclegan的基础理论，重建历史轨迹帧和历史轨迹帧的轨迹误差越接近，循环一致性损失就越小；
[0072]
s4-2：在t+1时刻，如果行人轨迹的数据未及时更新，通过历史轨迹帧自更新即利用t时刻预测出的部分预测轨迹帧补位t+1时刻的历史轨迹帧，使预测过程持续进行。
[0073]
本发明中，基于生成对抗框架的参数共享模型的优化针对不同人群疏密场景下行人的行为模式，可以有效提升算法的泛化性能；基于循环生成对抗框架的行人轨迹预测模型的优化过程是伴随着行人轨迹的预测过程持续进行，一方面网络的参数会基于个体的轨迹偏好在线更新，进一步提升预测精度，另一方面由于这种方法得到的轨迹预测模型，在实际场景中，由于传感器出现故障而导致实际的观察帧轨迹数据无法实时更新时，可以采用预测帧补位观察帧的方式使预测过程持续进行下去，提升了算法的稳健性。
[0074]
为了方便理解本发明的上述技术方案，以下通过具体实施例对本发明的上述技术方案进行详细说明。
[0075]
实施例1
[0076]
为了在横向上与同类型的轨迹预测模型有一个可控的比较，以验证本发明算法的有效性，选取了近年来行人轨迹预测领域不同发展阶段的sota(state-of-the-art)模型进行对比，以下模型所用评价指标和数据集完全一致。
[0077]
a)linear:：简单的线性轨迹预测模型。
[0078]
b)lstm：尚未考虑行人交互，仅基于行人历史轨迹信息的轨迹预测模型。
[0079]
c)social lstm：引入局部社交池化机制捕捉行人的动态交互信息，并在每个时间步汇集邻近行人的社交状态进行预测。
[0080]
d)social gan：引入生成对抗思想的行人轨迹预测模型，同时也是本文算法改进的基准框架。
[0081]
一、实验环境
[0082]
模型训练及测试在本机上进行，深度学习环境配置如下：
[0083][0084]
二、行人数据集与预测误差评价指标
[0085]
(1)行人数据集
[0086]
本实施例所用的行人轨迹预测数据集，采用行人轨迹预测领域两个公开的数据集eth&ucy行人数据集，数据来源于鸟瞰视角下的监控视频，每0.4s手工标注场景中的行人轨迹坐标，这些轨迹蕴含了丰富的行人交互信息和大量真实的行人轨迹。eth数据集包含两个场景：eth和hotel,ucy数据集包含3个场景univ、zara1和zara2。
[0087]
由于数据量限制，本实施例采用交叉验证的方法开展实验，即循环取其中的四个数据集作为训练集，余下的一个作为测试集。
[0088]
(2)预测误差评价指标
[0089]
为了评价行人预测轨迹算法的预测性能，本实施例从实时性和精度评价算法的性能。在精度方面，采用行人轨迹预测领域的通用指标ade和fde.在实验中，观察8个时间步(3.2s)的历史轨迹，预测8个时间步(3.2s)或12个时间步(4.8s)的未来轨迹。并选用如下的预测误差评价指标：
[0090]
平均位移误差(average displacement error，ade)：预测轨迹和真实轨迹中所有坐标点之间的平均欧氏距离在所有行人轨迹上所取平均值。
[0091][0092]
最终位移误差(final displacement error,fde)：预测轨迹和真实轨迹的最终坐标点在所有行人轨迹上所取平均值。
[0093][0094]
三、实验结果
[0095][0096]
表中的结果是所有对比模型和本发明模型在eth&ucy数据集上的ade,fde的测试结果。其中ade和fde的误差值越小，模型性能越好。设置观察帧为8帧，预测帧数分别为8/12帧，误差单位：米。
[0097]
从上表可以看出，本发明所采用的方法在eth&ucy数据集上的测试结果均优于同类轨迹预测算法。与经典的轨迹预测算法social-gan(s-gan)相比，其ade误差在8帧和12帧预测中分别降低12％和9％，，fde误差在8帧和12帧预测中均降低8％。
[0098]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程景春任可君宋凝芳张春熹宋佳洁潘雄
技术所有人：北京航空航天大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。