本发明属于人工智能领域,具体地说,涉及一种基于时空特征的行人路径预测方法。
背景技术:
1、当前机器学习按照学习模式的不同,基本实现方法不同,大体上能够分为三大类,即:有监督学习supervised learning(基于拥有样本标签的数据),无监督学习unsupervised le arning(训练数据中不存在事先人工标记的标签)和强化学习(一种基于马尔可夫决策模型的代理-环境互动探索模型)。其中,强化学习(reinforcementlearning)作为机器学习的一种实现,已经在越来越多决策问题领域发挥至关重要的作用,并且在一些策略游戏中也已经展现了出色的成绩,如deepmind公司推出的alphago、aphazero等围棋机器人系列;同时在智慧城市交通信号控制等研究中也表现出了巨大潜力,基于传统的强化学习和深度神经网络的发展,深度强化学习(deep reinforcementlearning)也随之诞生,基于目前机器学习前沿的深度学习算法所具备的优异的特征感知能力,将其与传统强化学习优秀的多步连续问题中的决策能力相合并,开拓了新的天地;接下来,为了解决在奖励函数很难完整定义等场景问题,研究人员又提出了逆向强化学习(inverse reinforcement learning),通过agent代理与环境交互过程的数据中,尽可能学习到一个近似最优的专家奖励函数,从而指导策略更新,学到一个近似专家的策略,最终给出预测结果;而在2016年,gail(generative adversarial imitation learning)的作者证明了该算法在实施上与inverse rl的等效性,同时在具体实现过程中通过减少内层冗余的强化学习过程,极大地节省了计算资源,是一个优秀的模拟学习的算法。
2、现有技术中也提出了部分行人路径预测方法,例如:
3、现有技术一,如公开号cn113888638a,公开了一种基于注意力机制的图神经网络行人路径预测方法,在交互技术中同时关注空间相关性和时间相关性,并通过注意力机制将有效信息最大化,其提出的技术方案包括:采集行人轨迹信息,提取轨迹运动特征,构建行人轨迹原始节点图,其中所述行人轨迹原始节点图包含行人轨迹的空间信息和时间信息;对所述行人轨迹原始节点图进行融合、舍弃和放大,过滤出对形成行人轨迹影响重大的信息,生成行人轨迹最终节点图,其中所述融合、舍弃和放大由图通道注意力机制完成;利用时空图卷积神经网络提取行人轨迹最终节点图的时空特征,根据所述时空特征构建行人轨迹的原始时空特征图,并利用图通道注意力机制筛选出重要的时空特征组成新的时空特征图;将所述新的时空特征图输入预测器,预测器输出预测的预设时间内的行人轨迹,其中所述预测器采用时间外推神经网络,预测的行人轨迹包含多种不同结果;给所述预测的行人轨迹分配权重,以权重最大的轨迹作为最终的预测结果,其中所述分配权重由时间通道注意力机制完成。
4、现有技术二,如公开号为cn113658228b,公开了一种基于卷积神经网络的行人路径预测系统和方法,其提出的技术方案包括:重新构建了基于卷积神经网络的行人路径预测的解决方案,优化了行人路径预测系统的整体系统架构,提高了数据处理的速率和现实场景下的预测能力,综合考虑了现实世界场景下的各种上下文背景和环境因素。
5、对于模型性能评估的指标主要有两个:平均位移误差(ade)和最终位移误差(fde)。具体来说,ade评价的是模型沿轨迹的平均预测性能,而fde只考虑最后的预测精度。两个指标的数值越小,网络的表现性能越优。两个指标的定义如下:
6、ade:用来衡量模型预测轨迹点的坐标和真实值坐标的差距(越小预测精度越高)。
7、
8、其中,t表示时间帧,pt表示时间帧为t时行人的坐标位置。
9、在上式中,n表示第n个agent或者同一个agent的第n轮预测,假设场景存在5个agent,此时n为5,n从0到4,t表示总预测时间帧数,因此上式表示每个agent每一步采取行动之后,当前预测坐标与真实坐标的二范数值即距离。
10、fde:用来衡量模型预测到最终点的坐标和真实最终点的差距(越小离真实目标越近)。
11、
12、其中,符号定义同ade过程。此时只取每个agent的最终坐标值进行衡量;因此只在t=t的时候衡量其距离的平均值。
13、但是,行人运动轨迹和模式受规则常识、相互作用、步态特征等影响,研究中仍存在一些问题导致以上两个指标难以提升。问题比较集中在:
14、1)交互缺乏可解释性。网络模型在进行训练时,使用的数据都是能客观测量的数据,对行人运动意图把握不准,缺少依赖于人的主观判断来训练算法的数据。例如,在自动驾驶场景中,自动驾驶辅助系统关心的是此时的行人是否会过马路。有的模型利用头部姿势,结合行人行为预测进行了一些尝试,但获取数据的方式单一,行人的主观意图研究的少。所以,目前的模型对计算到的交互缺乏可解释性,仍然依赖于数据驱动。
15、2)动态图缺少时序特征。基于图结构的网络架构,在时序构建动态图的过程中,对不同时刻的目标的相关信息缺少跟踪与更新。换言之,模型在各个时间点能清楚地获得目标(例如障碍物)的位置,但目前算法没有对目标在时序上进行关联,网络无法理解两个时刻目标的对应关系,降低了交互的性能,导致图网络结构不稳定。
16、3)预测算法环境适应能力不强。现有的社交感知方法假设所有被观察到的行人行为相似,并且他们的运动可以用相同的模型和特征来预测,对高层社会属性的捕捉和推理不强。大多数模型都是针对特定的场景、任务或运动而设计。这些方法在空间结构具体、运动模式固定时表现良好,例如,当环境中运动模式显著、空间结构和行人目标已知时,而在未定义的、不断变化的情况下性能较差。
技术实现思路
1、要解决的技术问题
2、针对上述现有技术存在的问题,本发明提供一种基于时空特征的行人路径预测方法。
3、本发明使用gail模型在已有的行人历史真实轨迹数据集基础上,学习行人在社交场合中如何运动,从而预测行人轨迹。根据调查和检索,目前还结合生成对抗模仿学习gail并且考虑社交特性进行预测的工作,本发明填补了行人路径预测技术方面的空缺。
4、首先,本方法构建了实验分别采用传统的置信域策略优化算法和近端策略优化算法,通过对gail(ppo-penalty)以及gail(trpo)的模型结果进行的对比分析,可以看出基于ppo-penalty的gail模型结果的优势十分明显,因此也奠定了后续继续研究对gail(ppo-penalty)结构的拓展和改进。传统的gail(trpo)算法已经在性能上劣于sgan模型,但是通过对比,本方法使用的gail(ppo-penalty)在ade和fde指标上均优于sgan。此处仅基线方法就已经能够取得很好的效果;在此基础上,为了解决时序特征问题,对当前的基础模型进一步优化改进。
5、其次,基于gail(ppo-penalty)算法的结果,此处,本方法引入了constantpadding的方法,测试发现constantpadding的方法在数据集有限的情况下,对于提高数据质量和利用率具有较为明显的作用,只引入了constantpadding的拓展方法,还没有添加mogrifierlstm时序特性的情况下,模型能够表现最佳结果。基于结果对比,可以看到,gail(constantpadding)方法可以将模型对于训练数据的利用率提高,并且较好的提高两个指标ade和fde的准确度。最后,基于constantpadding-gail的结果,考虑使用mogrifier lstm抽取行人历史信息中存在的时序特征,并将其融合到当前状态的实验构建。
6、技术方案
7、为解决上述问题,本发明采用如下的技术方案。
8、本技术请求保护一种基于时空特征的行人路径预测方法,其特征在于,包括以下步骤:
9、步骤s1:构建基于gan网络的gail模型,包括:
10、步骤s11:构建gail模型,如下式(i):
11、
12、在上式(i)中,e表示策略的期望,或策略为专家的期望,π是训练得到的策略模型,eπ即为对策略π求取期望运算;eπe表示对专家数据蕴含的专家策略求取期望运算;log表示求以10为底的对数;d为判别器,s表示当前时刻的状态,h表示λ参数控制的策略调整器,同时根据所学习的策略,输出对应的动作值记作aπ,aπe表示采用专家策略生成的动作值;action所对应的动作空间是a<vx,vy>;
13、步骤s12:gail模型对照到gan网络,可以得到公式(ii):
14、
15、其中,s和a分别表示状态空间和动作空间,s和a分别表示s和a的取值范围;其余参数同公式(i);其训练过程是一个最小化min和最大化max的过程,同时进行生成器和策略网络的博弈,使得策略网络在生成器的打分中不断优化模型参数,得到最小值,同时,判别器也在不断训练判别能力,企图最大化以上的目标函数值;
16、步骤s2:在所述gail模型中融合mogrifier lstm提取的历史信息,基于前n个可变步长的预测过程,给出下一时刻的结果预测,其中,n为自然数;
17、步骤s3:构建与mogrifier lstm模型适配的缓冲区;
18、步骤s4:构建基于mogrifier lstm的mogrifiergail模型;
19、步骤s5:将判别器模型和生成器进行优化,直至达到一种稳态即纳什均衡点;
20、步骤s6:输入行人轨迹数据至s5得到的训练好的模型;将所观测到的轨迹作为输入,所观测的长度可以是1个五元组【x1,y1,x,y,t=1】至8个五元组组成的序列;
21、步骤s7:利用训练好的模型进行输出,得到该行人的预测轨迹数据。
22、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
23、步骤s13:对于策略π进行优化,将问题归类为最小化js散度的问题,具体包括:
24、步骤s131:首先将度量两种策略的占用度量公式(occupancy measure公式)转化为特殊的风险期望值;
25、步骤s132:为了最小化策略度量,可以对风险期望值进行最小化探索,将对于正则化项的推导进一步转化成为对于风险期望函数的推导;
26、步骤s133:最终得到对于策略更新过程中的自然梯度更新。
27、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
28、步骤s2中在gail模型中融合mogrifier lstm提取的历史信息的操作如下:
29、步骤s21:对行人的下一步位置或者行人所采取的行动进行预测,提出加入mogrifier l stm进行前几步长的时序特征隐藏层输出值融入模型中;
30、步骤s22:将前几步长的时序特征与当前的观测状态同时进行考量,做出基于前几个时间步而言在合理接受的阈值范围内的行为动作;
31、步骤s23:得到较为可靠的预测精确度。
32、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
33、其中,前n个时刻的历史轨迹将会被作为模型的记忆信息输入mogrifier lstm网络中,基于上述历史轨迹的绝对坐标信息,提取出对应的out输出状态;
34、将上述输出状态在后续应用到mlp多层感知机中进行特征融合,使用mogrifierlstm提取时序特征。
35、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
36、步骤s3中构建与长短期记忆模型(mogrifier lstm)适配的缓冲区的具体操作如下:
37、步骤s31:假设我们目前设定的观测值为n,在前期,从开始到当前观测时刻t的长度不到n个可变步长时,均采用constantpadding的方法填充0;
38、步骤s32:在n个可变步长后,不断更新当前状态,其中最右边的五元组:(xt,yt,x,y,t)为当前状态,包括当前时刻的二维坐标(xt,yt)目标坐标(x,y)以及当前时间信息(t),会随着时间的变化,更新这个五元组;其中前n-1个序列为观测值;
39、步骤s33:经过上述数据结构的变化,模型最终在每次输入的时候,均携带前期的总共n个可变步长的观测值信息。
40、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
41、步骤s3中,在gail模型中通过构建专家数据缓冲区,为模型不断地提供行人历史真实轨迹数据分布的学习与计算;
42、在缓冲区中,将当前时刻的状态作为最后一个时刻,引入变量obs_len观测步长;
43、在上述过程中,采用了constantpadding方法,给不足特定步长的部分,填补为0。
44、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
45、步骤s4中构建基于mogrifier lstm的mogrifiergail模型的具体操作包括:
46、步骤s41:将采样的轨迹或者行人历史真实轨迹,输入到input中,其中轨迹为n个步长的特征五元组所组成的连续轨迹;
47、步骤s42:输入的数据会被分割成两部分,一部分采用最低维分割出来当前agent的位置信息,存储在(d1,d2,x)的数据中,x将会存储自定义的hidden_size大小信息,以便根据当前状态做出下一步的决策;另外一部分为原始数据的备份,和另外的时序数据将会被分在另一个分支中;
48、步骤s43:首先进行维度的变化,将rollout_len和processor_num合并成为批数据,同时对mogrifier lstm采用batch_first=true的设定,批量对数据进行处理。
49、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
50、步骤s4中在mogrifier lstm处理之后,还包括:
51、步骤s44:mogrifier lstm处理之后,数据将会被取出其out[:,-1:]的数据,之后被进行维度拉伸,回到原始的(d1,d2,x)的维度大小,x将会存储自定义的hidden_size大小信息,即代表时序特征的信息;
52、步骤s45:将原始的当前位置特征与时序信息进行融合,合并之后采用嵌入的方法提取融合特征;
53、步骤s46:输入标准的mlp层用来得到对应out_size的输出,对应不同的out_size大小,信息会分为两种处理取到,action信息将会被用来计算对应的loss值,并且更新generator生成器的参数,奖励信息会被用优化器来更新判别器的参数。
54、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
55、步骤s4,还包括:
56、步骤s47:行人历史真实轨迹和采样轨迹均经过共用的actor_critic的mlp类结构,具体在实际的训练过程中,利用所用的普通多层感知机;
57、步骤s48:采用了多处理器并行运行的方式,对应不同的处理器,会初始化对应设定数量的环境个数,随即进行特征分析与融合;
58、步骤s49:进行采样与轨迹更新,从产生动作中进行判别器打分作为奖励,继续优化训练的策略。
59、进一步的,本技术请求保护一种基于时空特征的行人路径预测方法,还包括:
60、所述步骤s5具体包括:
61、步骤s51:判别器d是一个二分类模型,将在真实轨迹a与生成器所生成的轨迹b所组成的带标签的数据池中随机采样,并且将采样的轨迹作为判别器的输入,判别器将给出即判断输入属于真实轨迹或生成轨迹的分类结果,根据判别器的分类结果,可以与标签真值进行对比并且计算误差;优化器目标为将误差值进行最小化;
62、步骤s52:对于生成器,其从一个初始化的分布中进行采样,经过生成器的网络的处理并输出,输出将会作为生成的轨迹与真实轨迹组合成为数据池;在每次输入轨迹进入判别器时,都会进行轨迹池的更新;
63、步骤s53:将生成器和判别器不断优化时,最终达到一种稳态即纳什均衡点,从而获得了能够达到最优的轨迹的生成器模型参数。
64、有益效果
65、相比于现有技术,本发明的有益效果为:
66、首先,本方法构建了实验分别采用传统的置信域策略优化算法和近端策略优化算法,通过对gail(ppo-penalty)以及gail(trpo)的模型结果进行的对比分析,可以看出基于ppo-penalty的gail模型结果的优势十分明显,因此也奠定了后续继续研究对gail(ppo-penalty)结构的拓展和改进。传统的gail(trpo)算法已经在性能上劣于sgan模型,但是通过对比,本方法使用的gail(ppo-penalty)在ade和fde指标上均优于sgan。此处仅基线方法就已经能够取得很好的效果,在此基础上,为了解决时序特征问题,对当前的基础模型进一步优化改进。
67、其次,基于gail(ppo-penalty)算法的结果,此处,本方法引入了constantpadding的方法,测试发现constantpadding的方法在数据集有限的情况下,对于提高数据质量和利用率具有较为明显的作用,只引入了constantpadding的拓展方法,还没有添加mogrifierlstm时序特性的情况下,模型能够表现的最佳结果。基于结果对比,可以看到,gail(constantpadding)方法可以将模型对于训练数据的利用率提高,并且较好的提高两个指标ade和fde的准确度。
68、最后,基于constantpadding-gail的结果,考虑使用mogrifier lstm抽取行人历史信息中存在的时序特征,并将其融合到当前状态的实验构建。在基于mogrifier lstm的gail模型中,本方法前期实验结果非常不理想,随即进行了模型结构的具体分析,发现在前期的实验中,模型结构是直接将原始的agent当前坐标(5元组)进行了linear映射之后才与mogrifier lstm时序特征进行了融合,在这个基础上,又进行了一次embedding和mlp的操作,使得当前最重要的t时刻特征被不同的权重矩阵进行了拉伸,影响了后续模型对于特征图中特征的重要性判断出现了失误,因此无法进行准确的提取和预测。基于以上分析,本方法对模型特征融合过程进行了改进,后来采用将当前状态分割预留出来,首先对于整体再进行时序特征提取,之后进行特征拼接的操作顺序,保证了重要特征不被掩盖。其中还尝试了自注意力机制,但是发现在当前场景中效果一般,因此没有增加这一部分的结构以免使得模型过分冗余。通过实验结果可以看出,本方法最终提出的第二种模型结构具有最好的表现。