技术特征:
1.一种用于为模型预测控制提供时空代价地图推断的计算机实现的方法,所述方法包括:接收基于动态的数据和基于环境的数据以确定与自我意识代理和交通环境相关联的观察和目标信息;用所述观察和目标信息训练神经网络,其中由所述神经网络基于所述观察和目标信息输出至少一个时空代价地图;基于所述至少一个时空代价地图确定所述自我意识代理的最佳路径;以及控制所述自我意识代理以基于所述自我意识代理的所述最佳路径自主地操作。2.根据权利要求1所述的计算机实现的方法,其中接收基于动态的数据和基于环境的数据包括从所述自我意识代理的部件接收图像数据、激光雷达数据和动态数据。3.根据权利要求2所述的计算机实现的方法,其中所述图像数据、激光雷达数据和动态数据被聚合以确定所述观察和目标信息。4.根据权利要求1所述的计算机实现的方法,其中输出鸟瞰图二维表示以表示所述交通环境,所述鸟瞰图二维表示包括在多个时间步长处所述自我意识代理和位于所述交通环境内的至少一个交通代理的定位,其中所述表示还可包括目标信息,所述目标信息包括所述自我意识代理的未来航向。5.根据权利要求4所述的计算机实现的方法,其中对于所述多个时间步长中的每个时间步长,确定与所述自我意识代理和正在所述交通环境中操作的至少一个交通代理的操作有关的代价函数。6.根据权利要求1所述的计算机实现的方法,其中确定所述自我意识代理的所述最佳路径包括执行目标条件逆向强化学习,以使用目标信息来确定要达到哪个状态,从而提供目标条件代价地图学习。7.根据权利要求6所述的计算机实现的方法,其中确定所述自我意识代理的所述最佳路径包括执行模型预测控制,以基于所述至少一个时空代价地图找到最佳控制和状态轨迹。8.根据权利要求7所述的计算机实现的方法,还包括分析所述自我意识代理的状态信息和所述至少一个交通代理的状态信息,以确定所述自我意识代理的预测状态轨迹是否与所述至少一个交通代理的预测状态轨迹潜在地重叠,其中当确定所述潜在重叠时,执行所述模型预测控制执行的k-1个步长。9.根据权利要求7所述的计算机实现的方法,其中控制所述自我意识代理包括分析所述最佳控制和状态轨迹并与所述自我意识代理的自主控制器通信,以基于所述最佳控制和状态轨迹自主控制所述自我意识代理的至少一个操作功能。10.一种用于为模型预测控制提供时空代价地图推断的系统,所述系统包括:存储器,所述存储器存储指令,所述指令在由处理器执行时使得所述处理器:接收基于动态的数据和基于环境的数据以确定与自我意识代理和交通环境相关联的观察和目标信息;用所述观察和目标信息训练神经网络,其中由所述神经网络基于所述观察和目标信息输出至少一个时空代价地图;基于所述至少一个时空代价地图确定所述自我意识代理的最佳路径;以及
控制所述自我意识代理以基于所述自我意识代理的所述最佳路径自主地操作。11.根据权利要求10所述的系统,其中接收基于动态的数据和基于环境的数据包括从所述自我意识代理的部件接收图像数据、激光雷达数据和动态数据。12.根据权利要求11所述的系统,其中所述图像数据、激光雷达数据和动态数据被聚合以确定所述观察和目标信息。13.根据权利要求10所述的系统,其中输出鸟瞰图二维表示以表示所述交通环境,所述鸟瞰图二维表示包括在多个时间步长处所述自我意识代理和位于所述交通环境内的至少一个交通代理的定位,其中所述表示还可包括目标信息,所述目标信息包括所述自我意识代理的未来航向。14.根据权利要求13所述的系统,其中对于所述多个时间步长中的每个时间步长,确定与所述自我意识代理和正在所述交通环境中操作的至少一个交通代理的操作有关的代价函数。15.根据权利要求10所述的系统,其中确定所述自我意识代理的所述最佳路径包括执行目标条件逆向强化学习,以使用目标信息来确定要达到哪个状态,从而提供目标条件代价地图学习。16.根据权利要求15所述的系统,其中确定所述自我意识代理的所述最佳路径包括执行模型预测控制,以基于所述至少一个时空代价地图找到最佳控制和状态轨迹。17.根据权利要求16所述的系统,还包括分析所述自我意识代理的状态信息和所述至少一个交通代理的状态信息,以确定所述自我意识代理的预测状态轨迹是否与所述至少一个交通代理的预测状态轨迹潜在地重叠,其中当确定所述潜在重叠时,执行所述模型预测控制执行的k-1个步长。18.根据权利要求16所述的系统,其中控制所述自我意识代理包括分析所述最佳控制和状态轨迹并与所述自我意识代理的自主控制器通信,以基于所述最佳控制和状态轨迹自主控制所述自我意识代理的至少一个操作功能。19.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储指令,所述指令在由包括处理器的计算机执行时执行一种方法,所述方法包括:接收基于动态的数据和基于环境的数据以确定与自我意识代理和交通环境相关联的观察和目标信息;用所述观察和目标信息训练神经网络,其中由所述神经网络基于所述观察和目标信息输出至少一个时空代价地图;基于所述至少一个时空代价地图确定所述自我意识代理的最佳路径;以及控制所述自我意识代理以基于所述自我意识代理的所述最佳路径自主地操作。20.根据权利要求19所述的非暂态计算机可读存储介质,其中控制所述自我意识代理包括分析最佳控制和状态轨迹并与所述自我意识代理的自主控制器通信,以基于所述最佳控制和状态轨迹自主控制所述自我意识代理的至少一个操作功能。
技术总结
一种用于为模型预测控制提供时空代价地图推断的系统和方法,该系统和方法包括接收基于动态的数据和基于环境的数据,以确定与自我意识代理和交通环境相关联的观察和目标信息。该系统和方法还包括用这些观察和目标信息训练神经网络,并基于至少一个时空代价地图确定该自我意识代理的最佳路径。该系统和方法还包括控制该自我意识代理以基于该自我意识代理的该最佳路径自主地操作。的该最佳路径自主地操作。的该最佳路径自主地操作。
技术研发人员:李根泽 D
受保护的技术使用者:本田技研工业株式会社
技术研发日:2022.08.17
技术公布日:2023/3/7