一种基于深度强化学习的无人车未知环境探索算法

文档序号:39832731发布日期:2024-11-01 19:07阅读:12来源:国知局
一种基于深度强化学习的无人车未知环境探索算法

本发明属于人工智能无人探索,特别是涉及一种基于深度强化学习的无人车未知环境探索算法。


背景技术:

1、在未知环境中无人车进行自主探索是一项复杂而具有挑战性的任务。这种任务通常涉及到机器或机器人在未知或部分未知的环境中,通过自主地探索和收集信息,以达到某种特定的目标,比如地图构建、目标搜索等。在这样的环境中,传统的方法,如slam(simultaneous localization and mapping,同时定位与地图构建)和gps(globalpositioning system,全球定位系统)等,虽然在一定程度上能够提供定位和导航的功能,但其在处理未知环境时存在一些局限性。

2、首先,传统方法如slam和gps通常需要预先建立或者依赖于已有的地图或传感器信息。在完全未知的环境中,这些方法可能无法提供准确的定位和导航信息,因为缺乏先验知识和准确的地图数据。其次,传统方法可能对环境的动态变化较为敏感。在未知环境中,地形、障碍物等元素可能会发生变化,传统方法往往难以及时适应这种变化,导致定位和导航的准确性下降。

3、相比之下,强化学习方法通过不断的试错和学习,能够在未知环境中实现自主探索。强化学习算法可以基于奖励机制,通过与环境的交互来不断优化决策策略,从而在探索过程中逐步提高性能。具体来说,强化学习方法可以通过建立状态、动作和奖励的映射关系,利用价值函数或策略网络来指导机器或机器人在未知环境中做出决策,以达到探索和学习的目的。这种基于经验的学习方法使得无人系统能够适应不断变化的环境条件,并具备更强的鲁棒性和适应性。


技术实现思路

1、本发明目的在于解决背景技术中提出的问题,提供一种基于深度强化学习的未知环境探索算法架构,可以在未知环境进行自主探索,利用所提出的模糊归一化来处理雷达数据并且使用时空序列预测模型对图像进行特征提取,这样做可以更好地提取图像特征并且提高算法在不同环境的迁移能力。

2、为了实现本发明目的,本发明公开了一种基于深度强化学习的无人车未知环境探索算法,包括如下步骤:

3、s1、通过雷达、可见光相机传感器进行未知环境感知;

4、s2、对雷达采集到的数据进行模糊归一化处理;

5、s3、用时空序列预测模型对图像序列进行特征提取;

6、s4、基于深度强化学习方法在虚拟环境中训练探索算法;

7、s5、在不同仿真环境上进行迁移测试。

8、进一步地,步骤s1中,使用多个不同类型传感器进行环境感知,不同类型的传感器提供了不同的信息;通过融合不同传感器的信息,减少单个传感器可能存在的误差,提供更加准确和可靠的环境感知结果。

9、进一步地,雷达用于探测物体的距离和速度信息,可见光相机用于探测物体的形状、颜色和纹理信息。

10、进一步地,步骤s2中,具体包括以下步骤:

11、s21、对雷达数据进行分区域处理,将无人车正前方视角等分为n个间隔,在每个立体间隔中将雷达测距最小值作为雷达对此间隔的雷达感知,将三维空间感知压缩成二维平面感知,处理后雷达为[d1,d2,d3,…,dn];

12、s22、对雷达数据进行模糊化处理,将雷达数据[d1,d2,d3,…,dn]以0.5为间隔向下取整;

13、s23、对雷达数据进行归一化处理,dmax=max[d1,d2,d3,…,dn],此步骤处理后雷达数据归一化为[d1/dmax,d2/dmax,d3/dmax,…,dn/dmax],此时雷达数据被归一化至[0-1]区间。

14、进一步地,步骤s3中,使用predrnn时空序列模型作为特征提取器;predrnn模型使用堆叠起来的st-lstm进行建模,以便对历史信息进行学习和记忆;在本步骤中,将照相机采集到的图像信息逐帧输入到st-lstm单元中,st-lstm单元包含时间记忆和空间记忆在模型中时间记忆在时间层横向传播,空间记忆在空间层纵向传播,并且每个时间步的顶层空间记忆会传播到下个时间步的底层空间记忆最终将顶层st-lstm单元的隐藏输出作为提取出来的图像特征通过全连接输入到强化学习模型中。

15、进一步地,步骤s4中,使用td3算法进行训练,强化学习算法输入为步骤s2和步骤s3中处理过后的环境特征以及无人车特征,其中包含无人车与目标点的位置信息以及无人车的速度信息,通过全连接层最终映射到无人车的线速度和角速度作为强化学习算法的输出。

16、进一步地,步骤s5中,将训练好后的强化学习方法在不同地图上进行迁移测试,从而在不同环境中加载训练好的强化学习导航模型及权重,测试其可迁移性。

17、与现有技术相比,本发明的显著进步在于:1)对雷达数据进行模糊归一化处理,将对于周围未知立体环境的感知进行压缩,加快强化学习模型训练并且有效提升其在不同环境的迁移能力,增加了算法的泛化性;2)使用时空序列模型对时序图像进行特征提取,时序图像包含更丰富的时间信息和空间信息,在两个不同维度捕捉到未知动态环境的关联性,提取出来的特征能更加准确地表示环境来加速算法的训练过程;3)构建不同的虚拟环境进行算法迁移测试,在相差较大的环境中取得较好的迁移效果,强化学习算法在陌生地图上不用进行重新训练。

18、为更清楚说明本发明的功能特性以及结构参数,下面结合附图及具体实施方式进一步说明。



技术特征:

1.一种基于深度强化学习的无人车未知环境探索算法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于深度强化学习的无人车未知环境探索算法,其特征在于,步骤s1中,使用多个不同类型传感器进行环境感知,不同类型的传感器提供了不同的信息;通过融合不同传感器的信息,减少单个传感器可能存在的误差,提供更加准确和可靠的环境感知结果。

3.根据权利要求2所述的一种基于深度强化学习的无人车未知环境探索算法,其特征在于,所述雷达用于探测物体的距离和速度信息,所述可见光相机用于探测物体的形状、颜色和纹理信息。

4.根据权利要求1所述的一种基于深度强化学习的无人车未知环境探索算法,其特征在于,步骤s2中,具体包括以下步骤:

5.根据权利要求1所述的一种基于深度强化学习的无人车未知环境探索算法,其特征在于,步骤s3中,使用predrnn时空序列模型作为特征提取器;predrnn模型使用堆叠起来的st-lstm进行建模,以便对历史信息进行学习和记忆;在本步骤中,将照相机采集到的图像信息逐帧输入到st-lstm单元中,st-lstm单元包含时间记忆和空间记忆在模型中时间记忆在时间层横向传播,空间记忆在空间层纵向传播,并且每个时间步的顶层空间记忆会传播到下个时间步的底层空间记忆最终将顶层st-lstm单元的隐藏输出作为提取出来的图像特征通过全连接输入到强化学习模型中。

6.根据权利要求1所述的一种基于深度强化学习的无人车未知环境探索算法,其特征在于,步骤s4中,使用td3算法进行训练,强化学习算法输入为步骤s2和步骤s3中处理过后的环境特征以及无人车特征,其中包含无人车与目标点的位置信息以及无人车的速度信息,通过全连接层最终映射到无人车的线速度和角速度作为强化学习算法的输出。

7.根据权利要求1所述的一种基于深度强化学习的无人车未知环境探索算法,其特征在于,步骤s5中,将训练好后的强化学习方法在不同地图上进行迁移测试,从而在不同环境中加载训练好的强化学习导航模型及权重,测试其可迁移性。


技术总结
本发明公开了一种基于深度强化学习的无人车未知环境探索算法,利用雷达、可见光相机等传感器对周围环境进行感知,对雷达传感器数据进行模糊归一化处理,模糊归一化对雷达环境感知进行区域化降维,保证通过时空序列预测模型对图片序列进行预训练并且最终对实时输入的图像序列进行降维处理,通过强化学习模型对预处理后输入进行训练,最后在不同虚拟环境中进行迁移测试。本发明结合时空序列预测模型以及深度强化学习方法实现无人车在未知环境中的自主探索,通过对图像序列进行处理并且提取特征,同时对雷达数据进行模糊归一化处理,这样做可以针对不同环境达到更好的快速部署效果。

技术研发人员:吴祥,杜过,许书豪,王园浩,张星晨,薄煜明,马立丰
受保护的技术使用者:南京理工大学
技术研发日:
技术公布日:2024/10/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1