基于深度强化学习的联合计算迁移和无人机轨迹优化方法

文档序号:35662672发布日期:2023-10-06 17:44阅读:73来源:国知局
基于深度强化学习的联合计算迁移和无人机轨迹优化方法

本发明涉及无人机辅助车联网的边缘计算,特别涉及一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法。


背景技术:

1、随着无人驾驶技术的不断发展,车辆需要处理越来越多的计算任务,例如图像识别、路径规划、数据处理等等。然而,车辆的硬件资源是有限的,无法满足这些需求。为了解决这个问题,研究人员提出了一种新的思路,即将一部分计算任务卸载到其他计算节点上。

2、在应急场景中,无人机可以提供边缘计算服务,以支持车辆的通信和数据处理需求。无人机拥有更强大的计算能力和更大的存储空间,能够承担一部分车辆的计算任务。同时,无人机具有高度灵活性和机动性,能够随时随地为车辆提供支持。在这种模式下,车辆将计算任务分配给无人机,无人机处理完毕后再将结果返回给车辆,从而实现车辆和无人机之间的协同工作。然而现有研究大多考虑了无人机的能耗,系统时延的优化问题,较少考虑无人机服务车辆的公平性,尤其是缺少联合优化时延和无人机服务车辆的公平性的技术。


技术实现思路

1、本发明提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,针对无人机辅助车辆边缘计算的场景,考虑时延和无人机服务车辆用户的公平性,通过联合优化计算迁移决策和无人机轨迹,实现了在复杂度和性能之间取得了很好的平衡,无人机可以高效地协助车辆完成计算任务,提高车辆数据处理能力,为应急响应提供更高效、更安全和更稳定的服务。

2、本发明实施例提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,包括以下步骤:

3、步骤1:构建无人机辅助移动边缘计算模型,其中,所述无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算;

4、步骤2:建立包括m个车辆和u架无人机的计算迁移和轨迹优化模型;

5、步骤3:利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息;

6、步骤4:采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间o,动作空间a,奖励函数r的多智能体深度强化学习模型;

7、步骤5:利用多智能体双延迟深度确定性策略梯度算法(twin delayed deepdeterministic policy gradient,td3)对所述多智能体深度强化学习模型进行优化;

8、步骤6:根据优化后的所述多智能体深度强化学习模型,得到最优的计算迁移策略和无人机轨迹。

9、在本发明的一个实施例中,在步骤4中,采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间o,动作空间a,奖励函数r的多智能体深度强化学习模型,包括:

10、步骤4-1,无人机在时隙n能观测到的信息除自身的位置信息cu,n外,还有观测范围内k个车辆当前的位置信息、任务信息以及服务次数,记为:

11、

12、无人机的观测表示为:

13、ou,n={cu,n,ku,n}

14、系统的状态空间o为所有无人机观测结果的集合,包含所有无人机的位置,所有车辆的位置、任务以及服务次数信息,记为:

15、

16、步骤4-2,定义动作空间a包括无人机在当前时隙n服务的车辆mn以及任务卸载比例δm,u,n,自身的飞行角度βu,n和飞行速度vu,n,动作可记为:

17、au,n={mn,δm,u,n,βu,n,vu,n}

18、步骤4-3,定义奖励函数r,考虑时延和无人机服务车辆的公平性,无人机在时隙n执行动作后奖励函数表示为:

19、ru,n=ηξn+∑m∈mαm,u,n(tm,n,local-tm,n)

20、其中,η为权重系数,tm,n,local为车辆m在时隙n全部本地计算任务的本地时延,tm,n为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延;

21、累计折扣奖励为:

22、

23、其中,δ∈[0,1]是折扣因子;

24、步骤4-3,依据建立好的系统的状态空间o,动作空间a和奖励函数r,建立多智能体协作的深度强化学习模型。

25、本发明实施例提出的基于深度强化学习的联合计算迁移和无人机轨迹优化方法,具有以下有益效果:

26、(1)无人机利用深度强化学习优化策略获得最优的无人机服务车辆,服务车辆的任务卸载比率,无人机飞行角度,无人机飞行速度。

27、(2)无人机通过选择合适的无人机服务车辆,服务用户的任务卸载比率,无人机飞行角度,无人机飞行速度,最小化系统时延且提高无人机服务车辆的公平性。

28、(3)使用matd算法可以有效解决无人机辅助车辆边缘计算的无人机服务车辆选择,服务车辆的任务卸载比率,无人机飞行角度,无人机飞行速度的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。

29、(4)在无人机辅助车辆边缘计算的场景中,本发明提出的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法在最小化系统时延同时提高无人机服务车辆用户的公平性方面是优越的。

30、本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。



技术特征:

1.一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,在步骤4中,采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间o,动作空间a,奖励函数r的多智能体深度强化学习模型,包括:


技术总结
本发明公开了一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,属于无人机辅助车联网的边缘计算领域,考虑无人机辅助车辆移动边缘计算的场景,利用深度强化学习优化策略优化每一个时隙每个无人机选择服务的用户以及任务卸载比率,无人机飞行角度和飞行速度,进而减少系统时延,同时提高无人机服务车辆的公平性。本发明使用多智能体双延迟深度确定性策略梯度算法可以有效解决计算迁移和无人机轨迹的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。

技术研发人员:王书墨,宋铁成,胡静,夏玮玮,燕锋,沈连丰
受保护的技术使用者:东南大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1