基于深度强化学习的联合计算迁移和无人机轨迹优化方法

文档序号：35662672发布日期：2023-10-06 17:44阅读：116来源：国知局

本发明涉及无人机辅助车联网的边缘计算，特别涉及一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法。

背景技术：

1、随着无人驾驶技术的不断发展，车辆需要处理越来越多的计算任务，例如图像识别、路径规划、数据处理等等。然而，车辆的硬件资源是有限的，无法满足这些需求。为了解决这个问题，研究人员提出了一种新的思路，即将一部分计算任务卸载到其他计算节点上。

2、在应急场景中，无人机可以提供边缘计算服务，以支持车辆的通信和数据处理需求。无人机拥有更强大的计算能力和更大的存储空间，能够承担一部分车辆的计算任务。同时，无人机具有高度灵活性和机动性，能够随时随地为车辆提供支持。在这种模式下，车辆将计算任务分配给无人机，无人机处理完毕后再将结果返回给车辆，从而实现车辆和无人机之间的协同工作。然而现有研究大多考虑了无人机的能耗，系统时延的优化问题，较少考虑无人机服务车辆的公平性，尤其是缺少联合优化时延和无人机服务车辆的公平性的技术。

技术实现思路

1、本发明提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法，针对无人机辅助车辆边缘计算的场景，考虑时延和无人机服务车辆用户的公平性，通过联合优化计算迁移决策和无人机轨迹，实现了在复杂度和性能之间取得了很好的平衡，无人机可以高效地协助车辆完成计算任务，提高车辆数据处理能力，为应急响应提供更高效、更安全和更稳定的服务。

2、本发明实施例提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法，包括以下步骤：

3、步骤1：构建无人机辅助移动边缘计算模型，其中，所述无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算；

4、步骤2：建立包括m个车辆和u架无人机的计算迁移和轨迹优化模型；

5、步骤3：利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息；

6、步骤4：采用分布式的资源分配方法，同时考虑时延和无人机服务车辆的公平性构建包括状态空间o，动作空间a，奖励函数r的多智能体深度强化学习模型；

7、步骤5：利用多智能体双延迟深度确定性策略梯度算法(twin delayed deepdeterministic policy gradient，td3)对所述多智能体深度强化学习模型进行优化；

8、步骤6：根据优化后的所述多智能体深度强化学习模型，得到最优的计算迁移策略和无人机轨迹。

9、在本发明的一个实施例中，在步骤4中，采用分布式的资源分配方法，同时考虑时延和无人机服务车辆的公平性构建包括状态空间o，动作空间a，奖励函数r的多智能体深度强化学习模型，包括：

10、步骤4-1，无人机在时隙n能观测到的信息除自身的位置信息cu,n外，还有观测范围内k个车辆当前的位置信息、任务信息以及服务次数，记为：

11、

12、无人机的观测表示为：

13、ou,n＝{cu,n,ku,n}

14、系统的状态空间o为所有无人机观测结果的集合，包含所有无人机的位置，所有车辆的位置、任务以及服务次数信息，记为：

15、

16、步骤4-2，定义动作空间a包括无人机在当前时隙n服务的车辆mn以及任务卸载比例δm,u,n，自身的飞行角度βu,n和飞行速度vu,n，动作可记为：

17、au,n＝{mn,δm,u,n,βu,n,vu,n}

18、步骤4-3，定义奖励函数r，考虑时延和无人机服务车辆的公平性，无人机在时隙n执行动作后奖励函数表示为：

19、ru,n＝ηξn+∑m∈mαm,u,n(tm,n,local-tm,n)

20、其中，η为权重系数，tm,n,local为车辆m在时隙n全部本地计算任务的本地时延，tm,n为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延；

21、累计折扣奖励为：

22、

23、其中，δ∈[0,1]是折扣因子；

24、步骤4-3，依据建立好的系统的状态空间o，动作空间a和奖励函数r，建立多智能体协作的深度强化学习模型。

25、本发明实施例提出的基于深度强化学习的联合计算迁移和无人机轨迹优化方法，具有以下有益效果：

26、(1)无人机利用深度强化学习优化策略获得最优的无人机服务车辆，服务车辆的任务卸载比率，无人机飞行角度，无人机飞行速度。

27、(2)无人机通过选择合适的无人机服务车辆，服务用户的任务卸载比率，无人机飞行角度，无人机飞行速度，最小化系统时延且提高无人机服务车辆的公平性。

28、(3)使用matd算法可以有效解决无人机辅助车辆边缘计算的无人机服务车辆选择，服务车辆的任务卸载比率，无人机飞行角度，无人机飞行速度的联合优化问题，可以在一系列连续动作空间的优化中表现稳定。

29、(4)在无人机辅助车辆边缘计算的场景中，本发明提出的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法在最小化系统时延同时提高无人机服务车辆用户的公平性方面是优越的。

30、本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤4中，采用分布式的资源分配方法，同时考虑时延和无人机服务车辆的公平性构建包括状态空间o，动作空间a，奖励函数r的多智能体深度强化学习模型，包括：

技术总结
本发明公开了一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法，属于无人机辅助车联网的边缘计算领域，考虑无人机辅助车辆移动边缘计算的场景，利用深度强化学习优化策略优化每一个时隙每个无人机选择服务的用户以及任务卸载比率，无人机飞行角度和飞行速度，进而减少系统时延，同时提高无人机服务车辆的公平性。本发明使用多智能体双延迟深度确定性策略梯度算法可以有效解决计算迁移和无人机轨迹的联合优化问题，可以在一系列连续动作空间的优化中表现稳定。

技术研发人员：王书墨,宋铁成,胡静,夏玮玮,燕锋,沈连丰
受保护的技术使用者：东南大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王书墨宋铁成胡静夏玮玮燕锋沈连丰
技术所有人：东南大学
我是此专利的发明人

上一篇：量子控制系统及其运行方法、以及量子计算机与流程
上一篇：一种地面模拟试验设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。