一种基于深度强化学习的空地协同服务迁移方法

文档序号：34449478发布日期：2023-06-13 13:31阅读：27来源：国知局

本发明属于移动边缘计算，提出了一种空地协同通信系统场景的服务迁移方法，在该方法中，我们的目标是最小化长期系统延迟。

背景技术：

1、随着第五代移动通信技术(5th generation mobile communicationtechnology，5g)技术的发展，在线游戏、远程医疗等计算密集型应用变得更加繁荣和普及。根据国际数据公司(international data corporation，idc)报告，到2025年，网络核心、边缘和终端节点的全球总数据量将达到175zb，数十亿物联网设备产生超过90zb的数据。越来越多的新移动应用程序出现并吸引了公众的注意，例如增强现实(augmented reality，ar)、虚拟现实(virtual reality，vr)、智能工厂和智能医疗等。通常，这些移动应用程序通常需要大量的计算资源，并且能耗极高。然而，由于硬件设备的限制，终端设备无法有效地支持这些应用。

2、为了满足这些需要超低延迟的延迟敏感型移动应用，移动边缘计算(mobile edgecomputing，mec)便被提出作为集中式云计算的扩展。相较于传统的云计算模式，mec可以在离用户更近的地方提供更快的响应和更低的延迟，同时减少对网络带宽的占用和云服务器的负载。具体而言，mec可以将云计算资源和服务迁移到离终端用户更近的位置，用户工作负载由附近的边缘节点而不是远程云提供服务，从而有效减少通信延迟和能耗。此外，它也有利于数据安全和隐私保护。然而，由于用户移动性，服务迁移已经成为mec系统中的一个挑战。

3、考虑一个实际场景，当移动用户在mec节点的覆盖范围内时，很明显，如果我们希望最小化用户感知延迟，则应该由当前最接近该用户的边缘节点(即当前mec节点)为用户提供服务。考虑到用户移动性，假设过一段时间后，上述移动用户移动到其它mec节点的覆盖范围，那么该用户的服务配置文件仍然被放置在移动前的mec节点处。由于网络距离的延长，他的感知延迟将大大恶化。该示例表明，为了优化mec的用户体验，移动用户的服务配置文件应该动态地放置在边缘节点上，以跟随用户的移动性。因此服务迁移必不可少。

4、服务迁移决策取决于多维因素，如果每个用户的服务配置文件每次都被放置在最原始的mec节点，那么用户的感知延迟将会增加。相反，如果每个用户的服务配置文件每次都被放置在最接近用户的mec节点，那么一些mec节点可能会过载，并且增加配置文件迁移延迟。因此，长期服务迁移优化策略是一个决策问题。

5、基于rl的资源优化算法因状态空间庞大而导致分配算法收敛缓慢，难以寻求最优解。在d3qn(dueling double deep q-learning network)算法中，d3qn架构包括一个dueling网络，具有用于估计状态值和优势函数的两个独立的流，以及一个double q-learning更新规则，用于分离动作选择和评估。训练过程与dqn(deep q-network)类似，但增加了dueling结构和double q-learning的改进。

技术实现思路

1、本发明提出了一种基于深度强化学习的空地协同服务迁移方法，我们的目标是找到在长期内最小化系统累计延迟(包括累计计算延迟、累计通信延迟和累计迁移延迟)的最优策略。

2、本发明引入多无人机辅助多基站通信，提出了一种空地协同通信系统场景的服务迁移方法。在该方法中，我们的目标是最小化长期系统延迟，它由三个主要组成部分组成，即计算延迟、通信延迟和迁移延迟。主要采取两个步骤来优化服务迁移。首先，基于transformer的无效迁移规避算法，用来降低系统决策的复杂度。其次，为了应对未来信息的不可用性，我们将服务迁移表述为马尔可夫决策过程(markov decision process，mdp)，并设计了一种基于d3qn的服务迁移算法，目的是最小化终端用户任务的总延迟。步骤包括：

3、(1)、为了防止频繁迁移而导致的潜在成本增加，需要预测地面终端用户上随时间和地点变化的任务请求率。

4、(2)、为了达到最优的服务迁移，系统控制器对终端用户的服务配置文件等服务做出迁移决策，最小化系统总延迟。

5、本发明的主要贡献包括：

6、第一、针对问题(1)，设计了一种基于transformer的无效迁移规避算法，该算法用于地面终端用户上随时间和地点变化的任务请求率，预测的数据作为无效迁移集合生成的主要依据，以辅助未来服务迁移决策，最大限度地减少频繁的无效服务迁移。

7、第二、针对问题(2)，分析了服务迁移问题，提出了一种基于d3qn的服务迁移方法。sdn控制器对服务做出迁移决策，最小化系统总延迟。

8、仿真结果表明，该算法优于基准算法，可以实现较低的系统延迟。

技术特征：

1.一种基于深度强化学习的空地协同服务迁移方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的空地协同服务迁移方法，其特征在于，所述的步骤s1中，系统时间被划分为多个时隙，在第t个时间窗内，每个终端用户生成的计算任务包括任务的数据大小(bits)、完成该任务的计算资源大小；其中任务的数据大小包含程序代码、计算任务所需的额外文件、共享数据总大小；其中完成该任务的计算资源大小由cpu周期数来量化；系统中边缘节点n覆盖范围内用户k产生的计算任务m表示为mn，k(t)，表达式如下

3.根据权利要求1所述的一种基于深度强化学习的空地协同服务迁移方法，其特征在于，所述的步骤s2中，在sdn控制器处为每个地面终端用户维护一个transformer；每当边缘节点选择一个终端用户时，该终端用户都会报告其过去和未报告的状态，边缘节点将报告发送至sdn控制器，sdn控制器根据s1中过往的终端设备的历史信息预测数据请求率(即任务请求总量与关联时间之比)；具体操作如下：

4.根据权利要求1所述的一种基于深度强化学习的空地协同服务迁移方法，其特征在于，所述的步骤s3中，sdn通过步骤s2中生成的预测函数，可以定义用户k的无效迁移(invalid migration，im)集合为

5.根据权利要求1所述的一种基于深度强化学习的空地协同服务迁移方法，其特征在于，所述的步骤s4中，结合s3的输入参数为终端用户选择性能最优的服务迁移策略，根据所选择的服务迁移策略进行迁移，方法如下：

6.根据权利要求1所述的一种基于深度强化学习的空地协同服务迁移方法，其特征在于，所述的步骤s5中sdn控制器根据奖惩机制得出当前时隙边缘节点处理服务迁移后的奖惩得分，将s5中观测数据作为经验放入经验回放池中，具体步骤如下：

7.根据权利要求1所述的一种基于深度强化学习的空地协同服务迁移方法，其特征在于，所述的步骤s6中，具体操作如下：

8.根据权利要求1所述的一种基于深度强化学习的空地协同服务迁移方法，其特征在于，所述步骤s7：不断重复步骤s1至s6，最终服务迁移策略的性能趋于最优。

技术总结
本发明提出了一种基于深度强化学习的空地协同服务迁移方法，步骤如下：S1、物联网终端用户不定时产生计算任务；S2、根据S1中过往的终端设备的历史信息预测数据请求率；S3、根据S2中预测数据生成终端用户的无效迁移集；S4、根据S1、S2、S3的输入参数为终端用户选择性能最优的服务迁移策略；S5、SDN控制器根据奖惩机制得出当前时隙边缘节点处理服务迁移后的奖惩得分，将观测数据作为经验放入经验回放池中；S6、当经验池满时，从经验回放池随机采样小批量样本输入评估网络和目标网络，训练神经网络，更新评估网络参数，以较低的更新速率更新目标网络网络参数；S7、重复S1～S6，不断迭代更新，最终服务迁移决策趋于最优。

技术研发人员：阮辰晖,沈航,白光伟
受保护的技术使用者：南京工业大学
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阮辰晖沈航白光伟
技术所有人：南京工业大学
我是此专利的发明人

上一篇：一种稳定的口腔护理产品及其制备方法与流程
上一篇：一种磷酸酶的突变体及其在果糖和阿洛酮糖制备中的应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。