调度优化方法和装置、电子设备及存储介质

文档序号：26278104发布日期：2021-08-13 19:34阅读：123来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及调度优化技术领域，具体而言，涉及一种调度优化方法和装置、电子设备及存储介质。

背景技术：

在无人机辅助的移动边缘计算领域，需要对无人机在移动边缘计算网络中计算任务调度情况（计算任务是在移动设备本地执行，还是调度到无人机或基站进行执行）进行恰当的决策以获得理想的性能。

但是，经发明人研究发现，在现有技术中，任务要么全部在移动设备本地执行，要么全部调度到无人机或基站上远程执行，从而存在着调度优化的效率低的问题。

技术实现要素：

有鉴于此，本申请的目的在于提供一种调度优化方法和装置、电子设备及存储介质，以改善现有技术中存在的问题。

为实现上述目的，本申请实施例采用如下技术方案：

第一方面，本发明提供一种调度优化方法，应用于电子设备，该电子设备与移动边缘计算网络系统通信连接，所述移动边缘计算网络系统包括至少一个基站、无人机和移动设备，所述调度优化方法包括：

获取所述至少一个移动设备的待处理任务和当前位置信息，其中，所述待处理任务包括第一任务和第二任务；

将所述待处理任务和当前位置信息输入预设的调度优化模型，得到调度策略，其中，所述调度优化模型基于建立的初始模型进行训练得到；

将所述调度策略发送至所述至少一个移动设备，以使所述至少一个移动设备基于所述调度策略将所述第一任务发送至所述至少一个无人机进行处理，将所述第二任务通过所述至少一个无人机转发至所述至少一个基站进行处理。

在可选的实施方式中，所述调度优化方法还包括获取调度优化模型的步骤，该步骤包括：

根据所述移动边缘计算网络系统的初始参数建立初始模型和优化目标函数；

根据所述优化目标函数对所述初始模型进行训练，得到调度优化模型。

在可选的实施方式中，所述根据所述移动边缘计算网络系统的初始参数建立初始模型和优化目标函数的步骤，包括：

根据所述至少一个基站、无人机和移动设备的初始参数建立初始模型；

根据所述初始模型建立优化目标函数。

在可选的实施方式中，所述调度优化模型包括无人机轨迹规划模型、计算任务联合调度模型和资源分配模型，所述根据所述优化目标函数对所述初始模型进行训练，得到调度优化模型的步骤，包括：

对所述优化目标函数进行拆分处理，得到第一优化目标函数、第二优化目标函数和第三优化目标函数；

根据所述第一优化目标函数对所述初始模型进行训练，得到所述无人机轨迹规划模型，根据所述第二优化目标函数对所述初始模型进行训练，得到所述计算任务联合调度模型，根据所述第三优化目标函数对所述初始模型进行训练，得到所述资源分配模型。

在可选的实施方式中，所述将所述待处理任务和当前位置信息输入预设的调度优化模型，得到调度策略的步骤，包括：

将所述当前位置信息输入所述无人机轨迹规划模型，计算得到所述至少一个移动设备的预测位置信息；

将所述待处理任务和预测位置信息输入所述任务联合调度模型，计算得到所述至少一个移动设备的任务调度决策变量；

将所述待处理任务和任务调度决策变量输入所述资源分配模型，计算得到调度策略。

在可选的实施方式中，所述将所述当前位置信息输入所述无人机轨迹规划模型，计算得到所述至少一个移动设备的预测位置信息的步骤，包括：

根据所述当前位置信息进行运动预测处理，得到所述至少一个移动设备的下一位置信息；

对所述至少一个移动设备的下一位置信息进行聚类处理，得到预测位置信息。

在可选的实施方式中，所述将所述待处理任务和预测位置信息输入所述任务联合调度模型，计算得到所述至少一个移动设备的任务调度决策变量的步骤，包括：

根据所述待处理任务和预测位置信息进行任务联合调度训练处理，得到所述至少一个移动设备的决策动作；

对所述决策动作进行集成处理，得到任务调度决策变量。

第二方面，本发明提供一种调度优化装置，应用于电子设备，该电子设备与移动边缘计算网络系统通信连接，所述移动边缘计算网络系统包括至少一个基站、无人机和移动设备，所述调度优化装置包括：

任务获取模块，用于获取所述至少一个移动设备的待处理任务和当前位置信息，其中，所述待处理任务包括第一任务和第二任务；

策略获取模块，用于将所述待处理任务和当前位置信息输入预设的调度优化模型，得到调度策略，其中，所述调度优化模型基于建立的初始模型进行训练得到；

策略发送模块，用于将所述调度策略发送至所述至少一个移动设备，以使所述至少一个移动设备基于所述调度策略将所述第一任务发送至所述至少一个无人机进行处理，将所述第二任务通过所述至少一个无人机转发至所述至少一个基站进行处理。

第三方面，本发明提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述实施方式任一项所述的调度优化方法。

第四方面，本发明提供一种存储介质，所述存储介质包括计算机程序，所述计算机程序运行时控制所述存储介质所在电子设备执行前述实施方式任一项所述的调度优化方法。

本申请实施例提供的调度优化方法和装置、电子设备及存储介质，通过将待处理任务和当前位置信息输入预设的调度优化模型得到调度策略，将调度策略发送至至少一个移动设备，以使至少一个移动设备基于调度策略将第一任务发送至至少一个无人机进行处理，将第二任务通过至少一个无人机转发至至少一个基站进行处理，实现了将第一任务调度到无人机上进行处理，将第二任务调度到基站进行处理，避免了现有技术中任务要么全部在移动设备本地执行，要么全部调度到无人机或基站上远程执行，所导致的调度优化的效率低的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的数据处理系统的结构框图。

图2示出了本申请实施例提供的调度优化系统的结构框图。

图3示出了本申请实施例提供的电子设备的结构框图。

图4为本申请实施例提供的调度优化方法的流程示意图。

图5为本申请实施例提供的调度优化方法的另一流程示意图。

图6为本申请实施例提供的调度优化模型的结构示意图。

图7为本申请实施例提供的lstm网络的结构示意图。

图8为本申请实施例提供的基于lstm网络的移动设备位置预测模型的结构示意图。

图9为本申请实施例提供的基于fcm的移动设备聚类算法的流程示意图。

图10为本申请实施例提供的演员神经网络和评价家神经网络的结构示意图。

图11为本申请实施例提供的基于ddpg的计算任务调度算法的流程示意图。

图12为本申请实施例提供的调度变量塑型整合算法的流程示意图。

图13为本申请实施例提供的调度优化装置的结构框图。

图标：10-数据处理系统；100-电子设备；110-第一存储器；120-第一处理器；130-通信模块；200-调度优化系统；1300-调度优化装置；1310-任务获取模块；1320-策略获取模块；1330-策略发送模块。

具体实施方式

由于无人机(unmannedaerialvehicles,uavs)具有的高机动性和灵活性，近年来研究人员通过在无人机部署相关的无线通信节点，建立与用户的移动设备(mobiledevices,mds)的通信关系，提出了使用无人机在多种应用场景下辅助移动边缘计算(mobileedgecomputing,mec)的技术。当网络基础设施不可用(如发生自然灾害的救援现场)、网络设备稀疏分布(如野外作业环境)或面对临时激增的移动设备并远远超出网络服务能力时(如大型比赛或集会)，无人机就可以作为通信中继站或边缘计算平台。无人机部署了计算资源后，无人机辅助的移动边缘计算网络将带来很多优势，如降低网络开销、降低计算任务执行延迟、更好的体验质量(qoe)、延长移动设备的电池寿命等。

在无人机辅助的移动边缘计算领域，需要对无人机的运动轨迹和移动边缘计算网络中计算任务卸载情况（计算任务是在移动设备本地执行，还是卸载到边缘服务器端执行）进行恰当的决策以获得理想的性能。具体来说，现有的研究与发明通过优化无人机的轨迹、任务卸载比例和任务调度情况实现对所有移动设备计算延迟或能耗的最小化，保障整个边缘计算网络的可靠性。

现有的无人机辅助的边缘计算系统往往只使用一个或多个无人机作为边缘计算设备保证网络系统计算任务传输的低延迟与可靠性。由于当前无人机技术发展的局限性以及无人机中部署计算设备的计算能力较弱，单纯使用无人机辅助的边缘计算网络不足以为多个移动设备都提供令人满意的服务。因此，一个更有前景的模式是在移动设备、无人机和蜂窝网络基站(cellularbasestations,bs)三者之间实现移动边缘计算网络的搭建。现有的一些由移动设备、无人机和基站组成的边缘计算网络中只包含一个无人机，由于该无人机既作为边缘服务的计算设备又作为中继任务转发设备，这会导致无法同时满足多个移动设备的计算任务需求，增加网络系统的任务计算时延。

为了改善本申请所提出的上述至少一种技术问题，本申请实施例提供一种调度优化方法和装置、电子设备及存储介质，下面通过可能的实现方式对本申请的技术方案进行说明。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案，都应该是发明人在发明过程中做出的贡献。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

图1为本申请实施例提供的数据处理系统10的结构框图，其提供了一种数据处理系统10可能的实现方式，参见图1，该数据处理系统10可以包括电子设备100、调度优化系统200中的一种或多种。

其中，电子设备100与调度优化系统200通信连接，电子设备100获取调度优化系统200的待处理任务和位置，根据待处理任务和位置得到调度策略，以使调度优化系统200根据调度策略进行调度优化处理。

可选地，调度优化系统200的具体组成不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，调度优化系统200可以包括至少一个基站、无人机和移动设备。

需要说明的是，在一种可以替代的示例中，电子设备100和移动设备可以为同一设备；在另一种可以替代的示例中，电子设备100和无人机可以为同一设备；在另一种可以替代的示例中，电子设备100和基站可以为同一设备。

可选地，基站的数量不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，基站的数量可以为一个。

也就是说，为了解决由移动设备、无人机和基站组成的边缘计算网络任务计算延迟高、无法同时满足多个具有计算任务需求的移动设备的问题，结合图2，本申请建立了一个由单个基站、多个无人机和大量的移动设备组成的移动边缘计算网络。网络中移动设备产生的计算任务既可以在移动设备本身执行，也可以卸载到其中一个无人机上进行简单的计算，或者进一步传输到基站进行更密集的计算。

请参照图3，是本申请实施例提供的一种电子设备100的方框示意图，本实施例中的电子设备100可以为能够进行数据交互、处理的服务器、处理设备、处理平台等。电子设备100包括第一存储器110、第一处理器120及通信模块130。第一存储器110、第一处理器120以及通信模块130各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，第一存储器110用于存储程序或者数据。第一存储器110可以是，但不限于，随机存取存储器（randomaccessmemory，ram），只读存储器（readonlymemory，rom），可编程只读存储器（programmableread-onlymemory，prom），可擦除只读存储器（erasableprogrammableread-onlymemory，eprom），电可擦除只读存储器（electricerasableprogrammableread-onlymemory，eeprom）等。

第一处理器120用于读/写第一存储器110中存储的数据或程序，并执行相应地功能。通信模块130用于通过网络建立电子设备100与其它通信终端之间的通信连接，并用于通过网络收发数据。

应当理解的是，图3所示的结构仅为电子设备100的结构示意图，电子设备100还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

图4示出了本申请实施例所提供的调度优化方法的流程图之一，该方法可应用于图3所示的电子设备100，由图3中的电子设备100执行。应当理解，在其他实施例中，本实施例的调度优化方法中的部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。下面对图4所示的调度优化方法的流程进行详细描述。

步骤s410，获取至少一个移动设备的待处理任务和当前位置信息。

其中，待处理任务包括第一任务和第二任务。

步骤s420，将待处理任务和当前位置信息输入预设的调度优化模型，得到调度策略。

其中，调度优化模型基于建立的初始模型进行训练得到。

步骤s430，将调度策略发送至至少一个移动设备，以使至少一个移动设备基于调度策略将第一任务发送至至少一个无人机进行处理，将第二任务通过至少一个无人机转发至至少一个基站进行处理。

上述方法通过将待处理任务和当前位置信息输入预设的调度优化模型得到调度策略，将调度策略发送至至少一个移动设备，以使至少一个移动设备基于调度策略将第一任务发送至至少一个无人机进行处理，将第二任务通过至少一个无人机转发至至少一个基站进行处理，实现了将第一任务调度到无人机上进行处理，将第二任务调度到基站进行处理，避免了现有技术中任务要么全部在移动设备本地执行，要么全部调度到无人机或基站上远程执行，所导致的调度优化的效率低的问题。

需要说明的是，在步骤s410之前，本申请实施例提供的调度优化方法还可以包括获取调度优化模型的步骤，结合图5，该步骤可以包括以下子步骤：

步骤s440，根据移动边缘计算网络系统的初始参数建立初始模型和优化目标函数。

步骤s450，根据优化目标函数对初始模型进行训练，得到调度优化模型。

对于步骤s440，需要说明的是，建立初始模型和优化目标函数的具体方式不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，步骤s440可以包括以下子步骤：

根据至少一个基站、无人机和移动设备的初始参数建立初始模型；根据初始模型建立优化目标函数。

其中，初始模型可以包括移动边缘计算网络系统的系统模型、计算模型和通信模型，建立初始模型的步骤可以包括如下几个子步骤：

1.建立系统模型：

本申请建立的系统模型的网络架构主要分为三层，地面的移动设备、在空中的无人机以及处在远端的基站，三者的位置可以使用三维笛卡尔坐标系进行表示。待处理任务的总执行时间记为t，其被平均的划分为n个时间片，时间片集合可以表示为：

；

其中，每一个时间片的长度τ，满足，并假设每个时间片足够小以至于每个无人机在时间片内的位置不变，在考虑计算任务可能存在堵塞的情况下，本网络系统假设移动设备无法直接与基站通信，只能在无人机的帮助下将任务卸载到基站。

在网络系统中，移动设备组成的集合可以表示为：

；

其中，m表示移动设备的数量，在时间片移动设备的位置可以表示为：

；

其中，与表示移动设备所处水平平面的坐标，，。

在时间片，每个移动设备会产生一个计算密集型任务，任务可以表示为：

；

其中，表示当前任务数据的大小(单位：bit)，表示cpu处理每个bit花费的周期数，表示当前任务允许执行的最大时间。不失一般性，所有任务的最大允许执行时间相同。此外，值的小于τ以保证每个任务均能在一个时间片执行完。

每个移动设备中都嵌入了一颗板载的cpu，其最大的计算频率可以用表示。通过动态调整cpu的电压与频率，在时间片，移动设备实际的cpu频率能够实现自适应控制，以提高能源的利用效率，因此，应满足：

；

其中假设所有的移动设备都有相同的最大计算能力。

在本系统中，无人机组成的集合可以表示为：

；

其中，u表示无人机的数量，时间片无人机的位置可以表示为：

；

其中，与表示无人机所处水平平面的坐标，，，h表示无人机所处的高度。

假设每个无人机的最大飞行速度不超过，即可以表示为：

；

其中，表示在时间片无人机的速度。此外，为了保证无人机的飞行安全，任何两架无人机之间的距离应大于最小允许距离，即：

；

在时间片无人机产生的能耗可以表示为：

；

其中，，表示的重量。

每个无人机可以被部署为一个边缘服务器，其最大计算能力记为。在时间片，对于决定要上传到无人机并进行执行的计算任务，无人机分配的cpu计算资源可以表示为，并且满足：

；

假设所有无人机都有相同的最大计算能力。

基站的位置可以表示为：

；

其中，与表示基站所处水平平面的坐标。由于基站与无人机所处的高度高，基站与无人机通过视距无线传输链路连接而与移动设备不直接连接。在这种情况下，无人机充当中继转发设备，将移动设备卸载的任务转发到基站进行进一步计算。由于基站具有强大的计算服务器和能量供应，因此计算任务在基站的执行时间可以忽略不计，且不考虑在基站上执行的所有任务的能量消耗。

本系统的所有计算任务的卸载方式都遵循完全卸载的方式，即每一个计算任务要么完全在本地执行，要么完全卸载到无人机上执行，要么进一步完全卸载到基站执行。使用任务调度决策变量表示计算任务的卸载情况：

；

其中，，表示计算任务要卸载到计算平台k。

值得注意的是，当任务在移动设备或无人机上执行时，只有一个的值为1，其他值均为0，即或，。当任务在基站上执行时，除了外，其卸载到的对应的无人机也需要为1，即，因为其中一架无人机应该作为从移动设备到基站的中继。综上，变量应满足以下约束条件:

；

另外，假设每架无人机在每个时间片最多可以将一个任务卸载到bs继续执行，因此，应该满足：

；

其中，。

需要补充说明的是，由于引入变量，移动设备与无人机所分配的计算资源的约束条件变为：

；

2.建立计算模型：

计算任务可以在移动设备、无人机和基站中执行，因此分别可以称为本地计算、无人机端计算和bs端计算。如果任务选择在本地进行计算，也就是。那么，任务的计算时间为：

；

消耗的能量为：

；

其中，和是取决于移动设备中cpu的正系数。

如果计算任务选择卸载到无人机上执行，也就是，任务的计算时间为：

；

其中，

；

对应消耗的能量为：

；

其中，

；

其中，和是取决于无人机中cpu的正系数，值得注意的是，每个计算任务只能卸载到其中一个无人机中。

如果任务在基站执行，也就是，根据基站强大的计算能力和能源供应能力的假设，该任务的执行时间近似为零，且不考虑任务产生的能耗。

3.建立通信模型：

整个网络系统的通信链路分为两种：移动设备与无人机的通信链路和无人机与基站的通信链路。为了避免无人机之间可能存在的通信干扰，各个无人机分配了正交通信频率，由于无人机的高度较高，无人机与移动设备或基站之间的无线通信信道，主要以视距无线传输为主。

在时间片，移动设备和无人机之间的距离为：

；

在时间片，无人机和基站之间的距离为：

；

因此，移动设备和无人机之间的无线信道增益为：

；

无人机和基站之间的无线信道增益为：

；

其中，为1米参考距离处的接收功率增益。

如果计算任务选择从移动设备卸载到无人机，任务数据的传输速率为：

；

如果计算任务选择从无人机卸载到基站，任务数据的传输速率为：

；

其中，b表示网络系统的带宽，和分别表示在时间片移动设备与无人机的无线传输功率，表示通信噪声频率，和分别满足如下条件：

；

其中，与分别表示移动设备与无人机的最大可用传输功率。

移动设备将计算任务卸载到无人机需要的时间及消耗的能量分别为：

；

无人机将计算任务卸载到基站需要的时间及消耗的能量分别为：

；

令与分别表示移动设备与无人机的能量预算，并对于满足以下限制条件：

；

本网络系统的优化目标是在任务时延约束和系统约束下(如无人机最大速度、无人机间最小距离和最大计算能力)，最小化移动设备和无人机的总能量消耗。计算任务在移动设备、无人机或基站执行时，对应的任务时延的分别表示如下：

；

当引入任务调度决策变量后，计算任务可以统一表示为：

；

因此，对应的任务执行时延约束为：

；

在时间片，执行任务产生的能耗可以分为两类：

1）如果任务在移动设备本地执行，即，那么移动设备的能量消耗为；

2）如果任务被卸载到无人机或基站执行，即，那么移动设备的能量消耗为；

因此，移动设备在执行计算任务消耗的能量可以统一表示为：

；

所有移动设备在任务执行期间的能量消耗可以表示为：

；

综上，为了使移动边缘计算网络系统运行过程种移动设备所有任务的总能耗最小，定义优化问题（优化目标函数）如下:

其中，，，，为待优化的变量。

在问题p中，限制条件c1表示无人机的最大速度和无人机之间的最小距离不应违反相应的限制。限制条件c2保证每个时间片在某一移动设备产生的计算任务只能在移动设备本地、无人机或基站三者中的某一设备上执行，且每个无人机在每个时间片最多只能向基站发送一个任务。限制条件c3保证每个时间片分配给本地计算和无人机计算的计算资源分别不应超过移动设备和无人机的最大计算能力。限制条件c4表示移动设备和无人机在执行期间不应超过其对应能量预算。限制条件c5表示移动设备和无人机分配的发射功率不能超过最大允许值。限制条件c6保证了每个任务执行应满足时延要求。

对于步骤s450，需要说明的是，训练模型的具体方式不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，调度优化模型包括无人机轨迹规划模型、计算任务联合调度模型和资源分配模型，步骤s450可以包括以下子步骤：

对优化目标函数进行拆分处理，得到第一优化目标函数、第二优化目标函数和第三优化目标函数；根据第一优化目标函数对初始模型进行训练，得到无人机轨迹规划模型，根据第二优化目标函数对初始模型进行训练，得到计算任务联合调度模型，根据第三优化目标函数对初始模型进行训练，得到资源分配模型。

详细地，问题p是一个难以解决的问题，主要原因有以下几个方面：1）由于a是离散的二元变量，且l，p，f为连续性变量，因此该问题为混合非线性整数规划问题，属于np难问题；2）由于网络系统的快速响应要求，每个时间片调度优化算法应进行实时快速地调度决策；3）由于移动设备与无人机的位置均会变化，p需要能在动态变化的环境进行求解。基于上述原因，本申请将优化目标函数p分解为三个子问题，包括无人机轨迹规划（p1，即第一优化目标函数）、计算任务联合调度（p2，即第二优化目标函数）和计算与传输资源分配（p3，即第三优化目标函数），这样就可以得到一个高效的移动边缘计算网络的调度策略，大大降低优化问题的求解复杂度。

为了降低原优化问题的计算复杂度，将p拆分为以下三个子问题：

1.无人机轨迹规划：

在问题p中的优化调度变量l,a,p,f中，无人机的轨迹位置l与其他三个变量依赖性较弱，该变量的优化主要以移动设备的位置观测为基础，优化的目标是尽可能地与移动设备和基站靠近，因此，无人机的轨迹优化可以表示为：

；

其中，表示在无人机提供服务范围内的移动设备组成的集群，并满足条件。

2.计算任务联合调度：

一旦在时间片确定了无人机的位置l后，任务卸载决策变量a需在优化变量p和f前进行优化。基于当前的移动设备集群（），以最小化所有任务的最大计算时延为目标对a进行优化，使原问题p中的限制条件c6更容易得到满足，因此计算任务联合调度子问题可以表示为：

3.计算与传输资源分配：

在求解了问题p1与问题p2后，在c3、c4、c5的约束下，其余变量p、f以最小化系统中消耗能量为目标进行如下优化：

基于以上问题的分解，如图6所示为本申请提出的优化框架，本算法框架由无人机轨迹规划模型(uavtrajectoryplanning,utp)、计算任务联合调度模型(taskassociationscheduling,tas)和计算与传输资源分配模型(resourceallocation,ra)三个模型组成，分别对应优化子问题p1，p2和p3。在每一个时间片的开始阶段，网络系统环境生成两个状态变量（和）。是utp模型的输入，是tas和ra模型的输入。

1）utp模型对进行处理，由于移动设备的位置在在不同时间片不同，utp模型将对移动设备的运动进行预测，引导无人机运动到适当的位置。由于移动设备的运动方式既不符合高斯分布，也不符合线性分布，本申请可以采用长短期记忆网络来模拟移动设备的运动分布。预测完成后，需要根据无人机的数量将无人机适当地划分为u个集群，以便每个无人机能为该集群中的移动设备服务。为了进行软聚类，即每个移动设备可以在不同的时间片由不同的无人机提供服务（但在同一时间片由不超过一个无人机提供服务），utp模型中采用了模糊c均值聚类的方法，根据信道功率增益的相似度进行聚类。聚类后，每个聚类的中心点作为utp模块中无人机的运动位置的输出，即。

2）tas模型分别从utp模型和网络环境中接收和。tas模型根据时变的信道条件和计算任务要求，生成任务调度决策变量的值。本申请可以使用先进的深度强化学习（drl）方法：深度确定性策略梯度算法（deepdeterministicpolicygradient,ddpg），根据算法模型与环境的交互获得经验并输出优化后的决策动作。在其他可以替代的示例中，也可以使用其他适用于连续动作的强化学习算法（如td3算法，ppo算法等）。对于每个时间片，输出的动作是一个一维向量，由项组成，其中每一项都被设置为0和1之间松弛的连续变量。的每一项都可以被视为在计算设备k上的执行概率（这就是每一项都设置为0和1之间连续值的原因）。由于任务调度决策变量应该是二维的、二进制的值，的所有项的值根据优化问题的任务关联约束条件被塑型和整合为1或0，并作为tas模型的输出，即。

3）将与作为ra模型的输入进行最后的处理。根据子问题p3，优化变量p与f可以直接通过cvxpy凸优化工具包进行求解，ra模型输出的p与f与环境进行交互。

环境接收上述3个模型输出的动作，环境接收该行动并产生一个奖励（作为ddpg的输入）和一个新的状态（状态对应的分量被发送到算法框架相应的组件）。此后，该算法进入下一个时间片，并重复上述三个步骤。

需要说明的是，可以通过长短期记忆网络和模糊c均值聚类的方法计算获得无人机所处的最优位置规划，无人机的轨迹规划可以分为移动设备运动预测和移动设备聚类两个部分。

在网络系统中，无人机和移动设备之间的距离是影响其他调度变量的主要因素，因此无人机所处的理想运动轨迹是逐渐向移动设备运动并尽可能地靠近移动设备。为此，本申请提出的算法预测移动设备的位置以辅助无人机的移动。由于对的预测主要是基于移动设备之前时间片的位置，所以本发明利用递归神经网络lstm来模拟的时序分布。

如图7所示，长短期记忆网络（long-shorttermmemory,lstm）是一种递归神经网络，同时接受外部输入和反馈输入（和）。lstm的输出包括两项（和），在下一个时间片这两项被输入到lstm本身进行处理。在这两个输出项中，通过以下操作得到：

；

其中，、和表示神经网络的输出值，与分别表示sigmoid和双曲正切激活函数，、和表示对应神经网络层的网络权重，、和表示对应神经网络的偏移向量，这两部分为神经网络需要学习的参数。

基于，由下式计算：

；

其中，与为神经网络需要学习的参数。

基于上述公式，本申请提出了基于lstm的移动设备位置观测模型对移动设备位置进行预测，其时间序列的展开如图8所示。在每个时间片，当前的移动设备的位置被输入到lstm网络，lstm输出。为了预测下一个时间片的移动设备位置，在输出中还增加了一个全连接层来对进行微调，具体如下：

；

其中，relu为relu激活函数，与为神经网络需要训练学习的变量。

基于移动设备下一时间片的位置预测，需要将移动设备聚类分为u组，保证无人机能以负载均衡的方式为其提供服务。为了完成移动设备的聚类，可以采用fcm的方法从模糊理论出发，对每个集群，移动设备在时间片赋予一个度量值，其计算方式如下：

；

其中，表示第n个时间片无人机的位置，表示第k个集群的中心点，即

；

通过最小化待优化的目标函数o，迭代求解与的值，直到连续计算的两个度量值之差小于指定阈值：

；

在进行迭代之前，所有的应该被初始化，每个使用的值初始化，因为移动设备只能在小范围内移动，它们的新中心点可能接近以前的中心点（这些中心点被规划为无人机运动的位置）。

在迭代结束后，每个移动设备被赋予一个度量值，代表它在第u个集群中的成员资格，可以通过探索策略进一步将调整为二元聚类决策，这可以降低陷入优化目标o陷入局部最小值的可能性。使用表示探索阈值，移动设备以的概率被聚类到具有最大度量值的集群，并以的概率聚类到其他集群。图9的算法详细描述了基于fcm的移动设备在第n个时间片的聚类过程，算法1的输出引导无人机运动到。

需要说明的是，可以使用基于强化学习的深度确定性策略梯度算法求出每个移动设备的任务调度决策变量，计算任务的联合调度包括基于ddpg的任务调度决策变量优化和调度变量的集成两部分。已知无人机的运动轨迹后，算法框架使用ddpg的强化学习算法学习计算任务的调度策略，即：

；

策略是一个从环境状态到决策动作的映射函数，网络环境的状态为：

；

策略输出的决策动作为：

；

的每一个分量都是0到1的连续变量，其大小为：。

通过强化学习，可以通过最大化总效用值（也被称为q值）来获得策略π的近似最佳解决方案：

；

其中，是在状态下采取决策动作后环境的新状态，是时间片的即时奖励，γ是未来奖励的折扣系数。由于环境的状态和行动空间是高维的，因此采用了两个神经网络：演员神经网络(actor)π（参数为）和评价家神经网络(critic)q（参数为θ），如图10所示。为了使学习过程更加稳定，可以采用目标网络（目标策略网络体和目标评价网络分别以和为参数）对参数定期进行更新。

在时间片，环境在接受了算法模型输出的动作之后，从状态过渡到状态，并产生了一个奖励，将这四个项打包成一个元组并存储在一个经验回放池中。在算法训练过程中，从经验回放池中随机选择一个批次的样本，根据以下损失函数来训练评价神经网络（即参数θ）。

；

演员网络最小化以下梯度函数进行参数的训练：

；

其中，是在当前策略π下从状态分布中采样得到的状态，是网络反向传播训练时的一批样本的数量，基于ddpg的任务联合调度训练算法详见图11。

由于演员网络的输出的决策动作是一个一维向量，而的每一项都是0到1范围内的连续值，所以需要将以二维的方式进行重新塑型(reshape)，并整合为0或1，以便进一步进行任务调度。如图12所示，为的塑型与整合算法，算法的时间复杂度为。经过上述任务调度变量的塑型和整合后，算法3的输出a[m][k]传递给ra模块进行资源优化分配。

需要说明的是，可以使用基于凸优化的方法确定网络系统计算与传输资源的分配情况，与作为ra模块的输入进行最后的处理。根据子问题p3，优化变量p与f可以直接通过cvxpy工具使用凸优化的方法进行求解。

对于步骤s420，需要说明的是，得到调度策略的具体方式不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，步骤s420可以包括以下子步骤：

将当前位置信息输入无人机轨迹规划模型，计算得到至少一个移动设备的预测位置信息；将待处理任务和预测位置信息输入任务联合调度模型，计算得到至少一个移动设备的任务调度决策变量；将待处理任务和任务调度决策变量输入资源分配模型，计算得到调度策略。

其中，将当前位置信息输入无人机轨迹规划模型，计算得到至少一个移动设备的预测位置信息的具体方式不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，该步骤可以包括以下子步骤：

根据当前位置信息进行运动预测处理，得到至少一个移动设备的下一位置信息；对至少一个移动设备的下一位置信息进行聚类处理，得到预测位置信息。

需要说明的是，进行预测处理和聚类处理的步骤可以参照前文训练得到无人机轨迹规划模型的过程。

将待处理任务和预测位置信息输入任务联合调度模型，计算得到至少一个移动设备的任务调度决策变量的具体方式不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，该步骤可以包括以下子步骤：

根据待处理任务和预测位置信息进行任务联合调度训练处理，得到至少一个移动设备的决策动作；对决策动作进行集成处理，得到任务调度决策变量。

需要说明的是，进行训练处理和集成处理的步骤可以参照前文训练得到计算任务联合调度模型的过程。

通过上述方法，本申请部署了一个由单个基站、多个无人机和大量的移动设备组成的移动边缘计算网络，每个计算任务既可以在移动设备上执行，也可以卸载到无人机上进行计算，或者通过无人机作为中继器进一步卸载到基站进行更密集的计算。在最小化网络系统能耗的目标下，确定了无人机轨迹、任务关联、计算和传输资源分配的联合优化问题。鉴于问题的高度复杂性，本发明将优化问题分解为三个子问题，大幅降低了整体网络系统的能耗，延长了网络的寿命，同时也降低了通信网络中所有移动设备的计算时延，提高了计算密集型应用的服务质量。

结合图13，本申请实施例还提供了一种调度优化装置1300，该调度优化装置1300实现的功能对应上述方法执行的步骤。该调度优化装置1300可以理解为上述电子设备100的处理器，也可以理解为独立于上述电子设备100或处理器之外的在电子设备100控制下实现本申请功能的组件。其中，调度优化装置1300可以包括任务获取模块1310、策略获取模块1320和策略发送模块1330。

任务获取模块1310，用于获取至少一个移动设备的待处理任务和当前位置信息，其中，待处理任务包括第一任务和第二任务。在本申请实施例中，任务获取模块1310可以用于执行图4所示的步骤s410，关于任务获取模块1310的相关内容可以参照前文对步骤s410的描述。

策略获取模块1320，用于将待处理任务和当前位置信息输入预设的调度优化模型，得到调度策略，其中，调度优化模型基于建立的初始模型进行训练得到。在本申请实施例中，策略获取模块1320可以用于执行图4所示的步骤s420，关于策略获取模块1320的相关内容可以参照前文对步骤s420的描述。

策略发送模块1330，用于将调度策略发送至至少一个移动设备，以使至少一个移动设备基于调度策略将第一任务发送至至少一个无人机进行处理，将第二任务通过至少一个无人机转发至至少一个基站进行处理。在本申请实施例中，策略发送模块1330可以用于执行图4所示的步骤s430，关于策略发送模块1330的相关内容可以参照前文对步骤s430的描述。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述调度优化方法的步骤。

本申请实施例所提供的调度优化方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行上述方法实施例中的调度优化方法的步骤，具体可参见上述方法实施例，在此不再赘述。

综上所述，本申请实施例提供的调度优化方法和装置、电子设备及存储介质，通过将待处理任务和当前位置信息输入预设的调度优化模型得到调度策略，将调度策略发送至至少一个移动设备，以使至少一个移动设备基于调度策略将第一任务发送至至少一个无人机进行处理，将第二任务通过至少一个无人机转发至至少一个基站进行处理，实现了将第一任务调度到无人机上进行处理，将第二任务调度到基站进行处理，避免了现有技术中任务要么全部在移动设备本地执行，要么全部调度到无人机或基站上远程执行，所导致的调度优化的效率低的问题。

以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任涛;胡哲源;谷宁波;牛建伟;胡舒程;李青锋
技术所有人：北京航空航天大学杭州创新研究院
我是此专利的发明人

上一篇：一种变频器的适应性冷却方法及装置与流程
上一篇：一种碳酸盐前驱体及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。