一种面向多优先级任务的自适应协同推理加速方法

文档序号：38175459发布日期：2024-05-30 12:29阅读：42来源：国知局

本发明属于边缘计算，具体的说是涉及一种面向多优先级任务的自适应协同推理加速方法。

背景技术：

1、深度学习作为人工智能领域的重要分支，在过去几年取得了显著的成就。伴随着深度神经网络（deep neural networks，dnn）的发展，以此为基础的智能应用程序也发展迅速。然而这些应用程序通常是需要大量开销的，传统的仅端推理或仅云推理无法满足低时延和高能耗的需求，因此在移动边缘计算场景下，将预先训练好的模型适当解耦分别部署在终端设备和边缘服务器上实现协同推理加速过程。

2、同时，在实际的边缘计算场景中，不同任务通常具有不同的优先级，这取决于应用的紧急程度和重要性。高优先级任务，例如在自动驾驶领域的实时数据处理和安全监控，对即时响应和事件检测具有关键性；中优先级任务包括视频分析和大规模传感器数据处理，需要在一定时间内完成但实时性相对较低；低优先级任务涉及批处理和长期数据存储，其处理不要求即时性响应。在以往协同推理的研究中，通常并未考虑任务优先级的不同，但若不考虑这些任务的优先级可能会导致高优先级任务因受到低优先级任务的影响而超时，最终导致较差的服务质量。

3、随着深度强化学习方法的发展，将协同推理问题建模为马尔可夫决策（markovdecision process，mdp），通过奖励设计来寻求累计奖励奖励最大化以求解动态环境中的优化问题。然而由于系统中的网络和计算资源有限，现有研究多考虑通过资源分配来缓解资源紧张的问题，随着移动边缘计算（mobile edge computing，mec）系统中移动设备的数量增加，移动设备对于资源的竞争加剧，同时带来网络参数的激增，最终可能导致训练难以收敛。

技术实现思路

1、为了解决上述技术问题，本发明提供了一种面向多优先级任务的自适应协同推理加速方法，该方法针对不同优先级的任务，在边缘服务器的排队等待队列中基于任务优先级的非抢占式优先排队模型，建立不同智能体的合作竞争机制以实现高效的协同推理加速过程。

2、为了达到上述目的，本发明是通过以下技术方案实现的：

3、本发明是一种面向多优先级任务的自适应协同推理加速方法，该自适应协同推理加速方法通过自适应协同推理加速系统实现，该自适应协同推理加速方法具体包括以下步骤：

4、步骤1、采集多个终端设备产生的具有不同优先级任务，建立任务属性模型，同时量化深度神经网络模型每层的计算复杂度；

5、步骤2、利用香农公式建模当前自适应协同推理加速系统中的通信网络环境；

6、步骤3、在边缘服务器处构建基于任务优先级的非抢占式优先排队模型；

7、步骤4、在所述步骤3构建的基于任务优先级的非抢占式优先排队模型的基础上，根据自适应协同推理加速系统中的优化问题构建优化目标函数；

8、步骤5、将优化问题转化为部分可观测的马尔可夫决策问题；

9、步骤6、使用合作竞争的多智能体近端策略优化算法求解马尔可夫决策问题；

10、步骤7、终端设备和边缘服务器分别执行决策，完成多优先级任务的协同推理加速过程。

11、本发明的进一步改进在于：所述步骤1采集多个终端设备产生的具有不同优先级任务，建立任务属性模型，同时量化深度神经网络模型每层的计算复杂度，具体包括如下步骤

12、步骤1.1、每个终端设备生成的任务为：

13、,

14、其中，表示生成任务的初始数据大小，表示完成任务所需要的深度神经网络层数，表示任务复杂度即完成任务所需要的cpu周期数，表示为任务的优先级，表示最大可容忍时延；任务须在其最大时延容忍范围内处理完成，否则被视为处理失败，引入惩罚；

15、步骤1.2、设置，将终端设备产生的任务划分为10种不同的优先级，当的值越大，认为任务的优先级越高，则越需要被优先处理，在自适应协同推理加速系统中不抢占正在处理任务的前提下，优先处理高优先级任务。

16、本发明的进一步改进在于：步骤2利用香农公式建模当前自适应协同推理加速系统中的通信网络环境，具体包括以下步骤：

17、步骤2.1、使用正交频分多址来将频带资源分配给终端设备，从终端设备到边缘服务器的最大数据传输速率表示为：

18、

19、其中，表示分配给终端设备的带宽，表示终端设备和边缘服务器之间的信噪比，在时隙中是固定值；

20、步骤2.2、在边缘服务器和云服务器之间的最大数据传输速率表示为：

21、

22、其中，表示分配给边缘服务器的带宽，表示边缘服务器和云服务器之间的信噪比，在时隙中是固定值。

23、本发明的进一步改进在于：所述步骤3在边缘服务器处构建基于任务优先级的非抢占式优先排队模型，具体包括以下步骤：

24、步骤3.1、每个边缘服务器维护自己的任务队列并且采用非抢占式优先排队模型即当时隙内，当高优先级任务进入排队等待队列时，在非抢占情况下高优先级任务优先处理；

25、步骤3.2、定义在时隙内，比任务晚进入队列但优先级更高任务的集合为：

26、

27、其中，中任务的优先级，对于边缘服务器为多个终端设备提供计算任务，边缘服务器上的任务到达率表示为：

28、

29、其中，表示与边缘服务器关联的终端设备的集合，表示低优先级任务到达率，表示高级优先级任务到达率。

30、本发明的进一步改进在于：所述步骤4中，针对终端设备和边缘服务器建立不同的优化目标函数，具体包括以下步骤：

31、步骤4.1、终端设备的优化问题旨在最小化完成该设备产生所有任务的推理时延和自身能耗，最小化时延是通过竞争边缘服务器的有限计算资源来完成的，因此不同的终端设备之间为竞争关系，具体表示为：

32、

33、 (a)

34、 (b)

35、 (c)

36、其中，和分别表示终端设备本地处理的时延和能耗，和分别表示由终端设备到边缘服务器之间传输的时延和能耗，表示在边缘服务器上完成推理的时延，和分别表示由边缘服务器到云服务器之间的传输时延和能耗，（a）表示选择一个边缘服务器与任相关联，（b）表示与边缘服务器的关联匹配决策，（c）意味着对于深度神经网络模型的模型分区点是有效的，使得模型被有效分割，设定第层深度神经网络模型的卸载决策，具体表示如下：

37、；

38、步骤4.2、所有的边缘服务器的优化目标为最小化自适应协同推理加速系统中的整体时延和系统总能耗，因此边缘服务器之间通过合作来完成此优化目标，具体表示为：

39、

40、s.t. (a)、(b)、(c)

41、其中，

42、 (a)

43、 (b)

44、 (c)。

45、本发明的进一步改进在于：在所述步骤5中，将优化问题转化为部分可观测的马尔可夫决策过程中，每个终端设备和每个边缘服务器被视为智能体，采用集中式训练，分布式执行的方式来训练智能体，具体的，步骤5包括以下步骤：

46、步骤5.1、将马尔可夫决策过程表示为元组，其中是状态空间，表示智能体在时隙的状态，表示观测空间，表示智能体在时隙的观测，表示动作空间，并且表示智能体在时隙的动作，表示转移概率分布，遵循，为自适应协同推理加速系统的奖励函数；

47、步骤5.2、终端设备和边缘服务器的观测空间具体表示为：

48、终端设备的观测空间表示为：

49、

50、其中，表示当前时刻，该终端设备到所有边缘服务器的信道增益，由终端设备直接获得，表示前一时隙中，所有边缘服务器连接到的终端设备的数量，需要通过终端设备与边缘服务器之间的交互获得，表示终端设备前一时隙的推理时延，表示终端设备在当前时隙的任务到达率；

51、边缘服务器的观测空间表示为：

52、

53、其中，终端设备产生的任务的配置信息是1×5维向量，，包括任务的初始数据大小、完成任务所需要的深度神经网络层数、任务的计算复杂度、任务的优先级、任务的最大可容忍时间，是包含n个元素的向量，表示第层dnn模型的计算复杂度，表示边缘服务器和云服务器的信道增益，任务的队列状态信息包括任务在队列中的位置和当前边缘服务器的服务率；

54、步骤5.3、对于任务，终端设备和边缘服务器的动作空间表示为：

55、终端设备的动作空间；

56、边缘服务器的动作空间；

57、其中，表示为在时隙，任务与边缘服务器的关联匹配决策,表示为第层深度神经网络模型的卸载决策；

58、步骤5.4、对于任务，终端设备和边缘服务器的奖励函数表示为：

59、终端设备的奖励函数为：

60、边缘服务器的奖励函数为：

61、

62、其中，为与目标相关部分的奖励函数，表示为

63、

64、其中，表示一个时隙的时间，表示在时隙时的能耗，表示在时隙时处理完任务的总数；

65、表示针对边缘服务器选择的约束条件对于终端设备产生的任务的奖励函数：

66、

67、其中，表示所有此时自适应协同推理加速系统中与边缘服务器相连的所有终端设备的数量，表示引入的弹性系数，是相应的惩罚系数。

68、本发明的进一步改进在于：所述步骤6使用合作竞争的多智能体近端策略优化算法求解马尔可夫决策问题具体包括以下步骤：

69、步骤6.1、将所有的终端设备设置为一类智能体，所有的边缘服务器设置为另一类智能体，在这两类智能体上分别部署近端策略优化算法，所述近端策略优化算法包括actor网络和critic网络，actor网络根据策略选择执行的动作，critic网络评估所选动作的值；

70、步骤6.2、actor网络通过梯度上升来更新参数，同时在重要性采样后获得actor网络的目标函数，使其最大化：

71、

72、其中，表示新策略，表示旧策略，用表示重要性权重，因此上式写为：

73、

74、其中，是优势函数，用于衡量在时刻时，其动作状态对相对于平均预期值的优越性，通过广义优势估计来获得：

75、

76、其中，是折现因子，是超参数，是在时隙的状态值；

77、步骤6.3、采用裁剪操作平衡策略改进和策略稳定性，得到在裁剪后actor网络的损失函数为：

78、

79、其中，是一个超参数，clip函数用于限制重要性采样比率的范围；

80、在智能体与环境交互的轨迹中，得到critic网络的累积折扣奖励

81、

82、其中，是平衡长期回报和短期回报之间的折现因子，使用以下损失函数作为critic网络的优化目标：

83、

84、其中，是在时隙的状态值，是累积折扣奖励；

85、步骤6.4、对actor网络和critic网络的参数进行了更新，具体为：

86、

87、

88、其中，和分别是actor网络和critic网络的学习率。

89、本发明的进一步改进在于：所述步骤7终端设备和边缘服务器分别执行决策具体包括如下步骤：

90、步骤7.1、边缘服务器根据其actor网络的输出来做出深度神经网络模型分割决策，下发给相应的终端设备；

91、步骤7.2、根据深度神经网络模型分割决策，在终端设备处执行深度神经网络模型的第一部分，同时终端设备根据其actor网络的输出来选择关联的边缘服务器，将深度神经网络模型第二部分上传到关联的边缘服务器，进入到边缘服务器处的排队等待队列进而完成协同推理加速过程。

92、本发明还提供了一种面向多优先级任务的自适应协同推理加速系统，该系统包括终端设备层、边缘服务器层和云服务器层，其中：

93、所述终端设备层包括多个物联网设备，每个所述物联网设备产生不同优先级的推理任务；

94、所述边缘服务器层包括多个边缘服务器，在每个所述边缘服务器处建立基于任务优先级的非抢占式优先排队模型，保证高优先级任务优先处理的同时，又能使低优先级任务顺利完成；

95、所述云服务器层包括一个具有计算资源的云服务器，为协同推理过程提供计算资源。

96、本发明的有益效果是：

97、本发明面向多种具有不同优先级的任务，通过在边缘服务器处设计基于优先级非抢占式的可反悔排队模型，保证在优先处理较高优先级任务的同时，较低优先级任务也能在时延容忍时间内完成处理；

98、本发明相比于传统的仅端边协同方式和端云协同方式，在充分利用边缘服务器有限计算资源的同时，也使得云服务器资源得到合理规划以保证较高的服务质量。

99、本发明将优化问题建模为部分可观测的马尔可夫决策问题（partiallyobservable markov decision process，pomdp），将终端设备和边缘服务器分别设置为两类智能体，从算法角度解决计算资源受限时终端设备竞争严重的问题，考虑边缘服务器之间的合作，通过智能体与环境的交互不断学习获得最大收益。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：步琪慧,齐帅,王宇翱,郭永安
技术所有人：南京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。