一种面向MEC网络的细粒度任务卸载及资源分配方法

文档序号:34137666发布日期:2023-05-12 19:23阅读:47来源:国知局
一种面向MEC网络的细粒度任务卸载及资源分配方法

本发明涉及一种面向mec网络的细粒度任务卸载及资源分配方法,属于5g和人工智能发展。


背景技术:

1、5g和人工智能的发展促进了物联网在各场景中的推广应用,如工业物联网和车联网。伴随着这些新的场景,大量的智能应用也随之产生,如智能制造和智能资源调度。这些计算密集型应用通常需要大量的计算资源,但由于物联网设备的计算能力有限,很难实现这些计算。针对这一问题,将计算任务卸载到远程云中心,利用其强大的计算资源进行计算处理是一个很好的解决方案。但由于云服务器距离用户较远,这种卸载到云进行计算的方式增加了任务端到端处理时延,很难满足智能应用的低延时需求。

2、多接入边缘计算(multi-access edge computing,mec)作为一个有效的计算模式,其通过将服务器部署在距离物联网设备较近的网络边缘来给用户提供就近服务,与云计算相比可以大大减少任务处理时延中的通信时延。边缘服务器虽然可以为物联网设备提供计算服务,但大量的数据交换也会给系统带来通信开销,并且计算任务的传输时延受动态的网络通信条件的影响。另外,边缘服务器的计算资源有限,物联网设备数量的增加使得在边缘服务器端的资源竞争不可避免。因此,为了最大限度地减少系统的长期任务处理时延、高效地利用边缘服务器和本地的计算资源、准确地适应动态变化的网络环境,设计有效的动态卸载和资源分配策略是实现任务合理调度的重要途径。

3、在实际的物联网场景中,信道条件是长期动态变化的,为了应对环境的动态特性,实现长期的任务调度过程优化,采用深度强化学习(deep reinforcement learning,drl)是一个好的解决方案,深度强化学习将深度学习与强化学习相结合,可以解决巨大的状态和动作空间,实现策略学习。

4、现有的面向物联网的任务卸载与资源分配方法,有些采用静态调度方案,对整个系统实现一次性的任务调度,不能保证动态系统的长期效益最优。有些采用动态调度的方案可以实现长期的任务调度过程优化,但是大多数是对一个计算任务进行整体的调度,然而一个具有大数据量的复杂计算任务在相干时间内无法计算完成,整体任务调度的技术方案很难使系统的长期效益达到最优。


技术实现思路

1、针对现有技术的不足,本发明提供了一种面向mec网络的基于深度强化学习的细粒度任务卸载及资源分配方法,该方法基于多接入边缘计算架构,用于为物联网系统设计智能计算任务卸载与资源分配策略,来提高系统的长期总体效益。该方法采用sdn集中控制器进行决策模型的训练与推理,通过收集动态的系统状态信息,如信道条件和随机任务到达情况,对大数据量的智能计算任务进行多时隙的细粒度调度。该方法可以使物联网系统的任务卸载与资源分配决策更好地适应动态变化的环境,有效减小系统的长期任务处理时延。

2、术语解释:

3、1.多接入边缘计算(multi-access edge computing,mec):云计算的一种演进,通过将计算资源下沉到网络边缘形成边缘云,为多用户提供计算服务,可以有效降低服务延时。

4、2.深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法:一种深度强化学习方法,采用actor-critic双网络结构,用于解决连续动作空间问题。

5、3.软件定义网络(software defined networking,sdn):一种网络管理方法,可支持动态网络配置,提高网络性能和管理效率;sdn控制器可以收集动态的系统信息,对网络资源进行管理和控制。

6、本发明的技术方案为:

7、一种面向mec网络的细粒度任务卸载及资源分配方法,包括模型训练阶段与决策推理阶段,具体步骤包括:

8、a、模型训练阶段,包括:

9、(1)创建物联网系统:物联网系统包括mec服务器、sdn控制器及智能物联网设备;所述mec服务器为智能物联网设备提供计算服务,所述sdn控制器负责任务调度和资源分配算法模型的训练与决策推理;

10、(2)在sdn控制器上部署基于深度强化学习的细粒度任务卸载与资源分配算法模型,并将该细粒度任务卸载与资源分配算法模型初始化;

11、(3)sdn控制器作为智能体与物联网系统环境进行交互采集训练数据:以时隙的方式进行决策生成与控制指令下发,其中,时隙长度为相干时间长度,将每个时隙内智能体与系统环境的交互信息定义为数据元组,存入经验池中;

12、(4)采用随机梯度下降算法训练细粒度任务卸载与资源分配算法模型,训练的目标是最小化系统的任务执行总时延;

13、(5)重复步骤(3)和(4),直到细粒度任务卸载与资源分配算法模型收敛,细粒度任务卸载与资源分配算法模型的训练过程结束,进入决策推理阶段;

14、b、决策推理阶段,包括:

15、(6)将训练好的细粒度任务卸载与资源分配算法模型重新部署到sdn控制器上,用于实现决策推理;

16、(7)在时隙开始时,sdn控制器收集物联网系统状态信息,由训练完成的sdn控制器做出计算卸载决策、mec计算资源分配决策和带宽分配决策,并以控制指令方式发送给智能物联网设备和mec服务器;

17、(8)在本时隙剩余的时间内,智能物联网设备和mec服务器执行收到控制指令,完成智能计算任务的卸载计算或本地计算;

18、(9)重复进行步骤(7)和(8),直到整个过程运行结束。

19、根据本发明优选的,物联网系统的无线通信过程为:

20、mec服务器与智能物联网设备之间采用正交频分的方式进行数据传输,且每个智能物联网设备使用不同的频带;

21、定义物联网系统给所有智能物联网设备分配的带宽比例为b(t)=(b1(t),…,bn(t),…,bn(t)),其中bn(t)为物联网系统为智能物联网设备n在时隙t分配的信道带宽比例;根据香农公式,数据从智能物联网设备n传输到mec服务器的最大传输速率传输速度rn(t)定义如式(i)所示:

22、

23、式(i)中,b为物联网系统的总的通信带宽,pn为智能物联网设备n的传输功率,gn(t)为智能物联网设备n在时隙t的无线信道增益,n0为高斯噪声功率谱密度。

24、根据本发明优选的,细粒度任务卸载与资源分配算法模型为双网络模型,包括由动作网络actor网络和评价网络critic网络;

25、actor网络和critic网络均采用全连接神经网络结构,包括一个输入层、多个隐藏层和一个输出层;定义s(t)是在时隙t物联网系统的状态信息,a(t)是在时隙t执行的决策动作,actor网络的输入为物联网系统的状态信息s(t),输出为要执行的决策动作a(t),actor网络的输出层的神经元分为两部分,一部分使用softmax激活函数输出连续的归一化的资源分配决策,另一部分使用sigmoid激活函数输出卸载决策的概率;

26、其中,actor网络按照策略a(t)=π(s(t)|θμ)输出一个确定性动作,critic网络通过输出一个估计的q值q(s(t),a(t)|θq)来评估这个确定性动作的好坏,其中,θμ和θq分别为actor网络和critic网络的网络参数。

27、根据本发明优选的,步骤(3)中智能体与物联网系统环境进行交互的过程及生成的数据元组(smeu(t),ssu(t),sl(t),g(t)):步骤(3)的具体实现过程为:

28、步骤3-1:在每个时隙的开始,sdn控制器作为智能体收集时隙t物联网系统的状态信息s(t),并基于s(t)做出决策,状态空间s描述为式(ii):

29、s={s(t)|s(t)=(smeu(t),ssu(t),sl(t),g(t))}  (ii)

30、其中,mec服务器包括执行单元,负责接收计算卸载的智能任务并进行计算处理;表示mec服务器的执行单元中的数据量,智能物联网设备包括调度单元,负责存储正在执行的计算任务的数据;表示智能物联网设备的调度单元中的数据量,表示智能物联网设备的任务队列长度,g(t)=(g1(t),…,gn(t),…,gn(t))表示智能物联网设备的无线信道增益,物联网系统的状态空间的维数为4n;

31、步骤3-2:在收集到时隙t物联网系统的状态信息s(t)后,sdn控制器将做出决策动作a(t)并向mec服务器和智能物联网设备发送控制信号;动作空间a描述为式(iii):

32、

33、其中,x(t)、φ(t)和b(t)分别为卸载决策、mec计算资源分配决策和系统带宽资源分配决策,物联网系统的动作空间的维数为3n;

34、步骤3-3:选择并执行决策动作a(t)后,物联网系统从s(t)转移到s(t+1),其中,状态转移概率表示为p(s(t+1)|s(t),a(t));

35、步骤3-4:选择并执行决策动作a(t)后,物联网系统产生针对此决策动作a(t)的即时奖励r(t);采用每时隙的物联网系统优化目标值的相反数作为该物联网系统的奖励函数;奖励函数r(t)定义为式(iv):

36、

37、其中,ξ为任务溢出的惩罚参数,αn,m(t)为任务溢出指示参数,dn,m(t)表示智能物联网设备n的第m个任务在t时隙的时延,即如果该任务在队列中等待或正在执行计算,则有dn,m(t)=ts,否则dn,m(t)=0。ts为时隙长度。

38、根据本发明优选的,步骤(4)中,物联网系统的优化目标是最小化物联网系统任务执行总时延;以最小化物联网系统总体任务完成时延为目标函数,设计联合计算卸载与资源分配决策算法,建立的优化问题如式(v):

39、

40、s.t.

41、c1:x=(x1,…,xn)

42、c2:

43、c3:b=(b1,…,bn)

44、c4:

45、c5:

46、c6:

47、c7:

48、c8:

49、其中,dn,m(t)表示智能物联网设备n的第m个任务在t时隙的时延,即如果该任务在队列中等待或正在执行计算,则有dn,m(t)=ts,否则dn,m(t)=0;αn,m为任务溢出指示参数,当智能物联网设备n的第m个任务溢出时αn,m=1,否则αn,m=0;ξ为时间惩罚参数;c1、c2和c3分别为卸载决策、mec服务器计算资源分配决策和带宽资源分配决策;约束c4表示每个智能物联网设备在一个时隙只能选择本地计算模式或计算卸载模式中的一种模式来处理它的任务;约束c5表示mec服务器为智能物联网设备分配的计算资源的比例不超过1,约束c6表示系统为智能物联网设备分配的带宽资源的比例不超过1,约束c7表明mec服务器分配给所有智能物联网设备的计算资源不能超过mec服务器的计算资源总量,约束c8表明系统分配给所有智能物联网设备的带宽资源不能超过系统带宽资源的总量。

50、根据本发明优选的,根据贝尔曼方程,值函数q(s(t),a(t))为在状态s(t)下采取行动a(t)的期望累积回报,表示为式(vi):

51、

52、其中,γ∈[0,1],是折扣因子;因此,细粒度任务卸载与资源分配算法模型训练目标为式(vii):

53、q(s(t),a(t))≈q(s(t),a(t)|θq)  (vii)

54、critic网络采用随机梯度下降法进行参数更新,其损失函数l(θq)表示为式(viii):

55、

56、其中,q′(s(t+1),a′(t+1))是目标critic网络输出的q值;

57、actor网络采用随机梯度下降算法进行更新,目标函数的梯度表示为式(ix):

58、

59、根据本发明优选的,步骤(4)中,在确定性动作中添加了ornstein-uhlenbeck噪声,并设定随着训练时间增长噪声逐渐减小,采用软替换策略来进行目标的细粒度任务卸载与资源分配算法模型参数更新,每个训练周期内的参数更新过程为式(x):

60、θ't+1=(1-ε)·θ't+ε·θt(x)

61、其中,θ't为目标的细粒度任务卸载与资源分配算法模型参数,θt为估计的细粒度任务卸载与资源分配算法模型参数。

62、根据本发明优选的,步骤(4)中,细粒度任务卸载与资源分配算法模型的训练过程为:

63、初始化细粒度任务卸载与资源分配算法模型的参数以及其他固定的参数,在训练之前,先通过与环境的交互收集部分数据元组并将其存储到经验池中;对于每个训练回合,从经验池中抽取一个小批量样本,根据式(viii)、(ix)和(x)更新细粒度任务卸载与资源分配算法模型参数;与此同时,经验池中的数据随着训练过程的进行而更新;对目标的细粒度任务卸载与资源分配算法模型进行k轮训练,直至目标的细粒度任务卸载与资源分配算法模型收敛,得到最终的目标的细粒度任务卸载与资源分配算法模型。

64、根据本发明优选的,步骤(7)中,物联网系统的细粒度任务调度过程为:

65、首先,在每个时隙开始时,sdn控制器收集物联网系统的状态信息,由训练完成的sdn控制器做出计算卸载决策和mec计算资源分配决策和带宽资源分配决策,同时向智能物联网设备和mec服务器发送控制指令;

66、然后,物联网系统将在剩余的时间内执行命令,完成卸载计算或本地计算;

67、智能物联网设备产生的任务是串行依赖任务流,且任务是随机到达的,不同智能物联网设备之间具有工作负载差异;所有未被处理的任务都在本地的任务队列中等待,最先产生的任务具有更高的优先级;

68、智能物联网设备的内部包括调度单元、本地执行单元和数据传输单元,其中,调度单元负责存储正在执行的计算任务的数据,本地执行单元负责在本地执行计算任务,数据传输单元负责将卸载的任务数据传输至mec服务器进行计算;mec服务器包括执行单元,负责接收计算卸载的智能任务并进行计算处理;

69、当任务即将被执行时,它被放入调度单元中;此后,在每个时隙中,该任务或者被转发到本地执行单元处理,或者被通过数据传输单元卸载到mec服务器;mec服务器的执行单元接收到这些数据,在下一个时隙进行计算处理;

70、最终,将处理完成后的计算结果发回给智能物联网设备;智能物联网设备的集合表示为第n个智能物联网设备产生的任务集合表示为mn为整个过程中生成的任务数。

71、根据本发明优选的,物联网系统的任务计算模式包括本地计算模式和卸载计算模式:

72、本地计算模式为:

73、定义智能物联网设备n的处理器处理频率为时隙长度为ts,定义在t时隙智能物联网设备的卸载决策为x(t)=(x1(t),…,xn(t),…,xn(t)),其中,xn(t)为智能物联网设备n的卸载决策,xn(t)=0表示任务在本地执行,xn(t)=1表示任务卸载到mec服务器执行,则在t时隙,本地计算的数据量大小表示为式(xi):

74、

75、式(xi)中,kn为智能物联网设备n中当前被处理的任务1bit数据量所需的cpu转数;

76、卸载计算模式为:

77、定义mec服务器的处理器处理频率为fc,定义mec服务器在t时隙的计算资源分配比例为其中表示mec服务器分配给智能物联网设备n的计算资源比例;因此,智能物联网设备n在t时隙边缘计算的数据量大小表示为式(xii):

78、

79、式(xii)中,kn为智能物联网设备n中当前被处理的任务1bit数据量所需的cpu转数。

80、根据本发明优选的,步骤(7)中,sdn控制器收集物联网系统的状态信息s(t)包括:(smeu(t),ssu(t),sl(t),g(t)):表示mec服务器的执行单元中的数据量,表示本地的调度单元中的数据量,表示物联网设备的任务队列长度,g(t)=(g1(t),…,gn(t),…,gn(t))表示智能物联网设备的无线信道增益。

81、根据本发明优选的,步骤(7)中,sdn控制器的决策信息a(t)包括:x(t)=(x1(t),…,xn(t),…,xn(t))表示智能物联网设备的卸载决策,表示mec服务器计算资源分配决策,b(t)=(b1(t),…,bn(t),…,bn(t))表示物联网系统的带宽资源分配决策。

82、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现面向mec网络的细粒度任务卸载及资源分配方法的步骤。

83、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现面向mec网络的细粒度任务卸载及资源分配方法的步骤。

84、本发明的有益效果为:

85、1、本发明考虑了物联网场景中动态变化的网络环境和随机系统环境,设计了一个基于多接入边缘计算结构的细粒度任务卸载与资源分配方法,有效降低了系统长期任务处理时延。

86、2、本发明采用细粒度任务调度方法,对于可部分卸载的任务,可以根据当前时刻的系统环境状态做出卸载与资源分配决策,相比于任务的整体调度,本发明可以得到更加优化的调度方案,达到更低的系统长期任务处理时延,适用于物联网中时延敏感型应用。

87、3、本发明采用深度强化学习方法进行问题求解,从实际出发,将优化问题建模为马尔可夫决策过程,并采用ddpg模型结构有效地解决了巨大的状态和混合动作空间,解决了混合整数非线性规划问题传统凸优化方法难以求解的困难,降低了问题求解的复杂度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1