基于多目标深度强化学习的数字孪生体部署方法

文档序号:40389172发布日期:2024-12-20 12:12阅读:21来源:国知局
基于多目标深度强化学习的数字孪生体部署方法

本发明属于边缘网络,更为具体地讲,涉及一种基于多目标深度强化学习的数字孪生体部署方法。


背景技术:

1、随着物联网(iot)、下一代移动通信(6g)和人工智能(ai)等技术快速发展,城市移动用户数据和信息呈指数增长。移动用户通过与虚拟空间交互信息来实现对物理空间的监测、预测分析以及决策支持,受到研究者们广泛关注。数字孪生(dt)作为一种将虚拟世界和物理世界结合的变革性技术,被认为是解决上述挑战最有前途的技术之一。然而,在实际部署中,数字孪生对持续低延迟和大量计算资源的需求很难同时满足,这给用户数字孪生的放置问题带来了挑战。

2、近年来,移动边缘计算(mec)的快速兴起为数字孪生的放置带来了新的机遇。通过将低延迟和丰富的计算资源带到靠近用户的网络边缘,大大缩短了用户与边缘服务器之间的距离。在数字孪生和移动边缘计算的结合中,mec分布式的边缘节点,为用户数字孪生的放置提供充足资源的同时能够有效的维持其持续低延迟交互。因此,数字孪生作为6g中最有前途的技术之一,将被广泛放置在边缘网络中,旨在减小用户与其数字孪生之间的实时交互延迟。


技术实现思路

1、本发明的目的在于克服现有技术的不足,提供一种基于多目标深度强化学习的数字孪生体部署方法,设置多个优化目标,采用多目标深度强化学习来确定数字孪生体的部署策略,提高数字孪生边缘网络的合理性和工作性能。

2、为了实现上述发明目的,本发明基于多目标深度强化学习的数字孪生体部署方法包括以下步骤:

3、s1:获取数字孪生边缘网络中用户集合为u={u1,u2,...,un},un表示第n个用户,n=1,2,…,n,n表示用户数量,智能反射表面集合为i={i1,i2,...,ik},ik表示第k个智能反射表面,k=1,2,…,k,k表示智能反射表面数量,边缘服务器集合为e={e1,e2,...,em},em表示第m个边缘服务器,m=1,2,…,m,m表示边缘服务器数量;

4、s2:为每个用户un设置一个多目标深度强化学习模型,参数设置如下:

5、状态:状态s(t)={su1(t),…,sun(t),si1(t),…,sik(t),se1(t),…,sem(t)},其中sun(t)表示用户un在时刻t的状态信息,包括位置、速度、波束成形矢量,sik(t)表示智能反射表面ik的状态信息,包括位置、反射参数,sem(t)表示边缘服务器em的状态信息,包括位置和总资源量;

6、动作:设置动作其中xn,m=1表示用户un的数字孪生部署至边缘服务器em,否则xn,m=0;

7、奖励函数:奖励函数r的计算公式如下:

8、

9、其中,i表示三维单位向量,f=[tsyn(t),eccom(t),-ldos(t)]表示目标函数向量,tsyn(t)表示总体同步延迟,计算方法如下:

10、计算智能反射表面辅助下用户un和边缘服务器em之间的信号传输速率rn,m(t):

11、

12、其中,pn,m(t)表示考虑路径损耗下的用户un对边缘服务器em的传输功率,其计算公式如下:

13、

14、γκ噪比阈值,d0是参考距离,α是路径损耗指数,dn,m(t)表示时刻t时用户un和边缘服务器em之间的距离;n0表示噪声功率谱密度,b表示信道带宽,νn(t)是时刻t时用户un的波束成形矢量,表示智能反射表面辅助下用户un和边缘服务器em的通道矢量:

15、

16、其中,hn,m(t)表示用户un和边缘服务器em之间的信道增益:

17、

18、λα表示路径衰落因子,εκ表示失真因子,dn,m(t)表示时刻t时用户un和边缘服务器em之间的距离;为时刻t时用户un与智能反射表面ik之间的通道增益,dn,k(t)表示时刻t时用户un到智能反射表面ik的距离,表示智能反射表面ik和边缘服务器em之间的通道增益,dk,m表示智能反射表面ik到边缘服务器em之间的距离,θk表示智能反射表面ik的反射参数;

19、计算时刻t时用户un传输实时运行数据dn到边缘服务器em的传输延迟

20、

21、其中,|dn|表示实时运行数据dn的大小;

22、计算时刻t时用户un传输实时运行数据dn到边缘服务器em上的处理时间

23、

24、fn,m(t)表示时刻t时用户un消耗边缘服务器em的计算资源;

25、采用如下公式计算时刻t时单位时间的用户un的数字孪生的同步时延为:

26、

27、δdn表示用户un单位时间内的传输数据大小;

28、采用如下公式计算总体交互延迟tsyn(t):

29、

30、eccom(t)表示总体交互能耗,计算方法如下:

31、采用如下公式计算用户un对边缘服务器em进行实时交互数据的能耗ecn,m(t):

32、

33、然后采用如下公式计算总体交互能耗eccom(t):

34、

35、ldos(t)表示总体服务时长,计算方法如下:

36、计算用户un经过边缘服务器em服务范围内的路径长度jn,m(t):

37、

38、表示用户un在时刻t的位置坐标,表示边缘服务器em在时刻t的位置坐标,rn,m表示以边缘服务器em为圆心,半径为的圆;

39、采用如下公式计算边缘服务器em为用户un所提供的服务时长

40、

41、其中,表示用户un的移动平均速度;

42、然后采用如下公式计算总体服务时长ldos(t):

43、

44、表示惩罚项,其计算公式如下:

45、

46、其中,μ表示惩罚系数,ks[g]表示约束项的聚合项,其表达式如下:

47、

48、ρ是预设的正常数,gi表示第i个约束项,i=1,2,…,6,gmax表示所有约束项的最大值,每个约束项表达式如下:

49、g1:-pn,m(t)≤0

50、g2:pn.m(t)-pmax≤0

51、g3:

52、g4:fn,m(t)-fm≤0

53、g5:

54、g6:

55、其中,pmax表示最大无线传输功率,表示最大延迟,fm表示边缘服务器em的总资源量,κ为一个大于0小于1的常数,an,k为布尔变量,an,k=1时表示用户un由智能反射表面ik辅助与边缘服务器信息交互,否则an,k=0;

56、s3:构建多目标深度强化学习模型,包括策略网络θ和评价网络q,其中评价网络q基于深度神经网络实现,将状态和偏好向量输入该深度神经网络,输出大小为3na的q值向量,na表示动作空间的大小,然后训练多目标深度强化学习模型,具体方法为:

57、s3.1:随机初始化策略网络θ和评价网络q的参数,并复制作为目标策略网络θ′和目标评价网络q′;

58、s3.2:建立回放缓冲区d并对其进行初始化;

59、s3.3:将偏好向量w=(w1,w2,w3)的取值空间ω划分为c个偏好子空间c=1,2,…,c,wj表示第j个优化目标的权重;

60、s3.4:令训练轮次z=1;

61、s3.5:初始化时刻t=0,获取初始状态s(0);

62、s3.6:为每个偏好子空间启动一个子进程用于生成经验样本,具体方法为:

63、从当前子空间中采样一个偏好向量w=(w1,w2,w3);由策略网络θ根据状态s(t)进行动作选择得到动作a(t),根据状态s(t)和动作an(t)得到下一时刻的状态s(t+1)和奖励r(t);将状态转移数据(s(t),a(t),r(t),w,s(t+1))作为经验样本存储至回放缓冲区d中;如果经验回放缓存池d中经验样本数量超出其预定容量,按照既定规则删除多余经验样本;

64、然后从当前经验回放缓存池d的所有经验样本中随机采样nw个偏好向量wv,v=1,2,…,nw;然后将nw个状态转移数据(s(t),a(t),r(t),wv,s(t+1))作为经验样本存储至回放缓冲区d;

65、s3.7:从经验回放缓存池d中采样b个转换状态数据;

66、s3.8:使用插值器对b个转换状态数据中每个偏好向量分别进行插值,将偏好向量的维度与q值向量的维度对齐,得到插值后的偏好向量;

67、s3.9:对于经过偏好向量插值后的b个转换状态数据,使用目标评价网络q′对动作进行估值得到动作的价值yb:

68、

69、其中,γ表示折扣因子,rb表示第b个转换状态数据中的奖励,表示第b个转换状态数据中插值后的偏好向量,ab′、sb′分别表示第b个转换状态数据中下一时刻的动作和状态,q′()表示目标评价网络q′所得到的q值向量,sc()表示求取相似度,上标t表示转置;

70、计算损失函数l(θ)并对策略网络的参数进行更新;

71、s3.10:判断是否t<t,t表示预设的最大时间步,如果是,进入步骤s3.11,否则进入步骤s3.12;

72、s3.11:令t=t+1,返回步骤s3.6;

73、s3.12:计算评价网络q的梯度,对评价网络的参数进行更新;

74、s3.13:判断是否z<z,z表示预设的最大训练轮次,如果是,进入步骤s3.14,否则训练结束;

75、s3.14:判断是否z%η=0,η表示目标网络更新周期,如果是,进入步骤s3.15,否则进入s3.16;

76、s3.15:更新目标网络参数:

77、更新目标评价网络和目标策略网络参数:

78、q′←τq+(1-τ)q′

79、θ′←τθ+(1-τ)θ′

80、其中,τ表示预设的权重。

81、s3.16:令z=z+1,返回步骤s3.5;

82、s4:采集当前数字孪生边缘网络中各个用户、各个智能反射表面和各个边缘服务器的状态信息构建状态s,然后采用步骤s3.3训练好的策略网络确定最优动作a,从而确定每个用户的数字孪生所部署的边缘服务器序号,得到数字孪生部署策略。

83、本发明基于多目标深度强化学习的数字孪生体部署方法,针对数字孪生边缘网络进行分析,构建多目标深度强化学习模型的状态、动作和奖励函数,在状态中引入用户和智能反射表面的连接关系,在奖励函数中引入约束项的惩罚函数,然后对多目标深度强化学习模型进行设置和训练,实时获取当前数字孪生边缘网络的状态信息,采用训练好的多目标深度强化学习模型确定各个数字孪生体部署的目标边缘服务器。

84、本发明具有以下有益效果:

85、1)本发明所构建的数字孪生边缘网络的模型结合了用户数字孪生、移动边缘计算和智能反射表面技术(irs),采用irs技术优化系统的无线通信环节,使用边缘网络中分布式的计算和存储资源优化数字孪生的维护环节;

86、2)本发明在多目标深度强化学习模型的奖励函数设置中设置了交互延迟、能耗和服务时长作为优化目标,使最终得到的数字孪生体部署策略更加合理;

87、3)本发明在多目标深度强化学习模型的训练过程中,采用kreisselmeier-steinhauser(ks)约束聚合方法将多约束聚合为一个单一约束,进一步将单一约束转化为目标函数中的惩罚函数,以实现无约束问题的转化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1