一种基于强化学习的车联网边缘计算资源调度方法

文档序号:37464532发布日期:2024-03-28 18:47阅读:38来源:国知局
一种基于强化学习的车联网边缘计算资源调度方法

本发明属于车载边缘计算,具体涉及一种基于强化学习的车联网边缘计算资源调度方法。


背景技术:

1、在车联网中,车辆通过无线通信技术进行信息交换,可以实现车辆之间的协同,提高路况信息的准确性和实时性,促进交通安全和效率。然而,由于车辆资源和计算能力有限,车联网应用需要依赖于边缘计算,将计算任务卸载到边缘设备上进行处理,以减少通信延迟和降低能耗。

2、现有技术中,已经有一些任务卸载和资源分配的方法。例如,可以采用虚拟机的方式,在边缘设备上创建虚拟机来执行任务。也可以采用基于规则的方法,根据任务类型和车辆状态等因素,静态地分配任务和资源。此外,还有一些基于机器学习的方法,如基于神经网络的方法,可以自适应地学习任务卸载和资源分配策略。然而,现有技术中仍然存在一些问题:

3、1.现有的静态分配方法往往无法适应复杂的车联网环境和动态的交通状况,无法实现最佳性能和用户体验;

4、2.现有方法面对车联网场景时,往往没有考虑到任务卸载和资源分配的时延和能耗问题,无法在实际应用中满足实时性和能耗要求。

5、因此,如何在车联网边缘设备上进行任务卸载和资源分配,以实现最佳性能和用户体验,成为当前车联网研究的重点。


技术实现思路

1、本发明针对上述现有技术存在问题,提出一种基于强化学习的车联网边缘计算资源调度方法。以实现更为高效的任务卸载和资源分配,在实际应用中具有较好的实时性和能耗优化性能,为用户提供更好的服务和体验。

2、本发明是通过以下技术方案来实现的,一种基于强化学习的车联网边缘计算资源调度方法,所述方法如下:

3、步骤1,采集车辆状态和任务流量等数据xt,并传输给主边缘设备;

4、步骤2,主边缘设备对采集到的数据xt进行预处理后得到数据

5、步骤3,构建lstm预测模型,并对步骤2中经过预处理后的数据进行训练,对缓存的训练结果进行排序,预测数据的流行度curq;

6、步骤4,基于步骤3中得到的流行度curq,结合强化学习训练的当前状态进行训练,将流行度curq作为强化学习的状态,主边缘设备将任务量分配给从边缘设备的行动作为动作空间;在进行任务分配时,根据从边缘设备计算的时延以及消耗的能量作为奖励r,根据奖励r决定下一次的任务量分配,得到最优的任务卸载策略;

7、步骤5,主边缘设备根据最优任务卸载策略对需要计算的任务量分配到从边缘设备中进行计算,并将计算结果反馈给主边缘设备;

8、步骤6,主边缘设备根据接收的从边缘设备发送的计算结果进行任务处理的性能评估,将性能评估结果作为奖励r反馈给步骤4强化学习训练过程得到更新后的q值,根据更新后的q值,主边缘设备对任务卸载策略进行再优化,进一步调整任务资源分配。

9、进一步地,步骤2所述的主边缘设备对采集到的数据xt进行预处理后得到数据具体步骤如下:

10、步骤2.1标准化:将数据xt进行标准化,以便将数据缩放到[0,1]的范围内,以确保不同特征的权重相当。

11、步骤2.2序列化:将标准化后的数据整理成时间序列的形式,以便lstm能够捕捉时间依赖性。每个时间步都是网络的一个输入。

12、步骤2.3特征工程:提取步骤2.2中数据的自相关特征和时间间隔特征,以帮助网络更好地学习数据的模式。

13、进一步地,所述步骤3中lstm模型,其特征在于,lstm模型有三种类型的门:

14、忘记门ft,决定要忘记前一个单元格状态中的哪些信息;它将先前的隐藏状态和当前输入作为输入,并输出一个向量,其中包含先前单元格状态中每个元素的0到1之间的值;值为0意味着相应的元素被完全遗忘,而值为1意味着它被完全保留;

15、输入门int,决定向单元状态添加哪些新信息;它将先前的隐藏状态和当前输入作为输入,并为新的候选单元格状态中的每个元素输出一个值在0到1之间的向量;值为0意味着对应的元素不应该被添加,而值为1意味着它应该被完全添加;

16、输出门outt,决定从当前单元格状态输出哪些信息作为隐藏状态;它将先前的隐藏状态和当前输入作为输入,并输出当前单元格状态中每个元素的值在0到1之间的向量;这些值乘以当前隐藏状态以产生输出。

17、通过对lstm模型进行改进,提高了模型的预测精度和泛化能力。具体地,在lstm模型中引入注意力机制,即对缓存的内容按时序进行排序得到序列idxq,使模型能够更好地捕捉数据中的时序依赖关系。同时,通过概率计算得到流行度curq防止模型过拟合,提高模型的鲁棒性。

18、步骤3所述的对步骤2中经过预处理后的数据进行训练,对缓存的训练结果进行排序,预测数据的流行度curq,具体为:

19、步骤3.1,在t-1时刻lstm模型的输出任务数据ht-1和t时刻的数据输入到lstm模型中,通过遗忘门控制数据的遗忘;遗忘控制函数ft如下:

20、

21、式中,δ为非线性激活函数,αf为遗忘控制函数的递归权矩阵,βf为遗忘控制函数的偏差向量;

22、步骤3.2,在t-1时刻内lstm模型的输出任务数据ht-1和t时刻的数据输入到lstm模型中,通过输入门控制数据保留,并创建t时刻的状态ct,保留控制函数int和状态ct具体如下;

23、

24、

25、式中,αin为保留控制函数的递归权矩阵,βin为保留控制函数的偏差向量;tanh为非线性激活函数,αc为状态ct的递归权矩阵,βc为状态ct的偏差向量;

26、步骤3.3、根据步骤3.1中的遗忘控制函数ft和步骤3.2中的状态ct更新得到t+1时刻的状态ct+1;具体的公式如下:

27、

28、式中,ct-1为t-1时刻的状态;

29、步骤3.4、利用输出门控制输出本次训练的结果ht,并将ht作为下一次训练的输入,具体公式如下:

30、

31、ht=outt·tanh(ct+1)

32、式中,αout为控制输出函数outt的递归权矩阵,βout为控制输出函数的outt偏差向量;

33、步骤3.5、对步骤3.4中的每一次训练结果ht进行缓存,缓存的结果记为:

34、

35、对缓存的内容进行排序,得到排序后的索引向量:

36、idxq={idx1,idx2,idx3,…,…,idxw}

37、步骤3.6、将索引向量作为概率模型的输入,通过概率计算得到流行度curq;概率模型公式如下:

38、

39、式中,idxq是索引向量,τ概率模型中的参数;w是索引的最大值。

40、进一步地,步骤4中,具体如下:

41、强化学习训练中整个车联网网络作为强化学习的环境,将流行度curq作为强化学习的状态,主边缘设备将任务量分配给从边缘设备的行动作为动作空间;在进行任务分配时,根据从边缘设备计算的时延以及消耗的能量等参数作为奖励r,根据奖励决定下一次的任务量分配。

42、步骤4.1、初始化q网络与经验回放缓冲区,用于存储过去的经验元组qe-1=(curq,s,a,r,ns),其中,curq为流行度,s为训练的当前状态,a为训练过程中执行的动作,r为得到的奖励,ns为训练的下一个状态。

43、步骤4.2、使用当前的q网络和ε贪婪策略选择当前状态下的动作。ε贪婪策略以ε的概率随机选择一个动作,以1-ε的概率选择当前估计q值最高的动作。

44、步骤4.3、根据q值最高的动作,在训练环境中得到下一个状态ns,并获得的相应的奖励r;并将更新后的经验元组qe-1=(curq,s,a,r,ns)存储到经验回放缓冲区;

45、步骤4.4、在经验回放缓冲区随机采样一批经验元组,用于训练q网络得到q值;

46、q网络的训练过程公式如下:

47、

48、式中,所述α为强化学习训练的学习率;所述γ为折扣率;r为训练完成后得到的奖励;为梯度下降参数;

49、所述梯度下降参数计算公式如下:

50、

51、式中,μ表示从边缘设备单位时间内可以处理的任务量;r为训练完成后得到的奖励;表示从边缘设备单位时间内接收的任务量;cl为一致性损失。

52、步骤4.5、计算目标q值qtar,与步骤4.4中的q值比较得到方差;进一步地,计算一致性损失cl;

53、目标q值的计算公式如下:

54、qtar=r+γmax{qe-1}

55、式中,γ是折扣率,控制学习的步长;r为训练完成后得到的奖励;

56、一致性损失计算公式如下:

57、cl=e[(qtar-q)2]

58、式中,符号e表示求方差;

59、步骤4.6、根据一致性损失cl,采用梯度下降参数加速q网络训练的收敛,并根据优化后的q值得到最优任务卸载策略。

60、进一步地,所述步骤4、步骤6中奖励r定义如下:

61、

62、其中,n是从边缘设备得到的计算任务的总数量;fcpu是从边缘设备的工作频率;et是从边缘设备t时刻消耗的能量;dt是从边缘设备t时刻计算任务的最大容忍延迟;dis是主边缘设备和从边缘设备之间的欧式距离;ω1、ω2、ω3是权重系数,ω1+ω2+ω3=1。

63、本发明具有以下有益效果:(1)本发明利用强化学习算法,根据车辆状态和任务类型等因素,动态地调整资源分配策略;相比于传统的静态分配方法和基于规则的自适应分配方法,该方法可以更准确地适应复杂的车联网环境和动态的交通状况,实现最佳性能和用户体验;

64、(2)本发明利用lstm预测模型,对车辆状态和任务流量进行预测,以更准确地进行任务卸载和资源分配;相比于传统的基于机器学习的自适应分配方法,该方法利用lstm模型可以更准确地预测车辆状态和任务流量,提高资源分配和任务调度的准确性和效率;

65、(3)本发明在任务卸载和资源分配中,通过lstm模型训练得到任务流量的流行度以及强化学习训练的最优卸载策略,减少了边缘设备的使用以及减少计算时间和计算资源,进一步地,实现时延和能耗整体降低的效果,可以在实际应用中满足实时性和能耗要求。相比于传统的静态分配方法和基于规则的自适应分配方法,该方法可以更好地平衡性能和能耗,提高整体的效率和可靠性。

66、(4)本发明所述的方法可以应用于各种车联网应用场景,包括交通安全、智能驾驶、车辆远程监测等,具有广泛的应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1