一种基于深度强化学习的车辆任务卸载方法与系统

文档序号:36384875发布日期:2023-12-14 21:10阅读:51来源:国知局
一种基于深度强化学习的车辆任务卸载方法与系统

本发明属于车联网领域,具体涉及一种基于深度强化学习的车辆任务卸载方法与系统。


背景技术:

1、随着车联网技术的快速发展,车载应用的需求日渐多样化,车辆对计算资源的需求规模扩大。而车载设备本身计算能力有限,车联网中计算资源短缺问题日益凸显,无法满足用户对低时延和较高网络服务质量的需求。因此在资源有限的车辆执行较大的计算任务仍是一个重要挑战。计算任务卸载的出现一定程度上缓解了上述问题,通过将车联网的计算任务卸载到临近的服务器或路边基站,一定程度上缓解部分计算资源的压力。

2、然而传统的任务卸载方法没有考虑车联网环境的动态性,采用的算法本身存在局限性,存在计算复杂度高、卸载模型固化的问题,并不完全适应车联网场景,在服务需求量较大,场景较复杂的情况下不能为用户提供低时延、高稳定的服务。


技术实现思路

1、发明目的:针对以上问题,本发明提出一种基于深度强化学习的车辆任务卸载方法与系统,整合深度强化学习算法和边缘计算结构,将二者结合引入到车联网的计算资源分配问题中,充分利用其在环境感知、环境交互、自主学习和智能决策等方面的性能优势,来满足复杂车联网场景中较大计算任务的需求,提高任务卸载决策效率,减小计算成本,减小带宽取得更大的效益。

2、技术方案:为实现本发明的目的,本发明所采用的技术方案是:

3、第一方面,本发明提供了一种基于深度强化学习的车辆任务卸载方法,包括以下步骤:

4、步骤一,用户车辆发起任务请求,产生相应计算任务,并将计算任务上传至当前所在路段的边缘服务器;

5、步骤二,各路段的边缘服务器收集各路段计算任务,并将任务和各服务器的资源信息上传至云服务器;

6、步骤三,根据云服务器任务卸载过程的各项指标,建立优化问题方程;所述指标包括数据传输速率、计算任务大小和用户车辆的本地执行cpu频率;

7、步骤四,云服务器通过采用ddpg算法进行任务卸载的决策,ddpg算法通过智能体与环境的交互过程更新深度神经网络的权值,进行自主训练和学习,获取最优任务卸载策略;所述智能体是指在道路行驶的汽车,所述环境是指车联网场景;

8、步骤五,云服务器向边缘服务器和用户车辆下发卸载决策,如果执行任务卸载,用户车辆依据决策中的卸载比例,向当前路段的边缘服务器卸载相应计算任务,其余计算任务用于本地处理。

9、进一步的,步骤三中建立优化问题方程的方法如下:

10、将ofdm技术用于用户车辆和边缘服务器之间的链路传输,根据香农理论,从用户 i到边缘服务器 j的数据传输速率为

11、(1)

12、其中是云服务器分配给用户车辆 i以将任务卸载到边缘服务器 j的带宽,为时段 t内用户车辆 i到边缘服务器 j的链路在任务卸载过程中的信噪比值;

13、设用户车辆 i在时段 t产生的计算任务大小为,用户车辆 i将计算任务卸载到边缘服务器 s的百分比为,是在本地执行的对应任务的百分比,则用户车辆 i在本地执行的计算任务大小表示为,单位为bit;

14、 x表示用户车辆 i完成一比特计算任务所需的cpu周期,则在时段 t完成本地计算任务所需cpu周期为;

15、如果用户车辆不进行任务卸载,则在时段 t内产生的本地计算时延表示为

16、(2)

17、其中,为用户车辆的本地执行cpu频率;在任务卸载过程中,用户车辆 i将计算任务卸载到边缘服务器 j进行协作计算,用户车辆 i在时段 t内产生的计算任务在本地计算时延和能量消耗分别表示为

18、(3)

19、(4)

20、其中,为用户车辆 i在时段 t内产生的计算任务在本地计算的时延,为用户车辆 i在时段 t内产生的计算任务在本地计算的能量消耗, ω为与cpu芯片结构相关的能量消耗因子,为用户车辆的本地执行cpu频率;

21、如果用户车辆将计算任务卸载到边缘服务器,首先根据式(1)建立的通信模型,用户车辆 i到边缘服务器 j实现的传输速率为,则需要的上传时延和上传时产生的能耗分别为

22、(5)

23、(6)

24、其中,为上传时延,为上传时产生的能耗,为边缘服务器与用户车辆传输过程中的能耗成本;则在时段 t内从用户车辆 i到边缘服务器 j的任务卸载全过程中的总时延和总能耗定义为

25、(7)

26、(8)

27、根据任务卸载过程中产生的时延和能耗限制,设计优化目标函数:

28、(9)

29、其中,是所有用户车辆的集合,是所有边缘服务器的集合,是当前路段的行驶车辆总数,是当前路段边缘服务器总数。

30、进一步的,采用ddpg算法进行任务卸载决策的流程如下:

31、step1:构建车联网场景任务卸载的马尔可夫决策模型,包括状态state,动作action,奖励reward三个关键要素,定义如下:

32、(1) state: 马尔可夫决策模型中的状态反映当前时段用户车辆和边缘服务器的可用资源状态,通过云服务器与二者的交互进行收集;时段 t中的状态集合表示为

33、(10)

34、其中,车辆状态集包括用户车辆 i的速度、自身计算能力、产生的任务量和任务所需的计算资源,代表用户车辆 i与边缘服务器 j之间的连接状态,和分别表示边缘服务器 j的可用计算资源和带宽资源;

35、(2) action: 在构建的马尔可夫决策模型中,云服务器将下发计算任务卸载和计算资源分配的一个决策,时段 t中的动作表示为:

36、(11)

37、其中,为计算任务卸载到边缘服务器的百分比,和分别表示云服务器配给用户车辆 i和边缘服务器 j的计算资源量,表示云服务器分配给用户车辆 i用于计算任务卸载的带宽;

38、(3) reward: 基于 t时段的state和action,ddpg算法的critic现实网络评估得到奖励 r,将 t时段深度强化学习输出的奖励函数定义为:

39、(12)

40、其中,表示时延的权重值,表示从用户车辆 i到边缘服务器 j的任务卸载全过程中的总时延,表示用户车辆不进行任务卸载在时段 t内产生的本地计算时延;

41、当任务卸载的时延大于不进行卸载的本地时延时产生正奖励,由此进行任务卸载模型的训练,当一轮任务卸载决策下发后,云服务器通过奖励值的大小评估该时段内的任务完成情况,调整下一轮训练的策略;

42、step2:云服务器在时段 t收集初始状态并输入ddpg算法的actor现实网络,包括用户车辆和边缘服务器的状态,形成状态元组,actor现实网络选择一个动作,定义如下:

43、(13)

44、其中,为神经网络模拟的当前在线策略,为随机噪声;对于车辆环境,车辆基于执行任务卸载方案,然后云服务器将相应的资源分配给车辆和边缘服务器;完成后云服务器的状态变为,并为云服务器返回即时奖励;下一状态通过actor目标网络计算出对应的下一状态的动作;

45、step3:将step2中得到的马尔可夫五元组作为一次经验存储到经验回放池中,基于优先经验回放机制进行随机采样;

46、step4:将step3采样得到的马尔可夫五元组数据输入critic现实网络和critic目标网络计算q值,给当前策略评分,定义如下:

47、(15)

48、其中,为折扣因子,用于调节决策的影响;代表critic现实网络,e代表数学期望的值;为当前状态采用策略选择动作评估得到的q值,为当前状态采用策略评估得到的q值,为critic现实网络在状态下输出的策略;

49、step5:通过优先经验回放机制得到第e轮次经验的td-error,其计算公式为:

50、(16)

51、其中,为神经网络模拟的下一状态行为策略,为折扣因子,为actor目标网络,代表critic目标网络;代表在critic目标网络下采用策略评估得到的q值,critic目标网络将传递给critic现实网络,目标是使其损失函数最小:

52、(17)

53、其中, k代表储存经验的个数;利用优先经验回放得到的采样元组,actor现实网络采用以下策略梯度更新行为策略:

54、(18)

55、其中,代表基于行为策略的状态s的概率分布函数,为当前状态s下critic现实网络输出的q值对于动作 a的梯度,为当前策略对actor现实网络的梯度,e代表数学期望的值;

56、step6:利用critic现实网络对critic目标网络的参数进行更新,表达式如式(19);利用actor现实网络对actor目标网络进行更新,表达式如式(20):

57、(19)

58、(20)

59、其中,是更新系数,在基于ddpg的方法中,当奖励函数收敛到一个稳定值时,此时输出的策略即为最优卸载策略。

60、第二方面,本发明还提供了一种基于深度强化学习的车辆任务卸载系统,包括云端管理层、边缘计算层和用户层,任务卸载策略由云端管理层下发;云端管理层由云服务器构成,用户层包括在道路上行驶的所有用户车辆,边缘计算层由分散在不同路段的边缘服务器构成,每一个边缘服务器覆盖一定路段区域,车辆在边缘服务器的覆盖范围内以一定速度沿道路行驶,该范围将道路分为一个个不重合的道路段;

61、用户车辆用于发起任务请求,产生相应计算任务,并将计算任务上传至当前所在路段的边缘服务器;各路段的边缘服务器用于收集对应路段不同车辆用户任务需求,并将任务和各服务器的资源信息上传至云服务器;云服务器中部署了深度强化学习算法模块,用于通过与边缘计算层的服务器进行交互,获取用户车辆的服务需求,经过算法模块中神经网络的多轮训练,得出任务卸载决策;用户车辆还用于对云服务器作出的决策进行评判,评判结果用于更新神经网络对应参数,学习任务卸载策略的优化方向;

62、云服务器具体执行以下操作:

63、根据任务卸载过程的各项指标,建立优化问题方程;所述指标包括数据传输速率、计算任务大小和用户车辆的本地执行cpu频率;云服务器通过采用ddpg算法进行任务卸载的决策,ddpg算法通过智能体与环境的交互过程更新深度神经网络的权值,进行自主训练和学习,获取最优任务卸载策略;所述智能体是指在道路行驶的汽车,所述环境是指车联网场景;云服务器向边缘服务器和用户车辆下发卸载决策,如果执行任务卸载,用户车辆依据决策中的卸载比例,向当前路段的边缘服务器卸载相应计算任务,其余计算任务用于本地处理。

64、有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:

65、(1)结合车联网和边缘计算架构,本发明提出了一种面向车联网的边缘计算系统模型,分为云端管理层,边缘层和车辆用户层,边缘服务器和云服务器协同工作,提高计算资源分配效率,减小计算成本,在云端管理层部署强化学习模型,以适应车联网场景中计算资源的动态变化。

66、(2)考虑车辆动态通信环境,本发明设计了一种能够实时感知的任务卸载方案,在云端采用ddpg算法下发任务卸载和计算资源的分配决策,充分利用其在环境感知、环境交互、自主学习和智能决策等方面的性能优势,来满足复杂车联网场景中较大计算任务的需求,结合优先经验回放机制来评估和选择动作,可以在连续动作空间中优化任务卸载策略,加快收敛速度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1