基于深度强化学习和区块链的分布式并行计算卸载方法

文档序号：34461546发布日期：2023-06-15 03:28阅读：51来源：国知局

本发明涉及车联网通信，更具体地说，它涉及基于深度强化学习和区块链的分布式并行计算卸载方法。

背景技术：

1、近年来，随着汽车保有量的增加，车联网(internet of vehicles,iov)应运而生，基于车用无线通信技术，车联网连接车辆用户、路侧单元(road-side unit,rsu)、运营服务商，提供例如自动驾驶、车载娱乐、路径导航等多种服务。然而，车联网应用程序不仅会消耗更多的计算资源，而且还需要额外的计算，缓存和带宽资源(computation,caching andcommunication，3c)。更重要的是，他们是潜伏期敏感的，虽然第五代(5g)技术已经被认为是最有希望的解决方案，但是很难快速的满足需求。第六代(6g)移动通信旨在提供全球覆盖，提高能源和成本效率，更好的智能水平和安全。为了向用户提供更好的服务，建立一个高效的，通存算一体化的计算卸载机制有重要意义。

2、边缘计算是一种能够较好满足车联网用户对低延迟服务的需求的方案，通过在rsu上部署边缘服务器(edge server,es)，大大缩短车联网用户和计算资源的距离，降低服务时延。但是因为边缘服务器配备的计算、存储、带宽资源往往是有限的，一旦边缘服务器发生过载，服务时延将会升高，因此，如何在满足边缘服务器资源限制约束下，决策用户卸载目的地，降低服务时延，是车联网计算卸载中极具挑战性的问题。与卸载计算任务到云计算中心相比，将计算任务传输到网络边缘的移动边缘计算(mobile edge computing，mec)服务器，无需经过核心网和数据中心，可实现本地业务本地化服务、降低能耗，满足业务低时延需求。

3、高空平台站(high altitude platform station,haps)被认为是部署无线通信补充地面通信基础设施的候选者,将无线基站安放在长时间停留在高空的飞行器上来提供电信业务，是一种易于部署、高度足以向大范围地区提供服务、增强宽带服务提供商能力的有效技术，既可为最终用户提供固定宽带连接，亦可在移动网与核心网之间为回程流量提供传输链路的潜力。结合这些网络要素,空中接入网(aerial access network,aan)已经引起了学术界和工业界的广泛关注，被认为是6g系统的潜在解决方案，6g网络可以无缝集成aan与地面网络，以支持真正的全球无线通信，因此，haps也可以应用于计算卸载。

4、深度学习(deep learning,dl)作为机器学习领域一个重要的研究热点，已经在图像分析、语音识别、自然语言处理、视频分类等领域取得了令人瞩目的成功。dl的基本思想是通过多层的网络结构和非线性变换，组合低层特征，形成抽象的、易于区分的高层表示，以发现数据的分布式特征表示。强化学习(reinforcement learning，rl)作为机器学习领域另一个研究热点，已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域.rl的基本思想是通过最大化智能体(agent)从环境中获得的累计奖励值，以学习到完成目标的最优策略。在车联网边缘计算场景下，用户需求、计算资源、通信环境等不断变化，其中卸载决策过程可以抽象为马尔可夫决策过程(markov decision process,mdp)。深度强化学习(deep reinforcement learning,drl)结合深度学习和强化学习，能够有效处理高纬度状态动作空间的马尔可夫决策问题。

5、同时，通信网络中的信息安全和隐私越来越受到重视，区块链技术和无线网络技术的结合是解决上述挑战的一种趋势，近年来引起了金融界和工业界的广泛关注。与集中式数字分类账不同，区块链使用一致性算法来同步跨多个用户复制的分布式数据，利用加密、认证技术和一致性机制维护一个完整的、分布式的、未被篡改的连续分类账数据库，完美地执行可信第三方不可缺少的部分。在区块链系统中，用户可以记录和查看数据，但不能修改或删除任何以前的数据，通过一致性算法保持数据的一致性。在区块链中有几种主流的共识机制，工作量证明(proof of work，pow)是比特币中经常使用的一种共识机制，它通过工作负载的竞争来决定谁可以向区块链写入数据，然而该方法会造成大量的电力浪费。权益证明(proof of stake,pos)将工作负载转化为用户在区块链中持有的权益的数量和持续时间，从而大大降低了维护区块链的成本，但极端的情况下会带来中心化的结果，不能适用于小范围分布式系统。实用拜占庭容错技术(practical byzantine faulttolerance，pbft)被认为是联盟链中解决分布一致性的一种高效共识机制，解决了多节点参与情况下的典型分布式一致性问题，如消息无序、参与方异常、网络分化等同时，在允许一定比例的拜占庭参与方的前提下，做到了最终一致性。其能容忍一定比例的任何形式的软件错误和安全漏洞，进行一致性检测，是一种区块链中联盟链的通用协议，因为其既可以保证一定的去中心化程度，而且还能防止分叉，pbft使得出块的速度只依赖于网络传输速度，性能上优于pow和pos，拥有更高的吞吐量、更低的共识延迟和更低的计算能耗。

6、综上现有技术存在以下缺点：

7、(1)不能实现计算任务卸载的细粒度拆分，负载不均衡，耗时过高；

8、(2)现有车联网计算卸载技术难以保护信息安全；

9、(3)传统数学方法难以处理高维度多变量的复杂优化问题；

10、(4)没有同时考虑3c(计算、缓存、通信)资源的协调分配；

11、(5)不能处理连续动作空间强化学习问题。

技术实现思路

1、本发明的目的是为了解决以上技术问题，而提出的在车联网环境下基于综合分配rsu的计算任务、保护用户隐私、降低系统耗时、增强带宽服务及在产生卸载策略进行分配时能得到更长远的收益的一种基于深度强化学习和区块链的分布式并行计算卸载方法。

2、为了实现上述目的，本发明采用了如下技术方案：一种基于深度强化学习和区块链的分布式并行计算卸载方法，包含以下步骤：

3、s1：每个rsu范围下的车产生计算请求，rsu收集计算请求并汇总为m个计算任务，haps收集计算任务信息、各rsu计算资源情况、车辆对剩余计算资源的容忍度情况、功率及信道信息，建立计算通信缓存资源管理优化模型，优化目标为最小化所有任务的最大耗时；

4、s2：haps对计算任务进行分配，每个计算任务被细粒度拆分，以最小化最大计算耗时为优化目标，将这些计算任务卸载到rsu及mec服务器中，控制的限制条件为满足分配后的剩余计算资源满足车辆的容忍度；

5、s3：haps对rsu和自身的功率进行控制，在通信过程中，以最小化最大通信传输耗时为优化目标，分配各环节传输功率，控制的限制条件为每个设备的最大可用总功率；

6、s4：haps作为主控制器将步骤s2、s3得到的卸载策略发送至区块链系统，区块链系统采用pbft共识机制，经过请求、预准备、车辆投票、准备、提交、回复后达成共识；

7、s5：各rsu按照卸载策略进行任务传输和计算，在计算完成后按原路将计算结果回传给车辆用户，haps系统更新相应各类参数。

8、进一步地，所述分布式并行计算卸载方法的步骤s1具体步骤为：关注于一个时隙，每辆车会产生自己的计算任务并发送给临近的rsu，每个rsu将所有计算任务宏观上组合成一个总的可拆分任务，并将其信息发送给haps，从m个rsu生成总计m个计算任务，对一个计算任务taskj，其中j∈{1，2，...，m}，被定义为taskj＝<ωj，dj，dj′>的三元组，分别为该任务的计算量、传输该任务的数据量、以及该任务返回结果的数据量；

9、haps收集各rsu计算资源情况、车辆对剩余计算资源的容忍度情况、功率及信道信息，建立计算通信缓存资源管理优化模型，优化目标为最小化所有任务的最大耗时：

10、

11、其中是每个计算任务taski处理的总耗时：

12、

13、其中是rsu上传任务信息、计算通信资源情况所消耗的时间，被认为是固定值；

14、是haps生成卸载策略所消耗的时间，被认为是固定值；

15、是整个系统通过区块链达成共识环节的耗时；

16、是任务i实际执行并完成的耗时，为：

17、

18、

19、

20、

21、

22、其中ttrans，i，j为计算任务从发起方i到计算代理j的传输延迟，tcom，i，j为计算延迟，tret，i，j返回结果延迟，这三者都取决于卸载策略的分配。

23、限制条件中，c1代表每个rsu i∈[1，2，...，m}的功率pi需满足大于等于0且小于等于自身功率限制c2代表haps向各rsu传输数据的过程中，功率之和需大于等于0且小于等于自身功率限制c3代表分配卸载任务的比例，其中ai，j表示服务器i计算任务j的百分比，范围限制为[0，1]；c4代表一个任务分配给各服务器的比例和需为1。

24、进一步地，所述分布式并行计算卸载方法的步骤s2具体步骤为：所述haps将对每辆车的计算任务进行细粒度分配，生成m*m的二维卸载策略astrategy：

25、

26、其中ai，j表示服务器i计算任务j的百分比，其中i，j∈[1，2，...，m}满足每个rsu的计算消耗为

27、计算代理j所要计算的总计算量为假设下降的系数为d，则执行计算任务后计算能力c′j＝cj-dtcom，i，j，可得：

28、

29、带入后问题转化为一元二次方程，

30、

31、求解可得

32、

33、在场景中，每个rsu i有ni辆车在其管辖范围内，对于一辆车vi∈ni，其在每个单位时间产生的计算请求服从泊松分布：

34、

35、其中k为[0，+∞)的整数。

36、对于这ni辆车，计算请求服从混合泊松分布，其中满足正态分布

37、车只有在认为自身连接的rsu剩余计算能力能够满足下次计算时才会投票同意，数学表达为：

38、

39、其中k为[0，+∞)的整数。

40、每辆车vi∈ni的投票情况为：

41、

42、其中toler是车辆vi对剩余计算能力的容忍程度；

43、对于rsu来说，如果有三分之二的车同意，则认为当前同意此卸载策略，即：

44、

45、当haps生成卸载策略时，采用深度强化学习的软演员评论家算法，充分考虑对于该卸载策略每个rsu的响应，估计该响应并调整卸载策略，直到达到博弈均衡点，之后再将卸载策略发送至区块链系统；

46、考虑rsu i单位时间计算任务的分布是范围内车辆的总和，即：

47、

48、其中k为[0，+∞)的整数。

49、对于领导者haps，在分配卸载任务时需要考虑跟随者rsu的响应函数，它向rsu分配任务后剩余的计算资源应大于rsu计算任务的预期值，即满足剩余计算资源容忍程度toler

50、

51、haps通过上一次通信得到的反馈结果知道每个rsu下属车辆的正态分布情况通过正态分布信息就可以满足区块链系统中需要三分之二同意这一要求；

52、在正态分布中，因为σ原理，落在(μ-σ，μ+σ)范围的概率为领导者haps考虑跟随者的投票反应函数，设定(μi-σi，μi+σi)范围能够使得votei超过三分之二为1，使得当前卸载策略尽可能一次性通过，对领导者跟随者都是最佳选择，达到博弈均衡点；

53、数学表示形式为：

54、

55、进一步地，所述分布式并行计算卸载方法的步骤s3具体步骤为：所述haps以最小化最大通信传输耗时为优化目标，分配rsu和自身各环节传输功率，控制的限制条件为每个设备的最大可用总功率；

56、在优化问题中，传输环节，ttrans，i，j是任务发起方i通过haps中转到j的上传下载耗时，其中上传速度

57、

58、下载速度：

59、

60、其中b是信道带宽，n0是信道内的高斯噪声功率，p分别是器件的传输功率，h表示信道增益；

61、由此可得

62、

63、在计算完成后，tret，i，j表示计算方发送结果返回任务发起方的时间，过程与传输延迟相似，方向相反，其中：

64、

65、

66、由此可得

67、

68、haps生成功率分配矩阵apower，负责分配上述通信各环节haps和rsu通信功率

69、进一步地，所述分布式并行计算卸载方法的步骤s4具体步骤为：所述haps需要生成计算卸载策略astrategy和功率分配矩阵apower；

70、状态空间为每个时隙t下状态空间为计算任务、计算能力、信道增益的集合：

71、s(t)＝[stask(t)，scom(t)，sh(t)]

72、其中stask(t)是上文中所有rsu产生计算任务taski＝<ωj，dj，dj′>的集合；scom(t)是上文中所有rsu及其相连mec服务器的计算能力ci的集合；sh(t)是上文通信过程中所有rsu各自信道增益hi的集合；

73、动作空间为每个时隙智能体haps做出的决策，包括卸载策略和传输时的功率分配：

74、a(t)＝[astrategy，apower]

75、其中astrategy是上文提到的卸载策略，apower是通信过程中的功率分配策略；

76、奖励函数设置为：

77、r(t)＝-ttotal(t)-ρ(t)

78、其中ttotal(t)是上文中的所有任务中的最大耗时，目标是最小化ttotal(t)，通过最大化其负值来达成；ρ(t)是违背上文博弈论确定的限定范围μ+σ时的惩罚函数；

79、深度强化学习目标是找到最优策略

80、

81、其中，α是确定熵的相对重要性的温度参数，是训练过程中的超参数，从而控制最优策略的随机性；虽然最大熵目标不同于传统方法中使用的标准最大预期收益目标，但最后训练收敛后可以使得到α→0，同时引入贴现因子γ，以确保预期回报是有限的；

82、在策略改进的过程中，通过不断缩小kl散度来收敛策略得到最优解：

83、

84、在软策略迭代的策略评估步骤中，根据最大熵目标计算策略π的值；对于固定策略π，可以从开始通过贝尔曼方程迭代的计算软q值

85、

86、其中

87、

88、使用两个神经网络来表示q网络和策略网络，参数分别为θ和φ，通过梯度上升法不断更新参数；q网络qθ(st，at)可以表示为最小化贝尔曼方程残差：

89、

90、通过对参数θ求梯度的方法进行更新：

91、

92、对于策略网络可以通过最小化期望值来学习策略参数，表示为：

93、

94、对参数φ求梯度的方法进行更新：

95、

96、在训练中使用两个q网络，参数分别为θ1和θ2，在更新时选取二者中较低的进行更新，避免q值高估的情况；

97、生成计算卸载策略astrategy和功率分配矩阵apower的步骤具体包括：

98、s401：初始状态信息s，两个q网络参数θ1和θ2，策略网络参数φ，初始化经验池d为空集；

99、s402：策略网络πφ(at|st)采样得到动作at，状态st根据动作at转移为st+1；将(at，st，r(st，at)，st+1)加入经验池d；

100、s403：采用策略梯度法，根据分别更新θ1和θ2，根据更新φ；

101、s404：重复步骤s402、s403，直到网络参数θ1，θ2，φ收敛；

102、s405：根据网络参数得到最佳动作a＝[astrategy，apower]，即计算卸载策略和功率分配矩阵。

103、进一步地，所述分布式并行计算卸载方法的步骤s4具体步骤为：haps作为主控制器将步骤s2、s3得到的卸载策略发送至区块链系统为：区块链节点由m个共识节点组成，为每个rsu和与其相连的mec服务器[1，2，...，m}；

104、此外每个rsu管辖范围内的ni辆车是投票节点，总计个，采用的共识算法为pbft算法，该算法能容忍三分之一的错误，即有三分之二的节点达成共识后即可在整个区块链系统中达成共识；

105、在haps已经生成卸载策略astrategy后，它将向区块链系统发送策略，如未达成共识需要重新制定卸载策略；在区块链系统达成共识后，rsu将按照写入区块中的卸载策略执行计算任务；因为执行卸载策略后，rsu及mec服务器的计算能力会有所下降，这对其范围内的车是不利的，因此每个rsu下属车辆有权投票是否投票通过当前卸载策略；

106、达成共识的过程包括六个部分，分别是：请求、预准备、车辆投票、准备、提交、回复，具体步骤如下：

107、s406：主控制器haps发送需要达成共识的内容和未验证的区块到区块链系统，区块链系统随机分配一个节点作为主节点进行验证；所选主节点先验证签名以及块的消息认证码，如果上述信息有效再继续进行；假设验证签名和生成/验证一个消息认证码所需的计算周期分别为θ1和θ2；因此，请求阶段的计算周期可以表示为：

108、c1(t)＝2·(θ1+θ2)

109、s407：主节点车辆经过投票决定是否同意当前卸载策略并生成消息认证码，之后将该消息认证码发送到其他每个副本节点，并且由副本节点验证；此阶段中主节点和副本节点的所需的计算周期分别表示为：

110、c2p(t)＝(m-1)·θ2+cvote

111、c2r(t)＝θ2+(θ1+θ2)

112、其中cvote表示由范围内车辆投票的耗时；

113、s408：所有副本节点各自范围内的车辆进行投票决定是否通过当前卸载策略，具体投票细节将在下一节展开，因为所有副本节点同步进行，所以此阶段所需耗时为：

114、c3(t)＝cvote

115、s409：经验证的副本节点生成并发送一个消息认证码到其他节点；每个节点接收并验证来自其他节点的m-1个消息认证码；如果已验证的节点超过则可以继续进行，因此此阶段中主节点和副本节点的所需的计算周期分别表示为：

116、

117、

118、s410：被验证节点收到超过正确信息，则再向所有其他节点发送一个提交消息认证码，此阶段所需计算周期为：

119、

120、s411：所有收到超过确认消息的节点向主控制器发送一个回复信息，如果主控制器收到的回复信息超过则认为本次共识达成；

121、根据每个共识阶段所需的计算周期，一个完整的共识过程的总计算周期是上述各阶段计算周期的和，化简后可以表示为：

122、c(t)＝2·cvote+3·θ1+(5m-1)·θ2

123、因此共识过程的耗时可以表示为：

124、

125、其中，f(t)是区块链系统的计算资源，可以认为在一段时间内保持不变，tb是区块链节点间的传播时延，tv是区块链节点和投票节点之间的传播时延；

126、除此之外，区块链系统有单次共识的时间限制tl，即只有d(t)≤tl时才被认为是一个合格的共识过程，否则，系统需要修改卸载策略并重复共识过程，直到达成共识，因此整个区块链达成共识的耗时为：

127、tblock＝dn(t)+nr·tl

128、其中nr∈[0，1，2，...}是重复修改的次数。

129、进一步地，所述分布式并行计算卸载方法的步骤s5具体步骤为：各rsu按照卸载策略和功率分配进行任务传输、计算和结果回传，haps更新环境参数，具体步骤包括：

130、s501：rsu按照卸载策略和功率分配进行任务传输，消耗时间为

131、

132、s502：rsu按照卸载策略和功率分配进行任务计算，消耗时间为

133、

134、s503：计算完成后rsu按照卸载策略和功率分配进行任务回传，消耗时间为

135、

136、s504：haps更新系统各类参数，包括各rsu剩余计算能力，可分配功率情况，车辆容忍度分布情况。

137、与现有技术相比，本发明提供了基于深度强化学习和区块链的分布式并行计算卸载方法，具备以下有益效果：

138、1、综合分配rsu的计算任务，有效解决rsu间计算资源、计算请求不均衡的问题，调整后可以做到负载均衡，降低整个系统的耗时，提高服务质量qos；

139、2、采用区块链系统，有效保护用户隐私，并提高rsu间传递信息的效率；

140、3、统筹考虑计算、存储、通信资源，分配计算任务的同时考虑通信耗时，对传输功率进行优化，进一步降低系统耗时；

141、4、采用先进的深度强化学习算法进行卸载策略生成，能对复杂优化问题进行近似求解，相比传统方法速度更快准确率更高；

142、5、采用高空作业平台haps技术，能够有更大范围的覆盖，增强带宽服务；

143、6、利用博弈论，综合考量用户未来产生计算请求的情况，在产生卸载策略进行分配时能得到更长远的收益，在长时间运行的情况下有更好的效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张国斌罗泽昊黄湧
技术所有人：东莞理工学院
我是此专利的发明人

上一篇：一种高卤素危险废物的焚烧处理工艺的制作方法
上一篇：制备特考韦瑞的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。