基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法

文档序号:34752066发布日期:2023-07-13 02:04阅读:34来源:国知局
基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法

本发明属于物理层安全领域,具体涉及在考虑物理层安全的无线传输中存在的三方网络设备之间对抗与结盟的智能决策,尤其涉及一种基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法。


背景技术:

1、近年来,物理层安全(physicallayersecurity,pls)作为一种很有前途的无线安全技术,在5g及下一代的通信领域得到了迅速的发展。pls被广泛认为是在自动驾驶、远程手术、智能交通等具有高安全性要求的物联网应用中保护安全传输的有效方法。与传统的基于密码学的方法不同,pls具有更低的计算复杂度、资源消耗和传输延迟,更适合于时延敏感和功率受限的应用场合。

2、虽然pls在不同方面得到了广泛的关注,但大多数现有的发明研究都没有充分探讨pls中三方的自私性,即合法用户、窃听设备和干扰机。具体来说,在实践中,合法用户、窃听设备和干扰机可能会出于自身利益最大化的考虑而表现出自私性,但它们的策略并不总是相互冲突,有时反而是互惠互利的。一方面,合法用户和干扰机可能结成联盟来对抗窃听设备,合法用户可以向干扰机提供奖励(例如金钱奖励),以换取后者帮助增加对窃听设备的干扰能力,从而保护在开放无线环境中传输的机密消息。另一方面,窃听设备和干扰机可能形成对抗合法用户的联盟,在这种联盟中,窃听设备也可以激励干扰机干扰合法用户,迫使它们增加数据传输功率,从而使合法用户容易被窃听。显然,这种复杂的关系(即联盟形成)可能不是预先定义的,因此对pls的影响需要仔细的建模和分析,这是非常重要的,但由于以下原因非常具有挑战性:

3、a.从pls中三方设备各自利益出发,除了可能形成的联盟外,合法用户可以自行决策其上行传输的目标基站并分配数据传输功率来提高传输速率,同时不同地理位置的窃听设备在不同时间可以选择激活或休眠来减少能耗。此外,干扰机可以根据在不同的链路上更好地分配干扰功率以获得来自合法用户或窃听设备的更高的回报。这需要一个具有多维策略的多阶段序贯博弈,其中包含了动态联盟博弈作为子博弈来建模三方设备进行联盟选择的决策。

4、b.由于无线系统的不确定性,如时变的信道条件,上述pls中三方的策略可能会动态变化,长期的性能优化需要研究动态博弈。特别是,潜在的联盟博弈也变得动态,这意味着三方设备中的任何两方都可能暂时形成联盟并动态调整,即随着时间的推移合并或分裂。然而,据公开资料所知,这一关键问题尚未在以往的发明中得到解决。


技术实现思路

1、发明目的:针对上述现有无线传输环境下物理层安全技术存在的未充分考虑三方设备自私性和动态结盟的问题,本发明提供一种基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法。

2、技术方案:一种基于动态联盟博弈的物理层安全无线传输中三方设备智能决策方法,该方法面向开放无线通信环境下存在的合法用户、窃听设备和干扰机三方之间可能产生的动态对抗与结盟行为,采用物理层安全要求的保密传输速率、窃听速率以及各设备能耗等物理量分别构造三方设备的效用函数,运用多阶段序贯博弈和动态联盟博弈分别建模三方设备的策略性交互和动态结盟行为,以开放无线通信环境下三方网络设备各自长期平均效用最大化为目标,分别设计基于联盟切换准则的联盟形成算法和基于深度强化学习的智能决策算法来实现三方设备的结盟选择和智能决策;

3、进一步的,所述方法包括建立开放无线通信环境中考虑物理层安全场景的网络模型,其中的网络设备包括合法用户、窃听设备、干扰机和基站,合法用户向基站上行传输秘密数据,同时受窃听设备窃听,干扰机选择合法用户或窃听设备的一方结盟,即干扰窃听设备来帮助合法用户提高保密传输速率或干扰基站来提高窃听设备的拦截速率,同时合法用户或窃听设备会给予干扰机回报(即激励量)来吸引干扰机与之结盟。在这个考虑物理层安全的无线传输环境中,每个合法用户占用一个频率带宽为w的正交信道用于上行传输,其功率分配采用l级离散分配,表示为同时干扰机也采用l级离散分配,表示为为了刻画时变不确定性,系统整体的运行时间被划分为r个时间片。

4、进一步的,所述方法针对开放无线通信环境中考虑物理层安全场景的网络模型的建立,包括如下计算处理过程:

5、(1)在每个时间片中,计算三方设备的相关物理量,包括合法用户的上传速率和保密传输速率窃听设备的窃听速率上传速率的计算方法为:

6、

7、

8、其中,表示基站m处的加性高斯白噪声(additive gaussian white noise,awgn),gnm(t)和gjm(t)表示分别表示合法用户n和干扰机j到基站m的链路的瞬时信道增益;窃听速率的计算方法为:

9、

10、

11、其中,表示窃听设备k处的awgn,gnk(t)和gik(t)分别表示合法用户n和干扰机j到窃听设备k的链路的瞬时信道增益;保密传输速率的计算方法为:

12、

13、其中,[x]+=max(x,0)。

14、(2)基于各方设备各自的物理量分别构造三方设备在各个时间片的效用函数和包含系统运行过程中各方的收益和损耗;

15、窃听设备在时间片t中的效用函数表示为:

16、

17、其中,x{ej}(t)=1或0表示窃听设备和干扰机结盟与否,ck表示单个窃听设备在一个时间片内的激活成本,为窃听设备的性能增益,表示为:

18、

19、为没有干扰机帮助下窃听设备的性能增益,表示为:

20、

21、合法用户在时间片t中的效用函数表示为:

22、

23、其中,x{lj}(t)=1或0表示窃听设备和干扰机结盟与否,ξn表示合法用户的单位功耗成本,为合法用户的性能增益,表示为:

24、

25、为没有干扰机帮助下合法用户的性能增益,表示为:

26、

27、干扰机在时间片t中的效用函数表示为:

28、

29、其中,ηj表示合法用户的单位功耗成本,cconf表示如果干扰机选择在两个连续的时间片内更换盟友,则干扰机为通知联盟变更而建立的额外连接所引起的潜在配置成本,为时间片t中合法用户或窃听设备支付给干扰机的激励量,表示为:

30、

31、(3)分别建立三方设备的策略集,生成三方设备各自的长期平均效用最大化优化问题,对于窃听设备,其策略集表示为其优化问题表示为:

32、

33、式中,表示窃听设备在各时间片的激活选择,μe(t)表示窃听设备在各时间片的单位激励量,表示单位激励量上限。

34、对于合法用户其策略集表示为:其优化问题表示为:

35、

36、

37、式中,表示最小传输速率,表示合法用户在各时间片的目标基站选择,μl(t)表示合法用户在各时间片的单位激励量。对于干扰机,其策略集表示为其优化问题表示为:

38、

39、(4)构建多阶段序贯博弈来建模三方设备的策略性交互,多阶段序贯博弈表达式如下:

40、

41、其中,分别表示参与博弈的窃听设备、合法用户和干扰机,表示三方的策略,表示三方的效用函数。在每个时间片包含三个阶段,首先是窃听设备按照优化目标决策和μe(t),其次是合法用户按照优化目标决策和μl(t),最后是干扰机按照优化目标决策的三个阶段在每个时间片都会重复,在每个时间段的开始,窃听设备和合法用户可以观察到干扰机在前一个时间片的决策,得以实现长期的策略性交互。而在对于三方设备在各个时间片的动态结盟,则采用动态联盟博弈来建模,其表达式如下:

42、

43、其中表示参与博弈的窃听设备、合法用户和干扰机,表示三方设备在动态联盟博弈中所有可能产生的联盟。是的子博弈,用来将求解三方的最优结盟选择x{ej}(t)和x{lj}(t)的问题转化为对求解均衡解;

44、(5)设计基于联盟切换准则的联盟形成算法求解各个时间片中动态联盟博弈的均衡解来实现三方设备在各个时间片的最优结盟选择(即x{ej}(t)和x{lj}(t)),同时生成稳定的联盟划分该联盟形成算法是分布式运行,即同一时间片内各方独立地计算自己的结盟选择。本质上是求解各个时间片内的均衡,即稳定联盟划分该算法基于如下联盟切换准则来实现:

45、准则1:当且仅当且

46、

47、准则2:当且仅当

48、其中ca和cb表示两个联盟,二元关系符表示某方i在时间片t的联盟偏好,二元关系符表示在时间片t中,某方i的联盟转移,即从符号左联盟转移到符号右联盟;

49、(6)设计基于深度强化学习的智能决策算法来求解多阶段序贯博弈在整个系统运行时间0≤t≤t中的全局均衡解,实现三方设备除了结盟选择以外的决策变量(即和μl(t))的最优决策。用于训练代理三方设备决策的智能体的算法是基于近端策略优化算法(proximal policy optimization,ppo)和演员-评论家框架(actor-critic,ac)。强化学习过程的状态空间综合考虑了网络拓扑、瞬时信道增益(包括gnm(t),gnk(t),gjm(t)和gjk(t)、信号发射功率(包括和)和联盟状态(用x{ej}(t)和x{lj}(t)表示),并通过邻接矩阵nt(t)将环境状态值规范化。此外,该基于深度强化学习的智能决策算法集分布式训练和集中式训练为一体,对于三方设备的不同决策,采用不同的智能体来训练处最佳策略。

50、有益效果:本发明与现有技术相比,其显著特点和实质性进步包括如下三点:

51、第一、本发明建立了一种融合动态三边联盟形成博弈的分层博弈模型,用来解决系统不确定性下pls中合法用户、窃听设备和干扰机之间的战略交互建模问题。并且在三方设备的效用建模中充分考虑了三方设备在资源管理和联盟选择方面所有可能的决策、收益和成本;

52、第二、本发明在考虑pls中三方自私性的情况下,提出了一种基于联盟切换准则的分布式联盟选择和联盟形成方法,以获得各方设备的最优联盟选择。该方法采用三方设备分布式运行,具有较高运算效率;

53、第三、本发明以最大化给定博弈的长期效用为目标,提出了一种基于深度强化学习的三方设备智能决策方法,该方法可以在动态演化的多个时间片中产生pls中各方的最优战略决策(即均衡),可以运用于信道状态动态变化的动态无线网络系统中,且通过强化学习得到的智能体在决策的过程中具有高鲁棒性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1