一种应对干扰模式动态切换的动态频谱自适应接入方法

文档序号:31624579发布日期:2022-09-24 00:15阅读:76来源:国知局
一种应对干扰模式动态切换的动态频谱自适应接入方法

1.本发明属于动态频谱接入技术领域,更为具体地讲,涉及一种应对干扰模式动态切换的动态频谱自适应接入方法。


背景技术:

2.随着无限通信技术的不断发展,有限的频谱资源被划分给了越来越多的用频用户,导致用户可使用的频谱资源也日渐紧张。这种紧张的局面主要是由传统的静态频谱分配方式所导致,其通过将不同频段固定分配给用频用户实现。该频谱分配方式下只有被授予使用权的用户才可以使用授权频段。
3.动态频谱接入技术(dynamicspectrumaccess,dsa)是从一种灵活利用授权用户的频谱空穴展开用频的机会频谱接入技术。图1展示了dsa技术的机会用频方式。dsa可以实现接近实时的频谱管理,赋予认知用户接入并获取所需的频谱资源的能力,进而可让有限的频谱资源在时域和空域上得到充分利用,最终在不造成对主用户有害干扰的情况下,大幅提升频谱利用效率。dsa技术是解决用频紧张的有效方法之一,也是目前无线通信领域的研究热点。
4.当前,动态频谱接入技术可应用于抗干扰通信领域。现有大多数工作都是基于静态稳定的干扰环境展开,但是在实际应用中,由于时空域等因素的影响,频谱环境中的干扰信号其模式往往会动态变化。当前主流基于强化学习的动态频谱接入技术往往难以自适应干扰环境的动态变化,不仅降低了频谱接入效率的稳定性,也极大降低了用户的通信体验。


技术实现要素:

5.本发明的目的在于克服现有技术的不足,提供一种应对干扰模式动态切换的动态频谱自适应接入方法,通过引入一种基于记忆库的离线预训练算法,认知用户将源电磁环境相关知识有效迁移至目标动态频谱接入策略的学习过程中,可在新干扰模式下提升动态频谱接入策略的学习速度、稳定性与策略性能。
6.为实现上述发明目的,本发明一种应对干扰模式动态切换的动态频谱自适应接入方法,其特征在于,包含以下步骤:
7.(1)、环境搭建:构建一个基于dqn算法的动态频谱接入用户d,并为用户d配置一个传感器,用以感知干扰信号的干扰模式是否发生变化;
8.(2)、获取源记忆库与目标记忆库;
9.(2.1)、获取所有信道的观测值:用户d对所有信道进行观测,获取当前时刻t时所有信道的状态观测值s(t)={s1(t),s2(t),

,sk(t),

,sk(t)},其中,sk(t)表示用户d在t时刻获取的第k个信道的状态观测值,k表示信道通道数;
10.(2.2)、选择动作:用户根据当前信道状态观测值s(t),通过评估神经网络得到在当前信道信道状态观测值s(t)下所有信道选择动作的q值,并依据ε-greedy策略选择下一步的动作a(t);
11.(2.3)、获取奖励值:执行信道选择动作a(t)后,用户d会在t+1时刻获得奖励值r(t+1),同时信道状态将会转入下一步的新状态,并获取t+1时刻的所有信道的观测值s(t+1);
12.(2.4)、存储进记忆库中:将当前时刻所有信道观测值s(t)、信道选择动作a(t)、奖励值r(t+1)、下一时刻所有信道的观测值s(t+1)以经验样本x(t)={s(t),a(t),r(t+1),s(t+1)}的形式存储进记忆库中;
13.(2.5)、获取源记忆库:当传感器没有感知到干扰信号其干扰模式发生改变时,重复步骤(2.1)~步骤(2.4)共m次,将保存了m个经验样本的记忆库称之为源记忆库x
source
={x(t)}={(s(t),a(t),r(t+1),s(t+1))},t=1,2,

,m;
14.(2.6)、获取目标记忆库:当传感器感知到干扰信号的干扰模式发生变化之后,重复步骤(2.1)~步骤(2.4)共n次,将保存了n个经验样本的记忆库称之为目标记忆库x
target
={x(t)}={(s(t),a(t),r(t+1),s(t+1))},t=m+1,m+2,

,m+n;
15.(3)、离线预训练初始化:将源记忆库x
source
与目标记忆库x
target
合并为总记忆库x={x
souirce
,x
target
}={x(t)}={s(t),a(t),r(t+1),s(t+1)},t=1,2,

,n+m,再为每一个经验样本x(t)初始化一个权值p
t
,权值初始化公式如下:
[0016][0017]
其中,κ≥1,表示经验样本的重要性因子;
[0018]
(4)、执行离线预训练过程:
[0019]
(4.1)、样本抽取:用户d从总记忆库x中依据样本权值抽取batch_size个经验样本,抽取得到的一组经验样本用x
batch
表示,其抽样公式如下:
[0020][0021]
其中,p(l)表示经验样本x(l)被抽取的概率,被抽取的经验样本集合x
batch
表示为:
[0022]
x
batch
={x(l)}={s(l),a(l),r(l+1),s(l+1)},l∈{1,2,...,m+n},crad(x
batch
)=batch_size
[0023]
其中,crad(x
batch
)=batch_size表示x
batch
中经验样本的总数为batch_size个;
[0024]
(4.2)策略更新:基于x
batch
进行一轮评估神经网络的网络参数θ的更新,且基于自定义的更新步长更新目标神经网络的网络参数
[0025]
首先为x
batch
中每一个经验样本x(l)计算一个归一化的权值修正系数ω
l
,其公式描述如下:
[0026][0027]
其中,β表示取值范围在0~1内的超参数;表示x
batch
中所有经验样本对应((m+n)
·
p(l))-β
值的最大值;
[0028]
计算x
batch
中每一个经验样本x(l)的损失函数值δ
l

[0029][0030]
其中γ是折扣因子,取值范围在0~1之间。q
target
是由目标神经网络获得的q现实函数,是目标神经网络的参数。q
eval
是由评估神经网络获得的q估计函数,θ是评估神经网络的参数。表取能使得q
target
值最大的信道选择动作a。
[0031]
随后对x
batch
中每一个经验样本x(l)计算一个网络权值调整量并进行累加,得到总网络权值调整量δ,其计算公式如下所示:
[0032][0033]
其中,表示求评估神经网络的参数θ的梯度;
[0034]
最后依据学习率η更新评估神经网络参数θ,更新公式为θ

θ+ηδ。重新将总网络权值调整量δ置零。并每隔步长复制评估神经网络参数θ到目标神经网络,即
[0035]
(4.3)、权值调整:调整x(l)在总记忆库x中的权值,并重新归一化;
[0036]
当x
batch
中的x(l)来自源记忆库x
souirce
时,其对应x中的权值更新为:
[0037]
p
l
=1/|δ
l
|
[0038]
当x
batch
中的x(l)来自目标记忆库x
target
时,其对应x中的权值更新为:
[0039]
p
l
=κ
·

l
|
[0040]
更新完所有权值后,对x中所有经验样本重新进行权值归一化处理,归一化公式如下:
[0041][0042]
其中,p
t
表示x中第t个经验样本的归一化权值;
[0043]
(4.4)、重复步骤(4.1)~(4.3),直至评估神经网络收敛,从而完成离线预训练过程,得到初始动态频谱接入策略;
[0044]
(5)、采用dqn算法在线策略学习的方式对初始动态频谱接入策略进行在线策略优化,直至动态频谱接入策略收敛,得到新干扰模式下的动态频谱接入策略。
[0045]
本发明的发明目的是这样实现的:
[0046]
本发明一种应对干扰模式动态切换的动态频谱自适应接入方法,先为动态频谱接入设备配置了一个传感器,用以感知干扰机干扰模式的切换,在未感知到干扰模式发生切换前,动态频谱接入设备先收集足量的源经验样本,并存入源记忆库中;当传感器感知到干扰模式发生切换后,设备继续收集少量的目标经验样本,并存入目标记忆库中;随后脱离频谱环境并展开离线预训练过程,以习得针对新干扰模式的初始动态频谱接入策略;最后设备重新接入频谱环境中,基于初始动态频谱接入策略展开进一步的优化,直至策略收敛,即可获得适用于新干扰模式下的最优动态频谱接入策略。
[0047]
同时,本发明一种应对干扰模式动态切换的动态频谱自适应接入方法还具有以下有益效果:
[0048]
(1)、本发明为动态频谱接入设备配置了一个传感器,用以感知干扰机干扰模式的切换,可为设备快速自适应新干扰模式提供了反应基础。
[0049]
(2)、本发明可在干扰模式切换前的数据传输过程中展开源经验样本的收集,而在干扰模式切换后,也仅需获取少量目标经验样本,因此经验样本的获取仅需消耗极少时间,而基于经验样本结合离线预训练过程习得的初始动态频谱接入策略在新干扰模式下可取的良好的初始性能表现。
[0050]
(3)、本发明引入了特殊的权值调整策略,可以将从源记忆库中筛选出适合的源经验样本并应用于预训练策略的学习过程中,结合针对目标记忆库的权值调整策略,且可显著提升预训练策略的性能与收敛速度。
[0051]
(4)、相比直接接入新干扰环境进行在线动态频谱接入策略的学习,获取同样性能的动态频谱接入策略,离线预训练过程消耗的时间极短;本发明先通过离线预训练过程快速获取具有良好性能的动态频谱接入策略,再重新接入频谱进行策略的优化直至收敛,可极大程度降低获取新干扰模式下最优动态频谱接入策略的时间消耗,因此可大幅提升设备自适应新干扰模式的速度与性能。
附图说明
[0052]
图1是动态频谱接入技术的相关示意图。
[0053]
图2是本发明一种应对干扰模式动态切换的动态频谱自适应接入方法流程图。
[0054]
图3是干扰模式变化下抗干扰通信的相关示意图。
[0055]
图4是干扰模式变化的相关示意图。
[0056]
图5是经验样本权值调整示意图。
[0057]
图6是新干扰模式下的自适应指标示意图。
[0058]
图7是仿真模拟干扰模式切换后的频谱利用率结果展示图。
[0059]
图8是仿真模拟干扰模式切换后的频谱接入冲突率结果展示图。
具体实施方式
[0060]
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0061]
实施例
[0062]
为了详细的说明本发明所述的技术方案,下面结合说明书附图及具体实施例做进一步的阐述。
[0063]
图2是本发明一种应对干扰模式动态切换的动态频谱自适应接入方法流程图。
[0064]
在本实施例中,如图2所示,本发明一种应对干扰模式动态切换的动态频谱自适应接入方法,包含以下步骤:
[0065]
(1)、环境搭建:
[0066]
在本实施例中,考虑如图3所示的动态频谱接入设备抗干扰通信场景,并通过python语言实现了该实施例的系统仿真,基于tensorflow深度学习框架搭建了动态频谱接入用户d的dqn算法网络结构。动态频谱接入用户d使用通信链路进行数据的传输,而干扰机则在该通信链路上发送干扰信号阻碍用户d的数据传输过程。假设通信链路中共有k个信道,k=8,信道有0(空闲)和1(占用)两种工作状态,当干扰信号存在于某一信道时,该信道
即为1状态,否则该信道即为0状态。假设干扰机有2种不同的干扰模式,分别是扫频干扰模式与梳状干扰模式,且在当前通信场景中干扰机会动态切换干扰模式。如图4所示,图中展示了干扰机的扫频干扰模式与梳状干扰模式以及干扰模式切换场景,其中扫频干扰模式与图中干扰模式切换之前对应,当干扰模式切换后,干扰机将以梳状干扰模式在通信链路中发送干扰信号。为实现抗干扰通信目的,用户d将习得动态频谱接入策略进行通信链路的使用。图1则展示了动态频谱接入策略的核心思想,即动态且机会地进行空闲状态信道的接入与使用。当干扰模式发生改变后,用户d需要重新习得针对新干扰模式的动态频谱接入策略。
[0067]
在本实施例中,用户d是一个基于dqn算法的动态频谱接入设备,且具有一个传感器,可感知干扰信号其干扰模式是否发生改变。随机初始化用户d的dqn网络参数,包括评估神经网络(evaluated network)和目标神经网络(target network)。
[0068]
(2)、获取源记忆库与目标记忆库;
[0069]
(2.1)、获取所有信道的观测值:用户d对所有信道进行观测,获取当前时刻t时所有信道的状态观测值s(t)={s1(t),s2(t),

,sk(t),

,sk(t)},其中,sk(t)表示用户d在t时刻获取的第k个信道的状态观测值,k表示信道通道数;
[0070]
(2.2)、选择动作:用户根据当前信道状态观测值s(t),通过评估神经网络得到在当前信道信道状态观测值s(t)下所有信道选择动作的q值,并依据ε-greedy策略选择下一步的动作a(t),用户的信道选择动作为信道1~信道k中的任意一个信道,而ε-greedy的探索率ε值则设置为1;
[0071]
(2.3)、获取奖励值:执行信道选择动作a(t)后,用户d会在t+1时刻获得奖励值r(t+1),同时信道状态将会转入下一步的新状态,并获取t+1时刻的所有信道的观测值s(t+1);
[0072]
(2.4)、存储进记忆库中:将当前时刻所有信道观测值s(t)、信道选择动作a(t)、奖励值r(t+1)、下一时刻所有信道的观测值s(t+1)以经验样本x(t)={s(t),a(t),r(t+1),s(t+1)}的形式存储进记忆库中;
[0073]
(2.5)、获取源记忆库:当传感器没有感知到干扰信号其干扰模式发生改变时,重复步骤(2.1)~步骤(2.4)共m次,m=2048,将保存了m个经验样本的记忆库称之为源记忆库x
source
={x(t)}={(s(t),a(t),r(t+1),s(t+1))},t=1,2,

,m;
[0074]
(2.6)、获取目标记忆库:此时干扰机的干扰模式发生了切换,由扫频干扰模式切换为了梳状干扰模式。当传感器感知到干扰信号的干扰模式发生变化之后,重复步骤(2.1)~步骤(2.4)共n次,n=512,将保存了n个经验样本的记忆库称之为目标记忆库x
target
={x(t)}={(s(t),a(t),r(t+1),s(t+1))},t=m+1,m+2,

,m+n;
[0075]
(3)、离线预训练初始化:首先将源记忆库x
source
与目标记忆库x
target
合并为总记忆库x={x
souirce
,x
target
}={x(t)}={s(t),a(t),r(t+1),s(t+1)},t=1,2,

,n+m,再为每一个经验样本x(t)初始化一个权值p
t
,权值初始化公式如下:
[0076][0077]
其中,κ≥1,表示经验样本的重要性因子,此处取κ=1;
[0078]
(4)、执行离线预训练过程:
[0079]
(4.1)、样本抽取:用户d从总记忆库x中依据样本权值抽取batch_size=20个经验
样本,抽取得到的一组经验样本用x
batch
表示,其抽样公式如下:
[0080][0081]
其中,p(l)表示经验样本x(l)被抽取的概率,被抽取的经验样本集合x
batch
表示为:
[0082]
x
batch
={x(l)}={s(l),a(l),r(l+1),s(l+1)},l∈{1,2,...,m+n},crad(x
batch
)=batch_size
[0083]
其中,crad(x
batch
)=batch_size表示x
batch
中经验样本的总数为batch_size个;
[0084]
(4.2)、策略更新:基于x
batch
进行一轮评估神经网络的网络参数θ的更新,且基于自定义的更新步长更新目标神经网络的网络参数首先为x
batch
中每一个经验样本x(l)计算一个归一化的权值修正系数ω
l
,其公式描述如下:
[0085][0086]
其中,β表示取值范围在0~1内的超参数,此处β=0.9;表示x
batch
中所有经验样本对应((m+n)
·
p(l))-β
值的最大值;
[0087]
计算x
batch
中每一个经验样本x(l)的损失函数值δ
l

[0088][0089]
其中γ是折扣因子,取值范围在0~1之间,此处γ值取0.95。q
target
是由目标神经网络获得的q现实函数,是目标神经网络的参数。q
eval
是由评估神经网络获得的q估计函数,θ是评估神经网络的参数。表取能使得q
target
值最大的信道选择动作a。
[0090]
随后对x
batch
中每一个经验样本x(l)计算一个网络权值调整量并进行累加,得到总网络权值调整量δ,其计算公式如下所示:
[0091][0092]
其中表示求评估神经网络的参数θ的梯度;
[0093]
最后依据学习率η=0.01更新评估神经网络参数θ,更新公式为θ

θ+ηδ。重新将总网络权值调整量δ置零。并每隔步长复制评估神经网络参数θ到目标神经网络,即
[0094]
(4.3)、权值调整:调整x(l)在总记忆库x中的权值,并重新归一化;
[0095]
图5展示了x(l)在总记忆库x中的权值调整的核心思想,通过提升具有高训练价值的经验样本的权值来增加这些样本被抽取的概率,可有效提升预训练过程的速度与质量,进而快速获得更契合新干扰模式的初始动态频谱接入策略。
[0096]
当x
batch
中的x(l)来自源记忆库x
souirce
时,其对应x中的权值更新为:
[0097]
p
l
=1/|δ
l
|
[0098]
当x
batch
中的x(l)来自目标记忆库x
target
时,其对应x中的权值更新为:
[0099]
p
l
=κ
·

l
|
[0100]
更新完所有权值后,对x中所有经验样本重新进行权值归一化处理,归一化公式如下:
[0101][0102]
其中,表示x中第t个经验样本的归一化权值;
[0103]
(4.4)、重复步骤(4.1)~(4.3),直至评估神经网络收敛,从而完成离线预训练过程,得到初始动态频谱接入策略;
[0104]
(5)、采用dqn算法在线策略学习的方式对初始动态频谱接入策略进行在线策略优化,直至动态频谱接入策略收敛,得到新干扰模式下的动态频谱接入策略。
[0105]
图6是新干扰模式下的自适应指标示意图,用于介绍本发明自适应新干扰模式的关键指标。从图中可以看出自适应指标主要包含3个部分:初始性能增益、收敛速度增益、渐进性能增益。图中自适应技术曲线是离线预训练结束后,用户d重新接入频谱环境对应的动态频谱接入指标变化曲线无自适应技术曲线则是用户d不采用离线预训练过程,直接接入频谱环境对应的动态频谱接入指标变化曲线。当初始性能增益、收敛速度性能增益、渐进性能增益越高,则说明本发明在干扰模式动态切换的场景下具有更优异的自适应性能表现。
[0106]
图7是该实施例的频谱利用率结果展示图,展示的是用户d重新接入新干扰环境后,频谱利用率的变化情况。频谱利用率指频谱的使用比例,是动态频谱接入技术的关键指标,可有效反映用户d对空闲信道的利用能力。该图的对比方法是非自适应方法,即未采用该发明技术,而是在感知到干扰模式切换后直接接入新干扰环境进行在线策略学习的方法。图中可见,基于本发明的技术相比直接接入新干扰环境进行在线策略学习的技术,在频谱利用率上取得了2.9%的初始性能增益、335000个训练补偿的收敛速度增益、0.8%的渐进性能增益。
[0107]
图8是该实施例的频谱接入冲突率的结果展示图,展示的是用户d重新接入新干扰环境后,频谱接入冲突率的变化情况。频谱接入冲突率,指的是用户接入信道进行数据传输时,被干扰信号成功干扰的比例。频谱接入成功率与频谱接入冲突率之和即为100%,因此仅由频谱接入冲突率即可获知用户d抗干扰通信的能力。该图对比方法依旧是非自适应方法,即未采用本发明的直接接入新干扰环境进行在线策略学习的方法。图中可见,基于本发明的技术相比未采用直接接入新干扰环境进行在线策略学习的技术,降低了16.8%的初始接入冲突率,提升了335000训练步长的收敛速度,而渐进接入冲突率均为0%。可见本发明可有效提升用户d在新干扰模式下的自适应性能表现。
[0108]
结合上述图7和图8的结果可知,本发明d可在感知到干扰模式切换后,显著提升新干扰模式的自适应速度以及动态频谱接入性能,且提升在干扰模式切换场景中的稳定性。
[0109]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1