本发明属于雷达,具体涉及一种基于知识与有模型强化学习的雷达抗干扰策略学习方法。
背景技术:
1、近年来,随着干扰机的软硬件与智能化水平不断提高,雷达面临的电磁环境愈发复杂。因此,如果雷达只采用固定的抗干扰策略,只能应对某些特定类型的干扰,将会严重降低雷达的抗干扰性能。
2、为了提高雷达在复杂干扰环境下的适应能力与学习能力,强化学习(rl)引起了很多研究者的关注。对于给定的任务,强化学习旨在通过与环境交互,使智能体学习一个最优(或接近最优)的解决方案。与监督学习不同,智能体不会被告知完成任务的“正确”行动,它只能通过与环境交互获得一个评估当前行动好坏的标量奖励。因此,强化学习可以使智能体自己通过交互信息学习完成给定任务的最优策略。
3、目前基于强化学习的雷达抗干扰策略设计方法主要集中在频率捷变(fa)雷达载频选择策略的设计上。已有工作存在的一个关键问题为采样效率低,即需要大量的样本才能使智能雷达达到可接受的性能。更具体地说,目前的工作主要基于深度无模型强化学习,因此,学习一种有效的抗干扰策略需要大量的训练样本,这使得雷达在线对抗中难以适应复杂环境中的未知干扰。
技术实现思路
1、为了解决现有技术中存在的上述问题,本发明提供了一种基于知识与有模型强化学习的雷达抗干扰策略学习方法。本发明要解决的技术问题通过以下技术方案实现:
2、本发明实施例提供了一种基于知识与有模型强化学习的雷达抗干扰策略学习方法,包括步骤:
3、s1、使雷达与已知多种干扰策略的第一干扰机对抗以进行抗干扰策略学习,并利用第一交互信息和学习到的抗干扰策略构建先验信息库;
4、s2、使所述雷达依据当前策略选择动作与未知干扰策略的第二干扰机进行交互以收集真实经验,得到雷达与所述第二干扰机的第二交互信息;
5、s3、利用所述第一交互信息、所述第二交互信息更新学习模型的参数;
6、s4、利用权系数将未知干扰策略分解为所述先验信息库中已知干扰策略的加权求和,构建得到雷达决策的目标函数;
7、s5、利用更新后的学习模型测量未知干扰策略与所述先验信息库中已知干扰策略引起的转移概率之间的kl距离以评估模型近似损失;
8、s6、利用所述模型近似损失评估未知干扰策略与已知干扰策略之间的相似程度,计算得到所述权系数;
9、s7、利用所述权系数和所述目标函数计算雷达抗干扰策略并进行更新;
10、s8、循环步骤s2-s7直至雷达性能收敛或者满足预设要求,获得最优雷达抗干扰策略。
11、在本发明的一个实施例中,步骤s2包括:
12、使所述雷达依据当前策略选择动作与未知干扰策略的第二干扰机进行交互以收集真实经验,得到雷达与所述第二干扰机的第二交互信息;
13、将所述第二交互信息存入记忆池:
14、
15、其中,表示存储第二交互信息的记忆池,表示样本的状态信息,表示智能雷达在当前状态下采取的行动,表示智能雷达在当前状态采取行动后收到的回报,表示智能雷达在当前状态采取行动后到达的下一状态,ninter表示收集样本的个数,m表示一个cpi内的脉冲数。
16、在本发明的一个实施例中,步骤s3包括:
17、利用所述第一交互信息、所述第二交互信息,通过随机梯度下降的方式最小化学习模型的目标函数,以更新学习模型的参数,其中,所述学习模型的目标函数为:
18、
19、其中,φd表示学习模型的网络参数,表示每个已知先验信息生成的训练样本,表达学习模型。
20、在本发明的一个实施例中,步骤s4包括:
21、利用权系数将未知干扰策略分解为所述先验信息库中已知干扰策略的加权求和:
22、
23、其中,表示未知干扰策略,表示第d个已知干扰策略,d=1,2,...,d,λd≥0,d=1,2,...,d且λd表示每个已知干扰策略的权重;
24、基于雷达的所述先验信息库,结合所述未知干扰策略的分解公式构建雷达决策的目标函数:
25、
26、其中,π*表示最优雷达抗干扰策略,π表示雷达的抗干扰策略,表示智能雷达在第d个已知干扰下的状态值函数,s表示状态信息。
27、在本发明的一个实施例中,步骤s5包括:
28、利用所述更新后的学习模型计算所述未知干扰策略引起的转移概率和所述已知干扰策略引起的转移概率;
29、利用所述未知干扰策略引起的转移概率与所述已知干扰策略引起的转移概率之间的kl距离计算模型近似损失。
30、在本发明的一个实施例中,所述模型近似损失为:
31、
32、其中,表示模型近似损失,表示第d个已知干扰策略,d=1,2,...,d,表示未知干扰策略的转移概率和雷达采用的策略所决定的样本分布,dkl表示未知干扰策略引起的转移概率与已知干扰策略引起的转移概率之间的kl距离,p(·|s,a)表示知干扰策略引起的转移概率,pd(δ|s,a)表示已知干扰策略引起的转移概率。
33、在本发明的一个实施例中,步骤s6包括:
34、利用所述模型近似损失评估未知干扰策略与已知干扰策略之间的相似程度,通过解决目标优化问题计算所述权系数,其中,所述目标优化问题为:
35、
36、其中,λ*表示最优权重,λ表示权系数,λd表示每个已知干扰策略的权重,表示模型近似损失。
37、与现有技术相比,本发明的有益效果:
38、1、本发明通过使雷达与已知多种干扰策略的第一干扰机进行对抗,从而构建先验信息库,建立雷达可用的先验信息,不同的干扰策略会形成不同的环境动态机制,常用的干扰策略可以作为fa雷达的先验信息加速雷达抗干扰策略的学习,因此,本发明将有关干扰策略的专家知识应用于雷达,以避免雷达从零学习,提高了雷达学习抗干扰策略的效率。
39、2、本发明将未知干扰策略分解为所述先验信息库中已知干扰策略的加权求和,对未知干扰策略最大化的抗干扰性能等同于对已知干扰策略加权组合最大化的抗干扰性能,将其作为雷达决策的目标函数,当权系数和学习模型均为最优时,才能获得目标函数的最优解;进一步,将雷达决策的目标函数与权系数、相结合,提出双层优化代价函数,即同时优化权系数和雷达决策的目标函数,通过求解该双层优化代价函数可以得到具有理论边界保证的抗干扰策略,从而使得雷达可以学习得到有效的抗干扰策略。
40、3、本发明利用有模型的强化学习方法,通过雷达与已知多种干扰策略的第一干扰机对抗得到第一交互信息,与未知干扰策略的第二干扰机进行交互得到第二交互信息,并利用第一交互信息、第二交互信息更新学习模型的参数,从而利用更新后的学习模型进行雷达策略计算,该方法具有更高的样本效率,可以基于一些交互样本构建一个模拟环境,然后在不与真实环境交互的情况下廉价地生成大量样本,可以利用更少的交互样本学习到有效的抗干扰策略,提高了雷达学习抗干扰策略的效率。